Maksimum olasılık

Doğa	Yöntem ( d ) , tahminci , M-tahmincisi

Gelen istatistik , maksimum olabilirlik tahmincisi bir olan istatistiki tahmincisi için kullanılan sonucuna parametrelerini olasılığı hukuk maksimize parametrelerin değerlerini bularak belirli bir numunede olabilirlik fonksiyonunu .

Bu yöntem, istatistikçi Ronald Aylmer Fisher tarafından 1922'de geliştirilmiştir.

Misal

Izin vermek aynı yasaya göre dokuz rastgele çekiliş x 1 ,…, x 9 ; çizilen değerler dikey noktalı çizgilerle karşılıklı diyagramlarda gösterilir. Bu değerleri normal bir dağılımla modellemek istiyoruz. Pratik nedenlerden dolayı, x i için indirgenmiş merkezli normal dağılımın (μ = 0, σ = 1) ondalık dilimlerini aldık , bu nedenle yöntem bu dağılımı ortaya çıkarmalıdır.

Aynı dağılımlı σ (standart sapma) ancak farklı bir μ (ortalama, beklenti ) pozisyonuna sahip iki model kanunu alalım . Her durum için, x i'deki yoğunluk fonksiyonunun değerine karşılık gelen h i yüksekliklerini belirleriz . Olasılığı L olarak tanımlıyoruz

{\ displaystyle L = h_ {1} \ times h_ {2} \ times \ ldots \ times h_ {9}}

Sağdaki mavi eğri durumunda, en fazla değerin olduğu yerde yoğunluk fonksiyonu maksimumdur - alan bir küme ayracı ile gösterilir. Bu nedenle, mantıksal olarak, olasılık mavi eğri için siyah eğriden daha önemlidir. Genel olarak, değerlerin yüksek yoğunluklu olmalıdır x i yoğunluk fonksiyonu önemli olduğu; bu nedenle maksimum olasılık, model yasanın bir anlamı olduğunda pozisyon parametresinin seçilmesi ile ilgilidir.

Şimdi, üçü de "doğru" konumda olan, ancak farklı standart sapmalara sahip olan üç model yasayı ele alalım. Soldaki yeşil eğri durumunda, dağılım çok önemlidir, eğri çok geniştir ve bu nedenle “çok yükseğe çıkmaz” (eğri ne olursa olsun, eğrinin altındaki alan 1 olmalıdır); bu nedenle h i düşük ve L düşüktür.

Sağdaki siyah eğri durumunda dağılım düşüktür; eğrinin tepesi yüksektir, ancak uçların h i değeri çok düşüktür, bu nedenle L ürünü çok yüksek değildir.

Merkezdeki mavi eğri, hem merkezdeki h i için nispeten yüksek yüksekliğe hem de uçlarda h i için önemsiz olmayan yüksekliğe sahiptir , bu da yüksek L ile sonuçlanır; bu nedenle maksimum olasılık, model kanunun bir anlamı olduğunda dağılım parametresinin seçilmesi ile ilgilidir.

Örneğimiz için, L olasılığının değerini μ ve σ parametrelerinin bir fonksiyonu olarak çizersek, maksimum değeri (μ = 0, σ = 1) olan bir yüzey elde ederiz. Bu maksimumu bulmak klasik bir optimizasyon problemidir .

Tarih

1912'de Ronald Aylmer Fisher , maksimum olasılık üzerine ilk makalesini yazdığında, en yaygın kullanılan iki istatistiksel yöntem, en küçük kareler yöntemi ve momentler yöntemiydi . 1912 tarihli makalesinde, o sırada mutlak kriter olarak adlandırdığı maksimum olasılık tahmin edicisini önerdi . Normal bir yasa örneğini alıyor.

1921'de aynı yöntemi bir korelasyon katsayısının tahminine uyguladı .

1912'de bir yanlış anlama, mutlak kriterin tek tip bir ön dağılımla Bayesci bir tahminci olarak yorumlanabileceğini öne sürdü . Fisher bu yorumu 1921'de reddetti. 1922'de kriterini açıklamak için iki terimli yasayı kullandı ve Bayesci bir tahminciden ne kadar farklı olduğunu gösterdi. Ayrıca 1922'de yöntemine maksimum olasılık adını verdi.

Prensip

Elemanları bilinen bir olasılık yoğunluğu (sürekli dağılım) veya f (x | θ) ile gösterilen bilinen bir kütle fonksiyonu (ayrık dağılım) ile ilişkili olan olasılık dağılımlarının D θ parametrik bir ailesi olsun . Bir çizim basit n -Örnek (bağımsız örnek) x 1 , x 2 , ..., x , n , gözlenen verilerle ilişkili bir olası yoğunluk dağılımı tekrar tekrar ve hesaplamak

{\ displaystyle f (x_ {1}, \ noktalar, x_ {n}; \ theta) = \ prod _ {i = 1} ^ {n} f (x_ {i} \ orta \ teta) \,}

Bu, x 1 ,…, x n sabit ile θ'nin bir fonksiyonudur , n bağımsız örnek için bir olasılıktır .

{\ displaystyle L (\ theta) = f (x_ {1}, \ noktalar, x_ {n}; \ theta) \,}

Θ gözlemlenebilir olmadığında, maksimum olasılık yöntemi, values'nin L (θ) tahmin edicisini maksimize eden θ değerlerini kullanır : bu, θ'nın maksimum olasılık tahmin edicisidir . Örneğin, ayrık ürün durumunda, n değerli bir çizim gerçekleştirilir , bu nedenle, bu çizimi çizme olasılığını en üst düzeye çıkaran parametrenin bulunması gerekir. $\ widehat {\ theta}$

Bu yöntem, için en olası değeri vermesi gerekmeyen tarafsız bir θ tahmin edicisini bulmaktan farklıdır.

Maksimum olasılık tahmincisi, eğer varsa, benzersizdir.

Tanımlar

Izin bir gerçek rasgele değişken bir parametre tahmin etmek isteyen çok sayıda ayrı veya sürekli hukuk, . Biz ifade parametrik yasaların bu aileye. Bu nedenle aşağıdaki gibi bir işlev tanımlarız : $X$ $\ theta$ ${\ mathcal {D}} _ {\ theta}$ $f$

f (x; \ theta) = {\ begin {case} f _ {\ theta} (x) & {\ text {si}} X {\ text {sürekli bir aralıktır}} \\ P _ {\ theta} (X = x) & {\ text {si}} X {\ text {ayrı bir aralıktır}} \ end {case}}

f _ {\ theta} (x)

X'in yoğunluğunu ( göründüğü yerde ) ve ayrı bir olasılığı ( göründüğü yerde ) temsil eder .

\ theta

P _ {\ theta} (X = x)

\ theta

Bir n- örnekleminin bağımsız ve aile hukukuna göre aynı şekilde dağıtılmış gözlemleri göz önüne alındığında olasılığını $\ theta$ şu sayı olarak adlandırıyoruz: $(x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n})$ ${\ displaystyle f (\ cdot; \ theta)}$ ${\ mathcal {D}} _ {\ theta}$

{\ displaystyle L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta) = f (x_ {1}; \ theta) \ times f (x_ {2}; \ theta) \ times \ ldots \ times f (x_ {n}; \ theta) = \ prod _ {i = 1} ^ {n} f (x_ {i}; \ theta)}

Bu olasılığın maksimumunu bulmaya çalışıyoruz, böylece gözlemlenen gerçekleşmelerin olasılıkları da maksimumdur. Bu bir optimizasyon problemidir . Genel olarak, eğer L türevlenebilirse (ki bu her zaman geçerli değildir) ve eğer L bir değerde bir global maksimum kabul ederse , o zaman ilk türev kaybolur ve ikinci türev negatiftir. İlk türev yok olur Tersine, eğer ikinci türevi de kesinlikle negatif , o zaman a, lokal maksimum arasında . Daha sonra bunun gerçekten küresel bir maksimum olduğunu doğrulamak gerekir. Olasılık pozitif olduğundan ve doğal logaritma artan bir fonksiyon olduğundan, olasılığın doğal logaritmasını maksimize etmek eşdeğerdir ve genellikle daha basittir (ürün, türetilmesi daha kolay olan bir toplama dönüşür). İstenilen tahminci olan istatistik kolaylıkla oluşturulabilir . $\ theta = {\ hat \ theta}$ $\ theta = {\ hat \ theta}$ $\ theta = {\ hat \ theta}$ $\ theta = {\ hat \ theta}$ $\ theta = {\ hat \ theta}$ $L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta)$ $Y_ {n} = \ Theta$

Yani pratikte:

Gerekli koşul veya değeri bulmaya izin verir .
${\ frac {\ parsiyel L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta)} {\ kısmi \ theta}} = 0$

${\ frac {\ partial \ ln L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta)} {\ kısmi \ theta}} = 0$
$\ theta = {\ hat \ theta}$
$\ theta = {\ hat \ theta}$ kritik noktada yeterli koşul karşılanırsa yerel maksimumdur : veya $\ theta = {\ hat \ theta}$
${\ frac {\ kısmi ^ {2} L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta)} {\ bölümlü \ theta ^ {2}}} <0$

${\ frac {\ kısmi ^ {2} \ ln L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta)} {\ kısmi \ theta ^ {2}}} <0$

Basitleştirmek için, bazen olasılık yoğunluğunun belirli bir aralıkta sıfır olduğu sürekli dağılımlar durumunda, yalnızca bu aralığın olasılığını yazmayı ihmal edebiliriz.

Genelleme

Bu bölüm, yayınlanmamış çalışmalar veya denetlenmemiş beyanlar içerebilir (Mart 2012) . Referans ekleyerek veya yayınlanmamış içeriği kaldırarak yardımcı olabilirsiniz.

Gerçek rasgele değişken için , X , bir ile tanımlanan herhangi bir yasa dağılım fonksiyonu F (x) , düşünülebilecek yakın çevre V bölgesinin (x 1 , ..., x, n ) olarak , örneğin, yarıçap s bir top. Böylece maksimum aradığımız bir olasılık işlevi elde ederiz . Daha sonra maksimum olasılık tahmin edicisini elde etmek için V'nin boyutunu 0 inç'e doğru eğiyoruz . $\ mathbb {R} ^ {n}$ $L (\ theta; V) = P [(X _ {{1, \ theta}}, \ ldots, X _ {{n, \ theta}}) \ V]$ $\ theta = {\ hat \ theta} (V)$ ${\ hat \ theta} (V)$ $\ hat \ theta$

X'in kesikli veya sürekli bir yasası olduğunda önceki olasılık fonksiyonlarına geri dönüyoruz .

X yasası keyfi ise, yoğunluğu baskın bir ölçüye göre değerlendirmek yeterlidir . $\ mu$

Yasanın bir aile ölçüsü hakimdir eğer . $(P _ {\ theta}) _ {\ theta \ in \ Theta}$ $\ mu$ $\ Forall A \ in \ Omega, \ forall \ theta \ in \ Theta, \ quad \ mu (A) = 0 \ Rightarrow P _ {\ theta} (A) = 0$

Eğer X, boyut 1 sürekli bir değişkendir, o zaman ilgili Lebesgue ölçümünü kullanarak bir (ya da bir aralık üzerinde baskın ölçüsü olarak. Eğer x boyut 1 ayrı bir değişken olduğu için, ilgili sayma ölçüsünü kullanabilir (veya a altkümesi ) Daha sonra kesikli ve sürekli durumlar için verilen olasılığın tanımlarını buluruz. $\ mathbb {R}$ $\ mathbb {R}$ $\ mathbb {N}$ $\ mathbb {N}$

Özellikleri

Maksimum olabilirlik yöntemiyle elde edilen tahminci:

yakınsamak .
asimptotik olarak verimli , Cramér-Rao sınırına ulaşır .
normal bir dağılıma göre asimptotik olarak dağıtılır .

Öte yandan, sonlu örneklemde önyargılı olabilir .

Güvenilirlik aralığı

Maksimum olasılık tahmincisi asimptotik olarak normal olduğundan, gerçek parametreyi bir olasılıkla içerecek şekilde bir güven aralığı oluşturabiliriz : $C_ {n}$ $1- \ alpha$

C_ {n} = \ left ({\ hat {\ theta _ {n}}} - \ Phi ^ {{- 1}} (1- \ alpha / 2) \ widehat {\ sigma _ {{{\ hat { \ theta _ {n}}}}}, {\ hat {\ theta _ {n}}} + \ Phi ^ {{- 1}} (1- \ alpha / 2) \ widehat {\ sigma _ {{ {\ hat {\ theta _ {n}}}}}} \ sağ)

ile sipariş bir dağılım düşük merkezli normal dağılımın ve tahmini standart sapma . O zaman bizde $\ Phi ^ {{- 1}} (1- \ alpha / 2)$ $1- \ alpha / 2$ $\ widehat {\ sigma _ {{{\ hat {\ theta _ {n}}}}}}$ ${\ hat {\ theta _ {n}}}$

{\ mathbb P} (\ theta \ in C_ {n}) {\ underet {n \ rightarrow + \ infty} {\ longrightarrow}} 1- \ alpha

Testler

Wald testi

Maksimum olasılık tahmincisi asimptotik olarak normal olduğundan, Wald testini uygulayabiliriz.

Boş hipotezi düşünüyoruz:

H_ {0}: \ theta = \ theta _ {0}

alternatif hipoteze karşı

H_ {a}: \ theta \ neq \ theta _ {0}

Tahmincisi asimptotik olarak normaldir: ${\ hat {\ theta}}$

{\ frac {{\ hat {\ theta}} - \ theta _ {0}} {\ widehat {\ sigma _ {{{\ hat {\ theta}}}}}} \ sim {\ mathcal N} ( 0.1)

ile tahmin edicinin tahmini standart sapma $\ widehat {\ sigma _ {{{\ hat {\ theta}}}}}$ ${\ hat {\ theta}}$

Test istatistiğini tanımlıyoruz:

W = {\ frac {{\ hat {\ theta}} - \ theta _ {0}} {\ widehat {\ sigma _ {{{\ hat {\ theta}}}}}}

Daha sonra , test istatistiğinin mutlak değeri , indirgenmiş merkezli normal yasanın mertebesinden büyük olduğunda , sıfır hipotezini birinci tür riskle reddederiz : $\alfa$ $1- \ alpha / 2$

| W |> \ Phi ^ {{- 1}} (1- \ alpha / 2)

ile düşük merkezli normal dağılım miktarsal fonksiyonu. $\ Phi ^ {{- 1}} (.)$

Daha sonra p değeri yazılır:

{\ text {p-değeri}} = 2 \ Phi (- | w |)

Verilerdeki test istatistiğinin değeri w ile.

Olabilirlik oranı testi

Tahmini parametrelerin vektörünü çağırırsak , şu türden bir test düşünürüz: $\ theta$

H_ {0}: \ theta \ in \ Theta _ {0}

karşısında

H_ {a}: \ theta \ notin \ Theta _ {0}

Daha sonra maksimum olasılık tahmin edicisini ve maksimum olasılık tahmin edicisini altında tanımlarız . Son olarak, test istatistiğini tanımlıyoruz: ${\ hat {\ theta}}$ $\ widehat {\ theta _ {0}}$ $H_0$

{\ displaystyle \ lambda = -2 \ log \ sol ({\ frac {{\ mathcal {L}} ({\ hat {\ theta _ {0}}})} {{\ mathcal {L}} ({\ widehat {\ theta}})}} \ sağ)}

Boş hipotez altında, olasılık oranı testinin istatistiğinin , sıfır hipotezi (p) tarafından empoze edilen kısıtların sayısına eşit sayıda serbestlik derecesine sahip bir yasayı izlediğini biliyoruz : $\ chi ^ 2$

\ lambda (x_ {1}, \ ldots, x_ {n}) \ sim \ chi ^ {2} (p)

Bu nedenle, test istatistiği p serbestlik derecesi yasasının nicelik derecesinden daha büyük olduğunda seviye testi reddedilir . $\alfa$ $1- \ alpha$ $\ chi ^ 2$

Bu nedenle , bu testin sınır değerini ( p-değeri ) tanımlayabiliriz :

{\ text {p-değeri}} = 1-F _ {{\ chi _ {{p}} ^ {2}}} (\ lambda)

Örnekler

Poisson Yasası

Bir n- örneğinden bir Poisson dağılımının parametresini tahmin etmek istiyoruz : $\ lambda$

f (x, \ lambda) = P _ {\ lambda} (X = x) = e ^ {{- \ lambda}} {\ frac {\ lambda ^ {x}} {x!}}

Maksimum olasılık tahmin aracı: ${\ hat {\ lambda}} _ {{ML}} = {\ bar x}$

Gösteri

Olasılık şöyle yazılır:

L (x_1, ..., x_i, ..., x_n; \ lambda) = \ prod_ {i = 1} ^ ne ^ {- \ lambda} \ frac {\ lambda ^ {x_i}} {x_i!} = e ^ {- n \ lambda} \ prod_ {i = 1} ^ n \ frac {\ lambda ^ {x_i}} {x_i!}

Pozitif olma olasılığı, doğal logaritmasını göz önünde bulundururuz :

\ ln L (x_1, ..., x_i, ..., x_n; \ lambda) = \ ln e ^ {- \ lambda n} + \ ln \ prod_ {i = 1} ^ n \ frac {\ lambda ^ {x_i}} {x_i!} = - \ lambda n + \ sum_ {i = 1} ^ n \ ln \ frac {\ lambda ^ {x_i}} {x_i!} = - \ lambda n + \ ln \ lambda \ toplam_ {i = 1} ^ n x_i - \ sum_ {i = 1} ^ n \ ln (x_i!)

İlk türev şu durumlarda kaybolur:

{\ frac {\ kısmi \ ln L (x_ {1}, ..., x_ {i}, ..., x_ {n}; \ lambda)} {\ kısmi \ lambda}} = 0

dır-dir

{\ hat \ lambda} = {\ frac {\ toplam _ {{i = 1}} ^ {n} x_ {i}} {n}}

İkinci türev yazılır:

{\ frac {\ kısmi ^ {2} \ ln L (x_ {1}, ..., x_ {i}, ..., x_ {n}; \ lambda)} {\ kısmi \ lambda ^ {2} }} = - {\ frac {\ toplam _ {{i = 1}} ^ {n} x_ {i}} {\ lambda ^ {2}}} \ leq 0

Bu oran her zaman negatiftir, tahmin şu şekilde verilir:

Y_ {n} = \ Lambda = {\ frac {\ sum _ {{i = 1}} ^ {n} X_ {i}} {n}} = {\ bar X}

Bu didaktik örnekte ampirik ortalamayı bulmak oldukça normaldir, çünkü parametre için olası en iyi tahmin edicidir (aynı zamanda bir Poisson dağılımının beklentisini de temsil eder). $\ lambda$

Üstel hukuk

Biz parametreyi tahmin etmek istiyorum bir bir üstel yasanın bir den n numunede. $\alfa$

$f (x, \ alpha) = f _ {\ alpha} (x) = {\ başla {vakalar} \ alpha e ^ {{- \ alpha x}} & {\ text {si}} \ quad x \ geq 0 \ \ 0 & {\ text {aksi halde}} \ end {vakalar}}$

Maksimum olasılık tahmin aracı: ${\ hat {\ alpha}} _ {{ML}} = {\ frac {1} {{\ bar x}}}$

Gösteri

Olasılık şöyle yazılır:

L (x_1, ..., x_i, ..., x_n; \ alpha) = \ prod_ {i = 1} ^ n \ alpha e ^ {- \ alpha x_i} = \ alpha ^ n \ prod_ {i = 1 } ^ ne ^ {- \ alpha x_i} = \ alpha ^ n \ exp \ left (\ sum_ {i = 1} ^ n - \ alpha x_i \ right) = \ alpha ^ n \ exp \ left (- \ alpha \ toplam_ {i = 1} ^ n x_i \ sağ)

Olumlu olma olasılığı, doğal logaritmasını dikkate alıyoruz:

\ ln L (x_1, ..., x_i, ..., x_n; \ alpha) = \ ln \ left [\ alpha ^ n \ exp \ left (- \ alpha \ sum_ {i = 1} ^ n x_i \ right) \ right] = n \ ln \ alpha - \ alpha \ sum_ {i = 1} ^ n x_i

İlk türev şu durumlarda kaybolur:

\ frac {\ partial \ ln L (x_1, ..., x_i, ..., x_n; \ alpha)} {\ partial \ alpha} = \ frac {n} {\ alpha} - \ sum_ {i = 1 } ^ n x_i = 0

dır-dir

{\ hat \ alpha} = {\ frac {n} {\ sum _ {{i = 1}} ^ {n} x_ {i}}} = {\ frac {1} {{\ frac {1} {n }} \ toplamı _ {{i = 1}} ^ {n} x_ {i}}}

İkinci türev yazılır:

{\ frac {\ kısmi ^ {2} \ ln L (x_ {1}, ..., x_ {i}, ..., x_ {n}; \ alpha)} {\ kısmi \ alfa ^ {2} }} = - {\ frac {n} {\ alpha ^ {2}}} \ leq 0

Bu oran her zaman negatiftir, bu nedenle tahmin şu şekilde verilir:

Z_ {n} = \ mathrm {A} = {\ frac {1} {{\ frac {1} {n}} \ sum _ {{i = 1}} ^ {n} X_ {i}}} = { \ frac {1} {{\ bar X}}}

Yine, ampirik ortalamanın tersini bulmak oldukça normaldir, çünkü üstel bir yasanın beklentisinin parametrenin tersine karşılık geldiğini biliyoruz . $\alfa$

Normal hukuk

Beklenti maksimum olabilirlik tahmin edicisi ve varyans a normal dağılımın geçerli: $\ mu$ $\ sigma ^ {2}$

\ hat {\ mu} _ {ML} = \ bar {x} = \ frac {1} {n} \ toplamı ^ {n} _ {i = 1} x_i

\ widehat {\ sigma} _ {{ML}} ^ {2} = {\ frac {1} {n}} \ sum _ {{i = 1}} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}

Gösteri

Normal bir yasanın yoğunluk işlevi vardır: ${\ mathcal {N}} (\ mu, \ sigma ^ {2})$

f (x \ mid \ mu, \ sigma ^ 2) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp {\ left (- \ frac {(x- \ mu) ^ 2} { 2 \ sigma ^ 2} \ sağ)}.

Bu durumda, n bağımsız değerden oluşan bir örnek için olabilirlik işlevi:

f (x_ {1}, \ ldots, x_ {n} \ mid \ mu, \ sigma ^ {2}) = \ prod _ {{i = 1}} ^ {{n}} f (x _ {{i }} \ mid \ mu, \ sigma ^ {2}) = \ left ({\ frac {1} {2 \ pi \ sigma ^ {2}}} \ sağ) ^ {{n / 2}} \ exp \ sol (- {\ frac {\ sum _ {{i = 1}} ^ {{n}} (x_ {i} - \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ sağ) ,

König-Huyghens teoremi ile daha basit bir şekilde yazılabilir :

f (x_ {1}, \ ldots, x_ {n} \ mid \ mu, \ sigma ^ {2}) = \ left ({\ frac {1} {2 \ pi \ sigma ^ {2}}} \ right ) ^ {{n / 2}} \ exp \ left (- {\ frac {\ sum _ {{i = 1}} ^ {{n}} (x_ {i} - {\ bar {x}}) ^ {2} + n ({\ bar {x}} - \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ sağ),

örnek ortalama nerede . ${\ bar {x}}$

Burada iki parametremiz var: bu nedenle işlevi iki parametreye göre maksimize etmeliyiz . $\ theta = \ mu, \ sigma ^ {2}$ ${\ mathcal {L}} (\ mu, \ sigma) = f (x_ {1}, \ ldots, x_ {n} \ mid \ mu, \ sigma)$

Bu nedenle ilk türevi arayacağız ve onu sıfıra eşitleyeceğiz.

Bu durumda, burada maksimize edilen log-olabilirlik fonksiyonudur.

\ başlangıç ​​{hizala} 0 & = \ frac {\ kısmi} {\ kısmi \ mu} \ ln \ left (\ left (\ frac {1} {2 \ pi \ sigma ^ 2} \ right) ^ {n / 2 } \ exp \ left (- \ frac {\ sum_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2 + n (\ bar {x} - \ mu) ^ 2} {2 \ sigma ^ 2} \ sağ) \ sağ) \\ & = \ frac {\ kısmi} {\ kısmi \ mu} \ left (\ ln \ left (\ frac {1} {2 \ pi \ sigma ^ 2} \ sağ ) ^ {n / 2} - \ frac {\ sum_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2 + n (\ bar {x} - \ mu) ^ 2} {2 \ sigma ^ 2} \ right) \\ & = 0 - \ frac {-2n (\ bar {x} - \ mu)} {2 \ sigma ^ 2} \ end {hizala}

ve böylece tahmin ediciyi beklentinin maksimum olasılığına göre elde ederiz:

{\ hat \ mu} = {\ bar {x}} = \ toplam _ {{i = 1}} ^ {{n}} x_ {i} / n

Bu tahmincinin tarafsız olduğunu da gösterebiliriz:

{\ mathbb {E}} \ left [\ widehat \ mu \ right] = \ mu

İkinci parametre için, σ, analoji yoluyla maksimumu σ'nun bir fonksiyonu olarak ararız.

\ başlangıç ​​{hizala} 0 & = \ frac {\ kısmi} {\ kısmi \ sigma} \ ln \ left (\ left (\ frac {1} {2 \ pi \ sigma ^ 2} \ right) ^ {n / 2 } \ exp \ left (- \ frac {\ sum_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2 + n (\ bar {x} - \ mu) ^ 2} {2 \ sigma ^ 2} \ sağ) \ sağ) \\ & = \ frac {\ kısmi} {\ kısmi \ sigma} \ left (\ frac {n} {2} \ ln \ left (\ frac {1} {2 \ pi \ sigma ^ 2} \ sağ) - \ frac {\ sum_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2 + n (\ bar {x} - \ mu) ^ 2} {2 \ sigma ^ 2} \ right) \\ & = - \ frac {n} {\ sigma} + \ frac {\ sum_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2 + n (\ bar {x} - \ mu) ^ 2} {\ sigma ^ 3} \ end {hizala}

bu nedenle

\ widehat \ sigma ^ {2} = \ toplam _ {{i = 1}} ^ {n} (x_ {i} - \ widehat {\ mu}) ^ {2} / n

ve sonunda varyansın maksimum olasılık tahmin edicisini elde ederiz

\ widehat \ sigma ^ {2} = {\ frac {1} {n}} \ sum _ {{i = 1}} ^ {{n}} (x _ {{i}} - {\ bar {x} }) ^ {2}

Öte yandan varyans tahmincisi önyargılıdır:

{\ mathbb {E}} \ left [\ widehat {\ sigma ^ {2}} \ right] = {\ frac {n-1} {n}} \ sigma ^ {2}

Varyans tahmincisi, maksimum olasılığın yanlı tahmin ediciler sağlayabileceğini göstermek için iyi bir örnektir. Gerçekten de, tarafsız bir tahmincisi verilir: . Bununla birlikte, asimptotik olarak, n sonsuza eğilimli olduğunda, 0'a eğilimli olan bu önyargı, o zaman asimptotik olarak tarafsızdır. $\ widehat \ sigma ^ {2} = {\ frac {1} {n-1}} \ toplam _ {{i = 1}} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}$ ${\ displaystyle {\ frac {- \ sigma ^ {2}} {n}},}$

Üniforma Hukuku

Tek tip bir dağılımın üst sınırının tahmin edilmesi durumunda, olasılık türetilemez.

Biz parametre tahmin etmek istiyorum a a tekdüze hukuk bir den n numunede.

f (x, a) = f_ {a} (x) = {\ begin {case} {\ frac {1} {a}} & {\ text {si}} \ quad x \ in [0; a] \ \ 0 & {\ text {aksi}} \ end {vakalar}}

Olasılık şöyle yazılır:

L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; a) = \ prod _ {{i = 1}} ^ {n} f_ {a} (x_ {i}) = {\ {case} 0 ve {\ text {si}} \ quad a <\ max (x_ {1}, \ ldots, x_ {n}) \\ {\ frac {1} {a ^ {n} baş }} & {\ text {si}} \ quad a \ geq \ max (x_ {1}, \ ldots, x_ {n}) \ end {vakalar}}

Bu işlev, içinde türetilemez . Türevi tüm aralık boyunca kaybolur . Bu fonksiyonun maksimumunu bulmak için türevin nerede kaybolduğuna bakılmaması gerektiği açıktır. $\ max (x_ {1}, \ ldots, x_ {n})$ $[0, \ max (x_ {1}, \ ldots, x_ {n}) [$

L' nin değeri maksimum olacaktır çünkü azalıyor . ${\ hat a} = \ max (x_ {1}, \ ldots, x_ {n})$ ${\ tfrac {1} {a ^ {n}}}$ $a> 0$

Bu örnek aynı zamanda olasılığın logaritmasının her zaman iyi tanımlanmadığını gösterir (bunu kabul etmedikçe ). $\ ln (0) = - \ infty$

Başvurular

Maksimum olasılık yöntemi çok sık kullanılır. Özellikle lojistik regresyon modelini veya probit modelini tahmin etmek için kullanılır . Daha genel olarak, genelleştirilmiş doğrusal modeli , lojistik regresyon içeren model sınıflarını ve probit modelini tahmin etmek için yaygın olarak kullanılır .

Kaynakça

(tr) Larry Wasserman , All of Statistics: A Concise Course in Statistical Inference , New York, Springer-Verlag ,15 Eylül 2004, 461 s. ( ISBN 978-0-387-40272-7 , çevrimiçi okuyun )
(en) Colin Cameron ve Pravin Trivedi , Mikroekonometri: Yöntemler ve Uygulamalar , Cambridge University Press ,2005, 1056 s. ( ISBN 978-0-521-84805-3 , çevrimiçi okuyun )

Notlar ve referanslar

Notlar

p-değerinin, testi reddettiğimiz birinci türün ( ) riskinin en küçük değeri olarak tanımlandığını hatırlıyoruz ( Wasserman 2004 , s. 156) $\alfa$

Referanslar

(inç) John Aldrich , " RA Fisher ve 1912'den 1922'ye kadar maksimum olasılığın oluşturulması " , Statistical Science , Cilt. 12, n o 3,1997, s. 162-176 ( çevrimiçi okuyun , 19 Aralık 2011'de danışıldı )
(inç) Stephen Stigler , " Maksimum Olabilirliğin Destansı Hikayesi " , İstatistik Bilimi , Cilt. 22, n o 4,2007( çevrimiçi okuyun , 21 Aralık 2011'de danışıldı ).
(inç) Ronald Fisher , " Frekans eğrilerini uydurmak için mutlak bir kriter üzerine " , Messenger of Mathematics , n o 41,1912, s. 155-160
(in) Ronald Fisher , " " küçük bir örnekten çıkarılabilir korelasyon katsayısı muhtemel hata Üzerine " " , Metron , n o 1,1921
(in) Ronald Fisher , " Teorik istatistiğin matematiksel temelleri üzerine " , Philos. Trans. Roy. Soc. London Ser. A ,1922
Wasserman 2004 , s. 126
Cameron ve Trivedi 2005 , s. 119
Wasserman 2004 , s. 129, Teorem 9.18
Cameron ve Trivedi 2005 , s. 121
Wasserman 2004 , s. 129, Teorem 9.19
Wasserman 2004 , s. 153, tanım 10.3
Wasserman 2004 , s. 158, Teorem 10.13
Wasserman 2004 , s. 164
Wasserman 2004 , s. 123, örnek 9.11
Wasserman 2004 , s. 124, örnek 9.12

Ayrıca görün

Posterior maksimum zaman bir genellemedir önce dağıtım tekdüze değildir.
Ampirik olasılık (içinde)
Fisher Bilgileri
Olabilirlik işlevi
Delta yöntemi