Maximální pravděpodobnost

Příroda	Metoda ( d ) , odhad , M-odhad

V statistik je maximální pravděpodobnost odhadce je statistický odhad používá k odvodit parametry zákona pravděpodobnosti v daném vzorku tím, že najde hodnoty parametrů na maximalizaci funkce pravděpodobnosti .

Tuto metodu vyvinul statistik Ronald Aylmer Fisher v roce 1922.

Příklad

Dovolit být devět náhodných losování x 1 ,…, x 9 podle stejného zákona; nakreslené hodnoty jsou na diagramech zobrazeny svislými tečkovanými čarami. Chceme modelovat tyto hodnoty normálním rozdělením. Z praktických důvodů jsme přijata decily redukované středem normální distribuce (μ = 0, σ = 1) pro x i , přičemž tento způsob by proto přinést tuto distribuci.

Vezměme si dva modelové zákony se stejnou disperzí σ (směrodatná odchylka), ale s odlišnou polohou μ (průměr, očekávání ). Pro každý případ určíme výšky h i odpovídající hodnotě hustotní funkce v x i . Pravděpodobnost L definujeme jako

{\ displaystyle L = h_ {1} \ krát h_ {2} \ krát \ ldots \ krát h_ {9}}

V případě modré křivky vpravo je funkce hustoty maximální tam, kde je nejvíce hodnot - oblast je označena závorkou. Logicky je tedy pravděpodobnost důležitější pro modrou křivku než pro černou křivku. Obecně musí být vysoká hustota hodnot x i, kde je důležitá hustotní funkce; maximální pravděpodobnost je proto relevantní pro výběr parametru polohy, pokud má význam, modelového zákona.

Vezměme si nyní tři modelové zákony, všechny tři ve „správné“ poloze, ale s různými směrodatnými odchylkami. V případě zelené křivky vlevo je velmi důležitý rozptyl, křivka je velmi široká, a proto „nestoupá příliš vysoko“ (plocha pod křivkou musí být 1, bez ohledu na křivku); h i proto jsou nízké a L je nízká.

V případě černé křivky vpravo je disperze nízká; horní část křivky je vysoká, ale h i konců je velmi nízká, takže součin L není příliš vysoký.

Modrá křivka ve středu má jak relativně vysoké výšky pro h i ve středu, tak ne zanedbatelné výšky pro h i na koncích, což má za následek vysokou L; maximální pravděpodobnost je proto relevantní pro výběr parametru rozptylu, pokud má význam, modelového zákona.

V našem příkladu, pokud vyneseme hodnotu pravděpodobnosti L jako funkci parametrů μ a σ, získáme povrch, jehož maximum je v (μ = 0, σ = 1). Nalezení tohoto maxima je klasický problém s optimalizací .

Dějiny

V roce 1912, kdy Ronald Aylmer Fisher napsal svůj první článek o maximální pravděpodobnosti, byly dvě nejpoužívanější statistické metody metoda nejmenších čtverců a metoda momentů . Ve svém článku z roku 1912 navrhl odhad maximální pravděpodobnosti, který v té době nazval absolutním kritériem . Vezme si příklad normálního zákona.

V roce 1921 použil stejnou metodu k odhadu korelačního koeficientu .

V roce 1912 nedorozumění naznačilo, že absolutní kritérium lze interpretovat jako Bayesiánský odhadce s jednotným předchozím rozdělením. Fisher vyvrátil tuto interpretaci v roce 1921. V roce 1922 použil binomický zákon k ilustraci svého kritéria a ukázal, jak se liší od bayesovského odhadce. Bylo to také v roce 1922, kdy dal název maximální pravděpodobnosti své metodě.

Zásada

Dovolme být parametrickou rodinou rozdělení pravděpodobnosti D θ, jejíž prvky jsou spojeny buď se známou hustotou pravděpodobnosti (spojité rozdělení), nebo se známou hromadnou funkcí (diskrétní rozdělení), která je uvedena f (x | θ) . Z distribuce opakovaně nakreslíme jednoduchý n -vzorek (nezávislé vzorky) x 1 , x 2 , ..., x n a vypočítáme hustotu pravděpodobnosti spojenou s pozorovanými daty

{\ displaystyle f (x_ {1}, \ tečky, x_ {n}; \ theta) = \ prod _ {i = 1} ^ {n} f (x_ {i} \ mid \ theta) \,}

Jelikož je to funkce θ s pevnými x 1 , ..., x n , je to pravděpodobnost pro n nezávislých vzorků.

{\ displaystyle L (\ theta) = f (x_ {1}, \ tečky, x_ {n}; \ theta) \,}

Pokud θ není pozorovatelný, použije metoda maximální pravděpodobnosti hodnoty θ, které maximalizují odhad L (θ) θ: je to zaznamenaný odhad maximální pravděpodobnosti θ . Například v případě diskrétního součinu se provede nákres hodnot n , je proto nutné najít parametr, který maximalizuje pravděpodobnost, že bude tento nákres nakreslen. $\ widehat {\ theta}$

Tato metoda se liší od hledání nezaujatého odhadce θ, který nemusí nutně dávat nejpravděpodobnější hodnotu pro θ.

Odhad maximální pravděpodobnosti, pokud existuje, je jedinečný.

Definice

Dovolit být skutečný náhodná veličina , diskrétní nebo spojité práva, z nichž jeden chce odhadnout parametr . Označujeme tuto rodinu parametrických zákonů. Definujeme tedy funkci jako: $X$ $\ theta$ ${\ mathcal {D}} _ {\ theta}$ $F$

f (x; \ theta) = {\ begin {cases} f _ {\ theta} (x) & {\ text {si}} X {\ text {je spojitý rozsah}} \\ P _ {\ theta} (X = x) & {\ text {si}} X {\ text {je diskrétní rozsah}} \ end {případů}}

f _ {\ theta} (x)

představuje hustotu X (kde se objeví) a představuje diskrétní pravděpodobnost (kde se objeví).

\ theta

P _ {\ theta} (X = x)

\ theta

Nazýváme pravděpodobnost $\ theta$ s ohledem na pozorování po dosažení n vzorku nezávisle a stejně rozdělené podle rodinného práva , číslo: $(x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n})$ ${\ displaystyle f (\ cdot; \ theta)}$ ${\ mathcal {D}} _ {\ theta}$

{\ displaystyle L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta) = f (x_ {1}; \ theta) \ krát f (x_ {2}; \ theta) \ times \ ldots \ times f (x_ {n}; \ theta) = \ prod _ {i = 1} ^ {n} f (x_ {i}; \ theta)}

Snažíme se najít maximum této pravděpodobnosti tak, aby i pravděpodobnosti pozorovaných realizací byly maximální. Toto je optimalizační problém . Obecně používáme skutečnost, že pokud L je diferencovatelný (což není vždy případ) a pokud L připouští globální maximum v hodnotě , pak první derivace zmizí a druhá derivace je záporná. Naopak, v případě, že první derivace mizí v a druhá derivace je striktně záporný na , pak je lokální maximum z . Poté je nutné ověřit, zda se skutečně jedná o globální maximum. Jelikož je pravděpodobnost pozitivní a přirozený logaritmus rostoucí funkce, je ekvivalentní a často jednodušší maximalizovat přirozený logaritmus pravděpodobnosti (součin se změní na součet, který lze snáze odvodit). Lze snadno sestavit statistiku, která je požadovaným odhadcem. $\ theta = {\ hat \ theta}$ $\ theta = {\ hat \ theta}$ $\ theta = {\ hat \ theta}$ $\ theta = {\ hat \ theta}$ $\ theta = {\ hat \ theta}$ $L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta)$ $Y_ {n} = \ Theta$

Takže v praxi:

Nutná podmínka nebo umožňuje najít hodnotu .
${\ frac {\ částečné L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta)} {\ částečné \ theta}} = 0$

${\ frac {\ částečné \ ln L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta)} {\ částečné \ theta}} = 0$
$\ theta = {\ hat \ theta}$
$\ theta = {\ hat \ theta}$ je místní maximum, pokud je v kritickém bodě splněna dostatečná podmínka : nebo $\ theta = {\ hat \ theta}$
${\ frac {\ částečné ^ {2} L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta)} {\ částečné \ theta ^ {2}}} <0$

${\ frac {\ částečné ^ {2} \ ln L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta)} {{částečné \ theta ^ {2}}} <0$

Pro zjednodušení je možné v případě spojitého rozdělení, kde je hustota pravděpodobnosti v určitém intervalu nula, vynechat zápis pravděpodobnosti pouze pro tento interval.

Zobecnění

Tato část může obsahovat nepublikovanou práci nebo neauditovaná prohlášení (březen 2012) . Můžete pomoci přidáním odkazů nebo odebráním nepublikovaného obsahu.

Pro skutečné náhodné proměnné X. jakéhokoli zákona definované distribuční funkce f (x) , můžeme považovat sousedství V z (x 1 , ..., x n ) v , například koule o poloměru e. Získáváme tak funkci pravděpodobnosti, pro kterou hledáme maximum . Pak máme tendenci velikost V směrem k 0 v, abychom získali odhad maximální pravděpodobnosti. $\ mathbb {R} ^ {n}$ $L (\ theta; V) = P [(X _ {{1, \ theta}}, \ ldots, X _ {{n, \ theta}}) \ ve V]$ $\ theta = {\ hat \ theta} (V)$ ${\ hat \ theta} (V)$ $\ hat \ theta$

Když má X diskrétní nebo spojitý zákon, vrátíme se k předchozím funkcím pravděpodobnosti .

Pokud je zákon X libovolný, postačuje vzít v úvahu hustotu vzhledem k dominantní míře . $\ mu$

Právnické rodině dominuje opatření, pokud . $(P _ {\ theta}) _ {\ theta \ v \ Theta}$ $\ mu$ $\ forall A \ in \ Omega, \ forall \ theta \ in \ Theta, \ quad \ mu (A) = 0 \ Rightarrow P _ {\ theta} (A) = 0$

Pokud je X spojitá proměnná dimenze 1, můžeme použít Lebesgueovu míru na (nebo na intervalu jako dominantní míru). Pokud X je diskrétní proměnná dimenze 1, můžeme použít míru počítání na (nebo na podmnožina ) Poté najdeme definice pravděpodobnosti dané pro diskrétní a spojité případy. $\ mathbb {R}$ $\ mathbb {R}$ $\ mathbb {N}$ $\ mathbb {N}$

Vlastnosti

Odhad získaný metodou maximální pravděpodobnosti je:

konvergovat .
asymptoticky efektivní , dosahuje hranice Cramér-Rao .
asymptoticky distribuováno podle normálního rozdělení .

Na druhou stranu to může být předpjaté v konečném vzorku.

Intervaly spolehlivosti

Vzhledem k tomu, že odhad maximální pravděpodobnosti je asymptoticky normální, můžeme sestrojit interval spolehlivosti tak, aby obsahoval skutečný parametr s pravděpodobností : $C_ {n}$ $1- \ alfa$

C_ {n} = \ left ({\ hat {\ theta _ {n}}} - \ Phi ^ {{- 1}} (1- \ alpha / 2) \ widehat {\ sigma _ {{{\ hat { \ theta _ {n}}}}}}, {\ hat {\ theta _ {n}}} + \ Phi ^ {{- 1}} (1- \ alpha / 2) \ widehat {\ sigma _ {{ {\ hat {\ theta _ {n}}}}}} \ vpravo)

s řádovým kvantilem sníženého středního normálního rozdělení a odhadované standardní odchylky . Pak máme $\ Phi ^ {{- 1}} (1 \ alfa / 2)$ $1 \ alfa / 2$ $\ widehat {\ sigma _ {{{\ hat {\ theta _ {n}}}}}}$ ${\ hat {\ theta _ {n}}}$

{\ mathbb P} (\ theta \ v C_ {n}) {\ podmnožina {n \ rightarrow + \ infty} {\ longrightarrow}} 1- \ alfa

Testy

Waldův test

Protože je odhad maximální pravděpodobnosti asymptoticky normální, můžeme použít Waldův test.

Zvažujeme nulovou hypotézu:

H_ {0}: \ theta = \ theta _ {0}

proti alternativní hypotéze

H_ {a}: \ theta \ neq \ theta _ {0}

Odhad je asymptoticky normální: ${\ hat {\ theta}}$

{\ frac {{\ hat {\ theta}} - \ theta _ {0}} {\ widehat {\ sigma _ {{{\ hat {\ theta}}}}}}}} \ sim {\ mathcal N} (0,1)

s odhadovanou směrodatnou odchylkou odhadce $\ widehat {\ sigma _ {{{\ hat {\ theta}}}}}$ ${\ hat {\ theta}}$

Definujeme statistiku testu:

W = {\ frac {{\ hat {\ theta}} - \ theta _ {0}} {\ widehat {\ sigma _ {{{{\ hat {\ theta}}}}}}}

Poté odmítneme nulovou hypotézu s rizikem prvního druhu, když je absolutní hodnota statistiky testu větší než řádový kvantil redukovaného normálního zákona: $\ alfa$ $1 \ alfa / 2$

| W |> \ Phi ^ {{- 1}} (1 \ alpha / 2)

s kvantilovou funkcí redukovaného středového normálního rozdělení. $\ Phi ^ {{- 1}} (.)$

Hodnota p se poté zapíše:

{\ text {p-hodnota}} = 2 \ Phi (- | w |)

s w hodnota testovací statistiky v datech.

Test poměru pravděpodobnosti

Pokud zavoláme vektor odhadovaných parametrů, uvažujeme test typu: $\ theta$

H_ {0}: \ theta \ in \ Theta _ {0}

proti

H_ {a}: \ theta \ notin \ Theta _ {0}

Poté definujeme odhad maximální věrohodnosti a odhad maximální věrohodnosti pod . Nakonec definujeme statistiku testu: ${\ hat {\ theta}}$ $\ widehat {\ theta _ {0}}$ $H_0$

{\ displaystyle \ lambda = -2 \ log \ left ({\ frac {{\ mathcal {L}} ({\ hat {\ theta _ {0}}})}} {{\ mathcal {L}} ({\ widehat {\ theta}})}} \ right)}

Víme, že podle nulové hypotézy se statistika testu poměru pravděpodobnosti řídí zákonem s počtem stupňů volnosti rovným počtu omezení uložených nulovou hypotézou (p): $\ chi ^ 2$

\ lambda (x_ {1}, \ ldots, x_ {n}) \ sim \ chi ^ {2} (p)

Proto je test na úrovni odmítnut, když je statistika testu větší než řádový kvantil zákona p stupňů volnosti. $\ alfa$ $1- \ alfa$ $\ chi ^ 2$

Můžeme tedy definovat mezní hodnotu (hodnotu p ) tohoto testu:

{\ text {p-value}} = 1-F _ {{\ chi _ {{p}} ^ {2}}} (\ lambda)

Příklady

Poissonův zákon

Chceme odhadnout parametr o Poisson distribuce z n vzorku: $\ lambda$

f (x, \ lambda) = P _ {\ lambda} (X = x) = e ^ {{- \ lambda}} {\ frac {\ lambda ^ {x}} {x!}}

Maximální odhad pravděpodobnosti je: ${\ hat {\ lambda}} _ {{ML}} = {\ bar x}$

Demonstrace

Pravděpodobnost je napsána:

L (x_1, ..., x_i, ..., x_n; \ lambda) = \ prod_ {i = 1} ^ ne ^ {- \ lambda} \ frac {\ lambda ^ {x_i}} {x_i!} = e ^ {- n \ lambda} \ prod_ {i = 1} ^ n \ frac {\ lambda ^ {x_i}} {x_i!}

Pravděpodobnost, že bude pozitivní, považujeme za její přirozený logaritmus :

\ ln L (x_1, ..., x_i, ..., x_n; \ lambda) = \ ln e ^ {- \ lambda n} + \ ln \ prod_ {i = 1} ^ n \ frac {\ lambda ^ {x_i}} {x_i!} = - \ lambda n + \ sum_ {i = 1} ^ n \ ln \ frac {\ lambda ^ {x_i}} {x_i!} = - \ lambda n + \ ln \ lambda \ sum_ {i = 1} ^ n x_i - \ sum_ {i = 1} ^ n \ ln (x_i!)

První derivace zmizí, když:

{\ frac {\ částečné \ ln L (x_ {1}, ..., x_ {i}, ..., x_ {n}; \ lambda)} {\ částečné \ lambda}} = 0

{\ hat \ lambda} = {\ frac {\ sum _ {{i = 1}} ^ {n} x_ {i}} {n}}

Druhá derivace je zapsána:

{\ frac {\ částečné ^ {2} \ ln L (x_ {1}, ..., x_ {i}, ..., x_ {n}; \ lambda)} {\ částečné \ lambda ^ {2} }} = - {\ frac {\ sum _ {{i = 1}} ^ {n} x_ {i}} {\ lambda ^ {2}}} \ leq 0

Tento poměr je vždy negativní, odhad je dán vztahem:

Y_ {n} = \ Lambda = {\ frac {\ sum _ {{i = 1}} ^ {n} X_ {i}} {n}} = {\ bar X}

Je zcela normální najít v tomto didaktickém příkladu empirický průměr, protože je to nejlepší možný odhad parametru (který také představuje očekávání Poissonova zákona). $\ lambda$

Exponenciální zákon

Chceme odhadnout parametr po dosažení exponenciálního zákona z n vzorku. $\ alfa$

$f (x, \ alpha) = f _ {\ alpha} (x) = {\ begin {cases} \ alpha e ^ {{- \ alpha x}} & {\ text {si}} \ quad x \ geq 0 \ \ 0 a {\ text {jinak}} \ end {případy}}$

Maximální odhad pravděpodobnosti je: ${\ hat {\ alpha}} _ {{ML}} = {\ frac {1} {{\ bar x}}}$

Demonstrace

Pravděpodobnost je napsána:

L (x_1, ..., x_i, ..., x_n; \ alpha) = \ prod_ {i = 1} ^ n \ alpha e ^ {- \ alpha x_i} = \ alpha ^ n \ prod_ {i = 1 } ^ ne ^ {- \ alpha x_i} = \ alpha ^ n \ exp \ left (\ sum_ {i = 1} ^ n - \ alpha x_i \ right) = \ alpha ^ n \ exp \ left (- \ alpha \ sum_ {i = 1} ^ n x_i \ right)

Pravděpodobnost, že bude pozitivní, považujeme za její přirozený logaritmus:

\ ln L (x_1, ..., x_i, ..., x_n; \ alpha) = \ ln \ left [\ alpha ^ n \ exp \ left (- \ alpha \ sum_ {i = 1} ^ n x_i \ right) \ right] = n \ ln \ alpha - \ alpha \ sum_ {i = 1} ^ n x_i

První derivace zmizí, když:

\ frac {\ částečné \ ln L (x_1, ..., x_i, ..., x_n; \ alpha)} {\ částečné \ alpha} = \ frac {n} {\ alpha} - \ sum_ {i = 1 } ^ n x_i = 0

{\ hat \ alpha} = {\ frac {n} {\ sum _ {{i = 1}} ^ {n} x_ {i}}} = {\ frac {1} {{\ frac {1} {n }} \ sum _ {{i = 1}} ^ {n} x_ {i}}}

Druhá derivace je zapsána:

{\ frac {\ částečné ^ {2} \ ln L (x_ {1}, ..., x_ {i}, ..., x_ {n}; \ alfa)} {\ částečné \ alfa ^ {2} }} = - {\ frac {n} {\ alpha ^ {2}}} \ leq 0

Tento poměr je vždy záporný, takže odhad je dán vztahem:

Z_ {n} = \ mathrm {A} = {\ frac {1} {{\ frac {1} {n}} \ sum _ {{i = 1}} ^ {n} X_ {i}}} = { \ frac {1} {{\ bar X}}}

I zde je zcela normální najít inverzní hodnotu empirického průměru, protože víme, že očekávání exponenciálního zákona odpovídá inverzní hodnotě parametru . $\ alfa$

Normální zákon

Maximální pravděpodobnost odhadce očekávání a rozptylu jednoho normálního rozdělení je: $\ mu$ $\ sigma ^ {2}$

\ hat {\ mu} _ {ML} = \ bar {x} = \ frac {1} {n} \ sum ^ {n} _ {i = 1} x_i

\ widehat {\ sigma} _ {{ML}} ^ {2} = {\ frac {1} {n}} \ sum _ {{i = 1}} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}

Demonstrace

Normální zákon má funkci hustoty: ${\ mathcal {N}} (\ mu, \ sigma ^ {2})$

f (x \ mid \ mu, \ sigma ^ 2) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp {\ left (- \ frac {(x- \ mu) ^ 2} { 2 \ sigma ^ 2} \ vpravo)}.

Funkce pravděpodobnosti pro vzorek n nezávislých hodnot je pak:

f (x_ {1}, \ ldots, x_ {n} \ mid \ mu, \ sigma ^ {2}) = \ prod _ {{i = 1}} ^ {{n}} f (x _ {{i }} \ mid \ mu, \ sigma ^ {2}) = \ left ({\ frac {1} {2 \ pi \ sigma ^ {2}}} \ right) ^ {{n / 2}} \ exp \ vlevo (- {\ frac {\ sum _ {{i = 1}} ^ {{n}} (x_ {i} - \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ vpravo) ,

které lze jednodušeji napsat König-Huyghensovou větou :

f (x_ {1}, \ ldots, x_ {n} \ mid \ mu, \ sigma ^ {2}) = \ left ({\ frac {1} {2 \ pi \ sigma ^ {2}}} \ right ) ^ {{n / 2}} \ exp \ left (- {\ frac {\ sum _ {{i = 1}} ^ {{n}} (x_ {i} - {\ bar {x}}) ^ {2} + n ({\ bar {x}} - \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ vpravo),

kde je průměr vzorku. ${\ bar {x}}$

Máme zde dva parametry:, proto musíme maximalizovat funkci podle těchto dvou parametrů. $\ theta = \ mu, \ sigma ^ {2}$ ${\ mathcal {L}} (\ mu, \ sigma) = f (x_ {1}, \ ldots, x_ {n} \ mid \ mu, \ sigma)$

Budeme tedy hledat první derivaci a vyrovnáme ji na nulu.

V tomto případě se zde maximalizuje funkce log-likelihood.

\ begin {align} 0 & = \ frac {\ částečné} {\ částečné \ mu} \ ln \ left (\ left (\ frac {1} {2 \ pi \ sigma ^ 2} \ right) ^ {n / 2 } \ exp \ left (- \ frac {\ sum_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2 + n (\ bar {x} - \ mu) ^ 2} {2 \ sigma ^ 2} \ right) \ right) \\ & = \ frac {\ partial} {\ partial \ mu} \ left (\ ln \ left (\ frac {1} {2 \ pi \ sigma ^ 2} \ right ) ^ {n / 2} - \ frac {\ sum_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2 + n (\ bar {x} - \ mu) ^ 2} {2 \ sigma ^ 2} \ right) \\ & = 0 - \ frac {-2n (\ bar {x} - \ mu)} {2 \ sigma ^ 2} \ end {align}

a získáme tak odhad podle maximální pravděpodobnosti očekávání:

{\ hat \ mu} = {\ bar {x}} = \ součet _ {{i = 1}} ^ {{n}} x_ {i} / n

Můžeme také ukázat, že tento odhad je nestranný:

{\ mathbb {E}} \ left [\ widehat \ mu \ right] = \ mu

U druhého parametru σ budeme analogicky hledat maximum jako funkci σ.

\ begin {align} 0 & = \ frac {\ částečné} {\ částečné \ sigma} \ ln \ left (\ left (\ frac {1} {2 \ pi \ sigma ^ 2} \ right) ^ {n / 2 } \ exp \ left (- \ frac {\ sum_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2 + n (\ bar {x} - \ mu) ^ 2} {2 \ sigma ^ 2} \ right) \ right) \\ & = \ frac {\ částečné} {\ částečné \ sigma} \ left (\ frac {n} {2} \ ln \ left (\ frac {1} {2 \ pi \ sigma ^ 2} \ right) - \ frac {\ sum_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2 + n (\ bar {x} - \ mu) ^ 2} {2 \ sigma ^ 2} \ right) \\ & = - \ frac {n} {\ sigma} + \ frac {\ sum_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2 + n (\ bar {x} - \ mu) ^ 2} {\ sigma ^ 3} \ end {zarovnat}

proto

\ widehat \ sigma ^ {2} = \ sum _ {{i = 1}} ^ {n} (x_ {i} - \ widehat {\ mu}) ^ {2} / n

a nakonec získáme odhad maximální věrohodnosti rozptylu

\ widehat \ sigma ^ {2} = {\ frac {1} {n}} \ sum _ {{i = 1}} ^ {{n}} (x _ {{i}} - {\ bar {x} }) ^ {2}

Odhad variance je naproti tomu předpjatý:

{\ mathbb {E}} \ left [\ widehat {\ sigma ^ {2}} \ right] = {\ frac {n-1} {n}} \ sigma ^ {2}

Odhad variance je dobrým příkladem, který ukazuje, že maximální pravděpodobnost může poskytnout zkreslené odhady. Vskutku, nezaujatý odhadce je dána vztahem: . Avšak asymptoticky, když n má tendenci k nekonečnu, je toto zkreslení, které má tendenci k 0 a odhad, potom asymptoticky nezaujaté. $\ widehat \ sigma ^ {2} = {\ frac {1} {n-1}} \ sum _ {{i = 1}} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}$ ${\ displaystyle {\ frac {- \ sigma ^ {2}} {n}},}$

Jednotné právo

V případě odhadu horní hranice jednotného rozdělení nelze pravděpodobnost odvodit.

Chceme odhadnout parametr A o jednotné právní předpisy z n vzorku.

f (x, a) = f_ {a} (x) = {\ begin {cases} {\ frac {1} {a}} & {\ text {si}} \ quad x \ in [0; a] \ \ 0 & {\ text {jinak}} \ end {cases}}

Pravděpodobnost je napsána:

L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; a) = \ prod _ {{i = 1}} ^ {n} f_ {a} (x_ {i}) = {\ begin {cases} 0 & {\ text {si}} \ quad a <\ max (x_ {1}, \ ldots, x_ {n}) \\ {\ frac {1} {a ^ {n} }} & {\ text {si}} \ quad a \ geq \ max (x_ {1}, \ ldots, x_ {n}) \ end {cases}}

Tuto funkci nelze odvodit v . Jeho derivace mizí po celý interval . Je jasné, že při hledání maxima této funkce bychom neměli hledat, kde derivace mizí. $\ max (x_ {1}, \ ldots, x_ {n})$ $[0, \ max (x_ {1}, \ ldots, x_ {n}) [$

Hodnota L bude maximální pro , protože pro klesá . ${\ hat a} = \ max (x_ {1}, \ ldots, x_ {n})$ ${\ tfrac {1} {a ^ {n}}}$ $a> 0$

Tento příklad také ukazuje, že logaritmus pravděpodobnosti není vždy dobře definován (pokud to nepřijmeme ). $\ ln (0) = - \ infty$

Aplikace

Velmi často se používá metoda maximální pravděpodobnosti. Používá se zejména k odhadu modelu logistické regrese nebo modelu probit . Obecněji se běžně používá k odhadu zobecněného lineárního modelu , tříd modelů , které zahrnují logistickou regresi a modelu probit.

Bibliografie

(en) Larry Wasserman , All of Statistics: A Stručný kurz statistické inference , New York, Springer-Verlag ,15. září 2004, 461 str. ( ISBN 978-0-387-40272-7 , číst online )
(en) Colin Cameron a Pravin Trivedi , Microeconometrics: Methods And Applications , Cambridge University Press ,2005, 1056 str. ( ISBN 978-0-521-84805-3 , číst online )

Poznámky a odkazy

Poznámky

Připomínáme, že hodnota p je definována jako nejmenší hodnota rizika prvního druhu ( ), pro které test odmítáme ( Wasserman 2004 , s. 156) $\ alfa$

Reference

(in) John Aldrich , „ RA Fisher a dosažení maximální pravděpodobnosti v letech 1912 až 1922 “ , Statistics Science , sv. 12, n o 3,1997, str. 162-176 ( číst online , konzultováno 19. prosince 2011 )
(in) Stephen Stigler , „ Epický příběh maximální pravděpodobnosti “ , Statistics Science , sv. 22, n o 4,2007( číst online , konzultováno 21. prosince 2011 ).
(in) Ronald Fisher , " On absolutním kritériem pro montáž frekvenčních křivek " , Messenger matematiky , n o 41,1912, str. 155-160
(v) Ronald Fisher , „ Na“ pravděpodobné chyby „koeficientu korelace vyvodit z malého vzorku “ , Metron , n o 1,1921
(in) Ronald Fisher , „ K matematickým základům teoretické statistiky “ , Philos. Trans. Roy. Soc. London Ser. A ,1922
Wasserman 2004 , str. 126
Cameron a Trivedi 2005 , s. 119
Wasserman 2004 , str. 129, Věta 9.18
Cameron a Trivedi 2005 , s. 121
Wasserman 2004 , str. 129, Věta 9.19
Wasserman 2004 , str. 153, definice 10.3
Wasserman 2004 , str. 158, Věta 10.13
Wasserman 2004 , str. 164
Wasserman 2004 , str. 123, příklad 9.11
Wasserman 2004 , str. 124, příklad 9.12

Podívejte se také

Zadní Maximální je zobecněním, když je před distribuce není jednotná.
Empirická pravděpodobnost (in)
Fisher Information
Funkce pravděpodobnosti
Delta metoda