Maximální pravděpodobnost
Maximální pravděpodobnost
V statistik je maximální pravděpodobnost odhadce je statistický odhad používá k odvodit parametry zákona pravděpodobnosti v daném vzorku tím, že najde hodnoty parametrů na maximalizaci funkce pravděpodobnosti .
Tuto metodu vyvinul statistik Ronald Aylmer Fisher v roce 1922.
Příklad
Dovolit být devět náhodných losování x 1 ,…, x 9 podle stejného zákona; nakreslené hodnoty jsou na diagramech zobrazeny svislými tečkovanými čarami. Chceme modelovat tyto hodnoty normálním rozdělením. Z praktických důvodů jsme přijata decily redukované středem normální distribuce (μ = 0, σ = 1) pro x i , přičemž tento způsob by proto přinést tuto distribuci.
Vezměme si dva modelové zákony se stejnou disperzí σ (směrodatná odchylka), ale s odlišnou polohou μ (průměr, očekávání ). Pro každý případ určíme výšky h i odpovídající hodnotě hustotní funkce v x i . Pravděpodobnost L definujeme jako
L=h1×h2×...×h9{\ displaystyle L = h_ {1} \ krát h_ {2} \ krát \ ldots \ krát h_ {9}}.
V případě modré křivky vpravo je funkce hustoty maximální tam, kde je nejvíce hodnot - oblast je označena závorkou. Logicky je tedy pravděpodobnost důležitější pro modrou křivku než pro černou křivku. Obecně musí být vysoká hustota hodnot x i, kde je důležitá hustotní funkce; maximální pravděpodobnost je proto relevantní pro výběr parametru polohy, pokud má význam, modelového zákona.
Vezměme si nyní tři modelové zákony, všechny tři ve „správné“ poloze, ale s různými směrodatnými odchylkami. V případě zelené křivky vlevo je velmi důležitý rozptyl, křivka je velmi široká, a proto „nestoupá příliš vysoko“ (plocha pod křivkou musí být 1, bez ohledu na křivku); h i proto jsou nízké a L je nízká.
V případě černé křivky vpravo je disperze nízká; horní část křivky je vysoká, ale h i konců je velmi nízká, takže součin L není příliš vysoký.
Modrá křivka ve středu má jak relativně vysoké výšky pro h i ve středu, tak ne zanedbatelné výšky pro h i na koncích, což má za následek vysokou L; maximální pravděpodobnost je proto relevantní pro výběr parametru rozptylu, pokud má význam, modelového zákona.
V našem příkladu, pokud vyneseme hodnotu pravděpodobnosti L jako funkci parametrů μ a σ, získáme povrch, jehož maximum je v (μ = 0, σ = 1). Nalezení tohoto maxima je klasický problém s optimalizací .
Dějiny
V roce 1912, kdy Ronald Aylmer Fisher napsal svůj první článek o maximální pravděpodobnosti, byly dvě nejpoužívanější statistické metody metoda nejmenších čtverců a metoda momentů . Ve svém článku z roku 1912 navrhl odhad maximální pravděpodobnosti, který v té době nazval absolutním kritériem . Vezme si příklad normálního zákona.
V roce 1921 použil stejnou metodu k odhadu korelačního koeficientu .
V roce 1912 nedorozumění naznačilo, že absolutní kritérium lze interpretovat jako Bayesiánský odhadce s jednotným předchozím rozdělením. Fisher vyvrátil tuto interpretaci v roce 1921. V roce 1922 použil binomický zákon k ilustraci svého kritéria a ukázal, jak se liší od bayesovského odhadce. Bylo to také v roce 1922, kdy dal název maximální pravděpodobnosti své metodě.
Zásada
Dovolme být parametrickou rodinou rozdělení pravděpodobnosti D θ, jejíž prvky jsou spojeny buď se známou hustotou pravděpodobnosti (spojité rozdělení), nebo se známou hromadnou funkcí (diskrétní rozdělení), která je uvedena f (x | θ) . Z distribuce opakovaně nakreslíme jednoduchý n -vzorek (nezávislé vzorky) x 1 , x 2 , ..., x n a vypočítáme hustotu pravděpodobnosti spojenou s pozorovanými daty
F(X1,...,Xne;θ)=∏i=1neF(Xi∣θ){\ displaystyle f (x_ {1}, \ tečky, x_ {n}; \ theta) = \ prod _ {i = 1} ^ {n} f (x_ {i} \ mid \ theta) \,}Jelikož je to funkce θ s pevnými x 1 , ..., x n , je to pravděpodobnost pro n nezávislých vzorků.
L(θ)=F(X1,...,Xne;θ){\ displaystyle L (\ theta) = f (x_ {1}, \ tečky, x_ {n}; \ theta) \,}Pokud θ není pozorovatelný, použije metoda maximální pravděpodobnosti hodnoty θ, které maximalizují odhad L (θ) θ: je to zaznamenaný odhad maximální pravděpodobnosti θ . Například v případě diskrétního součinu se provede nákres hodnot n , je proto nutné najít parametr, který maximalizuje pravděpodobnost, že bude tento nákres nakreslen.
θ^{\ displaystyle {\ widehat {\ theta}}}
Tato metoda se liší od hledání nezaujatého odhadce θ, který nemusí nutně dávat nejpravděpodobnější hodnotu pro θ.
Odhad maximální pravděpodobnosti, pokud existuje, je jedinečný.
Definice
Dovolit být skutečný náhodná veličina , diskrétní nebo spojité práva, z nichž jeden chce odhadnout parametr . Označujeme tuto rodinu parametrických zákonů. Definujeme tedy funkci jako:
X{\ displaystyle X}θ{\ displaystyle \ theta}Dθ{\ displaystyle {\ mathcal {D}} _ {\ theta}}F{\ displaystyle f}
F(X;θ)={Fθ(X)-li X je nepřetržitý chodPθ(X=X)-li X je diskrétní{\ displaystyle f (x; \ theta) = {\ begin {cases} f _ {\ theta} (x) & {\ text {si}} X {\ text {je nepřetržitý průběh}} \\ P _ { \ theta} (X = x) & {\ text {si}} X {\ text {je diskrétní rozsah}} \ end {případů}}}
Fθ(X){\ displaystyle f _ {\ theta} (x)}představuje hustotu X (kde se objeví) a představuje diskrétní pravděpodobnost (kde se objeví).
θ{\ displaystyle \ theta}Pθ(X=X){\ displaystyle P _ {\ theta} (X = x)}θ{\ displaystyle \ theta}Nazýváme pravděpodobnostθ{\ displaystyle \ theta} s ohledem na pozorování po dosažení n vzorku nezávisle a stejně rozdělené podle rodinného práva , číslo:
(X1,...,Xi,...,Xne){\ displaystyle (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n})}F(⋅;θ){\ displaystyle f (\ cdot; \ theta)}Dθ{\ displaystyle {\ mathcal {D}} _ {\ theta}}
L(X1,...,Xi,...,Xne;θ)=F(X1;θ)×F(X2;θ)×...×F(Xne;θ)=∏i=1neF(Xi;θ){\ displaystyle L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta) = f (x_ {1}; \ theta) \ krát f (x_ {2}; \ theta) \ times \ ldots \ times f (x_ {n}; \ theta) = \ prod _ {i = 1} ^ {n} f (x_ {i}; \ theta)}Snažíme se najít maximum této pravděpodobnosti tak, aby i pravděpodobnosti pozorovaných realizací byly maximální. Toto je optimalizační problém . Obecně používáme skutečnost, že pokud L je diferencovatelný (což není vždy případ) a pokud L připouští globální maximum v hodnotě , pak první derivace zmizí a druhá derivace je záporná. Naopak, v případě, že první derivace mizí v a druhá derivace je striktně záporný na , pak je lokální maximum z . Poté je nutné ověřit, zda se skutečně jedná o globální maximum. Jelikož je pravděpodobnost pozitivní a přirozený logaritmus rostoucí funkce, je ekvivalentní a často jednodušší maximalizovat přirozený logaritmus pravděpodobnosti (součin se změní na součet, který lze snáze odvodit). Lze snadno sestavit statistiku, která je požadovaným odhadcem.
θ=θ^{\ displaystyle \ theta = {\ hat {\ theta}}}θ=θ^{\ displaystyle \ theta = {\ hat {\ theta}}}θ=θ^{\ displaystyle \ theta = {\ hat {\ theta}}}θ=θ^{\ displaystyle \ theta = {\ hat {\ theta}}}θ=θ^{\ displaystyle \ theta = {\ hat {\ theta}}}L(X1,...,Xi,...,Xne;θ){\ displaystyle L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta)}Yne=Θ{\ displaystyle Y_ {n} = \ Theta}
Takže v praxi:
- Nutná podmínka nebo umožňuje najít hodnotu .
∂L(X1,...,Xi,...,Xne;θ)∂θ=0{\ displaystyle {\ frac {\ částečné L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta)} {\ částečné \ theta}} = 0}
∂lnL(X1,...,Xi,...,Xne;θ)∂θ=0{\ displaystyle {\ frac {\ částečné \ ln L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta)} {\ částečné \ theta}} = 0}
θ=θ^{\ displaystyle \ theta = {\ hat {\ theta}}}
-
θ=θ^{\ displaystyle \ theta = {\ hat {\ theta}}}je místní maximum, pokud je v kritickém bodě splněna dostatečná podmínka : neboθ=θ^{\ displaystyle \ theta = {\ hat {\ theta}}}
∂2L(X1,...,Xi,...,Xne;θ)∂θ2<0{\ displaystyle {\ frac {\ částečné ^ {2} L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta)} {\ částečné \ theta ^ {2}} } <0}
∂2lnL(X1,...,Xi,...,Xne;θ)∂θ2<0{\ displaystyle {\ frac {\ částečné ^ {2} \ ln L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; \ theta)} {\ částečné \ theta ^ {2 }}} <0}
Pro zjednodušení je možné v případě spojitého rozdělení, kde je hustota pravděpodobnosti v určitém intervalu nula, vynechat zápis pravděpodobnosti pouze pro tento interval.
Zobecnění
Tato část může obsahovat nepublikovanou práci nebo neauditovaná prohlášení (březen 2012) . Můžete pomoci přidáním odkazů nebo odebráním nepublikovaného obsahu.
Pro skutečné náhodné proměnné X. jakéhokoli zákona definované distribuční funkce f (x) , můžeme považovat sousedství V z (x 1 , ..., x n ) v , například koule o poloměru e. Získáváme tak funkci pravděpodobnosti, pro kterou hledáme maximum . Pak máme tendenci velikost V směrem k 0 v, abychom získali odhad maximální pravděpodobnosti.
Rne{\ displaystyle \ mathbb {R} ^ {n}}L(θ;PROTI)=P[(X1,θ,...,Xne,θ)∈PROTI]{\ displaystyle L (\ theta; V) = P [(X_ {1, \ theta}, \ ldots, X_ {n, \ theta}) \ ve V]}θ=θ^(PROTI){\ displaystyle \ theta = {\ hat {\ theta}} (V)}θ^(PROTI){\ displaystyle {\ hat {\ theta}} (V)}θ^{\ displaystyle {\ hat {\ theta}}}
Když má X diskrétní nebo spojitý zákon, vrátíme se k předchozím funkcím pravděpodobnosti .
Pokud je zákon X libovolný, postačuje vzít v úvahu hustotu vzhledem k dominantní míře .
μ{\ displaystyle \ mu}
Právnické rodině dominuje opatření, pokud .
(Pθ)θ∈Θ{\ displaystyle (P _ {\ theta}) _ {\ theta \ v \ Theta}}μ{\ displaystyle \ mu}∀NA∈Ω,∀θ∈Θ,μ(NA)=0⇒Pθ(NA)=0{\ displaystyle \ forall A \ in \ Omega, \ forall \ theta \ in \ Theta, \ quad \ mu (A) = 0 \ Rightarrow P _ {\ theta} (A) = 0}
Pokud je X spojitá proměnná dimenze 1, můžeme použít Lebesgueovu míru na (nebo na intervalu jako dominantní míru). Pokud X je diskrétní proměnná dimenze 1, můžeme použít míru počítání na (nebo na podmnožina ) Poté najdeme definice pravděpodobnosti dané pro diskrétní a spojité případy.
R{\ displaystyle \ mathbb {R}}R{\ displaystyle \ mathbb {R}}NE{\ displaystyle \ mathbb {N}}NE{\ displaystyle \ mathbb {N}}
Vlastnosti
Odhad získaný metodou maximální pravděpodobnosti je:
Na druhou stranu to může být předpjaté v konečném vzorku.
Intervaly spolehlivosti
Vzhledem k tomu, že odhad maximální pravděpodobnosti je asymptoticky normální, můžeme sestrojit interval spolehlivosti tak, aby obsahoval skutečný parametr s pravděpodobností :
VSne{\ displaystyle C_ {n}}1-α{\ displaystyle 1- \ alpha}
VSne=(θne^-Φ-1(1-α/2)σθne^^,θne^+Φ-1(1-α/2)σθne^^){\ displaystyle C_ {n} = \ left ({\ hat {\ theta _ {n}}} - \ Phi ^ {- 1} (1- \ alpha / 2) {\ widehat {\ sigma _ {\ hat { \ theta _ {n}}}}}, {\ hat {\ theta _ {n}}} + \ Phi ^ {- 1} (1- \ alpha / 2) {\ widehat {\ sigma _ {\ hat { \ theta _ {n}}}}} \ vpravo)}s řádovým kvantilem sníženého středního normálního rozdělení a odhadované standardní odchylky . Pak máme
Φ-1(1-α/2){\ displaystyle \ Phi ^ {- 1} (1 \ alfa / 2)}1-α/2{\ displaystyle 1- \ alpha / 2}σθne^^{\ displaystyle {\ widehat {\ sigma _ {\ hat {\ theta _ {n}}}}}}θne^{\ displaystyle {\ hat {\ theta _ {n}}}}
P(θ∈VSne)⟶ne→+∞1-α{\ displaystyle \ mathbb {P} (\ theta \ v C_ {n}) {\ podmnožina {n \ rightarrow + \ infty} {\ longrightarrow}} 1- \ alpha}Testy
Waldův test
Protože je odhad maximální pravděpodobnosti asymptoticky normální, můžeme použít Waldův test.
Zvažujeme nulovou hypotézu:
H0:θ=θ0{\ displaystyle H_ {0}: \ theta = \ theta _ {0}}proti alternativní hypotéze
Hna:θ≠θ0{\ displaystyle H_ {a}: \ theta \ neq \ theta _ {0}}Odhad je asymptoticky normální:
θ^{\ displaystyle {\ hat {\ theta}}}
θ^-θ0σθ^^∼NE(0,1){\ displaystyle {\ frac {{\ hat {\ theta}} - \ theta _ {0}} {\ widehat {\ sigma _ {\ hat {\ theta}}}}} \ sim {\ mathcal {N}} (0,1)}s odhadovanou směrodatnou odchylkou odhadceσθ^^{\ displaystyle {\ widehat {\ sigma _ {\ hat {\ theta}}}}}θ^{\ displaystyle {\ hat {\ theta}}}
Definujeme statistiku testu:
Ž=θ^-θ0σθ^^{\ displaystyle W = {\ frac {{\ hat {\ theta}} - \ theta _ {0}} {\ widehat {\ sigma _ {\ hat {\ theta}}}}}}Poté odmítneme nulovou hypotézu s rizikem prvního druhu, když je absolutní hodnota statistiky testu větší než řádový kvantil redukovaného normálního zákona:
α{\ displaystyle \ alpha}1-α/2{\ displaystyle 1- \ alpha / 2}
|Ž|>Φ-1(1-α/2){\ displaystyle | W |> \ Phi ^ {- 1} (1- \ alpha / 2)}s kvantilovou funkcí redukovaného středového normálního rozdělení.
Φ-1(.){\ displaystyle \ Phi ^ {- 1} (.)}
Hodnota p se poté zapíše:
p-hodnota=2Φ(-|w|){\ displaystyle {\ text {hodnota p}} = 2 \ Phi (- | w |)}s w hodnota testovací statistiky v datech.
Test poměru pravděpodobnosti
Pokud zavoláme vektor odhadovaných parametrů, uvažujeme test typu:
θ{\ displaystyle \ theta}
H0:θ∈Θ0{\ displaystyle H_ {0}: \ theta \ in \ theta _ {0}}proti
Hna:θ∉Θ0{\ displaystyle H_ {a}: \ theta \ notin \ theta _ {0}}Poté definujeme odhad maximální věrohodnosti a odhad maximální věrohodnosti pod . Nakonec definujeme statistiku testu:
θ^{\ displaystyle {\ hat {\ theta}}}θ0^{\ displaystyle {\ widehat {\ theta _ {0}}}}H0{\ displaystyle H_ {0}}
λ=-2log(L(θ0^)L(θ^)){\ displaystyle \ lambda = -2 \ log \ left ({\ frac {{\ mathcal {L}} ({\ hat {\ theta _ {0}}})}} {{\ mathcal {L}} ({\ widehat {\ theta}})}} \ right)}Víme, že podle nulové hypotézy se statistika testu poměru pravděpodobnosti řídí zákonem s počtem stupňů volnosti rovným počtu omezení uložených nulovou hypotézou (p):
χ2{\ displaystyle \ chi ^ {2}}
λ(X1,...,Xne)∼χ2(p){\ displaystyle \ lambda (x_ {1}, \ ldots, x_ {n}) \ sim \ chi ^ {2} (p)}Proto je test na úrovni odmítnut, když je statistika testu větší než řádový kvantil zákona p stupňů volnosti.
α{\ displaystyle \ alpha}1-α{\ displaystyle 1- \ alpha}χ2{\ displaystyle \ chi ^ {2}}
Můžeme tedy definovat mezní hodnotu (hodnotu p ) tohoto testu:
p-hodnota=1-Fχp2(λ){\ displaystyle {\ text {p-hodnota}} = 1-F _ {\ chi _ {p} ^ {2}} (\ lambda)}Příklady
Poissonův zákon
Chceme odhadnout parametr o Poisson distribuce z n vzorku:
λ{\ displaystyle \ lambda}
F(X,λ)=Pλ(X=X)=E-λλXX!{\ displaystyle f (x, \ lambda) = P _ {\ lambda} (X = x) = e ^ {- \ lambda} {\ frac {\ lambda ^ {x}} {x!}}}Maximální odhad pravděpodobnosti je: λ^ML=X¯{\ displaystyle {\ hat {\ lambda}} _ {ML} = {\ bar {x}}}
Demonstrace
Pravděpodobnost je napsána:
L(X1,...,Xi,...,Xne;λ)=∏i=1neE-λλXiXi!=E-neλ∏i=1neλXiXi!{\ displaystyle L (x_ {1}, ..., x_ {i}, ..., x_ {n}; \ lambda) = \ prod _ {i = 1} ^ {n} e ^ {- \ lambda } {\ frac {\ lambda ^ {x_ {i}}} {x_ {i}!}} = e ^ {- n \ lambda} \ prod _ {i = 1} ^ {n} {\ frac {\ lambda ^ {x_ {i}}} {x_ {i}!}}}Pravděpodobnost, že bude pozitivní, považujeme za její přirozený logaritmus :
lnL(X1,...,Xi,...,Xne;λ)=lnE-λne+ln∏i=1neλXiXi!=-λne+∑i=1nelnλXiXi!=-λne+lnλ∑i=1neXi-∑i=1neln(Xi!){\ displaystyle \ ln L (x_ {1}, ..., x_ {i}, ..., x_ {n}; \ lambda) = \ ln e ^ {- \ lambda n} + \ ln \ prod _ {i = 1} ^ {n} {\ frac {\ lambda ^ {x_ {i}}} {x_ {i}!}} = - \ lambda n + \ sum _ {i = 1} ^ {n} \ ln {\ frac {\ lambda ^ {x_ {i}}} {x_ {i}!}} = - \ lambda n + \ ln \ lambda \ sum _ {i = 1} ^ {n} x_ {i} - \ sum _ {i = 1} ^ {n} \ ln (x_ {i}!)}První derivace zmizí, když:
∂lnL(X1,...,Xi,...,Xne;λ)∂λ=0{\ displaystyle {\ frac {\ částečné \ ln L (x_ {1}, ..., x_ {i}, ..., x_ {n}; \ lambda)} {\ částečné \ lambda}} = 0}je
λ^=∑i=1neXine{\ displaystyle {\ hat {\ lambda}} = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i}} {n}}}Druhá derivace je zapsána:
∂2lnL(X1,...,Xi,...,Xne;λ)∂λ2=-∑i=1neXiλ2≤0{\ displaystyle {\ frac {\ částečné ^ {2} \ ln L (x_ {1}, ..., x_ {i}, ..., x_ {n}; \ lambda)} {\ částečné \ lambda ^ {2}}} = - {\ frac {\ sum _ {i = 1} ^ {n} x_ {i}} {\ lambda ^ {2}}} \ leq 0}Tento poměr je vždy negativní, odhad je dán vztahem:
Yne=Λ=∑i=1neXine=X¯{\ displaystyle Y_ {n} = \ Lambda = {\ frac {\ sum _ {i = 1} ^ {n} X_ {i}} {n}} = {\ bar {X}}}
Je zcela normální najít v tomto didaktickém příkladu empirický průměr, protože je to nejlepší možný odhad parametru (který také představuje očekávání Poissonova zákona).
λ{\ displaystyle \ lambda}
Exponenciální zákon
Chceme odhadnout parametr po dosažení exponenciálního zákona z n vzorku.
α{\ displaystyle \ alpha}
F(X,α)=Fα(X)={αE-αX-liX≥00Pokud ne{\ displaystyle f (x, \ alpha) = f _ {\ alpha} (x) = {\ begin {cases} \ alpha e ^ {- \ alpha x} & {\ text {si}} \ quad x \ geq 0 \\ 0 & {\ text {jinak}} \ end {cases}}}
Maximální odhad pravděpodobnosti je: α^ML=1X¯{\ displaystyle {\ hat {\ alpha}} _ {ML} = {\ frac {1} {\ bar {x}}}}
Demonstrace
Pravděpodobnost je napsána:
L(X1,...,Xi,...,Xne;α)=∏i=1neαE-αXi=αne∏i=1neE-αXi=αneexp(∑i=1ne-αXi)=αneexp(-α∑i=1neXi){\ displaystyle L (x_ {1}, ..., x_ {i}, ..., x_ {n}; \ alpha) = \ prod _ {i = 1} ^ {n} \ alpha e ^ {- \ alpha x_ {i}} = \ alpha ^ {n} \ prod _ {i = 1} ^ {n} e ^ {- \ alpha x_ {i}} = \ alpha ^ {n} \ exp \ left (\ součet _ {i = 1} ^ {n} - \ alpha x_ {i} \ right) = \ alpha ^ {n} \ exp \ left (- \ alpha \ sum _ {i = 1} ^ {n} x_ { i} \ vpravo)}Pravděpodobnost, že bude pozitivní, považujeme za její přirozený logaritmus:
lnL(X1,...,Xi,...,Xne;α)=ln[αneexp(-α∑i=1neXi)]=nelnα-α∑i=1neXi{\ displaystyle \ ln L (x_ {1}, ..., x_ {i}, ..., x_ {n}; \ alpha) = \ ln \ left [\ alpha ^ {n} \ exp \ left ( - \ alpha \ sum _ {i = 1} ^ {n} x_ {i} \ right) \ right] = n \ ln \ alpha - \ alpha \ sum _ {i = 1} ^ {n} x_ {i} }První derivace zmizí, když:
∂lnL(X1,...,Xi,...,Xne;α)∂α=neα-∑i=1neXi=0{\ displaystyle {\ frac {\ částečné \ ln L (x_ {1}, ..., x_ {i}, ..., x_ {n}; \ alpha)} {\ částečné \ alpha}} = {\ frac {n} {\ alpha}} - \ sum _ {i = 1} ^ {n} x_ {i} = 0}je
α^=ne∑i=1neXi=11ne∑i=1neXi{\ displaystyle {\ hat {\ alpha}} = {\ frac {n} {\ sum _ {i = 1} ^ {n} x_ {i}}} = {\ frac {1} {{\ frac {1 } {n}} \ sum _ {i = 1} ^ {n} x_ {i}}}}Druhá derivace je zapsána:
∂2lnL(X1,...,Xi,...,Xne;α)∂α2=-neα2≤0{\ displaystyle {\ frac {\ částečné ^ {2} \ ln L (x_ {1}, ..., x_ {i}, ..., x_ {n}; \ alfa)} {\ částečné \ alfa ^ {2}}} = - {\ frac {n} {\ alpha ^ {2}}} \ leq 0}Tento poměr je vždy záporný, takže odhad je dán vztahem:
Zne=NA=11ne∑i=1neXi=1X¯{\ displaystyle Z_ {n} = \ mathrm {A} = {\ frac {1} {{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} X_ {i}}} = {\ frac {1} {\ bar {X}}}}
I zde je zcela normální najít inverzní hodnotu empirického průměru, protože víme, že očekávání exponenciálního zákona odpovídá inverzní hodnotě parametru .
α{\ displaystyle \ alpha}
Normální zákon
Maximální pravděpodobnost odhadce očekávání a rozptylu jednoho normálního rozdělení je:
μ{\ displaystyle \ mu}σ2{\ displaystyle \ sigma ^ {2}}
μ^ML=X¯=1ne∑i=1neXi{\ displaystyle {\ hat {\ mu}} _ {ML} = {\ bar {x}} = {\ frac {1} {n}} \ součet _ {i = 1} ^ {n} x_ {i} }σ^ML2=1ne∑i=1ne(Xi-X¯)2{\ displaystyle {\ widehat {\ sigma}} _ {ML} ^ {2} = {\ frac {1} {n}} \ suma _ {i = 1} ^ {n} (x_ {i} - {\ lišta {x}}) ^ {2}}
Demonstrace
Normální zákon má funkci hustoty:
NE(μ,σ2){\ displaystyle {\ mathcal {N}} (\ mu, \ sigma ^ {2})}
F(X∣μ,σ2)=1σ2πexp(-(X-μ)22σ2).{\ displaystyle f (x \ mid \ mu, \ sigma ^ {2}) = {\ frac {1} {\ sigma {\ sqrt {2 \ pi}}}} \ exp {\ left (- {\ frac { (x- \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ vpravo)}.}Funkce pravděpodobnosti pro vzorek n nezávislých hodnot je pak:
F(X1,...,Xne∣μ,σ2)=∏i=1neF(Xi∣μ,σ2)=(12πσ2)ne/2exp(-∑i=1ne(Xi-μ)22σ2),{\ displaystyle f (x_ {1}, \ ldots, x_ {n} \ mid \ mu, \ sigma ^ {2}) = \ prod _ {i = 1} ^ {n} f (x_ {i} \ mid \ mu, \ sigma ^ {2}) = \ left ({\ frac {1} {2 \ pi \ sigma ^ {2}}} \ right) ^ {n / 2} \ exp \ left (- {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ vpravo),}které lze jednodušeji napsat König-Huyghensovou větou :
F(X1,...,Xne∣μ,σ2)=(12πσ2)ne/2exp(-∑i=1ne(Xi-X¯)2+ne(X¯-μ)22σ2),{\ displaystyle f (x_ {1}, \ ldots, x_ {n} \ mid \ mu, \ sigma ^ {2}) = \ left ({\ frac {1} {2 \ pi \ sigma ^ {2}} } \ right) ^ {n / 2} \ exp \ left (- {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2} + n ({\ bar {x}} - \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ vpravo),}kde je průměr vzorku.
X¯{\ displaystyle {\ bar {x}}}
Máme zde dva parametry:, proto musíme maximalizovat funkci podle těchto dvou parametrů.
θ=μ,σ2{\ displaystyle \ theta = \ mu, \ sigma ^ {2}}L(μ,σ)=F(X1,...,Xne∣μ,σ){\ displaystyle {\ mathcal {L}} (\ mu, \ sigma) = f (x_ {1}, \ ldots, x_ {n} \ mid \ mu, \ sigma)}
Budeme tedy hledat první derivaci a vyrovnáme ji na nulu.
V tomto případě se zde maximalizuje funkce log-likelihood.
0=∂∂μln((12πσ2)ne/2exp(-∑i=1ne(Xi-X¯)2+ne(X¯-μ)22σ2))=∂∂μ(ln(12πσ2)ne/2-∑i=1ne(Xi-X¯)2+ne(X¯-μ)22σ2)=0--2ne(X¯-μ)2σ2{\ displaystyle {\ begin {aligned} 0 & = {\ frac {\ částečné} {\ částečné \ mu}} \ ln \ left (\ left ({\ frac {1} {2 \ pi \ sigma ^ {2} }} \ right) ^ {n / 2} \ exp \ left (- {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2 } + n ({\ bar {x}} - \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ vpravo) \ vpravo) \\ & = {\ frac {\ částečné} {\ částečné \ mu}} \ left (\ ln \ left ({\ frac {1} {2 \ pi \ sigma ^ {2}}} \ right) ^ {n / 2} - {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2} + n ({\ bar {x}} - \ mu) ^ {2}} {2 \ sigma ^ {2 }}} \ right) \\ & = 0 - {\ frac {-2n ({\ bar {x}} - \ mu)} {2 \ sigma ^ {2}}} \ end {zarovnáno}}}a získáme tak odhad podle maximální pravděpodobnosti očekávání:
μ^=X¯=∑i=1neXi/ne{\ displaystyle {\ hat {\ mu}} = {\ bar {x}} = \ součet _ {i = 1} ^ {n} x_ {i} / n}Můžeme také ukázat, že tento odhad je nestranný:
E[μ^]=μ{\ displaystyle \ mathbb {E} \ left [{\ widehat {\ mu}} \ right] = \ mu}U druhého parametru σ budeme analogicky hledat maximum jako funkci σ.
0=∂∂σln((12πσ2)ne/2exp(-∑i=1ne(Xi-X¯)2+ne(X¯-μ)22σ2))=∂∂σ(ne2ln(12πσ2)-∑i=1ne(Xi-X¯)2+ne(X¯-μ)22σ2)=-neσ+∑i=1ne(Xi-X¯)2+ne(X¯-μ)2σ3{\ displaystyle {\ begin {aligned} 0 & = {\ frac {\ částečné} {\ částečné \ sigma}} \ ln \ left (\ left ({\ frac {1} {2 \ pi \ sigma ^ {2} }} \ right) ^ {n / 2} \ exp \ left (- {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2 } + n ({\ bar {x}} - \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ vpravo) \ vpravo) \\ & = {\ frac {\ částečné} {\ částečné \ sigma}} \ left ({\ frac {n} {2}} \ ln \ left ({\ frac {1} {2 \ pi \ sigma ^ {2}}} \ right) - {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2} + n ({\ bar {x}} - \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ vpravo) \\ & = - {\ frac {n} {\ sigma}} + {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - { \ bar {x}}) ^ {2} + n ({\ bar {x}} - \ mu) ^ {2}} {\ sigma ^ {3}}} \ end {zarovnáno}}}proto
σ^2=∑i=1ne(Xi-μ^)2/ne{\ displaystyle {\ widehat {\ sigma}} ^ {2} = \ součet _ {i = 1} ^ {n} (x_ {i} - {\ widehat {\ mu}}) ^ {2} / n}a nakonec získáme odhad maximální věrohodnosti rozptylu
σ^2=1ne∑i=1ne(Xi-X¯)2{\ displaystyle {\ widehat {\ sigma}} ^ {2} = {\ frac {1} {n}} \ součet _ {i = 1} ^ {n} (x_ {i} - {\ bar {x} }) ^ {2}}Odhad variance je naproti tomu předpjatý:
E[σ2^]=ne-1neσ2{\ displaystyle \ mathbb {E} \ left [{\ widehat {\ sigma ^ {2}}} \ right] = {\ frac {n-1} {n}} \ sigma ^ {2}}
Odhad variance je dobrým příkladem, který ukazuje, že maximální pravděpodobnost může poskytnout zkreslené odhady. Vskutku, nezaujatý odhadce je dána vztahem: . Avšak asymptoticky, když n má tendenci k nekonečnu, je toto zkreslení, které má tendenci k 0 a odhad, potom asymptoticky nezaujaté.
σ^2=1ne-1∑i=1ne(Xi-X¯)2{\ displaystyle {\ widehat {\ sigma}} ^ {2} = {\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar { x}}) ^ {2}}-σ2ne,{\ displaystyle {\ frac {- \ sigma ^ {2}} {n}},}
Jednotné právo
V případě odhadu horní hranice jednotného rozdělení nelze pravděpodobnost odvodit.
Chceme odhadnout parametr A o jednotné právní předpisy z n vzorku.
F(X,na)=Fna(X)={1na-liX∈[0;na]0Pokud ne{\ displaystyle f (x, a) = f_ {a} (x) = {\ begin {cases} {\ frac {1} {a}} & {\ text {si}} \ quad x \ in [0; a] \\ 0 & {\ text {jinak}} \ end {cases}}}Pravděpodobnost je napsána:
L(X1,...,Xi,...,Xne;na)=∏i=1neFna(Xi)={0-lina<max(X1,...,Xne)1nane-lina≥max(X1,...,Xne){\ displaystyle L (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ {n}; a) = \ prod _ {i = 1} ^ {n} f_ {a} (x_ {i} ) = {\ begin {cases} 0 & {\ text {si}} \ quad a <\ max (x_ {1}, \ ldots, x_ {n}) \\ {\ frac {1} {a ^ {n }}} & {\ text {si}} \ quad a \ geq \ max (x_ {1}, \ ldots, x_ {n}) \ end {případy}}}Tuto funkci nelze odvodit v . Jeho derivace mizí po celý interval . Je jasné, že při hledání maxima této funkce bychom neměli hledat, kde derivace mizí.
max(X1,...,Xne){\ displaystyle \ max (x_ {1}, \ ldots, x_ {n})}[0,max(X1,...,Xne)[{\ displaystyle [0, \ max (x_ {1}, \ ldots, x_ {n}) [}
Hodnota L bude maximální pro , protože pro klesá .
na^=max(X1,...,Xne){\ displaystyle {\ hat {a}} = \ max (x_ {1}, \ ldots, x_ {n})}1nane{\ displaystyle {\ tfrac {1} {a ^ {n}}}}na>0{\ displaystyle a> 0}
Tento příklad také ukazuje, že logaritmus pravděpodobnosti není vždy dobře definován (pokud to nepřijmeme ).
ln(0)=-∞{\ displaystyle \ ln (0) = - \ infty}
Aplikace
Velmi často se používá metoda maximální pravděpodobnosti. Používá se zejména k odhadu modelu logistické regrese nebo modelu probit . Obecněji se běžně používá k odhadu zobecněného lineárního modelu , tříd modelů , které zahrnují logistickou regresi a modelu probit.
Bibliografie
- (en) Larry Wasserman , All of Statistics: A Stručný kurz statistické inference , New York, Springer-Verlag ,15. září 2004, 461 str. ( ISBN 978-0-387-40272-7 , číst online )
- (en) Colin Cameron a Pravin Trivedi , Microeconometrics: Methods And Applications , Cambridge University Press ,2005, 1056 str. ( ISBN 978-0-521-84805-3 , číst online )
Poznámky a odkazy
Poznámky
-
Připomínáme, že hodnota p je definována jako nejmenší hodnota rizika prvního druhu ( ), pro které test odmítáme ( Wasserman 2004 , s. 156)α{\ displaystyle \ alpha}
Reference
-
(in) John Aldrich , „ RA Fisher a dosažení maximální pravděpodobnosti v letech 1912 až 1922 “ , Statistics Science , sv. 12, n o 3,1997, str. 162-176 ( číst online , konzultováno 19. prosince 2011 )
-
(in) Stephen Stigler , „ Epický příběh maximální pravděpodobnosti “ , Statistics Science , sv. 22, n o 4,2007( číst online , konzultováno 21. prosince 2011 ).
-
(in) Ronald Fisher , " On absolutním kritériem pro montáž frekvenčních křivek " , Messenger matematiky , n o 41,1912, str. 155-160
-
(v) Ronald Fisher , „ Na“ pravděpodobné chyby „koeficientu korelace vyvodit z malého vzorku “ , Metron , n o 1,1921
-
(in) Ronald Fisher , „ K matematickým základům teoretické statistiky “ , Philos. Trans. Roy. Soc. London Ser. A ,1922
-
Wasserman 2004 , str. 126
-
Cameron a Trivedi 2005 , s. 119
-
Wasserman 2004 , str. 129, Věta 9.18
-
Cameron a Trivedi 2005 , s. 121
-
Wasserman 2004 , str. 129, Věta 9.19
-
Wasserman 2004 , str. 153, definice 10.3
-
Wasserman 2004 , str. 158, Věta 10.13
-
Wasserman 2004 , str. 164
-
Wasserman 2004 , str. 123, příklad 9.11
-
Wasserman 2004 , str. 124, příklad 9.12
Podívejte se také
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">