Kudla
Kudla
Příroda |
Statistická metoda ( d )
|
---|
Podtřída |
Převzorkování ( v )
|
---|
Vynálezce |
Maurice Quenouille ( v )
|
---|
Pojmenováno odkazem na |
Kapesní nůž
|
---|
Aspekt |
Vzorkování
|
---|
Ve statistikách je jackknife ( (en) Swiss Army Knife ) metoda převzorkování pojmenovaná po švýcarském noži, protože může být užitečná pro různé věci: redukce pomocí malého vzorku, budování intervalu spolehlivosti přiměřeného pro jakýkoli druh statistiky, statistický test . Od 70. let byla tato metoda převzorkování „nahrazena“ sofistikovanější metodou, bootstrap . Tuto metodu vyvinul Maurice Quenouille (en) (1924-1973).
Obecná prezentace
Případ empirického průměru
To má vzorek , lid podle zákona neznáma F . Chceme odhadnout očekávání , poznamenal :
X=X1,X2,⋯,Xne{\ displaystyle X = x_ {1}, x_ {2}, \ cdots, x_ {n}}
θ{\ displaystyle \ theta}
θ=∫XdF(X){\ displaystyle \ theta = \ int x \, dF (x)}
Přirozeným odhadcem je empirický průměr :
θ^=1ne∑i=1neXi{\ displaystyle {\ hat {\ theta}} = {\ frac {1} {n}} \ součet _ {i = 1} ^ {n} x_ {i}}
.
Jedním ze způsobů, jak měřit dopad pozorování na odhadce, je výpočet empirického průměru na vzorku , tj. Počátečního vzorku X zbaveného j- tého pozorování:
Xj{\ displaystyle x_ {j}}
θ^{\ displaystyle {\ hat {\ theta}}}
X-j{\ displaystyle X _ {- j}}
θ^j=1ne-1∑i≠jXi{\ displaystyle {\ hat {\ theta}} _ {j} = {\ frac {1} {n-1}} \ součet _ {i \ neq j} x_ {i}}
Všimli jsme si toho
Xj=neθ^-(ne-1)θ^j{\ displaystyle x_ {j} = n {\ hat {\ theta}} - (n-1) {\ hat {\ theta}} _ {j}}
a přejít na to znamená
θ^=neθ^-(ne-1)θ^∗{\ displaystyle {\ hat {\ theta}} = n {\ hat {\ theta}} - (n-1) {\ hat {\ theta}} ^ {\ ast}}
kde je průměr z dílčích odhadů :
θ^∗{\ displaystyle {\ hat {\ theta}} ^ {\ ast}}
θ^j{\ displaystyle {\ hat {\ theta}} _ {j}}
θ^∗=1ne∑jθ^j.{\ displaystyle {\ hat {\ theta}} ^ {\ ast} = {\ frac {1} {n}} \ sum _ {j} {\ hat {\ theta}} _ {j}.}
Máme tedy to, co znamená, že máme k dispozici nový odhadce očekávání: toto je jeho odhad na kapesní nůž.
θ^∗=θ^{\ displaystyle {\ hat {\ theta}} ^ {\ ast} = {\ hat {\ theta}}}
Zobecnění
V předchozí prezentaci metoda jackknife nepřidává nic v tom smyslu, že je zaměňována s přirozeným odhadcem. Zevšeobecnění ukazuje, že při odhadování jakéhokoli parametru je zcela odlišný . Odhad je .
θ=ϕ(X1,⋯,Xne){\ displaystyle \ theta = \ phi (x_ {1}, \ cdots, x_ {n})}
θ{\ displaystyle \ theta}
θ^=ϕne(X1,⋯,Xne)=ϕne(X){\ displaystyle {\ hat {\ theta}} = \ phi _ {n} (x_ {1}, \ cdots, x_ {n}) = \ phi _ {n} (X)}
Stejně jako dříve, považujeme odhad vzorku zbaven j th pozorování :
θ{\ displaystyle \ theta}
X-j{\ displaystyle X _ {- j}}
θ^j=ϕne-1(X-j),{\ displaystyle {\ hat {\ theta}} _ {j} = \ phi _ {n-1} (X _ {- j}),}
který umožňuje pózovat
θ^j∗=neθ^-(ne-1)θ^j,{\ displaystyle {\ hat {\ theta}} _ {j} ^ {\ ast} = n {\ hat {\ theta}} - (n-1) {\ hat {\ theta}} _ {j},}
jako j -tého pseudo hodnoty.
Tyto dílčí odhady lze považovat za nezávislé a očekávané proměnné . Poté můžeme definovat odhadce kapesního nože pomocí empirického průměru:
θ{\ displaystyle \ theta}
θ{\ displaystyle \ theta}
θ^∗=1ne∑jθ^j∗.{\ displaystyle {\ hat {\ theta}} ^ {\ ast} = {\ frac {1} {n}} \ součet _ {j} {\ hat {\ theta}} _ {j} ^ {\ ast} .}
Můžeme zobecnit tento přístup tím, že vezmeme v úvahu, že vzorek amputovaný již není jediným pozorováním, ale několika. Klíčovým bodem zůstává definice pseudo hodnot a jejich průměr .
θ^j∗{\ displaystyle {\ hat {\ theta}} _ {j} ^ {\ ast}}
θ^∗{\ displaystyle {\ hat {\ theta}} ^ {\ ast}}
Redukce zkreslení
Obecná zásada
Maurice Quenouille v roce 1949 ukázal, že odhadce kordového nože umožňuje snížit zkreslení původního odhadu . Předpokládejme to . Lze samozřejmě vzít v úvahu i další pojmy . Pro všechna j platí totéž pro částečný odhad , až na to, že n je nahrazeno .
θ^{\ displaystyle {\ hat {\ theta}}}
E(θ^)=θ(1+nane-1){\ displaystyle E ({\ hat {\ theta}}) = \ theta (1 + an ^ {- 1})}
ne-2,ne-3{\ displaystyle n ^ {- 2}, n ^ {- 3}}
θ^j{\ displaystyle {\ hat {\ theta}} _ {j}}
ne-1{\ displaystyle n-1}
Klíčovým prvkem je provedení
θ^j∗=neθ^-(ne-1)θ^j.{\ displaystyle {\ hat {\ theta}} _ {j} ^ {\ ast} = n {\ hat {\ theta}} - (n-1) {\ hat {\ theta}} _ {j}.}
v
E(θ^j∗)=neE(θ^)-(ne-1)E(θ^j),{\ displaystyle E ({\ hat {\ theta}} _ {j} ^ {\ ast}) = nE ({\ hat {\ theta}}) - (n-1) E ({\ hat {\ theta} } _ {j}),}
pak se vyvíjí
E(θ^j∗)=θ[ne(1+nane)-(ne-1)(1+nane-1)]=θ,{\ displaystyle E ({\ hat {\ theta}} _ {j} ^ {\ ast}) = \ theta \ left [n \ left (1 + {\ frac {a} {n}} \ right) - ( n-1) \ left (1 + {\ frac {a} {n-1}} \ right) \ right] = \ theta,}![E ({\ hat \ theta} _ {j} ^ {\ ast}) = \ theta \ left [n \ left (1 + {\ frac {a} {n}} \ right) - (n-1) \ left (1 + {\ frac {a} {n-1}} \ right) \ right] = \ theta,](https://wikimedia.org/api/rest_v1/media/math/render/svg/8984038bf6088ca0c1bf5795e4dace248d8abc94)
což umožnilo odstranit zkreslení prvního řádu. Mohli bychom iterovat, abychom odstranili předsudky vyššího řádu.
Příklad (nestranný odhad rozptylu)
Zvažte odhad variance :
σ^2=1ne∑j(Xj-X¯)2{\ displaystyle {\ hat {\ sigma}} ^ {2} = {\ frac {1} {n}} \ součet _ {j} (x_ {j} - {\ bar {x}}) ^ {2} }
Je dobře známo, že tento odhad je zkreslený. Zvažováním pseudohodnot máme:
θ^j∗=nene-1(Xj-X¯)2,{\ displaystyle {\ hat {\ theta}} _ {j} ^ {\ ast} = {\ frac {n} {n-1}} (x_ {j} - {\ bar {x}}) ^ {2 },}
pak odvodíme, že:
θ^∗=1ne-1∑j(Xj-X¯)2,{\ displaystyle {\ hat {\ theta}} ^ {\ ast} = {\ frac {1} {n-1}} \ sum _ {j} (x_ {j} - {\ bar {x}}) ^ {2},}
což je nezaujatý odhad variance. Právě jsme snížili zaujatost.
Interval spolehlivosti
Další použití metody kudla, kvůli John Tukey v roce 1958, je poskytnout interval spolehlivosti pro odhadce ; rozptyl druhého je:
θ^∗{\ displaystyle {\ hat {\ theta}} ^ {\ ast}}
σ2^(θ^∗)=1neσ2^(θ^j∗)=(ne-1)ne∑j(θ^j∗-θ^∗)2{\ displaystyle {\ widehat {\ sigma ^ {2}}} ({\ hat {\ theta}} ^ {\ ast}) = {\ frac {1} {n}} {\ widehat {\ sigma ^ {2 }}} ({\ hat {\ theta}} _ {j} ^ {\ ast}) = {\ frac {(n-1)} {n}} \ sum _ {j} \ left ({\ hat { \ theta}} _ {j} ^ {\ ast} - {\ hat {\ theta}} ^ {\ ast} \ vpravo) ^ {2}}
Můžeme tedy konstruovat jako přibližný interval spolehlivosti na prahu :
1-α{\ displaystyle 1- \ alpha}
θ^∗±tα/2;ne-1σ2^(θ^∗){\ displaystyle {\ hat {\ theta}} ^ {\ ast} \ pm t _ {\ alpha / 2; n-1} {\ sqrt {{{\ widehat {\ sigma ^ {2}}} ({\ klobouk {\ theta}} ^ {\ ast})}}}
kde je vhodný kvantil studentského zákona .
tα/2;ne-1{\ displaystyle t _ {\ alpha / 2; n-1}}
Statistický test
Kapesní nůž lze také použít k testování hypotézy ; stačí porovnat normalizovanou proměnnou
(H0):θ=θ0{\ displaystyle (H_ {0}): \; \ theta = \ theta _ {0}}
Z=ne(θ^∗-θ0)σ2^(θ^∗){\ displaystyle Z = {\ dfrac {{\ sqrt {n}} \ left ({\ hat {\ theta}} ^ {\ ast} - \ theta _ {0} \ right)} {\ sqrt {{\ widehat {\ sigma ^ {2}}} ({\ hat {\ theta}} ^ {\ ast})}}}}
na studentský zákon parametru n-1.
Bootstrap odkazy
Příklad
Pro n = 25 nezávislých tahů v beta distribuci parametrů (3; 7) uvažujeme (zkreslený) odhad variance:
s^2=1ne∑i(Xi-X¯)2{\ displaystyle {\ hat {s}} ^ {2} = {\ frac {1} {n}} \ součet _ {i} (x_ {i} - {\ bar {x}}) ^ {2}}
0,21876 |
0,11996 |
0,25072 |
0,30178 |
0,14852
|
0,16383 |
0,14686 |
0,29925 |
0,15777 |
0,45958
|
0,41439 |
0,45365 |
0,41157 |
0,29788 |
0,30316
|
0,25900 |
0,69559 |
0,14129 |
0,12868 |
0,14144
|
0,32000 |
0,30767 |
0,30478 |
0,28287 |
0,14855
|
Na vzorku se tento odhad rovná 0,017892 pro skutečnou hodnotu 0,01909091. Odhad hadího nože se rovná 0,01863750: zkreslení, a to i v malém vzorku, bylo sníženo. Můžeme sestrojit 95% interval spolehlivosti: rozptyl odhadu je 5,240744e-05, což dává interval [0,003696325; 0,033578679], který obsahuje skutečnou hodnotu.
Reference
Bibliografie
- (en) MH Quenouille , „ Notes on bias in estimation “ , Biometrika , sv. 43,1956, str. 353-360
- (en) JW Tukey , „ Předpojatost a důvěra v ne tak velké vzorky “ , Annals of Mathematical Statistics , sv. 29,1958, str. 614
Podívejte se také
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">