Ve statistikách , An odhadce je funkce umožňující posoudit neznámé parametry týkající se zákona pravděpodobnosti (například jeho očekávání, nebo jeho variace ). Lze jej například použít k odhadu určitých charakteristik celkové populace z údajů získaných na vzorku , například během průzkumu . Definice a použití těchto odhadů představuje inferenční statistiku .
Kvalita odhadů je vyjádřena jejich konvergencí, předpětím, efektivitou a robustností. Různé metody umožňují získat odhady různých kvalit.
Pokud se pokoušíme odhadnout průměrnou výšku 10letých, můžeme provést průzkum na vzorku populace 10letých (například přístupem ke školám v několika různých prostředích). Průměrná výška vypočtená na tomto vzorku, nazývaná empirický průměr, bude odhadem průměrné výšky 10letých.
Pokoušíme-li se odhadnout celkovou plochu, kterou zaujímá ladem v dané zemi, můžeme provést průzkum na několika částech území stejné velikosti, vypočítat průměrnou plochu, kterou zaujímá ladem, a použít pravidlo proporcionality .
Pokud se někdo snaží určit procento voličů, kteří jsou rozhodnuti hlasovat pro kandidáta A, může provést průzkum na reprezentativním vzorku. Procento hlasů ve prospěch A ve vzorku je odhadem procenta voličů, kteří jsou odhodláni volit A v celkové populaci.
Pokud se snažíme posoudit celkovou populaci ryb v jezeře, můžeme použít metodu CMR ( Capture-mark-recapture ): začneme sbíráním n ryb, zazvoníme jim, abychom je mohli později identifikovat, uvolnit nechte je smíchat s jinými rybami. Poté vezmeme vzorek ryb z jezera, vypočítáme podíl p prstencových ryb. Hodnota n / p je odhadem celkové populace ryb v jezeře. Pokud ve vzorku nejsou žádné pruhované ryby, provede se další losování.
Odhadcem je často průměr, celková populace, podíl nebo rozptyl .
Nechť je prostor pravděpodobnosti . Zajímá nás náhodná proměnná X neznámého rozdělení pravděpodobnosti. Předpokládáme, že provedeme několik pozorování této náhodné proměnné.
Formálně budeme sledovat provádění tice ( X 1 , ..., X n ) z nezávislých a identicky distribuované proměnné , které následují stejný zákon jako X . Tato N-tice je označován jako vzorek na n prvků náhodné proměnné X. .
Chceme znát parametr θ, který závisí na zákonu X (například jeho očekávání nebo jeho rozptyl). K tomu, definujeme odhad jako měřitelná náhodné proměnné s ohledem na vzorku n prvky X . Jinými slovy, odhadce je funkce, díky které odpovídá každé možné realizaci x 1 , ..., x n vzorku s n prvky hodnotu, kterou nazýváme odhadem nebo odhadem .
Definice -
Formálně může odhadce přijmout pouze pevný počet n argumentů. V praxi obecně uvažujeme o řadě odhadů pro každou velikost vzorku, které se také říká odhad.
Odhadce samozřejmě nesmí nikdy záviset na θ , záleží pouze na empirických pozorováních (tj. Na realizaci vzorku).
Odhadovatel je hodnota vypočítaná na náhodném vzorku , takže hodnotou je náhodná proměnná s očekáváním a rozptylem . Je proto pochopitelné, že jeho hodnota může kolísat v závislosti na vzorku. Má velmi malou šanci přesně se shodovat s hodnotou θ, kterou má představovat. Cílem je tedy kontrolovat chyby, které vznikly převzetím hodnoty pro hodnotu θ .
Náhodná proměnná kolísá kolem svého očekávání. Můžeme si tedy přát, aby se očekávání rovnalo θ , nebo aby se v „průměru“ nemýlil odhadce.
Definice -
Když se očekávání odhadce rovná θ , tj. Zkreslení je nulové, odhaduje se, že je nezaujatý.
Výše uvedený odhad pro průměrnou výšku 10letých je nestranný odhad.
Ve své knize dynamické programování , Richard Bellman násilně napadne příliš systematické vyhledávání pro nestranné odhady, připomíná pomocí příkladů, které zkreslené odhadců může mít rychlejší konvergence, a tudíž větší praktickou účinnost. .
Střední kvadratická chyba je očekávání druhé mocniny chyby mezi skutečnou hodnotou a její odhadovanou hodnotou.
Definice -
Chceme také být schopni zvětšit velikost vzorku a snížit tak chybu způsobenou namísto θ . Pokud tomu tak je, říkáme, že odhad je konvergentní (vidíme také konzistentní ), to znamená, že konverguje k jeho skutečné hodnotě. Přesná definice v matematice je následující:
Definice - Odhad je konvergentní, pokud konverguje v pravděpodobnosti k t Vstup takto: .
Vykládá se to jako skutečnost, že pravděpodobnost odklonu od hodnoty, která má být odhadnuta o více než ε, má sklon k 0, jak se zvětšuje velikost vzorku.
Nakonec existuje silnější typ konvergence, téměř bezpečná konvergence, která je pro odhadce definována následovně:
Definice - Odhadce je silně konvergentní, pokud téměř jistě konverguje k θ , to znamená:
Příklad: empirické střední je konvergentní odhadem očekávání náhodné proměnné. Slabý zákon velkých čísel zajišťuje, že průměrné konverguje v pravděpodobnosti k očekáváním a silné zákona velkých čísel , která konverguje téměř jistě.
Náhodná veličina kolísá kolem svého očekávání. Čím nižší je rozptyl , tím menší jsou variace. Snažíme se proto udržet rozptyl na co nejnižší úrovni. O nezaujatém odhadci, pro který se vazba Cramér-Rao stává rovností, se říká, že je efektivní.
Stává se, že se během průzkumu objeví extrémní a vzácná hodnota (například 10leté dítě měřící 1,80 m ). Chceme, aby tento druh hodnoty změnil hodnotu odhadce jen velmi mírně. Potom říkáme, že odhad je robustní .
Příklad: Vrátíme-li se k příkladu dítěte, střední hodnota není robustní odhad, protože přidání velmi vysokého potomka významně změní hodnotu odhadce. Medián, na druhé straně, se nemění v tomto případě.
Je umístěn v jednoduchém případě náhodného výběru n jedinců v populaci, obsahující N . Zajímá nás kvantitativní charakter Y se střední hodnotou Y a odchylkou Var ( Y ) . V nakresleném vzorku je kvantitativní znak y , jeho průměr je y a jeho rozptyl je . Hodnoty y a σ 2 se liší v závislosti na vzorku a jsou tedy náhodnými proměnnými, každá s očekáváním, odchylkou a směrodatnou odchylkou .
Obecně bereme jako odhad Y hodnotu: . volal empirické průměr Y . Dokazujeme, že jde o nestranný odhad, to znamená
Jeden by si mohl myslet, že σ 2 je dobrý odhad Var ( Y ) . Výpočty (viz směrodatná odchylka ) však dokazují, že tento odhad je předpjatý, očekávání σ 2 je vždy menší než Var ( Y ) . Dokazujeme, že nestranný odhad Var ( Y ) je:
Můžeme si všimnout, že pro velké N poskytuje výpočet s náhradou a výpočet bez náhrady téměř rovnocenné výsledky. (kvocientN - 1NEje pak blízko 1). Proto pro nezaujatý odhadce V ( Y ) obecně vezmeme hodnotu: volal empirický rozptyl bez zkreslení Y .
To, jak y kolísá kolem svého očekávání, závisí na jeho rozptylu Var ( y ) . Tato odchylka se vypočítá pomocí Var ( Y ) .
Můžeme si všimnout, že pro N velmi velký před n jsou dvě hodnoty velmi blízké. Následně nás tedy bude zajímat pouze případ kreslení s nahrazením, když vezmeme v úvahu, že N je velmi velký.
Vidíme, že čím větší je n , tím menší je V ( y ) . Proto čím větší je vzorek, tím vyšší je odhad , že je účinná.
Tyto Bienaymé-Tchebychev nerovnost upřesňuje, že pro jakoukoli striktně pozitivní reálné £ , aby Nebo konverguje k 0, když n se blíží nekonečnu. To je stejné : odhad je tam konvergující.
Nakonec z centrální limitní věty vyplývá, že pro n relativně velká náhodná proměnná y sleduje (přibližně) normální zákon očekávání Y a rozptyluV ( Y )nerozptyl, u kterého lze odhadnout, že se blíží s 2ne. U libovolného normálního rozdělení se v 95% případů náhodná proměnná odchýlí od svého očekávání o méně než dvojnásobek své standardní odchylky. V případě průzkumu to znamená, že existuje 95% šance, že se odhadce y odchýlí od Y o méně než . Interval se nazývá 95% interval spolehlivosti . Všimněte si, že pro vydělení délky intervalu spolehlivosti 10, která spočívá ve zvýšení přesnosti odhadce, musí být velikost vzorku vynásobena 10 2 = 100.
Často mluvíme o přesnosti průzkumu: je poměr mezi směrodatnou odchylkou a střední hodnoty náhodné veličiny Y . Pokud je průzkum přesný například na 2%, je to proto, že tento poměr je 2%. To znamená, že 95% interval spolehlivosti je [0,96 Y , 1,04 Y ]
Rozdělení populace do homogenních vrstev může významně snížit hodnotu rozptylu odhadce, a proto ji zefektivnit.
Pomocí náhodného losování s nerovnými pravděpodobnostmi provedení průzkumu v několika fázích nebo seskupením zjevně změní vzorce vypočítané dříve.
Nakonec použití pomocných informací někdy umožňuje provést korekci na odhadci, aby se přiblížila skutečné hodnotě.
Jak název napovídá, tato metoda spočívá v maximalizaci funkce zvané funkce pravděpodobnosti , která obsahuje parametr, který chceme odhadnout. Bude tedy mít dobrou šanci, že bude tomuto parametru velmi blízký.
Funkce pravděpodobnosti s ohledem na vzorek n ( x 1 , ..., x i , ..., x n ) :
Odhad získaný touto metodou je obecně nejlepší možný, ale může být zdlouhavý a především vyžaduje zvládnutí složitějších matematických pravidel než metoda momentů (viz níže).
Metoda momentů umožňuje odhadnout parametry: k tomu nastavíme rovnost mezi odpovídajícími teoretickými a empirickými momenty, poté řešením písemných rovnic vyjádříme parametry jako funkci těchto momentů.
Schopnost odhadnout očekávání a rozptyl pak umožňuje odhadnout parametry distribuce (normální zákon , Poissonův zákon atd. ).
Pravděpodobně se někdy pokusíme ověřit teoretický zákon pravděpodobnosti pomocí statistického experimentu. V případě konečné diskrétní proměnné vezmeme jako odhad každé pravděpodobnosti p k frekvenci f k ve vzorku. Protože hodnoty f k jsou náhodné proměnné, je normální, že se tyto odhady úplně neshodují s hodnotami p k . Aby se ověřilo, zda jsou nalezené rozdíly významné nebo ne, provede se test přiměřenosti, z nichž nejznámější je test χ² .