Standardní odchylka

V matematice je směrodatná odchylka (také hláskovaná směrodatná odchylka ) měřítkem rozptylu hodnot ve statistickém vzorku nebo rozdělení pravděpodobnosti . Je definován jako druhá odmocnina z rozptylu či ekvivalentně jako střední kvadratická odchylek od střední . Je psán obecně řeckým písmenem σ („ sigma “), podle standardní odchylky názvu v angličtině. Je homogenní s měřenou proměnnou.

Se standardními odchylkami se setkáváme ve všech oblastech, kde se používají pravděpodobnosti a statistiky, zejména v oblasti průzkumů , fyziky , biologie nebo financí . Obecně umožňují syntetizovat číselné výsledky opakovaného experimentu. Jak v pravděpodobnosti, tak ve statistice se používá k vyjádření dalších důležitých konceptů, jako je korelační koeficient , variační koeficient nebo optimální Neymanovo rozdělení .

Když standardní odchylka populace není známa, její hodnota se aproximuje pomocí odhadů .

Příklady

Počet obyvatel stejné velikosti

Představme si populaci 4 lidí o velikosti 2 metry. Průměrná velikost je 2 metry. Odchylky od průměru jsou 0, takže standardní odchylka je 0 metrů.

Počet obyvatel různých velikostí

Nyní si představte populaci 4 lidí o velikosti 2m, 1,80m, 2,20m a 2m. Průměr je také = 2 metry. Odchylky od průměru jsou nyní 0 m, 0,20 m, 0,20 ma 0 m. Směrodatná odchylka je tedy kvadratickým průměrem těchto odchylek, to znamená, že se rovná přibližně 0,14 m. ${\ displaystyle {\ frac {2 + 1,8 + 2,2 + 2} {4}}}$ ${\ displaystyle {\ sqrt {\ frac {0 ^ {2} + 0,2 ^ {2} + 0,2 ^ {2} + 0 ^ {2}} {4}}}}$

Dějiny

Směrodatná odchylka je veličina, jehož vynález sahá až do XIX th století, který viděl statistika vyvíjet ve Velké Británii .

Právě Abraham de Moivre připsal objev konceptu míry rozptylu, který se objevil v jeho knize Nauka o šancích v roce 1718. Termín standardní odchylka ( „ standardní odchylka “ ) však poprvé použil Karl Pearson v roce 1893 před Královská společnost. Byl to také Karl Pearson, který poprvé použil symbol σ jako standardní směrodatnou odchylku. V roce 1908 William Gosset , známější pod pseudonymem Student, definoval empirickou směrodatnou odchylku vzorku a ukázal, že je důležité ji odlišit od směrodatné odchylky populace . Rozptyl je koncept, který se objevil později, v roce 1918, v textu Ronald Fisher s názvem korelací Entre Příbuzní na předpokladu Mendelian dědičnosti .

Na celkovou populaci

Definice

Z vyčerpávajícího průzkumu $( x 1 , ..., x n )$ kvantitativní proměnné pro všechny jedince populace je směrodatná odchylka druhou odmocninou rozptylu, tj. Řekněme:

{\ displaystyle \ sigma = {\ sqrt {V}} = {\ sqrt {{\ frac {1} {n}} \ součet _ {i = 1} ^ {n} (x_ {i} - {\ overline { x}}) ^ {2}}} = {\ sqrt {{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} ^ {2} - {\ overline { x}} ^ {2}}}.}

Směrodatná odchylka je homogenní s měřenou proměnnou, to znamená, že pokud se změnou jednotky všechny hodnoty vynásobí koeficientem $α> 0$ , směrodatná odchylka se vynásobí stejným koeficientem. Na druhou stranu je směrodatná odchylka invariantní aditivním posunem: přidáme-li ke všem zaznamenaným hodnotám konstantu, směrovou odchylku to nezmění. Tyto dvě vlastnosti činí standardní odchylku indikátorem disperze .

Na rozdíl od jiných indikátorů rozptylu, jako je mezikvartilní rozsah , má směrodatná odchylka tu výhodu, že je možné ji vypočítat z průměrů a směrodatných odchylek oproti rozdělení populace, protože celková odchylka je součtem odchylky průměrů a průměr odchylek. To umožňuje paralelní výpočet směrodatné odchylky .

Standardní odchylka je implementována v Pythonu v knihovně numpys metodou stda v R s funkcí sd.

Vyjádření jako vzdálenost

Směrodatná odchylka je euklidovská vzdálenost od bodu $M$ souřadnice $( x 1 , ..., x n )$ v pravé úhlopříčce generovaná vektorem $(1, ..., 1)$ v , dosažená jeho ortogonálními projekčními souřadnicemi $($ $x$ $, ...,$ $x$ $)$ . $\ mathbb {R} ^ {n}$

Směrodatná odchylka je tedy minimem funkce, která vypočítává vzdálenost mezi $M$ a bodem souřadnic $($ $t$ $, ...,$ $t$ $)$ . ${\ displaystyle t \ mapsto {\ sqrt {{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} -t) ^ {2}}}}$

Variační koeficient

Směrodatnou odchylku lze použít k porovnání homogenity několika populací na stejné proměnné. Například s ohledem na dvě třídy stejné průměrné úrovně a hodnocené podle stejných kritérií bude třída s vyšší standardní odchylkou známek heterogennější. V případě bodování od 0 do 20 je minimální směrodatná odchylka 0 (všechna identická skóre) a může být až 10, pokud má polovina třídy 0/20 a druhá polovina 20/20.

Na druhou stranu nemůžeme porovnávat směrodatné odchylky různých proměnných, jaké jsou a jejichž řádové řády nemusí nutně odpovídat. Pro přísně pozitivní kvantitativní proměnnou pak definujeme variační koeficient , který se rovná střední hodnotě směrodatné odchylky. Toto bezrozměrné číslo nezávisí na zvolené měrné jednotce a umožňuje porovnat rozptyl různých proměnných.

Vysoký variační koeficient může případně signalizovat existenci odlehlé hodnoty. Jedním z kritérií je odmítnout hodnoty, které se liší od průměru o více než trojnásobek standardní odchylky. V případě Gaussova rozdělení je pravděpodobnost takového překročení řádově 3/1000.

Pro náhodnou proměnnou

Definice

Pravděpodobnostní modelování statistického rozdělení spočívá v definování náhodné proměnné , tj. Aplikace $X$ s mírou pravděpodobnosti , která umožňuje definovat pravděpodobnosti formuláře . Údaje o těchto pravděpodobností je zákon pravděpodobnost of $X$ . Modelování je přesné, pokud pravděpodobnost události odpovídá frekvenci výskytu odpovídajících hodnot v testované populaci v souladu se zákonem velkých čísel . $\ mathbb {P}$ ${\ displaystyle \ mathbb {P} (X \ v A)}$

Zajímají nás zde reálné nebo vektorové náhodné proměnné s integrovatelným čtvercem, tj. Jehož očekávání $E (X 2 )$ konverguje. U vektorové proměnné (s hodnotami v plně normovaném vektorovém prostoru ) je očekáváním vektor stejného prostoru a čtverec označuje čtverec normy. Sada těchto proměnných je sama o sobě vektorovým prostorem . ${\ displaystyle \ mathrm {L} ^ {2} (\ Omega)}$

Směrodatná odchylka $X$ je druhá odmocnina rozptylu . ${\ displaystyle \ sigma (X) = {\ sqrt {\ mathbb {E} \ left [\ left (X- \ mathbb {E} [X] \ right) ^ {2} \ right]}} = {\ sqrt {\ mathbb {E} [X ^ {2}] - \ mathbb {E} [X] ^ {2}}}}$

Existence směrodatné odchylky je zajištěna pro ohraničenou náhodnou proměnnou nebo pro připuštění funkce hustoty dominované do nekonečna výkonovou funkcí s $α$ $> 3$ . ${\ displaystyle t \ mapsto {\ frac {1} {t ^ {\ alpha}}}}$

Příklady

V případě, že diskrétní náhodné veličiny , jejichž hodnoty jsou označeny $x I$ , se standardní odchylkou je napsán jako statistické řady , kde $μ$ je očekávání zákona $X$ . ${\ displaystyle p_ {i} = \ mathbb {P} (X = x_ {i})}$ ${\ displaystyle \ sigma: = {\ sqrt {\ suma _ {i = 1} ^ {n} p_ {i} (x_ {i} - \ mu) ^ {2}}} = {\ sqrt {\ vlevo ( \ sum _ {i = 1} ^ {n} p_ {i} {x_ {i}} ^ {2} \ right) - \ mu ^ {2}}}}$

Zejména pokud $X$ je uniformní přes konečnou množinu , tj. Pokud $(x_ {1}, \ dots, x_ {n})$

{\ displaystyle p_ {i} = {\ frac {1} {n}}}

pro všechna

i

mezi 1 a

n

tak

{\ displaystyle \ sigma _ {X}: = {\ sqrt {{\ frac {1} {n}} \ součet _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2} }} = {\ sqrt {{\ frac {1} {n}} \ vlevo (\ sum _ {i = 1} ^ {n} {x_ {i}} ^ {2} \ vpravo) - \ mu ^ { 2}}}}

V případě hustoty náhodné proměnné, pro kterou jsou pravděpodobnosti zapsány, kde $f$ je lokálně integrovatelná funkce , například pro Lebesgueovu míru , ale ne nutně spojitou funkci, je standardní odchylka $X$ definována tím, kde je očekávání $x$ . ${\ mathbb P} _ {X} \ left (] a, b [\ right) = {\ mathbb P} \ left (X \ in] a, b [\ right) = \ int _ {a} ^ {b } f (x) \, {\ mathrm {d}} x$ ${\ displaystyle \ sigma _ {X}: = {\ sqrt {\ int _ {\ mathbb {R}} (x- \ mu) ^ {2} f (x) \ mathrm {d} x}} = {\ sqrt {\ int _ {\ mathbb {R}} x ^ {2} f (x) \ mathrm {d} x- \ mu ^ {2}}}}$ ${\ displaystyle \ mu = \ int _ {\ mathbb {R}} xf (x) \ mathrm {d} x}$

S těmito vzorci a definicí je výpočet směrodatných odchylek pro běžně se vyskytující zákony snadný. Následující tabulka uvádí standardní odchylky některých z těchto zákonů:

Název zákona	Nastavení)	Popis	Standardní odchylka
Bernoulliho zákon	$p \in] 0; 1 [$	Diskrétní zákon o ${0; 1}$ s pravděpodobností $p$ získání 1	${\ displaystyle \ sigma = {\ sqrt {p (1-p)}}}$
Binomický zákon	$n \ in \ mathbb {N} ^ {*}$ a $p \in] 0; 1 [$	Zákon součtu $n$ nezávislých proměnných podle Bernoulliho zákona se stejným parametrem $p$	${\ displaystyle \ sigma = {\ sqrt {np (1-p)}}}$
Geometrický zákon	$p \in] 0; 1 [$	Hodnostní zákon první realizace v posloupnosti nezávislých Bernoulliho proměnných se stejným parametrem $p$	${\ displaystyle \ sigma = {\ sqrt {\ frac {1-p} {p ^ {2}}}}}$
Jednotný segmentový zákon	$a < b$	Zákon o konstantní hustotě na $[ a , b ]$	${\ displaystyle \ sigma = {\ frac {ba} {2 {\ sqrt {3}}}}}$
Exponenciální zákon	${\ displaystyle \ lambda \ in \ mathbb {R} ^ {+ *}}$	Zákon hustoty s konstantní četností poruch $λ$	${\ displaystyle \ sigma = {\ frac {1} {\ lambda}}}$
Poissonův zákon	${\ displaystyle \ lambda \ in \ mathbb {R} ^ {+ *}}$	Zákon o počtu nezávislých realizací v průměru $λ$ $\ mathbb {N}$	${\ displaystyle \ sigma = {\ sqrt {\ lambda}}}$
Zákon χ²	$ne$	Zákon součtu $n$ čtverců nezávislých redukovaných normálních proměnných	${\ displaystyle \ sigma = {\ sqrt {2n}}}$

Pokud proměnná X sleduje lognormální rozdělení, potom $ln X$ sleduje normální rozdělení a směrodatná odchylka X souvisí s geometrickou směrodatnou odchylkou .

Ale ne všechny zákony pravděpodobnosti nutně připouštějí konečnou směrodatnou odchylku: Cauchyho zákon (nebo Lorentzův zákon) nemá žádnou směrodatnou odchylku, ani matematické očekávání.

Vlastnosti

Pozitivita Směrodatná odchylka je vždy kladná nebo nulová. Konstanta je nula. Invariance překladem Směrodatná odchylka se nezmění, pokud přidáme konstantní

b

pro náhodné proměnné

X

σ x + b = σ X

. Stejnorodost Pro nějaké pozitivní konstantní

c

a jakékoliv reálné náhodné veličiny

X

, máme

σ cx = c σ X

. Algebraický součet dvou proměnných Směrodatná odchylka součtu dvou proměnných se zapíše jako

{\ displaystyle \ sigma _ {X + Y} = {\ sqrt {\ sigma _ {X} ^ {2} + \ sigma _ {Y} ^ {2} +2 \ sigma _ {X} \ sigma _ {Y } \ rho (X, Y)}}}

kde $ρ ( X , Y )$ je koeficient korelace mezi dvěma proměnnými X a Y .

Trojúhelníková nerovnost Směrodatná odchylka součtu se zvyšuje o součet směrodatných odchylek:

{\ displaystyle \ sigma _ {X + Y} \ leq \ sigma _ {X} + \ sigma _ {Y}}

. Kromě toho existuje rovnost právě tehdy, když existuje téměř jistý afinní vztah mezi těmito dvěma proměnnými. Euklidovská vzdálenost Směrodatná odchylka skutečné náhodné proměnné

X

je euklidovská vzdálenost této proměnné napravo od konstant v prostoru proměnných připouštějících odchylku. Jedná se tedy o minimum funkce dosažené na konstantě

c

= E (

X

)

{\ displaystyle \ mathbb {R} \ rightarrow \ mathbb {R} ^ {+}: c \ rightarrow {\ sqrt {(| Xc | ^ {2})}}}

Použití

Interval fluktuace

Ve vědě je běžné vzít v úvahu, že měření veličiny jsou distribuována podle Gaussova rozdělení , akumulací chyb měření nebo nezávislou interferencí s jinými jevy, při použití centrální limitní věty . Histogram z pozorovaných hodnot pak blíží křivkou charakteristiku normálního zákona . Křivka, která je zcela definována údaji střední hodnoty a směrodatné odchylky, umožňuje tyto dvě hodnoty definovat fluktuační interval, který koncentruje většinu pozorování.

Výpočet kvantilů tohoto zákona ukazuje například, že pro veličinu splňující toto rozdělení na populaci jedinců se střední hodnotou $ma$ standardní směrodatnou odchylkou $σ$ bude 95% pozorovaných hodnot patřit do intervalu $[ m - 1,96 σ; m + 1,96 σ]$ . Můžeme tedy spojit pravděpodobnosti s intervaly hodnot soustředěných na průměr a jejichž amplituda je násobkem standardní odchylky.

Intervaly fluktuace pro Gaussovo rozdělení

Maximální odchylka od střední hodnoty	Podíl hodnot
${\ displaystyle \ pm \ sigma}$	68,27%
${\ displaystyle \ pm 2 \ sigma}$	95,45%
${\ displaystyle \ pm 3 \ sigma}$	99,73%

V průmyslu se standardní odchylka používá při výpočtu indexu kvality vyráběných výrobků nebo indexu spolehlivosti měřicího zařízení .

Ve fyzice částic je tedy detekce událostí kvantifikována počtem sigmat, což představuje rozdíl mezi pozorovanou hodnotou a očekávaným průměrem při absenci události. Výsledek je považován za významný získáním 5 sigmat, což představuje pravděpodobnost chyby menší než 0,00006% (tj. Úroveň spolehlivosti vyšší než 99,99994%).

V oblasti technické analýzy z cen akcií , směrodatná odchylka je mírou volatility cen. Tyto Bollinger Bands jsou nástroje, které usnadňují analýzu odhadů trhu. John Bollinger zkonstruoval křivku 20denního klouzavého průměru a křivky na obou stranách této křivky se během těchto 20 dnů nacházely na dvojnásobku standardní odchylky. John Bollinger použil upravenou definici směrodatné odchylky. Kromě toho je riziko akciového trhu aktiv a tržní riziko se měří pomocí standardní odchylky výnosů očekávaných v Capital Asset Pricing Model of Harry Markowitz .

Snížená centrovaná proměnná

Pokud $X$ je náhodná proměnná s nenulovou směrodatnou odchylkou, můžeme ji nastavit tak, aby odpovídala vycentrované a redukované proměnné $Z$ definované pomocí . Dvě centrované a redukované náhodné proměnné $Z$ $1$ a $Z$ $2$ lze snadno porovnat, protože $E ($ $Z$ $i$ $) = 0$ a $σ$ $Z$ $i$ $= 1$ . ${\ displaystyle Z = {\ frac {X - {\ bar {X}}} {\ sigma}}}$

Centrální limitní věta se týká limitu posloupnosti náhodných proměnných vystředění snížena, koeficienty šikmosti a špičatost z hustoty pravděpodobnosti, $E ( Z 3 )$ a $E ( Z 4 )$ , který se používá pro porovnání různé distribuce.

Lineární korelační koeficient

Pokud $X$ a $Y$ jsou dvě náhodné proměnné v reálném přiznal jak nenulovou odchylku, lineární korelační koeficient je poměr , kde je kovariance proměnných $X$ a $Y$ . Podle Cauchy-Schwarz , ; korelační koeficient bere své hodnoty v intervalu $[-1;$ $+1]$ . ${\ displaystyle \ operatorname {Cor} (X, Y) = {\ frac {\ operatorname {Cov} (X, Y)} {\ sigma _ {X} \ sigma _ {Y}}}}$ ${\ displaystyle \ operatorname {Cov} (X, Y) = \ mathbb {E} [(X- \ mathbb {E} [X]) \, (Y- \ mathbb {E} [Y])] = \ mathbb {E} [XY] - \ mathbb {E} [X] \ mathbb {E} [Y]}$ ${\ displaystyle | \ operatorname {cov} (X, Y) | \ leq \ sigma _ {X} \ sigma _ {Y}}$

Pokud jsou dvě proměnné nezávislé, lineární korelační koeficient je nula, ale obrácený je nepravdivý.

Pokud je koeficient lineární korelace 1 nebo −1, jsou tyto dvě proměnné téměř jistě v afinním vztahu.

Bienayme-Čebyševova nerovnost

Je to díky nerovnosti Bienaymé-Čebyšev, že se standardní odchylka jeví jako míra rozptylu kolem průměru. Tato nerovnost to skutečně vyjadřuje a ukazuje, že pravděpodobnost, že se $X$ odchýlí od $E ($ $X$ $)$ o více než $k$ násobek standardní odchylky, je menší než $1 /$ $k$ $2$ . ${\ displaystyle P (| XE (X) |> k \ sigma) \ leq {\ frac {1} {k ^ {2}}}}$

Princip nejistoty

V kvantové mechaniky je princip neurčitosti z Heisenberga vyjádřena jako součin standardních odchylek polohy x a puls p o částice je větší než nebo rovna sníženého Planckova konstanta děleno dvěma, a to buď . ${\ displaystyle \ sigma _ {x} \ sigma _ {p} \ geq {\ frac {\ hbar} {2}}}$

Odhad

Pokud není možné znát všechny hodnoty uvažované charakteristiky, nacházíme se v rámci statistické teorie . Statistik poté pokračuje vzorkováním a odhadem k vyhodnocení analyzovaných veličin, jako je směrodatná odchylka.

Odhadce je funkce, umožňující přiblížit parametru populace použitím vzorku učiněny na náhodně , nebo množství, o náhodný jev z jejich několika realizacích.

V případě vzorku o velikosti $n$ , pro který je známa skutečná střední hodnota - nebo očekávání - $μ$ , je odhad takto:

σX=1ne∑i=1ne(Xi-μ)2.{\ displaystyle \ sigma _ {X} = {\ sqrt {{\ frac {1} {n}} \ součet _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2}} }.}

{\ displaystyle \ sigma _ {X} = {\ sqrt {{\ frac {1} {n}} \ součet _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2}} }.}

Bohužel, často nevíme,

μ

a musí být odhadnuta ze vzorku samotného prostřednictvím následujícího odhadce: . Obecně se používají různé odhady směrodatné odchylky. Většina z těchto odhadů je vyjádřena vzorcem:

{\ displaystyle {\ bar {x}} = {\ frac {1} {n}} \ součet _ {i = 1} ^ {n} x_ {i}}

Sk=1k∑i=1ne(Xi-X¯)2.{\ displaystyle S_ {k} = {\ sqrt {{\ frac {1} {k}} \ součet _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}}) ^ { 2}}}.}

{\ displaystyle S_ {k} = {\ sqrt {{\ frac {1} {k}} \ součet _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}}) ^ { 2}}}.}

S n - 1

(nebo S ′ ) je nejpoužívanější odhad, ale někteří autoři doporučují používat

S n

(nebo

S

Vlastnosti odhadců

Dvě důležité vlastnosti odhadů jsou konvergence a osvobození od předpětí .

Pro všechna $k$ taková, že $k / n se blíží$ 1, zákon velkého počtu zaručuje, že $S 2 n$ pak $S 2 k$ jsou konvergentní odhady z $å 2$ . Díky teorému spojitosti říká , že pokud je $f$ spojité, pak . Protože druhá odmocnina je spojitá, $S$ $k$ také konverguje k $σ$ . Zejména $S$ $n$ a $S$ $n$ $- 1$ jsou konvergentní odhady z $å$ , které odráží aproximaci $å$ od těchto dvou sérií, když n se stává větší a větší, a potvrzuje statistik používat tyto odhady. ${\ displaystyle \ lim \ limity _ {n \ až \ infty} f (X_ {n}) = f (\ lim \ limity _ {n \ až \ infty} X_ {n})}$

Odhad variance $S 2 n - 1,5$ je nezaujatý. Nelineárnost funkce druhé odmocniny však způsobí, že $S n - 1 bude$ mírně předpjatý. Odhady $S 2 n$ a $S n$ jsou zkreslené. Skutečnost, že do výpočtu rozptylu není $zahrnuto n,$ ale $n - 1$ ve jmenovateli ( Besselova korekce ), vychází ze skutečnosti, že stanovení průměru $x$ ze vzorku ztrácí určitý stupeň volnosti, protože vzorec spojuje $x$ s hodnotami $x$ $i$ . Máme tedy pouze $n$ $- 1$ nezávislých hodnot po výpočtu $x$ . V případě, že se člověk snaží odhadnout směrodatnou odchylku normálního rozdělení, má objektivní odhad $σ$ blízký $S$ $n$ $- 1,5$ . Volba ${$ $n$ $- 1,5}$ umožňuje opravit další zkreslení spojené s druhou odmocninou. ${\ displaystyle {\ bar {x}} = {\ frac {1} {n}} \ součet _ {i = 1} ^ {n} x_ {i}}$

Přesnost, daná střední kvadratickou chybou, je obtížné výslovně vypočítat pro jakékoli zákony. Zdálo by se však, že i přes větší zkreslení, $S n$ je přesnější než $S n -1$ .

Směrodatná odchylka průměrů

Pro odhad přesnosti odhadu průměru proměnné se používá metoda výpočtu směrodatné odchylky distribuce vzorkování průměrů. Také se nazývá standardní chyba průměru ( „ standardní chyba “ ), je to standardní odchylka průměrů vzorků stejné velikosti populace. Pokud $n$ je velikost vzorků odebraných z populace směrodatné odchylky $σ$ a pokud $N$ je velikost populace, pak . Pokud není směrodatná odchylka $σ$ populace známa, lze ji nahradit odhadcem $S$ $n$ $-1$ . Když je $n$ dostatečně velké ( $n$ $\geq 30$ ), distribuce vzorkování se přibližně řídí Laplaceovým-Gaussovým zákonem, který umožňuje odvodit interval spolehlivosti, což je funkce umožňující lokalizovat průměr populace ve vztahu ke vzorku znamenat. ${\ displaystyle \ sigma _ {\ bar {x}}}$ ${\ displaystyle \ sigma _ {\ bar {x}} = {\ frac {\ sigma} {\ sqrt {n}}} {\ sqrt {\ frac {Nn} {N-1}}}}$ ${\ displaystyle \ sigma _ {\ bar {x}}}$

Směrodatná odchylka empirických směrodatných odchylek

Obecně je velmi obtížné vypočítat zákon rozdělení empirických směrodatných odchylek. Ale pokud $X n$ je posloupnost náhodných proměnných distribuovaných podle normálního rozdělení , pak se řídí zákonem $χ$ $2$ s $n$ stupni volnosti . Tento zákon má pro směrodatnou odchylku $\sqrt$ $2$ $n,$ a proto směrodatná odchylka distribuce odchylek normálních proměnných má pro vyjádření . ${\ displaystyle {\ mathcal {N}} (\ mu, \ sigma ^ {2})}$ ${\ displaystyle n {\ frac {S_ {n} ^ {2}} {\ sigma ^ {2}}}}$ ${\ displaystyle \ sigma _ {S_ {n} ^ {2}} = \ sigma ^ {2} {\ sqrt {\ frac {2} {n}}}}$

Názorový průzkum

V průzkumech veřejného mínění směrodatná odchylka měří nejistotu náhodných variací $x$ obsaženou v průzkumu, která se nazývá míra chyby způsobená náhodnými změnami. ${\ displaystyle \ sigma _ {\ bar {x}}}$

Navíc s reprezentativní metodou vzorkování, když mají různé vrstvy velmi odlišné směrodatné odchylky, se směrodatná odchylka používá k výpočtu optimálního Neymanova rozdělení, které umožňuje vyhodnotit populaci v různých vrstvách podle jejich směrodatné odchylky; jinými slovy velikost vzorku ve vrstvě $i$ , kde $n$ je celková velikost vzorku, $N$ $i$ je velikost vrstvy $i$ , $σ$ $i$ směrodatná odchylka vrstvy $i$ . ${\ displaystyle n_ {i} = n {\ frac {N_ {i} \ sigma _ {i}} {\ součet N_ {j} \ sigma _ {j}}}}$

Algoritmicky

Standardní odchylky získané počítačovým programem mohou být nesprávné, pokud nepoužíváme algoritmus přizpůsobený datům, například když použijeme algoritmus, který přímo využívá vzorec na velkých vzorcích hodnot mezi 0 a 1. ${\ displaystyle {\ sqrt {{\ frac {1} {n}} \ vlevo (\ sum _ {i = 1} ^ {n} {x_ {i}} ^ {2} \ vpravo) - \ vlevo ({ {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i}} \ vpravo) ^ {2}}}}$

Jedním z nejlepších algoritmů je BP Welford, který popisuje Donald Knuth ve své knize The Art of Computer Programming , sv. 2 .

Aproximace směrodatné odchylky směru větru je dána algoritmem Yamartino, který se používá v moderních anemometrech .

Poznámky a odkazy

Poznámky

Ve skutečnosti máme: ${\ displaystyle {\ frac {1} {n}} \ součet _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} ^ {2} + {\ bar {x}} ^ {2} -2x_ {i} {\ bar {x}}) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} ^ {2} + {\ bar {x}} ^ {2} -2 {\ bar {x }} ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} ^ {2} - {\ bar {x}} ^ {2}. }$
Pokud n studenti mají 0/20 a n studenti mají 20/20, tj. Vzorek obsahuje n krát hodnotu 20 a n krát hodnotu 0, průměr je ; nechť $X$ $= 10$ a $X$ $2$ $= 100$ . Čtvercové hodnoty, označené $X$ $2$ , jsou n krát 400 an n krát 0. Průměr $X$ $2$ je tedy stejný . Dedukujeme, že odchylka se rovná 100 a směrodatná odchylka je 10. ${\ displaystyle {\ tfrac {n \ krát 20} {n + n}}}$
${\ displaystyle {\ overline {X ^ {2}}} = 200}$
Druhá rovnost je dána König-Huygensovou větou .
Všechny tyto vlastnosti jsou přímým důsledkem Huygensovy věty a vlastností matematického očekávání.
Nerovnost vyplývá z rovnosti předchozího rámce a korelačního koeficientu . ${\ Displaystyle -1 \ leq \ rho (X, Y) \ leq 1}$
Podle věty o spojitosti máme:
Věta - Je - li $g$ spojité, pak: ${\ displaystyle X_ {n} {\ xrightarrow {\ mathbb {P}}} X \ Longrightarrow g (X_ {n}) {\ xrightarrow {\ mathbb {P}}} g (X)}$
. Protože druhá odmocnina je spojitá funkce , $S n -1$ a $S n$ jsou konvergentní odhady směrodatné odchylky, jinými slovy: ${\ displaystyle S_ {n-1} {\ xrightarrow {\ mathbb {P}}} \ sigma {\ text {et}} S_ {n} {\ xrightarrow {\ mathbb {P}}} \ sigma}$
podle definice zákona $χ 2$

Reference

Specializované knihy

Bernstein 1996 , str. 127.
Dodge 2010 , str. 506
Saporta 2006 , str. 279-280
Saporta 2006 , s. 121
(in) David R. Anderson , Dennis J. Sweeney a Thomas A. Williams , „ statistika “ , Encyclopaedia Britannica Ultimate Reference Suite ,2010, statistika
Saporta 2006 , s. 16
Saporta 2006 , str. 30
Rioul 2008 , s. 45
Saporta 2006 , s. 31
Saporta 2006 , s. 38
Saporta 2006 , str. 39
Saporta 2006 , s. 33
Dodge 2010 , str. 71
(in) Warren H. Finlay , The Mechanics of Inhaled Pharmaceutical Aerosols: An Introduction , San Diego, Academic Press,2001, 320 s. ( ISBN 978-0-12-256971-5 , číst online ) , s. 5
Dodge 2010 , str. 60
Saporta 2006 , s. 23-25
Saporta 2006 , s. 26
Rioul 2008 , s. 146
Saporta 2006 , s. 43-44
Jean-Pierre Petit , La Bourse: Rupture et Renouveau , Paříž, ekonomika Odile Jacob,2003, 285 s. ( ISBN 978-2-7381-1338-2 , číst online ) , s. 36
Gautier a kol. 1975 , s. 387
Saporta 2006 , s. 66
Rioul 2008 , s. 157
Rioul 2008 , s. 175
Rioul 2008 , s. 178
Saporta 2006 , s. 25
Jacquard 1976 , str. 28-29
Saporta 2006 , s. 289
Tufféry 2010 , s. 655
Rioul 2008 , s. 253
Dodge 2010 , str. 508-509
Dodge 2010 , str. 472
Vessereau 1976 , s. 56

Články v deníku

(in) Ronald Aylmar Fisher , „ The Correlation entre Relatives on the Supposition of Mendelian Inheritance “ , Philosophical Transaction of the Royal Society of Edinburgh , sv. 52,1918, str. 399–433 ( číst online [PDF] )
Sylvie Méléard, „ Random: Introduction to the theory and calculus of probencies “ [PDF] (přístup 7. května 2012 ) , str. 57,94
P. Ferignac , „ Řízení příjmu kvantitativní nebo měřením. », Journal of Applied Statistics , roč. 7, n O 21959( číst online [PDF] , přístup 26. března 2012 )
P. Ferignac , „ Chyby měření a kontrola kvality. », Journal of Applied Statistics , roč. 13, n O 21965( číst online [PDF] , přístup 26. března 2012 )
Rolf Heuer , „ Konec roku plného napětí “, CERN Weekly Bulletin , roč. 2012 N O 3,2012( číst online , konzultováno 27. dubna 2012 )
(in) John Bollinger , „ Bollinger Bands Introduction “ (přístup 27. dubna 2012 )
P Fery , „ Rizikové a socioekonomické výpočty “, Centrum strategické analýzy ,2010( číst online [PDF] , přístup k 8. dubnu 2012 )
Yves Meyer , „ Princip nejistoty, Hilbertovy základy a operátorské algebry. », Bourbaki Seminar , roč. 662,Únor 1986( číst online [PDF] , přístup 4. dubna 2012 )
Emmanuel Grenier : „ Jaký je„ správný “vzorec pro směrodatnou odchylku? », Revue Modulad , n o 37 ° C,prosince 2007( číst online [PDF] , zpřístupněno 18. února 2012 )
Richard M. Brugger , „ Poznámka k nestrannému odhadu směrodatné odchylky, “ americký statistik , sv. 23, n O 4,1 st 10. 1969, str. 32–32 ( ISSN 0003-1305 , DOI 10.1080 / 00031305.1969.10481865 , číst online , přístup 29. března 2019 )
W.E. Deming , „ Některé metody průzkumu. », Journal of Applied Statistics , roč. 12, n O 4,1964( číst online [PDF] , přístup 9. dubna 2012 )
(in) John D. Cook, „ Teoretické vysvětlení číselných výsledků “ (zpřístupněno 20. dubna 2012 )
(in) John D. Cook, „ Srovnání tří metod výpočtu směrodatné odchylky “ (zpřístupněno 20. dubna 2012 )
(in) BP Welford , „ Hodnocení bylo Metodou pro výpočet opravených součtů čtverců a produktů “ , Technometrics , sv. 4, n o 3,Srpna 1962, str. 419-420 ( číst online [PDF] , přístup 4. dubna 2012 )
(in) John D. Cook, „ Accurately computing running variance “ (přístup k 20. dubnu 2012 )
(in) RJ Yamartino , „ Srovnání několika„ jednoprůchodových “odhadů směrodatné odchylky směru větru “ , Časopis klimatu a aplikované meteorologie , let. 23, Leden 1984, str. 1362-1366 ( číst online [PDF] , konzultováno 27. dubna 2012 )
(in) Mike Bagot, „ Victorian Urban Wind Resource Assessment “ [PDF] (přístup k 24. dubnu 2012 )

Další reference

„ Základy popisné statistiky “ , na adrese www.che.utah.edu (přístup 18. dubna 2019 )

Podívejte se také

Bibliografie

Gilbert Saporta , Pravděpodobnost, Analýza a statistika dat , Paříž, Éditions Technip,2006, 622 s. [ detail vydání ] ( ISBN 978-2-7108-0814-5 , online prezentace ), druhé vydání
Alain Monfort , kurz matematické statistiky , Paříž, edice Economica,1997, 333 s. ( ISBN 2-7178-3217-3 ).
(en) Encyclopaedia Britannica Ultimate Reference Suite , Chicago, Encyclopædia Britannica,2010.
Olivier Rioul , Teorie pravděpodobností , Paříž, edice věd Hermes,2008, 364 s. ( ISBN 978-2-7462-1720-1 ).
(en) Yadolah Dodge , Stručná encyklopedie statistik , New York, Springer,2010, 622 s. ( ISBN 978-0-387-31742-7 , číst online ).
Stéphane Tufféry , Statistika těžby dat a rozhodování: datová inteligence , Paříž, edice Technip,2010, 705 s. ( ISBN 978-2-7108-0946-3 , číst online ).
(en) Peter L. Bernstein , Against the Gods: The Remarkable Story of Risk , New York, John Wiley & Sons, Inc. ,1996, 383 s. ( ISBN 978-0-471-12104-6 ).
Albert Jacquard , Les Probabilities , Paris, Presses Universitaires de France , kol. "Que Sais-je" ( n o 1571),1976, 125 s. ( ISBN 2-13-036532-9 ).
C. Gautier , G. Girard , D. Gerll , C. Thiercé a A. Warusfel , Aleph1 Analyze , Paříž, vydání Hachette,1975, 465 s. ( ISBN 2-01-001370-0 ).
André Vessereau , La statistique , Paříž, Presses Universitaires de France , kol. "Que Sais-je" ( n o 281),1976, 128 s. ( ISBN 2-13-052942-9 ).
(en) Richard Herrnstein a Charles Murray , The Bell Curve: Intelligence and Class Structure in American Life , New York, Simon & Schuster Ltd,1994, 896 s. ( ISBN 978-0-684-82429-1 ) , dodatek 1, „Statistiky pro lidi, kteří si jisti, že se statistiky nemohou naučit“

Související články

externí odkazy

(en) Algoritmy pro výpočet rozptylu