V matematice je směrodatná odchylka (také hláskovaná směrodatná odchylka ) měřítkem rozptylu hodnot ve statistickém vzorku nebo rozdělení pravděpodobnosti . Je definován jako druhá odmocnina z rozptylu či ekvivalentně jako střední kvadratická odchylek od střední . Je psán obecně řeckým písmenem σ („ sigma “), podle standardní odchylky názvu v angličtině. Je homogenní s měřenou proměnnou.
Se standardními odchylkami se setkáváme ve všech oblastech, kde se používají pravděpodobnosti a statistiky, zejména v oblasti průzkumů , fyziky , biologie nebo financí . Obecně umožňují syntetizovat číselné výsledky opakovaného experimentu. Jak v pravděpodobnosti, tak ve statistice se používá k vyjádření dalších důležitých konceptů, jako je korelační koeficient , variační koeficient nebo optimální Neymanovo rozdělení .
Když standardní odchylka populace není známa, její hodnota se aproximuje pomocí odhadů .
Představme si populaci 4 lidí o velikosti 2 metry. Průměrná velikost je 2 metry. Odchylky od průměru jsou 0, takže standardní odchylka je 0 metrů.
Nyní si představte populaci 4 lidí o velikosti 2m, 1,80m, 2,20m a 2m. Průměr je také = 2 metry. Odchylky od průměru jsou nyní 0 m, 0,20 m, 0,20 ma 0 m. Směrodatná odchylka je tedy kvadratickým průměrem těchto odchylek, to znamená, že se rovná přibližně 0,14 m.
Směrodatná odchylka je veličina, jehož vynález sahá až do XIX th století, který viděl statistika vyvíjet ve Velké Británii .
Právě Abraham de Moivre připsal objev konceptu míry rozptylu, který se objevil v jeho knize Nauka o šancích v roce 1718. Termín standardní odchylka ( „ standardní odchylka “ ) však poprvé použil Karl Pearson v roce 1893 před Královská společnost. Byl to také Karl Pearson, který poprvé použil symbol σ jako standardní směrodatnou odchylku. V roce 1908 William Gosset , známější pod pseudonymem Student, definoval empirickou směrodatnou odchylku vzorku a ukázal, že je důležité ji odlišit od směrodatné odchylky populace . Rozptyl je koncept, který se objevil později, v roce 1918, v textu Ronald Fisher s názvem korelací Entre Příbuzní na předpokladu Mendelian dědičnosti .
Z vyčerpávajícího průzkumu ( x 1 , ..., x n ) kvantitativní proměnné pro všechny jedince populace je směrodatná odchylka druhou odmocninou rozptylu, tj. Řekněme:
Směrodatná odchylka je homogenní s měřenou proměnnou, to znamená, že pokud se změnou jednotky všechny hodnoty vynásobí koeficientem α> 0 , směrodatná odchylka se vynásobí stejným koeficientem. Na druhou stranu je směrodatná odchylka invariantní aditivním posunem: přidáme-li ke všem zaznamenaným hodnotám konstantu, směrovou odchylku to nezmění. Tyto dvě vlastnosti činí standardní odchylku indikátorem disperze .
Na rozdíl od jiných indikátorů rozptylu, jako je mezikvartilní rozsah , má směrodatná odchylka tu výhodu, že je možné ji vypočítat z průměrů a směrodatných odchylek oproti rozdělení populace, protože celková odchylka je součtem odchylky průměrů a průměr odchylek. To umožňuje paralelní výpočet směrodatné odchylky .
Standardní odchylka je implementována v Pythonu v knihovně numpys metodou stda v R s funkcí sd.
Směrodatná odchylka je euklidovská vzdálenost od bodu M souřadnice ( x 1 , ..., x n ) v pravé úhlopříčce generovaná vektorem (1, ..., 1) v , dosažená jeho ortogonálními projekčními souřadnicemi ( x , ..., x ) .
Směrodatná odchylka je tedy minimem funkce, která vypočítává vzdálenost mezi M a bodem souřadnic ( t , ..., t ) .
Směrodatnou odchylku lze použít k porovnání homogenity několika populací na stejné proměnné. Například s ohledem na dvě třídy stejné průměrné úrovně a hodnocené podle stejných kritérií bude třída s vyšší standardní odchylkou známek heterogennější. V případě bodování od 0 do 20 je minimální směrodatná odchylka 0 (všechna identická skóre) a může být až 10, pokud má polovina třídy 0/20 a druhá polovina 20/20.
Na druhou stranu nemůžeme porovnávat směrodatné odchylky různých proměnných, jaké jsou a jejichž řádové řády nemusí nutně odpovídat. Pro přísně pozitivní kvantitativní proměnnou pak definujeme variační koeficient , který se rovná střední hodnotě směrodatné odchylky. Toto bezrozměrné číslo nezávisí na zvolené měrné jednotce a umožňuje porovnat rozptyl různých proměnných.
Vysoký variační koeficient může případně signalizovat existenci odlehlé hodnoty. Jedním z kritérií je odmítnout hodnoty, které se liší od průměru o více než trojnásobek standardní odchylky. V případě Gaussova rozdělení je pravděpodobnost takového překročení řádově 3/1000.
Pravděpodobnostní modelování statistického rozdělení spočívá v definování náhodné proměnné , tj. Aplikace X s mírou pravděpodobnosti , která umožňuje definovat pravděpodobnosti formuláře . Údaje o těchto pravděpodobností je zákon pravděpodobnost of X . Modelování je přesné, pokud pravděpodobnost události odpovídá frekvenci výskytu odpovídajících hodnot v testované populaci v souladu se zákonem velkých čísel .
Zajímají nás zde reálné nebo vektorové náhodné proměnné s integrovatelným čtvercem, tj. Jehož očekávání E ( X 2 ) konverguje. U vektorové proměnné (s hodnotami v plně normovaném vektorovém prostoru ) je očekáváním vektor stejného prostoru a čtverec označuje čtverec normy. Sada těchto proměnných je sama o sobě vektorovým prostorem .
Směrodatná odchylka X je druhá odmocnina rozptylu .
Existence směrodatné odchylky je zajištěna pro ohraničenou náhodnou proměnnou nebo pro připuštění funkce hustoty dominované do nekonečna výkonovou funkcí s α > 3 .
V případě, že diskrétní náhodné veličiny , jejichž hodnoty jsou označeny x I , se standardní odchylkou je napsán jako statistické řady , kde μ je očekávání zákona X .
Zejména pokud X je uniformní přes konečnou množinu , tj. Pokud
pro všechna i mezi 1 a n ,tak
.V případě hustoty náhodné proměnné, pro kterou jsou pravděpodobnosti zapsány, kde f je lokálně integrovatelná funkce , například pro Lebesgueovu míru , ale ne nutně spojitou funkci, je standardní odchylka X definována tím, kde je očekávání x .
S těmito vzorci a definicí je výpočet směrodatných odchylek pro běžně se vyskytující zákony snadný. Následující tabulka uvádí standardní odchylky některých z těchto zákonů:
Název zákona | Nastavení) | Popis | Standardní odchylka |
---|---|---|---|
Bernoulliho zákon | p ∈] 0; 1 [ | Diskrétní zákon o {0; 1} s pravděpodobností p získání 1 | |
Binomický zákon | a p ∈] 0; 1 [ | Zákon součtu n nezávislých proměnných podle Bernoulliho zákona se stejným parametrem p | |
Geometrický zákon | p ∈] 0; 1 [ | Hodnostní zákon první realizace v posloupnosti nezávislých Bernoulliho proměnných se stejným parametrem p | |
Jednotný segmentový zákon | a < b | Zákon o konstantní hustotě na [ a , b ] | |
Exponenciální zákon | Zákon hustoty s konstantní četností poruch λ | ||
Poissonův zákon | Zákon o počtu nezávislých realizací v průměru λ | ||
Zákon χ² | ne | Zákon součtu n čtverců nezávislých redukovaných normálních proměnných |
Pokud proměnná X sleduje lognormální rozdělení, potom ln X sleduje normální rozdělení a směrodatná odchylka X souvisí s geometrickou směrodatnou odchylkou .
Ale ne všechny zákony pravděpodobnosti nutně připouštějí konečnou směrodatnou odchylku: Cauchyho zákon (nebo Lorentzův zákon) nemá žádnou směrodatnou odchylku, ani matematické očekávání.
kde ρ ( X , Y ) je koeficient korelace mezi dvěma proměnnými X a Y .
Trojúhelníková nerovnost Směrodatná odchylka součtu se zvyšuje o součet směrodatných odchylek: . Kromě toho existuje rovnost právě tehdy, když existuje téměř jistý afinní vztah mezi těmito dvěma proměnnými. Euklidovská vzdálenost Směrodatná odchylka skutečné náhodné proměnné X je euklidovská vzdálenost této proměnné napravo od konstant v prostoru proměnných připouštějících odchylku. Jedná se tedy o minimum funkce dosažené na konstantě c = E ( X ) .Ve vědě je běžné vzít v úvahu, že měření veličiny jsou distribuována podle Gaussova rozdělení , akumulací chyb měření nebo nezávislou interferencí s jinými jevy, při použití centrální limitní věty . Histogram z pozorovaných hodnot pak blíží křivkou charakteristiku normálního zákona . Křivka, která je zcela definována údaji střední hodnoty a směrodatné odchylky, umožňuje tyto dvě hodnoty definovat fluktuační interval, který koncentruje většinu pozorování.
Výpočet kvantilů tohoto zákona ukazuje například, že pro veličinu splňující toto rozdělení na populaci jedinců se střední hodnotou ma standardní směrodatnou odchylkou σ bude 95% pozorovaných hodnot patřit do intervalu [ m - 1,96 σ; m + 1,96 σ] . Můžeme tedy spojit pravděpodobnosti s intervaly hodnot soustředěných na průměr a jejichž amplituda je násobkem standardní odchylky.
Maximální odchylka od střední hodnoty | Podíl hodnot |
---|---|
68,27% | |
95,45% | |
99,73% |
V průmyslu se standardní odchylka používá při výpočtu indexu kvality vyráběných výrobků nebo indexu spolehlivosti měřicího zařízení .
Ve fyzice částic je tedy detekce událostí kvantifikována počtem sigmat, což představuje rozdíl mezi pozorovanou hodnotou a očekávaným průměrem při absenci události. Výsledek je považován za významný získáním 5 sigmat, což představuje pravděpodobnost chyby menší než 0,00006% (tj. Úroveň spolehlivosti vyšší než 99,99994%).
V oblasti technické analýzy z cen akcií , směrodatná odchylka je mírou volatility cen. Tyto Bollinger Bands jsou nástroje, které usnadňují analýzu odhadů trhu. John Bollinger zkonstruoval křivku 20denního klouzavého průměru a křivky na obou stranách této křivky se během těchto 20 dnů nacházely na dvojnásobku standardní odchylky. John Bollinger použil upravenou definici směrodatné odchylky. Kromě toho je riziko akciového trhu aktiv a tržní riziko se měří pomocí standardní odchylky výnosů očekávaných v Capital Asset Pricing Model of Harry Markowitz .
Pokud X je náhodná proměnná s nenulovou směrodatnou odchylkou, můžeme ji nastavit tak, aby odpovídala vycentrované a redukované proměnné Z definované pomocí . Dvě centrované a redukované náhodné proměnné Z 1 a Z 2 lze snadno porovnat, protože E ( Z i ) = 0 a σ Z i = 1 .
Centrální limitní věta se týká limitu posloupnosti náhodných proměnných vystředění snížena, koeficienty šikmosti a špičatost z hustoty pravděpodobnosti, E ( Z 3 ) a E ( Z 4 ) , který se používá pro porovnání různé distribuce.
Pokud X a Y jsou dvě náhodné proměnné v reálném přiznal jak nenulovou odchylku, lineární korelační koeficient je poměr , kde je kovariance proměnných X a Y . Podle Cauchy-Schwarz , ; korelační koeficient bere své hodnoty v intervalu [–1; +1] .
Pokud jsou dvě proměnné nezávislé, lineární korelační koeficient je nula, ale obrácený je nepravdivý.
Pokud je koeficient lineární korelace 1 nebo −1, jsou tyto dvě proměnné téměř jistě v afinním vztahu.
Je to díky nerovnosti Bienaymé-Čebyšev, že se standardní odchylka jeví jako míra rozptylu kolem průměru. Tato nerovnost to skutečně vyjadřuje a ukazuje, že pravděpodobnost, že se X odchýlí od E ( X ) o více než k násobek standardní odchylky, je menší než 1 / k 2 .
V kvantové mechaniky je princip neurčitosti z Heisenberga vyjádřena jako součin standardních odchylek polohy x a puls p o částice je větší než nebo rovna sníženého Planckova konstanta děleno dvěma, a to buď .
Pokud není možné znát všechny hodnoty uvažované charakteristiky, nacházíme se v rámci statistické teorie . Statistik poté pokračuje vzorkováním a odhadem k vyhodnocení analyzovaných veličin, jako je směrodatná odchylka.
Odhadce je funkce, umožňující přiblížit parametru populace použitím vzorku učiněny na náhodně , nebo množství, o náhodný jev z jejich několika realizacích.
V případě vzorku o velikosti n , pro který je známa skutečná střední hodnota - nebo očekávání - μ , je odhad takto:
σX=1ne∑i=1ne(Xi-μ)2.{\ displaystyle \ sigma _ {X} = {\ sqrt {{\ frac {1} {n}} \ součet _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2}} }.} Bohužel, často nevíme, μ a musí být odhadnuta ze vzorku samotného prostřednictvím následujícího odhadce: . Obecně se používají různé odhady směrodatné odchylky. Většina z těchto odhadů je vyjádřena vzorcem: Sk=1k∑i=1ne(Xi-X¯)2.{\ displaystyle S_ {k} = {\ sqrt {{\ frac {1} {k}} \ součet _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}}) ^ { 2}}}.} S n - 1 (nebo S ′ ) je nejpoužívanější odhad, ale někteří autoři doporučují používat S n (nebo S ).Dvě důležité vlastnosti odhadů jsou konvergence a osvobození od předpětí .
Pro všechna k taková, že k / n se blíží 1, zákon velkého počtu zaručuje, že S2
npak S2
kjsou konvergentní odhady z å 2 . Díky teorému spojitosti říká , že pokud je f spojité, pak . Protože druhá odmocnina je spojitá, S k také konverguje k σ . Zejména S n a S n - 1 jsou konvergentní odhady z å , které odráží aproximaci å od těchto dvou sérií, když n se stává větší a větší, a potvrzuje statistik používat tyto odhady.
Odhad variance S2
n - 1,5je nezaujatý. Nelineárnost funkce druhé odmocniny však způsobí, že S n - 1 bude mírně předpjatý. Odhady S2
na S n jsou zkreslené. Skutečnost, že do výpočtu rozptylu není zahrnuto n, ale n - 1 ve jmenovateli ( Besselova korekce ), vychází ze skutečnosti, že stanovení průměru x ze vzorku ztrácí určitý stupeň volnosti, protože vzorec spojuje x s hodnotami x i . Máme tedy pouze n - 1 nezávislých hodnot po výpočtu x . V případě, že se člověk snaží odhadnout směrodatnou odchylku normálního rozdělení, má objektivní odhad σ blízký S n - 1,5 . Volba { n - 1,5} umožňuje opravit další zkreslení spojené s druhou odmocninou.
Přesnost, daná střední kvadratickou chybou, je obtížné výslovně vypočítat pro jakékoli zákony. Zdálo by se však, že i přes větší zkreslení, S n je přesnější než S n -1 .
Pro odhad přesnosti odhadu průměru proměnné se používá metoda výpočtu směrodatné odchylky distribuce vzorkování průměrů. Také se nazývá standardní chyba průměru ( „ standardní chyba “ ), je to standardní odchylka průměrů vzorků stejné velikosti populace. Pokud n je velikost vzorků odebraných z populace směrodatné odchylky σ a pokud N je velikost populace, pak . Pokud není směrodatná odchylka σ populace známa, lze ji nahradit odhadcem S n –1 . Když je n dostatečně velké ( n ≥ 30 ), distribuce vzorkování se přibližně řídí Laplaceovým-Gaussovým zákonem, který umožňuje odvodit interval spolehlivosti, což je funkce umožňující lokalizovat průměr populace ve vztahu ke vzorku znamenat.
Obecně je velmi obtížné vypočítat zákon rozdělení empirických směrodatných odchylek. Ale pokud X n je posloupnost náhodných proměnných distribuovaných podle normálního rozdělení , pak se řídí zákonem χ 2 s n stupni volnosti . Tento zákon má pro směrodatnou odchylku √ 2 n, a proto směrodatná odchylka distribuce odchylek normálních proměnných má pro vyjádření .
V průzkumech veřejného mínění směrodatná odchylka měří nejistotu náhodných variací x obsaženou v průzkumu, která se nazývá míra chyby způsobená náhodnými změnami.
Navíc s reprezentativní metodou vzorkování, když mají různé vrstvy velmi odlišné směrodatné odchylky, se směrodatná odchylka používá k výpočtu optimálního Neymanova rozdělení, které umožňuje vyhodnotit populaci v různých vrstvách podle jejich směrodatné odchylky; jinými slovy velikost vzorku ve vrstvě i , kde n je celková velikost vzorku, N i je velikost vrstvy i , σ i směrodatná odchylka vrstvy i .
Standardní odchylky získané počítačovým programem mohou být nesprávné, pokud nepoužíváme algoritmus přizpůsobený datům, například když použijeme algoritmus, který přímo využívá vzorec na velkých vzorcích hodnot mezi 0 a 1.
Jedním z nejlepších algoritmů je BP Welford, který popisuje Donald Knuth ve své knize The Art of Computer Programming , sv. 2 .
Aproximace směrodatné odchylky směru větru je dána algoritmem Yamartino, který se používá v moderních anemometrech .
Věta - Je - li g spojité, pak:
. Protože druhá odmocnina je spojitá funkce , S n -1 a S n jsou konvergentní odhady směrodatné odchylky, jinými slovy: