Odchylka (matematika)

V statistiky a pravděpodobnosti , rozptyl je míra rozptylu hodnot ve vzorku nebo rozdělení pravděpodobnosti . Vyjadřuje průměr čtverců odchylek od průměru, rovný také rozdílu mezi průměrem čtverců hodnot proměnné a čtvercem průměru podle König-Huygensovy věty . Čím je tedy odchylka od průměru větší, tím převažuje v celkovém výpočtu (viz kvadratická funkce ) rozptylu, což by tedy poskytlo dobrou představu o rozptylu hodnot.

Rozptyl je vždy kladný a zmizí, pouze pokud jsou všechny hodnoty stejné. Jeho druhá odmocnina definuje směrodatnou odchylku σ, tedy notaci . ${\ displaystyle \ sigma ^ {2} = V = \ mathbb {V} (X) = \ mathrm {Var (X)}}$

Rozptyl je kvadratický a invariantní překladem. Lze jej odhadnout pomocí vzorku a empirického průměru nebo očekávání, pokud je známý.

Rozptyl se jeví jako zvláštní případ kovariance . Rovněž zobecňuje náhodné vektory .

Pro statistickou řadu

Vzorce

Vzhledem k tomu, statistické série příslušníky skutečné veličiny $( x 1 , x 2 , ..., x n )$ je ze střední , který byl vypočítán , rozptyl je průměr ze čtverců odchylek od této střední: ${\ displaystyle {\ overline {x}} = {\ frac {1} {n}} \ součet _ {i = 1} ^ {n} x_ {i}}$

{\ displaystyle V = {\ frac {1} {n}} \ součet _ {i = 1} ^ {n} \ vlevo (x_ {i} - {\ overline {x}} \ vpravo) ^ {2}}

Expanze čtverce vede k následujícímu přeformulování:

{\ displaystyle V = \ left ({\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} ^ {2} \ right) - {\ overline {x}} ^ {2}}

to znamená, že rozptyl je rozdíl mezi průměrem čtverců a čtvercem průměru.

Když řada nabývá hodnot $x 1 , x 2 , ..., x n$ s frekvencemi $f 1 , f 2 , ..., f n$ , je její rozptyl:

{\ displaystyle V = \ sum _ {i = 1} ^ {n} f_ {i} \ left (x_ {i} - {\ overline {x}} \ right) ^ {2} = \ left (\ sum _ {i = 1} ^ {n} f_ {i} x_ {i} ^ {2} \ right) - {\ overline {x}} ^ {2}.}

Rozptyl je indikátorem rozptylu hodnot , to znamená, že je vždy kladný, mizí pouze pro statistickou řadu, ve které mají všechny termíny stejnou hodnotu, o to větší, jak jsou hodnoty rozprostřeny a invariantní přidáním konstanty. Jeho výpočet se může zdát komplikovanější než u jiných indikátorů rozptylu, jako je mezikvartilový rozsah nebo průměrná absolutní odchylka , ale na rozdíl od druhého je kumulativní: pokud shromáždíme $k$ statistickou řadu k jedné, lze globální rozptyl vypočítat z číslo $n i$ , rozptyl $V i$ a průměr každé počáteční řady podle vzorce ${\ displaystyle {\ overline {x_ {i}}}}$

{\ displaystyle V = {\ frac {1} {N}} \ součet _ {i = 1} ^ {k} n_ {i} (V_ {i} + ({\ overline {x}} - {\ overline { x_ {i}}}) ^ {2})}

kde je celkový počet zaměstnanců a , je celkový průměr. Jinými slovy, celková odchylka je součtem odchylky průměrů a průměru odchylek, i když je tato druhá složka často opomíjena. ${\ displaystyle N = \ součet _ {i = 1} ^ {k} n_ {i}}$ ${\ displaystyle {\ overline {x}} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {k} n_ {i} {\ overline {x_ {i}}}}$

Afinní transformace

Pokud použijeme afinní funkci na pojmy statistické řady $($ $x$ $1$ $,$ $x$ $2$ $, ...,$ $x$ $n$ $)$ , rozptyl se vynásobí $a$ $2$ . Jinými slovy, odchylka je homogenní 2. stupně a invariantní translací. ${\ displaystyle f: x \ mapsto ax + b}$

Iterativní výpočet

Skutečný výpočet rozptylu pro statistickou řadu se nespoléhá na přímý překlad výše uvedených vzorců, s výjimkou ručního výpočtu pro malé řady. Místo toho používáme iterativní algoritmus, který zlepšuje přesnost:

c = 0 s = x1 pour j de 2 à n s = s+xj c = c+(j xj − s)2/(j(j−1)) renvoyer c/n

Pro skutečnou náhodnou proměnnou

Výraz

Vzhledem k reálné náhodné proměnné $X, která$ připouští očekávání , je rozptyl časovým řádem se středem 2 . Koenig-Huygens vzorec poskytuje ekvivalentní výrazu . ${\ displaystyle \ mathbb {E} (X)}$ ${\ displaystyle \ mathbb {V} (X) = \ mathbb {E} \ vlevo [(X- \ mathbb {E} (X)) ^ {2} \ vpravo]}$ ${\ displaystyle \ mathbb {V} (X) = \ mathbb {E} (X ^ {2}) - (\ mathbb {E} (X)) ^ {2}}$

Tyto dva vzorce mají smysl, pouze pokud existují, jinými slovy, pokud proměnná připouští okamžik řádu 2. To je vždy případ omezené náhodné proměnné , zejména pak náhodné proměnné, která má pouze jeden konečný počet možných hodnot. Ale pro nespoutané náhodné veličiny, existence očekávání a okamžik řádu 2 záviset na konvergenci části seriálu nebo integrál . Tak, zákon Paretova pouze připouští očekávání, pokud jeho parametr $k$ je striktně větší než 1, a to pouze připouští rozptyl, pokud $k$ $> 2$ . ${\ displaystyle \ mathbb {E} (X ^ {2})}$

Pro náhodnou proměnnou, která připouští pouze konečný počet zaznamenaných hodnot $( x 1 , ..., x k )$ , a zaznamenáním $( p 1 , ..., p k )$ souvisejících pravděpodobností najdeme rozptyl výrazů

{\ displaystyle \ mathbb {V} (X) = \ součet _ {i = 1} ^ {k} p_ {i} (x_ {i} - {\ overline {x}}) ^ {2} = \ vlevo ( \ sum _ {i = 1} ^ {k} p_ {i} x_ {i} ^ {2} \ right) - {\ overline {x}} ^ {2} = \ left (\ sum _ {i = 1 } ^ {k} p_ {i} x_ {i} ^ {2} \ doprava) - \ doleva (\ sum _ {i = 1} ^ {k} p_ {i} x_ {i} \ doprava) ^ {2 }}

Pro diskrétní náhodnou proměnnou s nekonečným počtem hodnot použijeme stejný vzorec nahrazením součtu řadou.

V případě hustoty náhodné proměnné je rozptyl definován:

{\ displaystyle \ mathbb {V} (X) = \ sigma ^ {2} = \ int (x- \ mu) ^ {2} \, f (x) \, dx \,}

kde $f$ je hustota pravděpodobnosti a $μ$ je matematické očekávání náhodné proměnné $X$

{\ displaystyle \ mu = \ int x \, f (x) \, \ mathrm {d} x \,}

Rozptyl spojité náhodné proměnné $X$ lze také vypočítat takto:

{\ displaystyle \ mathbb {V} (X) = \ int x ^ {2} \, f (x) \, \ mathrm {d} x \, - \ mu ^ {2}}

Vlastnosti

Afinní transformace

Jako statistické řady, byl hodnocen vliv afinní transformace na náhodné proměnné ovlivňuje jeho podle vzorce: . ${\ displaystyle \ mathbb {V} (aX + b) = a ^ {2} \ mathbb {V} (X)}$

Lineární kombinace

Pokud dvě náhodné proměnné $X$ a $Y$ připouštějí rozptyl, pak i jejich součet a je zapsáno , kde je kovariance . Vztah se vztahuje na jakoukoli lineární kombinaci proměnných, které připouštějí odchylku: ${\ displaystyle \ mathbb {V} (X + Y) = \ mathbb {V} (X) + \ mathbb {V} (Y) + 2 \ mathrm {Cov} (X, Y)}$ ${\ displaystyle \ mathrm {Cov} (X, Y)}$

{\ displaystyle \ mathbb {V} \ left (\ sum _ {i = 1} ^ {n} {a_ {i} \, X_ {i}} \ right) = \ sum _ {i = 1} ^ {n } a_ {i} ^ {2} \, \ mathbb {V} (X_ {i}) + 2 \ sum _ {1 \ leq i <j \ leq n} \, a_ {i} a_ {j} \, \ operatorname {Cov} (X_ {i}, X_ {j}) = \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} a_ {i} a_ {j} \ operatorname {Cov} (X_ {i}, X_ {j})}

{\ displaystyle \ mathbb {V} \ left (\ sum _ {i = 1} ^ {n} {X_ {i}} \ right) = \ sum _ {i = 1} ^ {n} \ mathbb {V} (X_ {i}) + 2 \ sum _ {1 \ leq i <j \ leq n} \ operatorname {Cov} (X_ {i}, X_ {j})}

Součet nezávislých proměnných

Pokud $X$ a $Y$ jsou dvě nezávislé proměnné , jejich kovariance je nulová, takže zjistíme, že konverzace je nepravdivá. Tento vztah by neměl být zaměňován s linearitou uspokojenou očekáváním. Zejména a obecněji . ${\ displaystyle \ mathbb {V} (X + Y) = \ mathbb {V} (X) + \ mathbb {V} (Y)}$ ${\ displaystyle \ mathbb {V} (XY) = \ mathbb {V} (X) + \ mathbb {V} (Y)}$ ${\ displaystyle \ mathbb {V} (aX + bY) = a ^ {2} \ mathbb {V} (X) + b ^ {2} \ mathbb {V} (Y)}$

Obecněji se rozptyl součtu nezávislých proměnných rovná součtu rozptylů. Tento výsledek znamená, že pro vzorek $n$ proměnných se stejnou odchylkou $σ 2$ je zapsána odchylka empirického průměru . ${\ displaystyle \ mathbb {V} ({\ overline {X}}) = {\ frac {\ sigma ^ {2}} {n}}}$

Produkt nezávislých proměnných

Rozptyl produktu dvou nezávislých náhodných proměnných $X$ a $Y$ konečných odchylek je vyjádřen jako funkce těchto dvou proměnných následujícím vzorcem

{\ displaystyle {\ begin {zarovnáno} \ mathbb {V} (XY) & = \ mathbb {V} (X) \ mathbb {V} (Y) + \ mathbb {V} (X) (\ mathbb {E} (Y)) ^ {2} + \ mathbb {V} (Y) (\ mathbb {E} (X)) ^ {2} \\ & = \ mathbb {V} (X) \ mathbb {E} (Y ^ {2}) + \ mathbb {V} (Y) (\ mathbb {E} (X)) ^ {2} \\ & = \ mathbb {V} (Y) \ mathbb {E} (X ^ {2 }) + \ mathbb {V} (X) (\ mathbb {E} (Y)) ^ {2} \ end {zarovnáno}}}

Odhad

Bodový odhad

Ze vzorku nezávislých reálných náhodných proměnných $( X 1 , ..., X n )$ pocházejících ze stejného zákona pravděpodobnosti lze odhadnout rozptyl $σ 2$ tohoto zákona pomocí empirické odchylky

{\ displaystyle S ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}}) ^ {2}}

kde je empirický průměr . ${\ displaystyle {\ overline {X}} = {\ frac {1} {n}} \ suma _ {i = 1} ^ {n} X_ {i}}$

Tento odhad je však zaujatý , protože . ${\ displaystyle \ mathbb {E} (S ^ {2}) = {\ frac {n-1} {n}} \ sigma ^ {2}}$

Demonstrace

Označíme $μ$ očekávání společné proměnným vzorku.

Vyvíjíme se . ${\ displaystyle nS ^ {2} = \ suma _ {i = 1} ^ {n} X_ {i} ^ {2} -2 {\ overline {X}} \ suma _ {i = 1} ^ {n} X_ {i} + n {\ overline {X}} ^ {2} = \ sum _ {i = 1} ^ {n} X_ {i} ^ {2} -n {\ overline {X}} ^ {2 }}$

Nyní najdeme s pro všechny $i$ , podle vzorce Koenig-Huygens, a pro všechny , nezávislostí. ${\ displaystyle {\ overline {X}} ^ {2} = {\ frac {1} {n ^ {2}}} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} X_ {i} X_ {j}}$ ${\ displaystyle \ mathbb {E} (X_ {i} ^ {2}) = \ mathbb {V} (X_ {i}) + (\ mathbb {E} (X_ {i})) ^ {2} = \ sigma ^ {2} + \ mu ^ {2}}$ ${\ Displaystyle i \ neq j}$ ${\ displaystyle \ mathbb {E} (X_ {i} X_ {j}) = \ mathbb {E} (X_ {i}) \ mathbb {E} (X_ {j}) = \ mu ^ {2}}$

Dedukujeme, ze kterého to tak čerpá . ${\ displaystyle \ mathbb {E} ({\ overline {X}} ^ {2}) = {\ frac {1} {n ^ {2}}} (n (\ sigma ^ {2} + \ mu ^ { 2}) + n (n-1) \ mu ^ {2}) = {\ frac {1} {n}} (\ sigma ^ {2} + n \ mu ^ {2})}$ ${\ displaystyle \ mathbb {E} (nS ^ {2}) = n (\ sigma ^ {2} + \ mu ^ {2}) - (\ sigma ^ {2} + n \ mu ^ {2}) = (n-1) \ sigma ^ {2}}$ ${\ displaystyle \ mathbb {E} (S ^ {2}) = {\ frac {n-1} {n}} \ sigma ^ {2}}$

Pokud $n > 1$ , pak definujeme nestranný odhad podle linearity očekávání. ${\ displaystyle {\ widetilde {S}} ^ {2} = {\ frac {n} {n-1}} S ^ {2}}$

K odhadu rozptylu celé populace od té, která byla naměřena na vzorku o velikosti $n$ , se odhadovaná rozptyl získá vynásobením rozptylu naměřeného na vzorku $ne / n - 1$ . V případě (v praxi vzácnějšího) výběru bez náhrady v populaci velikosti $N$ je nutné použít odhad . Pokud je známo očekávání $μ$ vzorových proměnných, přímý odhad je již nezaujatý. ${\ displaystyle {\ frac {N-1} {N}} {\ widetilde {S}} ^ {2}}$ ${\ displaystyle T = {\ frac {1} {n}} \ součet _ {i = 1} ^ {n} (X_ {i} - \ mu) ^ {2}}$

Demonstrace

Stejně jako v důkazu zkreslení $S 2$ najdeme:

${\ displaystyle nT = \ sum _ {i = 1} ^ {n} X_ {i} ^ {2} -2 \ mu \ sum _ {i = 1} ^ {n} X_ {i} + \ mu ^ { 2}}$ .

Takže a . ${\ displaystyle \ mathbb {E} (nT) = n (\ sigma ^ {2} + \ mu ^ {2}) - 2n \ mu \ mathbb {E} ({\ overline {X}}) + n \ mu ^ {2} = n (\ sigma ^ {2} + \ mu ^ {2}) - 2n \ mu ^ {2} + n \ mu ^ {2} = n \ sigma ^ {2}}$ ${\ displaystyle \ mathbb {E} (T) = \ sigma ^ {2}}$

Tyto tři odhady jsou konvergentní .

Demonstrace

Podle zákona velkých čísel empirický průměr téměř jistě konverguje k očekávání $μ$ a empirický průměr čtverců téměř jistě konverguje k $σ$ $2$ $+$ $μ$ $2$ , což ukazuje, že tři odhady rozptylu konvergují k $σ$ $2,$ když $n$ $\to + \infty$ . ${\ displaystyle {\ frac {1} {n}} \ součet _ {i = 1} ^ {n} X_ {i} ^ {2}}$

Interval spolehlivosti

Získání intervalu spolehlivosti pro rozptyl rozdělení pravděpodobnosti ze vzorku závisí na typu rozdělení.

Pro rodinu zákonů závislých na jediném parametru, jako jsou zákony Bernoulliho , geometrické zákony , exponenciální nebo Poissonovo , použijte u parametru interval spolehlivosti. Pro rodinu zákonů závislých na nejméně dvou parametrech používáme konvergentní odhad s jedním parametrem přímo souvisejícím s rozptylem počátečního zákona. U vzorku $n$ Gaussových proměnných $( X 1 , ..., X n ),$ jejichž očekávání není známo, se tedy podíl nezaujaté empirické odchylky vynásobené $( n -1)$ skutečnou odchylkou řídí zákonem chí-kvadrátu s $n - 1$ stupněm volnosti podle Cochranovy věty .

Prvky příběhu

Ronald Fisher jako první použil slovo rozptyl v článku z roku 1918 nazvaném „ Korelace mezi příbuznými a domněnkou Mendelovy dědičnosti “, kde definoval rozptyl jako druhou mocninu směrodatné odchylky. V tomto dokumentu jasně upřednostňuje rozptyl před směrodatnou odchylkou jako měřítko variability pozorovaného jevu. Znovu se používá tento termín v Torontu matematiky kongresu v roce 1924. Byl to on, kdo také definované analýzy variance , jak je praktikován dnes ve své knize „ Statistické metody pro výzkumné pracovníky “, publikoval v roce 1925..

Aplikace

Výpočet rozptylu umožňuje z toho odvodit směrodatnou odchylku , která je homogenní s náhodnou proměnnou, v matematickém smyslu pojmu jako v dimenzionální analýze . ${\ displaystyle \ sigma (X) = {\ sqrt {\ mathbb {V} (X)}}}$

Rozptyl statistické řady se objevuje ve výpočtu koeficientů lineární regrese .

Metody analýzy rozptylu (ANOVA) shromažďují srovnávací studie mezi vzorky na jedné nebo více kvantitativních proměnných.

Rozptyl náhodné proměnné je zahrnut v centrální limitní větě i v nerovnosti Bienaymé-Čebyšev .

Podmíněná odchylka

Jsou dvě náhodné veličiny $Y$ a $X$ . Podmíněnou rozptyl $Y s$ vědomím $X$ nazýváme náhodnou proměnnou odpovídající podmíněnému očekávání s vědomím X čtverce odchylky Y od podmíněného očekávání:

\ operatorname {Var} (Y | X) = {\ mathbb {E}} \ left ([Y - {\ mathbb {E}} (Y | X)] ^ {2} | X \ right).

Jako každá podmíněná proměnná, to je funkcí $X$ .

Rozptyl $Y$ souvisí s podmíněnou rozptylem a očekáváním větou o celkové rozptylu :

\ operatorname {Var} (Y) = {\ mathbb {E}} (\ operatorname {Var} [Y | X]) + \ operatorname {Var} ({\ mathbb {E}} [Y | X]).

Rozptyl náhodného vektoru

Pokud definujeme $X k \times 1$ jako náhodný vektor, který má proměnné $k$ a $Μ$ jako vektor očekávání $k k$ $X$ , pak definujeme rozptyl jako:

Definice - ${\ displaystyle \ Sigma _ {k \ krát k} \ ekviv \ operatorname {Var} [X_ {k \ krát 1}] \ equiv \ mathbb {E} \ doleva [(X_ {k \ krát 1} - \ mathrm { M}) \ ^ {\ operatorname {t}} (X_ {k \ krát 1} - \ mathrm {M}) \ vpravo]}$

Pak se jedná o čtvercovou matici o velikosti $k$ , která se nazývá variančně-kovarianční matice a která na své úhlopříčce zahrnuje rozptyly každé složky náhodného vektoru a mimo úhlopříčku kovariance. Tato matice je symetrická a pozitivní semi-definitivní ; je pozitivní definitivní právě tehdy, když jedinou jistou lineární kombinací (tj. téměř jistě konstantní) složek náhodného vektoru je ta, jejíž všechny koeficienty jsou nulové. Opačný případ znamená, že realizace vektoru $X$ jsou téměř jistě omezeny na nadrovinu .

Máme následující vlastnosti:

Vlastnost - Pokud $V$ je čtvercová matice velikosti ${\ displaystyle k, \ operatorname {Var} [V_ {k \ times k} X_ {k \ times 1}] = V \ operatorname {Var} [X] \ ^ {\ operatorname {t}} V}$

Poznámky a odkazy

Poznámky

Další dvě formy jsou z první odvozeny faktorizací odchylek, poté substitucí rovnosti Koenig-Huygensovy věty . ${\ displaystyle \ mathbb {V} (X) = \ mathbb {E} (X ^ {2}) - (\ mathbb {E} (X)) ^ {2} \ iff \ mathbb {V} (X) + (\ mathbb {E} (X)) ^ {2} = \ mathbb {E} (X ^ {2})}$

Existence okamžiku řádu 2 implikuje zejména existenci naděje.
Diskrétní náhodná proměnná může připustit pouze spočetnou sadu hodnot s nenulovou pravděpodobností.
U této ukázky je užitečné připomenout jednu z očekávaných vlastností . Pak máme ${\ displaystyle \ mathbb {E} (aX + b) = a \ operatorname {E} (X) + b}$ ${\ displaystyle \ operatorname {Var} (aX + b) = \ mathbb {E} [(aX + b- \ mathbb {E} [aX + b]) ^ {2}] = \ mathbb {E} [(aX + ba \ mathbb {E} [X] -b) ^ {2}] = \ mathbb {E} [(aX-a \ mathbb {E} [X]) ^ {2}] = \ mathbb {E} [ a ^ {2} (X- \ mathbb {E} [X]) ^ {2}] = a ^ {2} \ mathbb {E} [(X- \ mathbb {E} [X]) ^ {2} ] = a ^ {2} \ operatorname {Var} (X)}$
${\ displaystyle \ operatorname {Var} ({\ overline {X}}) = \ operatorname {Var} \ left ({\ frac {1} {n}} \ sum _ {i = 1} ^ {n} X_ { i} \ right) = {\ frac {1} {n ^ {2}}} \ operatorname {Var} \ left (\ sum _ {i = 1} ^ {n} X_ {i} \ right) = {\ frac {1} {n ^ {2}}} n \ operatorname {Var} (X) = {\ frac {\ operatorname {Var} (X)} {n}}}$
Rémy Clairin, Philippe Brion, Manuál průzkumu, Aplikace do rozvojových zemí , dokumenty a manuály CEDEP, únor 97, ( ISBN 2-87762-082-4 ) , strana 17).

Specializované knihy

Saporta 2011 , §5.3.2.3 „Rozptyl a směrodatná odchylka“
Saporta 2006 , s. 25
Rioul 2008 , s. 142
Saporta 2006 , str. 26
Rioul 2008 , s. 183-185
Dodge 2010 , str. 508
Dodge 2010 , str. 556
Dodge 2010 , str. 506

Články publikované na internetu

[PDF] (in) Ronald A. Fisher , „ The Correlation entre Relatives on the Supposition of Mendelian Inheritance. ” , Philosophical Transactions of the Royal Society of Edinburgh. , sv. 52, 1918, str. 399–433 ( číst online ).
[PDF] Jean-Paul Benzécri , „ History and Prehistory of Data Analysis: Part 3 “, The Data Analysis Notebooks , vol. 1, n o 3,1976, str. 221-241 ( číst online , konzultováno 24. dubna 2012 ).
[PDF] J.-M. Faverge , „ III. - Analýza rozptylu v psychologii “, L'Année psychologique , sv. 49, n o 1, 1948, str. 341-358 ( číst online ).

Podívejte se také

Bibliografie

(fr) Gilbert Saporta , Pravděpodobnost, Analýza a statistika dat , Paříž, Éditions Technip,2006, 622 s. [ detail vydání ] ( ISBN 978-2-7108-0814-5 , online prezentace ).
(fr) Olivier Rioul , Theory of probencies , Paris, Editions Hermes sciences,2008, 364 s. ( ISBN 978-2-7462-1720-1 ).
Yadolah Dodge , „ Stručná encyklopedie statistik “ , New York, Springer,2010, 622 s. ( ISBN 978-0-387-31742-7 , číst online ).

Související články

externí odkazy

Eric W. Weisstein, „ Variance “, MathWorld - webový zdroj Wolfram (zpřístupněno 25. dubna 2012 )
„ Online rozptyl výpočtu “ , Calculis