Medián (statistika)

V teorii a statistice pravděpodobnosti je medián hodnota, která odděluje spodní polovinu od horní poloviny množiny ( vzorek , populace , rozdělení pravděpodobnosti ). Medián je tedy intuitivně středem celku. Je to centrální indikátor tendence řady. Můžeme určit medián pro sadu nečíselných hodnot, pokud si můžeme vybrat kritérium pro seřazení těchto hodnot.

Metoda výpočtu

Obecný přístup

Chcete-li určit medián sady hodnot, stačí uspořádat hodnoty v rostoucím seznamu a vybrat hodnotu, která je ve středu tohoto seznamu. U uspořádaného seznamu n prvků, přičemž n je liché, je hodnota prvku v pozici (n + 1) / 2 střední hodnota. Pokud je počet n prvků sudý, je jakákoli hodnota mezi prvky v pozicích (n-1) / 2 a (n + 1) / 2 medián; v praxi se v případě seznamu čísel nejčastěji používá aritmetický průměr těchto dvou centrálních hodnot .

Složitost algoritmu pro výpočet mediánu je proto složitost třídění algoritmu použitého, a to O ( n log n ), v nejlepším případě .

Příklady

Jiný přístup

K určení mediánu sady hodnot stačí vypočítat rostoucí kumulativní procenta a vezmeme první hodnotu řady, jejíž kumulativní procento přesahuje 50%.

Tato metoda je praktičtější, pokud máte velký počet hodnot.

Efektivita algoritmů

Existují algoritmy lineární složitosti (v O ( n )), tedy účinnější. Jedná se o algoritmy, které obecně umožňují určit k -tý prvek seznamu n prvků (viz Výběrový algoritmus ); k = n / 2 pro medián. Jedná se o úpravy třídicích algoritmů, které jsou však efektivnější, protože nás nezajímají všechny hodnoty. Například můžeme použít algoritmus divide and conquer pouze v operacích O ( n ); v případě algoritmu QuickSelect změňte rychlé řazení ( quicksort ), které je obecně v O ( n ), ale v nejhorším případě může být v O ( n 2 ).

V praxi, pokud hledáme medián seznamu n celých čísel, a pokud máme štěstí, že zjistíme, že maximální hodnota m je menší než n 2 (toto zjištění stojí O ( n )), pak způsob počítání , implementace velmi snadné a náklady, které v tomto případě představují operace O ( m ), umožňují získat medián v méně než operacích O ( n 2 ). Tento případ se týká zejména případů známek z 20 (bez desetinných míst) ve třídě více než 5 žáků (5 na druhou je větší než 20).

Statistické měření disperze

Když se k vyhledání hodnot v popisné statistice použije medián , existují různé možnosti vyjádření variability: rozsah , mezikvartilní rozsah a absolutní rozsah . Vzhledem k tomu, že medián má stejnou hodnotu jako druhý kvartil , je jeho výpočet podrobně uveden v článku o kvartilech .

Mediány v rozdělení pravděpodobnosti

Pro všechna reálná rozdělení pravděpodobnosti splňuje medián m rovnost:

tj. pokud jde o distribuční funkci  :

Takže pro distribuci pravděpodobnosti rozptýlení (funkce spojitého rozdělení):

Mediány některých distribucí

Pro všechna symetrická rozdělení je střední hodnota rovná očekávání.

Mediány v popisné statistice

Medián se používá hlavně pro zkosené distribuce, protože je představuje lépe než aritmetický průměr. Zvažte množinu {1, 2, 2, 2, 3, 9}. Medián je 2, stejně jako režim, který je lepším měřítkem centrální tendence než aritmetický průměr 3,166….

Výpočet mediánu se běžně provádí tak, aby představoval různá rozdělení, a je snadno pochopitelný i pro výpočet. Je také robustnější než průměr za přítomnosti extrémních hodnot.

Teoretické vlastnosti

Optimální vlastnost

Medián je také centrální hodnotou, která minimalizuje střední hodnotu absolutních odchylek. V sériích {1, 2, 2, 2, 3, 9} uvedených dříve by to bylo (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5, spíše než 1,944 od průměru, což pro jeho část, minimalizuje kvadratické odchylky. V teorii pravděpodobnosti hodnota c, která minimalizuje

je medián rozdělení pravděpodobnosti náhodné veličiny X .

Nerovnost zahrnující prostředky a mediány

Pro kontinuální rozdělení pravděpodobnosti je rozdíl mezi mediánem a očekáváním nejvýše jedna směrodatná odchylka .

Poznámky a odkazy

  1. "Výpočet mediánu" , Statistics Canada .
  2. Fabrice Mazerolle, „  Medián  “ ,2012(zpřístupněno 13. února 2012 ) .
  3. [ (en)  Výběr (deterministický a randomizovaný): nalezení mediánu v lineárním čase ]

Podívejte se také

Související články

externí odkazy