Dilema zkreslení odchylky

Ve statistikách a strojovém učení je dilema zkreslení - odchylka (nebo kompromis) problémem současné minimalizace dvou zdrojů chyb, které brání algoritmům supervizního učení generalizovat nad rámec jejich tréninkového vzorku:

Dekompozice odchylky odchylky je způsob analýzy očekávání chyby predikce algoritmu pro učení konkrétního problému jako součet tří termínů: zkreslení, odchylka a veličina nazývaná chyba. Ireducibilní, vyplývající z hluku v samotný problém.

Tento kompromis se vztahuje na všechny formy supervizovaného učení  : klasifikace , regrese (editační funkce) a strukturované (výstup) učení  (en) . Rovněž bylo uplatněno vysvětlení účinnosti heuristiky v učení člověka.

Motivace

Kompenzace odchylky odchylky je ústředním problémem v učení pod dohledem. V ideálním případě bychom chtěli zvolit model, který přesně odráží zákonitosti tréninkových dat, ale který také zobecní testovací data (data, která nebyla použita k trénování modelu). Bohužel obvykle není možné provést obojí současně. Tréninkové metody s vysokou variabilitou mohou poměrně dobře představovat tréninkový vzorek, ale existuje riziko overfittingu na test nebo hlučných dat. Naproti tomu algoritmy s nízkou odchylkou obecně vytvářejí jednodušší modely, které nemají tendenci přetrénovat, ale mohou trénovat v datové sadě tréninku.

Modely s nízkým zkreslením jsou obecně složitější (např. Vícestupňová polynomiální regrese), ale umožňují přesnější zobrazení tréninkových dat. Mohou však také představovat část náhodného hluku cvičné hry, takže jejich předpovědi jsou i přes přidanou složitost méně přesné. Naproti tomu modely s vyšším zkreslením mají tendenci být relativně jednoduché (nižší stupeň nebo dokonce lineární polynomiální regrese), ale při použití nad množinu učení mohou vyprodukovat předpovědi nižšího rozptylu.

Bias-variance rozklad druhé mocniny chyby

Předpokládejme, že máme tréninkovou sadu skládající se z množiny bodů a skutečných hodnot spojených s každým bodem . Předpokládáme, že existuje hlučný funkční vztah , kde šum ,, má nulovou střední hodnotu a rozptyl .

Nalezení funkce, která generalizuje body mimo tréninkovou sadu, lze provést pomocí jednoho z mnoha algoritmů používaných pro trénink pod dohledem. V závislosti na funkci, kterou vybereme, lze očekávanou chybu na zkušebním vzorku  rozdělit takto:

nebo

a

Očekávání se počítá ze sady různých možností tréninkového vzorku , které jsou generovány podle stejného rozdělení. Jsou to tři termíny:

Čím složitější je model , tím slabší bude zkreslení. Díky složitosti se však model bude „mobilní“ přizpůsobovat datům, a proto bude jeho rozptyl větší.

Demonstrace

Důkaz rozkladu odchylky odchylky pro kvadratickou chybu probíhá následovně. Abychom zjednodušili notaci, zkrátíme a . Nejprve si všimněte, že pro každou náhodnou proměnnou, kterou máme

Přeskupením získáme:

Protože je deterministický

.

Dává  a naznačuje .

Navíc od té doby

Protože a jsou nezávislí, můžeme psát

Aplikace na klasifikaci

Rozklad zkreslení byl původně formulován pro regresi nejmenších čtverců. V případě klasifikace pod ztrátu 0-1 (chybovost) je možné najít podobný rozklad. Jinak, pokud lze problém s klasifikací formulovat jako pravděpodobnostní klasifikaci, lze očekávanou čtvercovou chybu předpovězených pravděpodobností s ohledem na skutečné pravděpodobnosti rozložit jako dříve.

Přístupy

Zmenšení dimenze a výběr funkcí může snížit rozptyl a zároveň zjednodušit modely. Podobně větší tréninková sada má tendenci snižovat rozptyl. Přidání vysvětlujících proměnných ( funkcí ) má tendenci snižovat zkreslení, a to na úkor zavádění dalších odchylek.

Učící se algoritmy mají obecně určité nastavitelné parametry, které řídí zkreslení a rozptyl, např .:

Jedním ze způsobů řešení kompromisu je použití smíšených modelů a nastavení učení . Například podpora kombinuje několik „špatných“ modelů (vysoká odchylka) do sady, která má nižší odchylku než jednotlivé modely, zatímco pytlování kombinuje „nejlepší“ klasifikátory způsobem, který snižuje jejich rozptyl.

Metoda K nejbližších sousedů

V případě  postupu k nejbližších sousedů , An explicitní vzorec existuje o bias - variance rozkladu parametru  :

kde jsou nejbližší sousedé ve cvičném vzorku. Předpětí (první člen rovnice) je monotónní funkce zvyšující se o , zatímco rozptyl (druhý člen) klesá, jak se zvyšuje. Ve skutečnosti s „rozumnými předpoklady“ zkreslení odhadu nejbližšího souseda (1-NN) úplně zmizí, když má velikost cvičeného vzorku sklon k nekonečnu.

Aplikace na lidské učení

Přestože se v kontextu strojového učení široce diskutuje, dilema zkreslení bylo zkoumáno v kontextu kognitivní vědy , konkrétněji Gerda Gigerenzera a jeho spoluautorů v kontextu heuristického učení. Tvrdí, že lidský mozek řeší toto dilema v případě obecně šetrných na špatně charakterizovaných množinách poskytovaných experimentem přijetím heuristiky vysoké odchylky / nízké odchylky. To odráží skutečnost, že nezaujatý přístup nedefinuje dobře nové situace a také nepřiměřeně předpokládá přesnou znalost reality. Výsledné heuristiky jsou relativně přímé, ale vytvářejí lepší závěry v širším spektru situací.

Gelman a kol. tvrdí, že dilema zkreslení-odchylka naznačuje, že schopnosti, jako je obecné rozpoznávání objektů, se nelze naučit od nuly, ale vyžadují určitý stupeň vrozeného, ​​který je pak vyřešen zkušeností. Je to proto, že přístupy bez odvozovacího modelu vyžadují nepřiměřeně velké tréninkové sady, pokud se chceme vyhnout velkým odchylkám.

Podívejte se také

Reference

  1. Geman, Stuart; E. Bienenstock; R. Doursat (1992).
  2. Bias - rozklad rozptylu, In Encyclopedia of Machine Learning.
  3. Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013).
  4. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009).
  5. Vijayakumar, Sethu (2007).
  6. Shakhnarovich, Greg (2011).
  7. Domingos, Pedro (2000).
  8. Valentini, Giorgio; Dietterich, Thomas G. (2004).
  9. Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2008).
  10. Belsley, David (1991).
  11. Gagliardi, F (2011).
  12. Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal, lokálně vážená regrese pro kontrolu.
  13. Scott Fortmann-Roe.
  14. Gigerenzer, Gerd; Brighton, Henry (2009).

externí odkazy

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">