Statistická teorie učení

Teorie statistického učení je systém strojového učení z oblasti statistiky a funkční analýzy . Teorie statistického učení se zabývá problémem nalezení prediktivní funkce založené na datech . Teorie statistického učení vedla k aplikacím v oblastech, jako je počítačové vidění , rozpoznávání řeči , bioinformatika a baseball .

Úvod

Cílem učení je predikce a porozumění. Learning zahrnuje několik kategorií, včetně učení s učitelem , na učení bez učitele , na vzdělávání a učení zesílení . Z pohledu teorie statistického učení je nejvhodnější učení pod dohledem. Kontrolované učení je učení ze sady tréninkových dat. Každý bod ve formaci je dvojice vstup-výstup, kde vstup odpovídá výstupu. Problémem učení je odvodit funkci, která mapuje mezi vstupem a výstupem, takže naučenou funkci lze použít k předpovědi výstupu budoucího vstupu.

V závislosti na typu ukončení jsou pod dohledem problémy s učením buď regresní problémy, nebo klasifikační problémy . Pokud má výstup souvislý rozsah hodnot, jedná se o regresní problém. Na příkladu Ohmova zákona lze provést regresi s napětím jako vstupem a proudem jako výstupem. Regrese by našla funkční vztah mezi napětím a proudem , jako např ${\ displaystyle {\ frac {1} {R}}}$

{\ displaystyle I = {\ frac {1} {R}} V}

Problémy s klasifikací jsou ty, pro které bude výstup součástí diskrétní množiny . Klasifikace je pro aplikace strojového učení velmi běžná. Při rozpoznávání obličeje bude například obraz obličeje osoby vstupem a výstupní značkou bude jméno této osoby.

Po tréninku funkce založené na tréninkových datových sadách je tato funkce ověřena na testovací datové sadě, která se v tréninkové sadě neobjevila.

Formální popis

Dovolit být vektorový prostor všech možných vstupů a vektorový prostor všech možných výstupů. Teorie statistického učení předpokládá, že v prostoru produktu existuje neznámé rozdělení pravděpodobnosti , tj. Nějaké neznámé je . Výcviková sada se skládá z tohoto rozdělení pravděpodobnosti a je uvedena $X$ $Y$ ${\ displaystyle Z = X \ krát Y}$ ${\ displaystyle p (z) = p ({\ vec {x}}, y)}$ $ne$

{\ displaystyle S = \ {({\ vec {x}} _ {1}, y_ {1}), \ tečky, ({\ vec {x}} _ {n}, y_ {n}) \} = \ {{\ vec {z}} _ {1}, \ tečky, {\ vec {z}} _ {n} \}}

Všechno je vstupním vektorem z tréninkových dat a je výstupem, který tomu odpovídá. ${\ displaystyle {\ vec {x}} _ {i}}$ $y_i$

V tomto formalismu, problém závěr spočívá v nalezení funkce taková, že . Zvažte prostor verze Volal prostor verze. Prostor verze je prostor funkcí, které bude algoritmus hledat. Nechť je objektivní funkce metrikou rozdílu mezi hodnotou a aktuální hodnotou . Očekávané riziko je definováno jako $f: X \ mapsto Y$ ${\ displaystyle f ({\ vec {x}}) \ sim y}$ ${\ mathcal {H}}$ $f: X \ až Y$ ${\ displaystyle V (f ({\ vec {x}}), y)}$ ${\ displaystyle f ({\ vec {x}})}$ $y$

{\ displaystyle I [f] = \ displaystyle \ int _ {X \ krát Y} V (f ({\ vec {x}}), y) \, p ({\ vec {x}}, y) \, d {\ vec {x}} \, dy}

Cílová funkce, nejlepší možná funkce, kterou lze zvolit, je dána tím, kdo uspokojuje $F$ ${\ displaystyle f_ {opt}}$

{\ displaystyle f_ {opt} = arg \ inf _ {f \ in {\ mathcal {H}}} já [f]}

Jelikož rozdělení pravděpodobnosti není známo, musí se použít přibližná hodnota očekávaného rizika. Tato aproximace je založena na souboru tréninkových dat, vzorku odebraném z tohoto rozdělení pravděpodobnosti. Říká se tomu empirické riziko ${\ displaystyle p ({\ vec {x}}, y)}$

{\ displaystyle I_ {S} [f] = {\ frac {1} {n}} \ displaystyle \ sum _ {i = 1} ^ {n} V (f ({\ vec {x}} _ {i} ), y_ {i})}

Algoritmus učení, který volí funkci minimalizující empirické riziko, se nazývá empirická minimalizace rizika. ${\ displaystyle f_ {S}}$

Podívejte se také

Tyto Hilbertovy prostory s reprodukci jádra jsou dobrou volbou . ${\ mathcal {H}}$

Reference