Ve strojovém učení je hyperparametr parametr, jehož hodnota se používá k řízení procesu učení. Na druhé straně se hodnoty ostatních parametrů (obecně vážení uzlů) získají učením.
Hyperparametry lze klasifikovat jako hyperparametry modelu, které nelze odvodit namontováním stroje na sestavu pohonu, protože se vztahují k úkolu výběru modelu, nebo jako hyperparametry. Algoritmy, které v zásadě nemají žádný vliv na výkon modelu, ale ovlivňují rychlost a kvalita procesu učení. Příkladem hyperparametru modelu je topologie a velikost neurální sítě. Příklady hyperparametrů algoritmu jsou rychlost učení a velikost dávky.
Rozdílné hyperparameter se liší v závislosti na povaze učení algoritmů, například některé algoritmy strojového učení jednoduchý (jako je regrese nejmenších čtverců ) nevyžaduje žádné. Vzhledem k těmto hyperparametrům se cvičný algoritmus učí parametry z dat. Například, LASSO regrese je algoritmus, který přidává regularizační hyperparameter na na nejmenších čtverců regrese , která musí být definována před odhadem parametrů pomocí cvičného algoritmu.
Čas potřebný k trénování a testování algoritmu strojového učení může záviset na výběru jeho hyperparametrů. Hyperparametr je obecně spojitého nebo celočíselného typu, což vede k problémům s optimalizací smíšeného typu. Existence určitých hyperparametrů je podmíněna hodnotou ostatních, například velikost každé skryté vrstvy v neuronové síti může být podmíněna počtem vrstev, které mají na sebe navzájem vliv.
Někdy se hyperparametry nelze naučit pomocí dobře známých metod založených na gradientu, které se běžně používají k učení parametrů. Tyto hyperparametry jsou parametry popisující reprezentaci modelu, kterou nelze naučit klasickými optimalizačními metodami, ale přesto ovlivňují objektivní funkci.
Příkladem může být hyperparametr tolerance chyb ve vektorových strojích podpory .
Někdy se hyperparametry nelze naučit z tréninkových dat, protože agresivně zvyšují kapacitu modelu a mohou posunout funkci ztráty na špatné minimum - přeplnění a zachycení šumu v datech - na rozdíl od správného mapování bohatosti struktury v data. Například pokud zacházíme se stupněm polynomiální rovnice, která odpovídá regresnímu modelu, jako trénovatelný parametr, jednoduše by se zvýšil stupeň, dokud by model dokonale neseděl s daty, což by způsobilo malou chybu učení - ale slabý výkon generalizace.
Většinu variace výkonu lze připsat několika hyperparametrům. Optimalizace algoritmu, hyperparametru nebo interagujících hyperparametrů je měřítkem výkonu, kterého lze dosáhnout jeho vyladěním. Pro LSTM , zatímco rychlost učení následovaná velikostí sítě jsou jeho nejdůležitějšími hyperparametry, dávkování a hybnost nemají žádný významný vliv na jeho výkon.
Zatímco některé výzkumy prosazovaly použití mini-dávkových velikostí v tisících, jiné práce našly nejlepší výkon s mini-dávkovými velikostmi mezi 2 a 32.
Vrozená stochasticita učení přímo naznačuje, že empirický výkon hyperparametrů nemusí nutně být jeho skutečným výkonem. Metody, které nejsou robustní vůči jednoduchým změnám hyperparametru, náhodným semenům nebo dokonce různým implementacím stejného algoritmu, nelze integrovat do kritických řídicích systémů bez významného zjednodušení a robustnosti.
Zejména algoritmy učení výztuže vyžadují měření jejich výkonu u velkého počtu náhodných semen a také měření jejich citlivosti na volby hyperparametrů. Jejich vyhodnocení s malým počtem náhodných semen nezachytí správně výkon kvůli vysoké odchylce. Některé metody učení posílení, například DDPG (Deep Deterministic Policy Gradient), jsou citlivější na volby hyperparametrů než jiné.
Optimalizace hyperparametru najde n-tici hyperparametrů, která vytvoří optimální model, který minimalizuje předdefinovanou cílovou funkci na daných testovacích datech. Funkce goal vezme n-tici hyperparametrů a vrátí související náklady.
Kromě vyladění hyperparametrů zahrnuje strojové učení ukládání a organizování parametrů a výsledků a zajištění jejich reprodukovatelnosti. Při absenci robustní infrastruktury pro tento účel se kód používaný během výzkumu často rychle vyvíjí a kompromituje základní aspekty vědecké metody, jako je účetnictví a reprodukovatelnost . Platformy online spolupráce pro strojové učení jdou dále tím, že umožňují vědcům automaticky sdílet, organizovat a diskutovat o použitých experimentech, datech a algoritmech. Reprodukovatelnost může být zvláště problematická pro modely hlubokého učení .
Příjmení | Rozhraní |
---|---|
Comet.ml | Krajta |
OpenML | REST, Python, Java, R |
Váhy a předpětí | Krajta |
Příjmení | Rozhraní | Prodejna |
---|---|---|
Odhodlaná AI | REST, Python | PostgreSQL |
OpenML Docker | REST, Python, Java, R | MySQL |
Posvátný | Krajta | soubor, MongoDB , TinyDB, SQL |