Hyperparametr

Ve strojovém učení je hyperparametr parametr, jehož hodnota se používá k řízení procesu učení. Na druhé straně se hodnoty ostatních parametrů (obecně vážení uzlů) získají učením.

Hyperparametry lze klasifikovat jako hyperparametry modelu, které nelze odvodit namontováním stroje na sestavu pohonu, protože se vztahují k úkolu výběru modelu, nebo jako hyperparametry. Algoritmy, které v zásadě nemají žádný vliv na výkon modelu, ale ovlivňují rychlost a kvalita procesu učení. Příkladem hyperparametru modelu je topologie a velikost neurální sítě. Příklady hyperparametrů algoritmu jsou rychlost učení a velikost dávky.

Rozdílné hyperparameter se liší v závislosti na povaze učení algoritmů, například některé algoritmy strojového učení jednoduchý (jako je regrese nejmenších čtverců ) nevyžaduje žádné. Vzhledem k těmto hyperparametrům se cvičný algoritmus učí parametry z dat. Například, LASSO regrese je algoritmus, který přidává regularizační hyperparameter na na nejmenších čtverců regrese , která musí být definována před odhadem parametrů pomocí cvičného algoritmu.

Úvahy

Čas potřebný k trénování a testování algoritmu strojového učení může záviset na výběru jeho hyperparametrů. Hyperparametr je obecně spojitého nebo celočíselného typu, což vede k problémům s optimalizací smíšeného typu. Existence určitých hyperparametrů je podmíněna hodnotou ostatních, například velikost každé skryté vrstvy v neuronové síti může být podmíněna počtem vrstev, které mají na sebe navzájem vliv.

Parametry obtížnosti učení

Někdy se hyperparametry nelze naučit pomocí dobře známých metod založených na gradientu, které se běžně používají k učení parametrů. Tyto hyperparametry jsou parametry popisující reprezentaci modelu, kterou nelze naučit klasickými optimalizačními metodami, ale přesto ovlivňují objektivní funkci.

Příkladem může být hyperparametr tolerance chyb ve vektorových strojích podpory .

Necvičitelné parametry

Někdy se hyperparametry nelze naučit z tréninkových dat, protože agresivně zvyšují kapacitu modelu a mohou posunout funkci ztráty na špatné minimum - přeplnění a zachycení šumu v datech - na rozdíl od správného mapování bohatosti struktury v data. Například pokud zacházíme se stupněm polynomiální rovnice, která odpovídá regresnímu modelu, jako trénovatelný parametr, jednoduše by se zvýšil stupeň, dokud by model dokonale neseděl s daty, což by způsobilo malou chybu učení - ale slabý výkon generalizace.

Většinu variace výkonu lze připsat několika hyperparametrům. Optimalizace algoritmu, hyperparametru nebo interagujících hyperparametrů je měřítkem výkonu, kterého lze dosáhnout jeho vyladěním. Pro LSTM , zatímco rychlost učení následovaná velikostí sítě jsou jeho nejdůležitějšími hyperparametry, dávkování a hybnost nemají žádný významný vliv na jeho výkon.

Zatímco některé výzkumy prosazovaly použití mini-dávkových velikostí v tisících, jiné práce našly nejlepší výkon s mini-dávkovými velikostmi mezi 2 a 32.

Vrozená stochasticita učení přímo naznačuje, že empirický výkon hyperparametrů nemusí nutně být jeho skutečným výkonem. Metody, které nejsou robustní vůči jednoduchým změnám hyperparametru, náhodným semenům nebo dokonce různým implementacím stejného algoritmu, nelze integrovat do kritických řídicích systémů bez významného zjednodušení a robustnosti.

Zejména algoritmy učení výztuže vyžadují měření jejich výkonu u velkého počtu náhodných semen a také měření jejich citlivosti na volby hyperparametrů. Jejich vyhodnocení s malým počtem náhodných semen nezachytí správně výkon kvůli vysoké odchylce. Některé metody učení posílení, například DDPG (Deep Deterministic Policy Gradient), jsou citlivější na volby hyperparametrů než jiné.

Optimalizace

Optimalizace hyperparametru najde n-tici hyperparametrů, která vytvoří optimální model, který minimalizuje předdefinovanou cílovou funkci na daných testovacích datech. Funkce goal vezme n-tici hyperparametrů a vrátí související náklady.

Reprodukovatelnost

Kromě vyladění hyperparametrů zahrnuje strojové učení ukládání a organizování parametrů a výsledků a zajištění jejich reprodukovatelnosti. Při absenci robustní infrastruktury pro tento účel se kód používaný během výzkumu často rychle vyvíjí a kompromituje základní aspekty vědecké metody, jako je účetnictví a reprodukovatelnost . Platformy online spolupráce pro strojové učení jdou dále tím, že umožňují vědcům automaticky sdílet, organizovat a diskutovat o použitých experimentech, datech a algoritmech. Reprodukovatelnost může být zvláště problematická pro modely hlubokého učení .

Služby

Příjmení Rozhraní
Comet.ml Krajta
OpenML REST, Python, Java, R
Váhy a předpětí Krajta

Software

Příjmení Rozhraní Prodejna
Odhodlaná AI REST, Python PostgreSQL
OpenML Docker REST, Python, Java, R MySQL
Posvátný Krajta soubor, MongoDB , TinyDB, SQL

Související články

Reference

  1. Claesen, Marc a Bart De Moor. „Hledání hyperparametrů ve strojovém učení.“ arXiv předtisk arXiv: 1502.02127 (2015).
  2. Leyton-Brown, Hoos and Hutter, „  Efektivní přístup k hodnocení významu hyperparametrů  “, submission.mlr.press ,27. ledna 2014, str.  754–762 ( číst online )
  3. article | title = van Rijn, Jan N. a Frank Hutter. „Hyperparameter Importance Across Datasets.“ arXiv předtisk arXiv: 1710.04725 (2017).
  4. Probst, Philipp, Bernd Bischl a Anne-Laure Boulesteix. „Laditelnost: Důležitost hyperparametrů algoritmů strojového učení.“ arXiv předtisk arXiv: 1802.09596 (2018).
  5. Greff, Srivastava, Koutník a Steunebrink, „  LSTM: A Search Space Odyssey  “, IEEE Transactions on Neural Networks and Learning Systems , sv.  28, n o  10,23. října 2017, str.  2222–2232 ( PMID  27411231 , DOI  10.1109 / TNNLS.2016.2582924 , arXiv  1503.04069 )
  6. Breuel, Thomas M. „Benchmarking sítí LSTM.“ arXiv předtisk arXiv: 1508.02774 (2015).
  7. Revisiting Small Batch Training for Deep Neural Networks (2018).
  8. Mania, Horia, Aurelia Guy a Benjamin Recht. „Jednoduché náhodné vyhledávání poskytuje konkurenční přístup k posilování učení.“ arXiv předtisk arXiv: 1803.07055 (2018).
  9. Villa a Zimmerman, „  Reprodukovatelnost v ML: proč je to důležité a jak toho dosáhnout  “ , odhodlaný blog AI ,25. května 2018(zpřístupněno 31. srpna 2020 )
  10. "  Comet.ml - Správa experimentů se strojovým učením  "
  11. Inc, „  comet-ml: Supercharging Machine Learning  “ , na PyPI
  12. Jan N. van Rijn , Bernd Bischl , Luis Torgo , Bo Gao , Umaashankar, Fischer, Winter, Wiswedel Berthold, van Rijn, Jan N., et al. „OpenML: Vědecká platforma pro spolupráci.“ Společná evropská konference o strojovém učení a získávání znalostí v databázích. Springer, Berlin, Heidelberg, 2013. , roč.  7908, sb.  "Lecture Notes in Computer Science",2013, 645–649  s. ( ISBN  978-3-642-38708-1 , DOI  10.1007 / 978-3-642-40994-3_46 ) , „OpenML: Platforma pro společnou vědu“
  13. „  Vanschoren, Joaquin, Jan N. van Rijn a Bernd Bischl. „Získání výzkumu strojového učení online pomocí OpenML.“ Sborník ze 4. mezinárodní konference o velkých datech, proudech a těžbě heterogenních zdrojů: Algoritmy, systémy, programovací modely a aplikace - svazek 41. JMLR. org, 2015.  “
  14. „  van Rijn, JN Masivně spolupracující strojové učení. Diss. 2016.  " ,19. prosince 2016
  15. „  OpenML  “ , GitHub
  16. „  Váhy a předpětí pro sledování a spolupráci experimentů  “
  17. „  Monitorujte své modely strojového učení pomocí PyEnv  “
  18. Vanschoren, Joaquin, et al. „OpenML: síťová věda ve strojovém učení.“ arXiv předtisk arXiv: 1407,7722 (2014).
  19. Greff, Klaus a Jürgen Schmidhuber. „Představujeme Sacred: Nástroj pro usnadnění reprodukovatelného výzkumu.
  20. Greff, Klaus a kol. „Posvátná infrastruktura pro výpočetní výzkum.“
  21. Greff, „  posvátný: Usnadňuje automatizovaný a reprodukovatelný experimentální výzkum  “ , na PyPI ,3. ledna 2020