Umělá neuronová síť

Umělé neuronové sítě , nebo umělé neuronové sítě , je systém, jehož design byl původně schematicky inspirovat fungování biologických neuronů , a která následně přiblížila statistických metod.

Neuronové sítě jsou obecně optimalizovány metodami učení pravděpodobnostního typu, zejména Bayesovského . Jsou umístěny na jedné straně do rodiny statistických aplikací , kterou obohacují o soubor paradigmat umožňujících vytvářet rychlé klasifikace ( zejména sítě Kohonen ), a na druhé straně do rodiny metod umělé inteligence ke kterému poskytují percepční mechanismus nezávislý na vlastních představ realizátora a vstupní informace pro formální logické uvažování (viz hluboká učení ).

Při modelování biologických obvodů umožňují otestovat některé funkční hypotézy z neurofyziologie nebo dokonce důsledky těchto hypotéz za účelem jejich porovnání s realitou.

Historický

Neuronové sítě jsou postaveny na biologickém paradigmatu , formálním neuronu ( genetické algoritmy jsou na přirozeném výběru ). Tyto typy biologických metafor se staly běžnými u myšlenek kybernetiky a biocybernetiky . Podle vzorce Yanna Le Cuna netvrdí, že by popisoval mozek víc než křídlo letadla, například kopíruje mozek ptáka . Zejména není simulována role gliových buněk .

Formální neuron

Neurologové Warren McCulloch a Walter Pitts publikovali první práci o neuronových sítích na konci 50. let se zásadním článkem: Co žabí oko řekne mozku žáby ). Poté vytvořili zjednodušený model biologického neuronu, který se běžně označuje jako formální neuron . Ukázali, že jednoduché formální neuronové sítě mohou teoreticky vykonávat složité logické , aritmetické a symbolické funkce.

Formální neuron je koncipován jako automat vybavený přenosovou funkcí, která transformuje jeho vstupy na výstupy podle přesných pravidel. Například neuron sčítá své vstupy, porovnává výsledný součet s prahovou hodnotou a reaguje vydáním signálu, pokud je tento součet větší nebo roven této prahové hodnotě (ultra-zjednodušený model fungování biologického neuronu). Tyto neurony jsou také přidruženy v sítích, jejichž topologie připojení je variabilní: proaktivní, opakující se sítě atd. A konečně, účinnost přenosu signálu z jednoho neuronu do druhého se může lišit: mluvíme o „synaptické hmotnosti“ a tyto váhy lze modulovat pravidly učení (což napodobuje synaptickou plasticitu sítí. Biologických).

Funkcí formálních neuronových sítí, jako je živý model, je rychle vytvářet klasifikace a naučit se je vylepšovat. Na rozdíl od tradičních metod počítačového řešení by člověk neměl vytvářet program krok za krokem na základě jeho porozumění. Důležitými parametry tohoto modelu jsou synaptické koeficienty a prahová hodnota každého neuronu a způsob jejich úpravy. Jsou to ti, kdo určují vývoj sítě podle jejích vstupních informací. Je nutné zvolit mechanismus umožňující je vypočítat a podle možnosti je sblížit k hodnotě zajišťující klasifikaci co nejblíže optimální. Tomu se říká fáze učení sítě. V modelu formálních neuronových sítí se tedy učení rovná stanovení synaptických koeficientů, které jsou nejvhodnější pro klasifikaci předložených příkladů.

Perceptron

Práce McCullocha a Pittsa neposkytla žádné údaje o metodě přizpůsobení synaptických koeficientů. Tato otázka v srdci úvah o učení byla poprvé zodpovězena díky práci kanadského fyziologa Donalda Hebba o učení v roce 1949 popsané v jeho knize Organizace chování . Hebb navrhl jednoduché pravidlo, které umožňuje upravit hodnotu synaptických koeficientů podle aktivity jednotek, které spojují. Toto pravidlo nyní známé jako „ Hebbovo pravidlo “ je v současných modelech přítomno téměř všude, dokonce i v těch nejsofistikovanějších.

Z tohoto článku se myšlenka postupem času ujala v myslích a v roce 1957 vyklíčila v mysli Franka Rosenblatta s modelem perceptronu . Je to první umělý systém schopný učit se ze zkušenosti, i když jeho instruktor udělá nějaké chyby (což se jasně liší od formálního logického systému učení).

V roce 1969 byla zasažena vážná rána vědecké komunitě, která se točila kolem neuronových sítí: Marvin Lee Minsky a Seymour Papert publikovali práci zdůrazňující některá teoretická omezení perceptronu a obecněji lineární klasifikátory , zejména nemožnost léčby nelineárních problémů nebo problémů s propojením . Implicitně rozšířili tato omezení na všechny modely umělých neuronových sítí. Zdálo se, že je ve slepé uličce, že výzkum neuronových sítí ztratil velkou část svého veřejného financování a také se od něj odvrátil průmyslový sektor . Prostředky určené pro umělou inteligenci byly spíše přesměrovány na formální logiku . Silné vlastnosti určitých neuronových sítí v adaptivních záležitostech (např. Adaline ), které jim umožňují evolučním způsobem modelovat jevy, které se samy vyvíjejí, však povedou k tomu, aby byly integrovány ve více či méně explicitních formách do korpusu adaptivních systémů. ; používá se v telekomunikacích nebo řízení průmyslových procesů.

V roce 1982 , John Joseph Hopfield poznal fyzik, dal nový život do neurální publikováním článek zavádí nový model neuronové sítě (zcela rekurentní). Tento článek byl úspěšný z několika důvodů, z nichž hlavní bylo zabarvení teorie neuronových sítí s přísností vlastní fyzikům. Nervová soustava se opět stala přijatelným předmětem studia, ačkoli Hopfieldův model trpěl hlavními omezeními modelů 60. let , zejména neschopností vypořádat se s nelineárními problémy.

Vícevrstvý Perceptron

Ve stejný den byly algoritmické přístupy k umělé inteligenci předmětem deziluze a jejich aplikace nesplňovaly očekávání. Tato deziluze motivovala k přeorientování výzkumu umělé inteligence směrem k neuronovým sítím (i když se tyto sítě týkají spíše umělého vnímání než přísně vzato umělé inteligence ). Výzkum byl znovu zahájen a průmysl znovu získal určitý neuronální zájem (zejména pro aplikace, jako je navádění řízených střel ). V roce 1984 (?) Byl systém přechodu zpětné propagace nejdiskutovanějším subjektem v této oblasti.

V oblasti umělých neuronových sítí pak nastává revoluce: nová generace neuronových sítí, schopná úspěšně zpracovat nelineární jevy: vícevrstvý perceptron nemá defekty zvýrazněné Marvinem Minskym . Poprvé navržený Paulem Werbosem se v roce 1986 objevil vícevrstvý perceptron, který představil David Rumelhart a současně pod podobným názvem v Yann Le Cun . Tyto systémy jsou založeny na zpětném šíření chybového gradientu v systémech s několika vrstvami, z nichž každá je typu Bernard Widrow Adaline, blízká Rumelhartovu perceptronu.

Neuronové sítě následně zaznamenaly značný rozmach, a byl jedním z prvních systémů prospěch z pochopení teorie „statistické regularizace“ zavedené Vladimir Vapnik v Sovětském svazu a popularizoval na západě po pádu Spojených států. Stěny . Tato teorie, jedna z nejdůležitějších v oblasti statistiky , umožňuje předvídat, studovat a regulovat jevy spojené s overfittingem . Můžeme tedy regulovat systém učení tak, aby rozhodoval v nejlepším případě mezi špatným modelováním (příklad: průměr ) a příliš bohatým modelováním, které by bylo iluzorně optimalizováno na příliš malém počtu příkladů a bylo by nefunkční na příkladech, které se dosud nenaučily, dokonce blízké naučeným příkladům. Overfitting je obtíž, se kterou se potýkají všechny příkladové systémy učení, ať už používají metody přímé optimalizace (např. Lineární regrese ), iterativní (např. Algoritmus gradientu ), nebo iterativní polopřímý ( konjugovaný gradient , očekávání-maximalizace ...) a to aplikují se na klasické statistické modely, na skryté Markovovy modely nebo na formální neuronové sítě.

Konvoluční neuronová síť

Neuronové sítě se vyvíjejí s novým typem sítě, který není zcela propojen, aby odlehčil modely z hlediska počtu parametrů a zlepšil výkon a jejich kapacitu pro generalizaci. Jednou z prvních aplikací bylo automatické rozpoznávání amerických poštovních směrovacích čísel se sítí LeNet-5. Ve strojovém učení je konvoluční neurální síť nebo konvoluční neurální síť (CNN nebo ConvNet pro konvoluční neurální sítě) typ acyklické (dopředné) umělé neurální sítě, ve které je vzor spojení mezi neurony inspirován vizuální kůrou zvířat . Neurony v této oblasti mozku jsou uspořádány tak, aby odpovídaly překrývajícím se oblastem při skládání zorného pole. Jejich provoz je inspirován biologickými procesy, skládají se z vícevrstvé sady perceptronů, jejichž účelem je předzpracování malého množství informací. Konvoluční neuronové sítě mají široké uplatnění v rozpoznávání obrazu a videa, doporučovacích systémech a zpracování přirozeného jazyka.

Užitečnost

Neuronové sítě, jako systémy schopné učení, implementují princip indukce, tj. Učení zkušeností. Ve srovnání s konkrétními situacemi odvozují integrovaný rozhodovací systém, jehož obecný charakter závisí na počtu zjištěných případů učení a jejich složitosti ve vztahu ke složitosti řešeného problému. Naproti tomu symbolické systémy schopné učení, pokud také implementují indukci, to dělají na základě algoritmické logiky tím, že komplikují sadu deduktivních pravidel ( například Prolog ).

Díky své schopnosti klasifikovat a zobecňovat se neuronové sítě obvykle používají při problémech statistické povahy, jako je automatická klasifikace poštovních směrovacích čísel nebo rozhodování o nákupu akcií na základě cenových pohybů. Dalším příkladem je, že banka může vytvořit soubor údajů o zákaznících, kteří si vzali půjčku, skládající se z: jejich příjmu, věku, počtu nezaopatřených dětí… a zda jsou dobrými zákazníky. Pokud je tato datová sada dostatečně velká, lze ji použít k trénování neuronové sítě. Banka poté bude schopna představit vlastnosti potenciálního nového zákazníka a síť zareaguje, ať už bude dobrým zákazníkem, či nikoli, zobecněním na základě případů, které zná.

Pokud neurální síť pracuje se skutečnými čísly, odpověď odráží pravděpodobnost jistoty. Například: 1 pro „jistý, že bude dobrým zákazníkem“, -1 pro „jistý, že bude špatným zákazníkem“, 0 pro „bez nápadu“, 0,9 pro „téměř jistý, že bude dobrým zákazníkem“.

Neuronová síť ne vždy poskytuje pravidlo, které může člověk použít. Síť často zůstává černou skříní, která poskytuje odpověď, když je předložena s datem, ale síť neposkytuje snadno interpretovatelné odůvodnění.

Neuronové sítě se skutečně používají, například:

pro klasifikaci živočišných druhů podle druhů s analýzou DNA.
rozpoznávání vzorů ; například pro optické rozpoznávání znaků (OCR), a zejména banky k ověření množství šeků, La Poste k třídění pošty podle poštovního směrovacího čísla atd. ; nebo dokonce pro automatizovaný pohyb autonomních mobilních robotů.
aproximace neznámé funkce.
zrychlené modelování funkce známé, ale velmi složité pro výpočet s přesností; například určité inverzní funkce používané k dekódování signálů dálkového průzkumu vysílaných satelity a jejich transformaci na data na mořské hladině.
odhady akciového trhu:
- poznání hodnoty společnosti podle dostupných indexů: zisky, dlouhodobý a krátkodobý dluh, obrat, kniha objednávek, technické údaje o ekonomické situaci. Tento typ aplikace obecně nepředstavuje problém
- pokusy předpovědět periodicitu cen na akciovém trhu. Tento typ predikce je velmi zpochybňován ze dvou důvodů, přičemž jedním z nich je, že není zřejmé, že cena akcií je zcela přesvědčivě periodická (trh skutečně do značné míry předpokládá zvýšení jako předvídatelné poklesy, což platí pro jakoukoli možnou frekvenci a variaci období, které ztěžuje spolehlivost) a druhé, že předvídatelná budoucnost společnosti určuje alespoň stejně silně cenu jejího podílu, pokud tomu tak není, je více, než může jeho minulost; případy společností Pan Am, Manufrance nebo IBM nám umožňují být o tom přesvědčeni.
modelování učení a zdokonalování výukových technik.
v meteorologii pro klasifikaci atmosférických podmínek a statistickou předpověď počasí.
při auskultaci hydraulických konstrukcí, pro fyzické pochopení jevů posunutí, rychlosti zvedání a úniků.

Limity

Umělé neuronové sítě potřebují skutečné případy, které slouží jako příklady pro jejich učení (tomu se říká učící základna ). Tyto případy musí být o to početnější, že problém je složitý a jeho topologie je nestrukturovaná. Systém čtení neurálních znaků lze tedy optimalizovat pomocí ručního rozdělení velkého počtu slov psaných ručně mnoha lidmi. Každý znak pak může být prezentován ve formě surového obrazu, který má dvourozměrnou prostorovou topologii nebo řadu téměř všech propojených segmentů. Zachovaná topologie, složitost modelovaného jevu a počet příkladů musí souviset. Z praktického hlediska to není vždy snadné, protože příklady mohou být buď v absolutně omezeném množství, nebo příliš nákladné na to, aby byly shromážděny v dostatečném počtu.

Existují problémy, které dobře fungují s neuronovými sítěmi, zejména s klasifikací do konvexních domén (tj. Takové, že pokud jsou body A a B součástí domény, pak je součástí i celý segment AB v). Problémy jako „ Je počet záznamů na 1 (nebo nula) lichý nebo sudý?“ Jsou velmi špatně vyřešeny: prosadit takové věci na 2 silových N bodech, pokud jsme spokojeni s naivním, ale homogenním přístupem, potřebujeme přesně N-1 vrstev mezilehlých neuronů, což je škodlivé pro obecnost procesu.

Karikaturou, ale významným příkladem je následující: síť, která má jako vstup pouze váhu osoby, musí určit, zda je tato osoba žena nebo muž. Vzhledem k tomu, že ženy jsou statisticky o něco lehčí než muži, bude síť vždy fungovat o něco lépe než jednoduché náhodné losování: tento ořezaný příklad ukazuje jednoduchost a omezení těchto modelů, ale také ukazuje, jak je rozšířit: „nošení informace o sukni, pokud ji přidáme, bude mít zjevně větší synaptický koeficient než jednoduchá informace o hmotnosti.

Neprůhlednost

Složité umělé neuronové sítě obvykle nemohou samy vysvětlit svůj způsob „myšlení“. Výpočty vedoucí k výsledku nejsou viditelné pro programátory, kteří vytvořili neuronovou síť. „Umělá inteligence neuroscience“ Proto byl vytvořen s cílem studovat černou skříňku tvořenou neuronových sítí, věda, která by umožnily zvýšit důvěru v dosažené výsledky těchto sítí či umělé inteligence, které je používají.

Modelka

Struktura sítě

Neuronová síť je obvykle tvořena řadou vrstev, z nichž každá bere své vstupy z výstupů předchozí. Každá vrstva (i) je tvořena N i neurony, přičemž jejich vstupy jsou z N i-1 neuronů předchozí vrstvy. Každá synapse má s sebou spojenou synaptickou váhu, takže N i-1 se vynásobí touto váhou, poté se přidá neurony úrovně i, což je ekvivalent násobení vstupního vektoru transformační maticí. Pokud by byly různé vrstvy neuronové sítě umístěny jedna za druhou, znamenalo by to kaskádování několika transformačních matic a mohlo by být redukováno na jednu matici, produkt ostatních, pokud by nebyly v každé vrstvě, výstupní funkce, která zavádí nelinearitu na každém kroku. To ukazuje důležitost uvážlivého výběru dobré výstupní funkce: neurální síť, jejíž výstupy by byly lineární, by neměla žádný zájem.

Kromě této jednoduché struktury může neurální síť obsahovat také smyčky, které radikálně mění možnosti, ale také složitost. Stejně jako smyčky mohou transformovat kombinatorickou logiku na sekvenční logiku , smyčky v neurální síti transformují jednoduché zařízení pro rozpoznávání vstupu na složitý stroj schopný všech druhů chování.

Kombinovaná funkce

Zvažte jakýkoli neuron.

Přijímá řadu hodnot z upstream neuronů prostřednictvím svých synaptických spojení a produkuje určitou hodnotu pomocí kombinační funkce . Tato funkce může být tedy formován jako bytí -to- skalární vektor funkce , a to zejména:

Sítě typu MLP ( vícevrstvý perceptron ) počítají lineární kombinaci vstupů, tj. Kombinační funkce vrací bodový produkt mezi vektorem vstupů a vektorem synaptických vah.
Sítě typu RBF ( funkce radiální báze ) vypočítávají vzdálenost mezi vstupy, tj. Kombinační funkce vrací euklidovskou normu vektoru vyplývající z rozdílu vektorů mezi vstupními vektory.

Aktivační funkce

Aktivační funkce (nebo funkce prahování , nebo dokonce přenosová funkce ) se používá k zavedení nelinearity do fungování neuronu.

Prahové funkce mají obecně tři intervaly:

pod prahovou hodnotou je neuron neaktivní (často v tomto případě je jeho výstup 0 nebo -1);
kolem prahu přechodová fáze;
nad prahovou hodnotou je neuron aktivní (jeho výstup je často 1).

Typickými příklady aktivačních funkcí jsou:

Funkce sigmoid .
Hyperbolická tangensová funkce .
Funkce Heaviside .

Bayesovská logika, jejíž Cox-Jaynesova věta formalizuje otázky učení, zahrnuje také funkci v S, která se objevuje opakovaně: $ev (p) = 10 \ log \ left ({\ frac {p} {1-p}} \ right)$

Šíření informací

Jakmile je tento výpočet proveden, šíří neuron svůj nový vnitřní stav na svém axonu. V jednoduchém modelu je neurální funkce jednoduše prahovou funkcí: rovná se 1, pokud vážený součet překročí určitou prahovou hodnotu; 0 jinak. V bohatším modelu pracuje neuron se skutečnými čísly (často v rozsahu [0,1] nebo [-1,1]). Říkáme, že neuronová síť přechází z jednoho stavu do druhého, když všechny její neurony přepočítávají paralelně svůj vnitřní stav podle svých vstupů.

Učení se

Teoretický základ

Pojem učení , i když je již známý od Sumera , nelze modelovat v rámci deduktivní logiky : toto ve skutečnosti vychází z již zavedených znalostí, z nichž se čerpají odvozené znalosti. Jedná se však o obrácený proces: omezeným pozorováním, vyvozováním věrohodných zobecnění: jedná se o proces indukcí .

Pojem učení zahrnuje dvě reality, s nimiž se často zachází:

memorování: fakt asimilace v husté formě, možná četné příklady,
zevšeobecnění: skutečnost, že díky naučeným příkladům je možné vypořádat se s odlišnými příklady, s nimiž se dosud nesetkali, ale podobnými.

V případě systémů statistického učení, které se používají k optimalizaci klasických statistických modelů, neuronových sítí a Markovianových automatů, je předmětem veškeré pozornosti generalizace.

S touto představou zevšeobecňování více či méně kompletně zachází několik teoretických přístupů.

Zevšeobecňování je globálně a obecně chápáno teorií statistické regularizace zavedenou Vladimírem Vapnikem . Tato teorie, původně vyvinutá v Sovětském svazu, se rozšířila na Západě od pádu Berlínské zdi. Teorie statistické regularizace se velmi rozšířila mezi těmi, kteří studují neuronové sítě, kvůli generickému tvaru křivek reziduálního učení a chyb generalizace vyplývajících z iterativních postupů učení, jako jsou sestupy gradientu používané k optimalizaci vícevrstvých perceptronů . Tyto obecné formy odpovídají formám poskytovaným teorií statistické regularizace; je to proto, že učební postupy sestupným gradientem, počínaje počáteční konfigurací synaptických vah, postupně prozkoumávají prostor možných synaptických vah; pak najdeme problém postupného zvyšování schopnosti učení , základní koncept v jádru teorie statistické regularizace.
Zevšeobecňování je také jádrem Bayesianského odvozovacího přístupu , který se vyučuje již dlouhou dobu. Tyto Cox-Jaynes teorém tak poskytuje důležitý základ pro takové učení, které nás učí, že jakýkoliv způsob učení je buď isomorfní pravděpodobností opatřených Bayesova vztahu, nebo nesouvislý . Jedná se o mimořádně silný výsledek, a proto jsou v této oblasti široce používány Bayesovské metody.

Třída řešitelného problému

V závislosti na struktuře sítě lze díky neuronovým sítím přistupovat k různým typům funkcí:

Funkce reprezentovatelné perceptronem

Perceptron (síť s jednou jednotkou) může představovat následující booleovské funkce: and, or, nand, nor ale ne xor. Protože jakoukoli booleovskou funkci lze pomocí těchto funkcí reprezentovat, je perceptronová síť schopna reprezentovat všechny booleovské funkce. Ve skutečnosti jsou funkce nand a ani o nich řečeno, že jsou univerzální: kombinací jedné z těchto funkcí můžeme reprezentovat všechny ostatní.

Funkce reprezentovatelné acyklickými vícevrstvými neuronovými sítěmi

Booleovské funkce: všechny booleovské funkce lze reprezentovat dvouvrstvou sítí. V nejhorším případě se počet neuronů ve skryté vrstvě exponenciálně zvyšuje s počtem vstupů.
Kontinuální funkce: všechny ohraničené spojité funkce jsou s libovolnou přesností reprezentovatelné dvouvrstvou sítí (Cybenko, 1989). Tato věta platí pro síť, jejíž neurony používají sigmoid ve skryté vrstvě a lineární neurony (bez prahové hodnoty) ve výstupní vrstvě. Počet neuronů ve skryté vrstvě závisí na funkci, která má být aproximována.
Libovolné funkce: libovolnou funkci lze aproximovat s libovolnou přesností díky třívrstvé síti ( Cybenkova věta , 1988).

Algoritmus

Drtivá většina neuronových sítí má „tréninkový“ algoritmus, který spočívá v úpravě synaptických vah podle sady dat prezentovaných na vstupu do sítě. Cílem tohoto tréninku je umožnit neuronové síti „učit se“ z příkladů. Pokud je výcvik proveden správně, je síť schopna poskytovat výstupní odpovědi velmi blízké původním hodnotám datové sady školení. Celý smysl neuronových sítí však spočívá v jejich schopnosti generalizovat z testovací sady. Je tedy možné použít neurální síť k vytvoření paměti; tomu se říká neuronová paměť .

Topologické pohled na učení odpovídá určení hypersurface na kterém je množina reálných čísel , a počet vstupů do sítě. $\ mathbb {R} ^ {n}$ $\ mathbb {R}$ $ne$

Učení se

Režim pod dohledem nebo bez dohledu

Na učení se říká, že je pod dohledem, když je síť nucena konvergovat směrem k přesnému koncovému stavu, současně s tím, jak je mu prezentován vzor.

Naopak, během učení bez dozoru je síti ponechána volnost konvergovat do jakéhokoli koncového stavu, když je jí předložen vzor.

Overfitting

Často se stává, že příklady studijní základny obsahují přibližné nebo hlučné hodnoty. Pokud donutíme síť reagovat téměř dokonale na tyto příklady, můžeme získat síť, která je ovlivněna chybnými hodnotami.

Představte si například, že představujeme síti páry, které se nacházejí na linii rovnice , ale hlučné, takže body nejsou přesně na linii. Pokud je dobré učení, síť odpovídá za jakoukoli prezentovanou hodnotu . Pokud dojde k nadměrnému vybavení , síť reaguje o něco více než nebo o něco méně, protože každý pár umístěný mimo pravou stranu ovlivní rozhodnutí: navíc se naučí hluk, což není žádoucí. ${\ displaystyle (x_ {i}, f (x_ {i}))}$ $y = sekera + b$ ${\ displaystyle ax + b}$ $X$ ${\ displaystyle ax + b}$ ${\ displaystyle (x_ {i}, f (x_ {i}))}$

Aby nedošlo k přeplnění, existuje jednoduchá metoda: stačí rozdělit základnu příkladů na 2 podmnožiny. První je pro učení a druhá pro hodnocení učení. Dokud se chyba získaná u druhé sady sníží, můžeme pokračovat v učení, jinak se zastavíme.

Zpětná propagace

Šíření zpět je rétropropager chybu synapsí a neuronů jsou k ní připojeny neuron je. U neuronových sítí obvykle používáme zpětné šíření chybového gradientu , které spočívá v opravě chyb podle důležitosti prvků, které se přesně podílely na realizaci těchto chyb: synaptické váhy, které přispívají ke generování chyby. Důležité bude upraveno významnějším způsobem než váhy, které generovaly marginální chybu.

Prořezávání

Prořezávání ( prořezávání , angličtina) je metoda, která zabrání přetrénování při současném omezení složitosti modelu. Spočívá v odstranění spojení (nebo synapsí), vstupů nebo neuronů ze sítě, jakmile je učení dokončeno. V praxi jsou prvky, které mají nejmenší vliv na chybu síťového výstupu, potlačeny. Dva příklady algoritmů prořezávání jsou:

Optimální poškození mozku (OBD) Yann LeCun et al.
Optimální mozkový chirurg (OBS) B. Hassibi a DG Stork

Různé typy neuronových sítí

Sada vah synaptických vazeb určuje fungování neuronové sítě. Vzory jsou prezentovány podmnožině neurální sítě: vstupní vrstvě. Když je vzor aplikován na síť, snaží se dosáhnout stabilního stavu. Když je dosaženo, výsledkem jsou aktivační hodnoty výstupních neuronů. Neurony, které nejsou součástí vstupní vrstvy ani výstupní vrstvy, se nazývají skryté neurony .

Typy neuronové sítě se liší v několika parametrech:

topologie spojení mezi neurony;
použitá agregační funkce (vážený součet, pseudoeuklidovská vzdálenost atd.);
funkce prahování použit ( sigmoid , krok, lineární funkce, funkce Gauss , atd.);
učení algoritmus ( gradientová Backpropagation , kaskáda korelace);
další parametry, specifické pro určité typy neuronových sítí, jako je relaxační metoda pro neuronové sítě (například Hopfieldovy sítě), které nejsou jednoduché šíření (například vícevrstvý perceptron).

V rámci tréninku těchto neuronových sítí bude pravděpodobně implementováno mnoho dalších parametrů, například:

metoda hmotnost rozpad , takže je možné, aby se zabránilo vedlejším účinkům a neutralizují overfitting.

Sítě pod dohledem

Bez zpětného šíření Perceptron ADALINE (adaptivní lineární neuron)

Síť ADALINE je blízká modelu perceptronu , liší se pouze její aktivační funkce, protože používá lineární funkci. Aby se snížilo rušení přijímané na vstupu, používají sítě ADALINE metodu nejmenších čtverců .

Síť realizuje vážený součet svých vstupních hodnot a přidává k nim předdefinovanou prahovou hodnotu. Funkce lineárního přenosu se poté použije k aktivaci neuronu. Při učení se synaptické koeficienty různých položek mění pomocí zákona Widrow-Hoffa (in) . Tyto sítě se často používají při zpracování signálu, zejména pro redukci šumu.

Cauchyho stroj

Cauchyho stroj je umělá neurální síť, která je docela podobná ve fungování Boltzmannova stroje . Použité zákony pravděpodobností však nejsou stejné.

Není podrobný

Adaptivní heuristický kritik (AHC)
Neuronová síť s časovým zpožděním (TDNN)
Asociační odměna za odměnu (ARP)
Lavinový filtr (AMF)
Backpercolation (Perc)
Artmap
Adaptivní logická síť (ALN)
Kaskádová korelace (CasCor)
Rozšířený Kalmanův filtr (EKF)
Učící se vektorová kvantizace (LVQ)
Pravděpodobnostní neurální síť (PNN)
Obecná regresní neuronová síť (GRNN)

Se zpětnou propagací

Konvoluční neurální síť (CNN)

Vícevrstvý Perceptron Není podrobný

Brain-State-in-a-Box (BSB)
Fuzzy kognitivní mapa (FCM)
Střední žíhání pole (MFT)
Opakovaná kaskádová korelace (RCC)
Zpětná propagace v čase (BPTT)
Opakované učení v reálném čase (RTRL)
Opakovaný rozšířený Kalmanův filtr (EKF)

Sítě bez dozoru

Se zpětnou propagací

Není podrobný

Additive Grossberg (AG)
Posunovací Grossberg (SG)
Teorie binární adaptivní rezonance (ART1)
Teorie analogové adaptivní rezonance (ART2, ART2a)
Diskrétní Hopfield (DH)
Kontinuální Hopfield (CH)
Fraktální chaos
Diskrétní obousměrná asociativní paměť (BAM)
Časová asociativní paměť (TAM)
Adaptivní obousměrná asociativní paměť (ABAM)
Soutěžní učení

V tomto typu učení bez dozoru soupeří neurony o to, aby byly aktivní. Jsou to binární výstup a my říkáme, že jsou aktivní, když je jejich výstup roven 1. Zatímco v ostatních pravidlech může být aktivních několik výstupů neuronů současně, v případě kompetitivního učení je aktivní pouze jeden neuron v daném okamžiku. . Každý výstupní neuron se specializuje na „detekci“ řady podobných tvarů a poté se stává detektorem funkcí. V tomto případě je vstupní funkcí, kde , a jsou prahové hodnoty, synaptické váhy a vstupní vektory. Vítězný neuron je ten, pro který je h maximální, takže pokud jsou prahové hodnoty stejné, ten, jehož váhy jsou nejblíže vstupům. Neuron s maximálním výstupem bude vítězem a jeho výstup bude nastaven na 1, zatímco poražení budou mít svůj výstup nastavený na 0. Neuron se učí pohybem svých vah na hodnoty vstupů, které jej aktivují, aby zvýšily svůj šance na výhru. Pokud neuron nereaguje na vstup, nedojde k žádné úpravě hmotnosti. Pokud neuron vyhraje, část hmotností všech vstupů se přerozdělí na váhy aktivních vstupů. Použitím pravidla získáte následující výsledky (Grossberg): ${\ displaystyle h = \ operatorname {b-dist} (W, X)}$ $b$ $Ž$ $X$

${\ displaystyle Dw_ {ij} = lr (x_ {j} -w_ {ij})}$ pokud vyhraje neuron,
${\ displaystyle Dw_ {ij} = 0}$ pokud neuron ztratím.

Účinkem tohoto pravidla je přiblížení vektoru synaptické hmotnosti k vstupnímu tvaru . $w _ {{ij}}$ $x_ {j}$

Příklad: zvažte dva mračna bodů v rovině, které chceme rozdělit do dvou tříd. a jsou dva vstupy a jsou váhy neuronu 1, které lze považovat za souřadnice bodu „hmotnost neuronu 1“ a a jsou váhy neuronu 2. Pokud jsou prahové hodnoty nulové, hi bude vzdálenost mezi body, které mají být klasifikovány, a váhové body. Předchozí pravidlo má tendenci zmenšovat tuto vzdálenost od bodu vzorkování, když vyhraje neuron. Musí proto umožnit, aby se každý váhový bod umístil uprostřed mraku. Pokud nastavíme váhy náhodně zpočátku, může se stát, že jeden z neuronů je umístěn poblíž dvou mraků a druhý je umístěn daleko, takže nikdy nevyhraje. Jeho váhy se nikdy nebudou moci vyvinout, zatímco váhy druhého neuronu jej umístí do středu dvou mraků. Problém těchto neuronů, které považujeme za mrtvé, lze vyřešit hraním na prahových hodnotách. Opravdu stačí zvýšit práh těchto neuronů, aby mohli začít vyhrávat. $x_ {1}$ $x_ {2}$ ${\ displaystyle w_ {11}}$ ${\ displaystyle w_ {12}}$ ${\ displaystyle w_ {21}}$ ${\ displaystyle w_ {22}}$

Aplikace: tento typ sítě a odpovídající metodu učení lze použít při analýze dat, aby se zvýraznily podobnosti mezi určitými daty.

Detaily

Jako model se neuronové sítě obecně používají v kontextu softwarové simulace. IMSL a Matlab tedy mají knihovny věnované neuronovým sítím. Existuje však několik hardwarových implementací jednodušších modelů, jako je například čip ZISC .

Podívejte se také

Reference

(en) Warren Sturgis McCulloch a Walter Pitts. Logický počet myšlenek vycházejících z nervové činnosti. Bulletin of Mathematical Biophysics , 5: 115-133, 1943.
( fr ) Frank Rosenblatt . Perceptron: pravděpodobnostní model pro ukládání a organizaci informací v mozku. Psychological Review , 65: 386-408, 1958.
( fr ) John Joseph Hopfield . Neuronové sítě a fyzické systémy s novými kolektivními výpočetními schopnostmi . Proceedings of the National Academy of Sciences , 79: 2554-2558, 1982.
Yann LeCun . Postup učení pro asymetrickou prahovou síť. COGNITIVA 85 , Paříž, 4-7. června 1985.
(en) DE Rumelhart a JL Mc Clelland. Paralelní distribuované zpracování: Průzkum v mikrostruktuře poznání. MIT Press , Cambridge, 1986.
(en) JA Anderson a E. Rosenfeld. Neuro Computing Základy výzkumu. MIT Press , Cambridge, 1988.
(fr) Tom M. Mitchell, Machine Learning ,1997[ detail vydání ]
Wulfram Gerstner, „ Umělá neurální síť - úvod do strojového učení “ , na adrese moodlearchive.epfl.ch ,2006(zpřístupněno 6. července 2016 ) .

Poznámky a odkazy

„ umělá neuronová síť “ , Le Grand Dictionnaire terminologique , Office Québécois de la langue française (přístup 28. ledna 2020 ) .
[PDF] Komise pro obohacení francouzského jazyka , "Vocabulaire de l'Intelligence Artifique (seznam výrazů, výrazy a definice přijaté)", Journal officiel de la République française n o 0285 du9. prosince 2018[ číst online ] .
( Gerstner 2004 , s. 3)
Tato paradigmata odpovídají různým typům učení neuronových sítí, včetně učení pod dohledem nebo bez dozoru a učení posilování.
École normale supérieure , „ BUDOUCNOSTI UMĚLÉ INTELIGENCE (Yann LeCun - Jean Ponce - Alexandre Cadain) “ ,19. října 2016(zpřístupněno 4. srpna 2017 )
Lettvin, JY, Maturana, HR, McCulloch, WS, & Pitts, WH; Co žabí oko říká žabímu mozku, (PDF, 14 stran) ( 1959 ); Sborník IRE, sv. 47, č. 11, str. 1940-51.
(in) Donald O. Hebb, Organizace chování: neuropsychologická teorie , Wiley , al. "Wileyova kniha v klinické psychologii",1966
Marvin Lee Minsky a Seymour Papert, Perceptrons: An Introduction to Computational Geometry , Cambridge,1988, 292 s. ( ISBN 978-0-262-63111-2 )
Bishop (2006) , str. 193
Hopfield, JJ Proc. natn. Acad. Sci. USA 79 , 2554–2558 (1982).
Yassine Mahdi a Kamel Daoud , „ Predikce velikosti mikrokapiček v mikrofluidních systémech pomocí modelování umělé neurální sítě pro formulaci emulze voda v oleji “, Journal of Dispersion Science and Technology , sv. 0, n o ja,11. listopadu 2016, null ( ISSN 0193-2691 , DOI 10.1080 / 01932691.2016.1257391 , číst online , přistupováno 7. prosince 2016 )
(en-GB) „ LeNet-5 - Klasická architektura CNN “ , na engMRK ,30. září 2018(zpřístupněno 5. prosince 2020 )
Appenzeller Tim (2017), Revoluce umělé inteligence ve vědě , Science Niews, 7. července
Mohan Mokhtari, Michel Marie ' Applications of MATLAB 5 and SIMULINK 2: Process control, Fuzzy logic, Neural networks, Signal processing , Springer-Verlag, Paris, 1998 ( ISBN 978-2-287-59651-3 )
https://bib.irb.hr/datoteka/244548.Paper_830.pdf
Teuvo Kohonen, Content-addressable Memories , Springer-Verlag, 1987, ( ISBN 978-0-387-17625-3 ) , 388 stran
Příbram, Karl (1991). Mozek a vnímání: holonomie a struktura ve figurálním zpracování . Hillsdale, NJ: Lawrence Erlbaum Associates. ( ISBN 978-0-89859-995-4 ) . citace neurální sítě "fraktální chaos"
D. Levine a kol., Oscilace v nervových systémech, publikoval Lawrence Erlbaum Associates, 1999, 456 stran, ( ISBN 978-0-8058-2066-9 )

Bibliografie

Francois a Michel Blayo Verleysen, umělé neuronové sítě , PUF , Que Sais-I č 3042 , 1 st ed., 1996
Léon Personnaz a Isabelle Rivals, Formální neuronové sítě pro modelování, řízení a klasifikaci , CNRS Éditions, 2003.
Richard P. Lippman, „An Introduction to Computing with Neural Nets“, časopis IEEE ASSP ,Duben 1987, str. 4-22
Neural Networks: biologické počítače nebo elektronické mozky - Les conversations de Lyon - (pod vedením École normale supérieure de Lyon ), Springer-Verlag, 1990
Jean-Paul Haton , Spojenecké modely pro umělou inteligenci , 1989.
Gérard Dreyfus , Jean-Marc Martinez, Manuel Samuelides, Mirta Gordon, Fouad Badran a Sylvie Thiria, Statistické učení: neuronové sítě, topologické mapy, podpůrné vektorové stroje , Eyrolles, 2008
Eric Davalo, Patrick Naim, Neural Networks, Eyrolles, 1990
Simon Haykin, Neural Networks: A Comprehensive Foundation , 2 e vydání, Prentice Hall, 1998.
Christopher M. Bishop, Neural Networks for Pattern Recognition , Oxford University Press, 1995
(en) Christopher M. Bishop, Rozpoznávání vzorů a strojové učení , Springer,2006( ISBN 0-387-31073-8 ) [ detail vydání ]
(en) Richard O. Duda, Peter E. Hart, David G. Stork, Pattern Classification , Wiley-interscience,2001( ISBN 0-471-05669-3 ) [ detail vydání ]
Krose Ben a Patrick van der Smagt, Úvod do neuronových sítí , 8 th ed., 1996
Claude Touzet, Neuronové sítě: úvodní konexionismus , EC2,1992, 160 s., PDF ke stažení
Marc Parizeau, Neuronové sítě (The multilayer perceptron and its error retropropagation algorithm) , Université Laval, Laval, 2004, 272 p.
Fabien Tschirhart (r. Alain Lioret), Formální neuronové sítě aplikované na umělou inteligenci a hry , ESGI (diplomová práce v oblasti multimédií a digitální animace), Paříž, 2009, 121 s. [ online brief (stránka konzultována 8. listopadu 2010)]