Algoritmus maximalizace očekávání

Algoritmus maximalizace očekávání
Příroda Algoritmus rozdělení dat ( d )
Vynálezce Donald Rubin
Datum vynálezu 1977

Očekávání-zvětšení algoritmus (anglicky algoritmus očekávání-zvětšení , často zkrátil EM ), navržený Dempster a kol. (1977), je iterační algoritmus, který umožňuje, aby si maximální věrohodnosti parametry na pravděpodobnostním modelu , když tento závisí na nepozorovatelné latentními proměnnými. Následně bylo navrženo mnoho variant, které tvoří celou třídu algoritmů.

Použití

Algoritmus EM se často používá pro klasifikaci dat, strojové učení nebo strojové vidění. Lze také zmínit jeho použití v lékařském zobrazování v kontextu tomografické rekonstrukce.

Algoritmus maximalizace očekávání zahrnuje:

Poté použijeme parametry nalezené v M jako výchozí bod pro novou fázi vyhodnocení očekávání a tímto způsobem iterujeme.

K vyřešení problému učení skrytých Markovových modelů (HMM), tj. Určení parametrů Markovova modelu, používáme algoritmus Baum-Welch .

Princip činnosti

Uvažováním vzorku x = ( x 1 , ..., x n ) jednotlivců podle distribuce f ( x i , θ ) parametrizované pomocí θ se snažíme určit parametr θ maximalizující logaritmickou pravděpodobnost danou

Tento algoritmus je obzvláště užitečný, když je maximalizace L velmi složitá, ale když, s výhradou znalosti určitých uvážlivě vybraných dat, můžeme velmi jednoduše určit θ .

V tomto případě se spoléháme na data doplněná neznámým vektorem z = ( z 1 , ..., z n ) . Zaznamenáním f ( z i | x i , θ ) pravděpodobnosti, že z i budu znát x i a parametr θ , můžeme definovat dokončenou logaritmickou pravděpodobnost jako veličinu

a tak,

Algoritmus EM je iterační postup založený na očekávání dat vyplněných podmíněně na aktuálním parametru. Zaznamenáním θ ( c ) tohoto parametru můžeme psát

kde je očekávání převzato z .

nebo

, protože L ( x  ; θ ) nezávisí na z ,

s a .

Ukážeme, že posloupnost definovaná znakem

inklinuje k místnímu maximu.

Algoritmus EM lze definovat:

V praxi se k překonání lokálního charakteru dosaženého maxima algoritmus EM mnohokrát otočí z různých počátečních hodnot, aby měl větší šanci dosáhnout celkové maximální pravděpodobnosti.

Podrobný příklad: aplikace v automatické klasifikaci

Jednou z hlavních aplikací EM je odhad parametrů hustoty směsi v automatické klasifikaci v rámci Gaussových modelů směsí . V řešení tohoto problému, domníváme se, že vzorek ( x 1 , ..., x n ) z , tedy vyznačuje p kontinuální proměnné, ve skutečnosti pochází z g různých skupin. Vezmeme-li v úvahu, že každá z těchto skupin G k sleduje zákon f s parametrem θ k a jehož proporce jsou dány vektorem 1 , ..., π g ) . Zaznamenáním Φ = (π 1 , ..., π g , θ 1 , ..., θ g ) parametru směsi je funkce hustoty, kterou vzorek následuje, dána

a proto je logaritmická pravděpodobnost parametru Φ dána vztahem

Maximalizace této funkce podle Φ je velmi složitá. Například pokud si přejeme určit parametry odpovídající dvěma skupinám podle normálního zákona v prostoru dimenze 3, je nutné optimalizovat nelineární funkci .

Současně, kdybychom znali skupiny, do kterých každý jednotlivec patří, pak by problém byl velmi jednoduchým a velmi klasickým problémem odhadu.

Síla algoritmu EM spočívá právě v tom, že se při provádění odhadu spoléháme na tato data. Zaznamenáním z ik velikost, která se rovná 1, pokud jedinec x i patří do skupiny G k a 0, jinak se zapíše logaritmická pravděpodobnost vyplněných dat

Poté rychle získáváme

Zaznamenáním t ik veličiny dané , můžeme rozdělit EM algoritmus do dvou kroků, které se v případě modelů směsí klasicky nazývají krok odhadu a krok maximalizace. Tyto dva kroky jsou iterovány až do konvergence.

Výhodou této metody je, že můžeme problém rozdělit na základní problémy g, které jsou obecně relativně jednoduché. Ve všech případech jsou optimální poměry dány vztahem

Odhad θ závisí také na zvolené pravděpodobnostní funkci f . V normálním případě se jedná o průměr μ k a variance-kovarianční matice Σ k . Optimální odhady jsou pak dány vztahem

S M T transponovaná matice M a za předpokladu, že μ k jsou sloupcové vektory.

Běžné varianty EM

Algoritmus EM kombinuje ve většině případů jednoduchost implementace a efektivitu. Některé problematické případy však vedly k dalšímu vývoji. Ze stávajících variant tohoto algoritmu zmíníme algoritmus GEM (generalizovaný EM) , který zjednodušuje problém kroku maximalizace; algoritmus CEM (klasifikace EM) umožňující zohlednění klasifikačního aspektu během odhadu, stejně jako algoritmus SEM (stochastický EM), jehož cílem je snížit riziko pádu do optima místní pravděpodobnosti.

Algoritmus GEM

GEM navrhl spolu s EM Dempster a kol. (1977), který dokázal, že k zajištění konvergence k místní maximální pravděpodobnosti není nutné maximalizovat Q v každém kroku, ale že postačuje jednoduché zlepšení Q.

GEM lze tedy psát následovně:

Algoritmus CEM

Algoritmus EM je umístěn v perspektivě odhadu , to znamená, že se snažíme maximalizovat pravděpodobnost parametru , aniž bychom zvažovali klasifikaci provedenou a posteriori pomocí Bayesova pravidla.

Klasifikační přístup navržený Celeuxem a Govaertem (1991) spočívá v optimalizaci nikoli pravděpodobnosti parametru, ale přímo úplné pravděpodobnosti dané, v případě směšovacích modelů,

Chcete-li to provést, jednoduše postupujte takto:

Když složky směsi patří do stejné exponenciální rodiny, pomocí bijekce mezi Bregmanovými divergencemi a exponenciálními rodinami získáme algoritmus k-MLE.

Algoritmus SEM

Aby se snížilo riziko pádu na místní maximální pravděpodobnost, navrhují Celeux a Diebolt ( 1985 ) vložit stochastický klasifikační krok mezi kroky E a M. Po výpočtu pravděpodobností je členství jednotlivců ve třídách vylosováno náhodně podle multinomické rozdělení parametrů .

Na rozdíl od toho, co se děje v algoritmu CEM, nemůžeme uvažovat o tom, že algoritmus konvergoval, když jednotlivci již nemění třídy. Ve skutečnosti, když jsou kresleny náhodně, posloupnost se nespojuje v užším slova smyslu. V praxi Celeux a Diebolt (1985) navrhují spustit algoritmus SEM daný počet opakování a poté použít algoritmus CEM k získání oddílu a odhadu parametru .

Podívejte se také

Reference

  1. (in) AP Dempster , NM Laird a Donald Rubin , „  Maximální pravděpodobnost neúplných údajů prostřednictvím algoritmu EM  “ , Journal of the Royal Statistical Society. Řada B (metodická) , sv.  39, n o  1,1977, str.  1–38 ( JSTOR  2984875 )
  2. (in) G. Celeux a G. Govaert , „  Klasifikační EM algoritmus pro shlukování a dvě stochastické verze  “ , Computational Statistics Quarterly , sv.  2, n O  1, 1991, str.  73–82
  3. (in) Frank Nielsen , „  k-MLE: Rychlý algoritmus pro učení modelů statistické směsi  “ , arxiv (ICASSP 2012) , 2012( číst online )
  4. (in) G. Celeux a G. Diebolt , „  Týden algoritmů: pravděpodobnostní algoritmus odvozený z algoritmu učitele em pro směsný problém  “ , Research Report RR-1364, INRIA, National Institute for Research in Computer Science and Control , 1985
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">