Algoritmus maximalizace očekávání

Příroda	Algoritmus rozdělení dat ( d )
Vynálezce	Donald Rubin
Datum vynálezu	1977

Očekávání-zvětšení algoritmus (anglicky algoritmus očekávání-zvětšení , často zkrátil EM ), navržený Dempster a kol. (1977), je iterační algoritmus, který umožňuje, aby si maximální věrohodnosti parametry na pravděpodobnostním modelu , když tento závisí na nepozorovatelné latentními proměnnými. Následně bylo navrženo mnoho variant, které tvoří celou třídu algoritmů.

Použití

Algoritmus EM se často používá pro klasifikaci dat, strojové učení nebo strojové vidění. Lze také zmínit jeho použití v lékařském zobrazování v kontextu tomografické rekonstrukce.

Algoritmus maximalizace očekávání zahrnuje:

krok vyhodnocení očekávání (E), kde se očekávání pravděpodobnosti vypočítá s přihlédnutím k posledním pozorovaným proměnným,
krok maximalizace (M), kde je maximální pravděpodobnost parametrů odhadnuta maximalizací pravděpodobnosti nalezené v kroku E.

Poté použijeme parametry nalezené v M jako výchozí bod pro novou fázi vyhodnocení očekávání a tímto způsobem iterujeme.

K vyřešení problému učení skrytých Markovových modelů (HMM), tj. Určení parametrů Markovova modelu, používáme algoritmus Baum-Welch .

Princip činnosti

Uvažováním vzorku $x = ( x 1 , ..., x n )$ jednotlivců podle distribuce $f ( x i , θ )$ parametrizované pomocí $θ$ se snažíme určit parametr $θ$ maximalizující logaritmickou pravděpodobnost danou

L (\ mathbf {x}; \ boldsymbol {\ theta}) = \ sum_ {i = 1} ^ n \ log f (\ boldsymbol {x} _i, \ boldsymbol {\ theta}).

Tento algoritmus je obzvláště užitečný, když je maximalizace $L$ velmi složitá, ale když, s výhradou znalosti určitých uvážlivě vybraných dat, můžeme velmi jednoduše určit $θ$ .

V tomto případě se spoléháme na data doplněná neznámým vektorem $z = ( z 1 , ..., z n )$ . Zaznamenáním $f ( z i | x i , θ )$ pravděpodobnosti, že $z i$ budu znát $x i$ a parametr $θ$ , můžeme definovat dokončenou logaritmickou pravděpodobnost jako veličinu

L \ left ((\ mathbf {x, z}); \ boldsymbol {\ theta} \ right) = \ sum_ {i = 1} ^ n \ left (\ log f (z_i | \ boldsymbol {x} _i, \ boldsymbol {\ theta}) + \ log f (\ boldsymbol {x} _i; \ boldsymbol {\ theta}) \ right).

a tak,

L (\ mathbf {x}; \ boldsymbol {\ theta}) = L \ left (\ mathbf {(x, z)}; \ boldsymbol {\ theta} \ right) - \ sum_ {i = 1} ^ n \ log f (z_i | \ boldsymbol {x} _i, \ boldsymbol {\ theta}).

Algoritmus EM je iterační postup založený na očekávání dat vyplněných podmíněně na aktuálním parametru. Zaznamenáním $θ ( c )$ tohoto parametru můžeme psát

{\ displaystyle \ mathbb {E} \ vlevo [L (\ mathbf {x}; {\ boldsymbol {\ theta}}) {\ Bigg |} {\ boldsymbol {\ theta}} ^ {(c)} \ vpravo] = \ mathbb {E} \ left [L \ left (\ mathbf {(x, z)}; {\ boldsymbol {\ theta}} \ right) {\ Bigg |} {\ boldsymbol {\ theta}} ^ {( c)} \ right] - \ mathbb {E} \ left [\ sum _ {i = 1} ^ {n} \ log f (z_ {i} | {\ boldsymbol {x}} _ {i}, {\ boldsymbol {\ theta}}) {\ Bigg |} {\ boldsymbol {\ theta}} ^ {(c)} \ right],}

kde je očekávání převzato

z

nebo

L (\ mathbf {x}; \ boldsymbol {\ theta}) = Q \ left (\ boldsymbol {\ theta}; \ boldsymbol {\ theta} ^ {(c)} \ right) -H \ left (\ boldsymbol { \ theta}; \ boldsymbol {\ theta} ^ {(c)} \ vpravo)

, protože

L ( x ; θ )

nezávisí na

z

s a . ${\ displaystyle Q \ left ({\ boldsymbol {\ theta}}; {\ boldsymbol {\ theta}} ^ {(c)} \ right) = \ mathbb {E} \ left [L \ left (\ mathbf {( x, z)}; {\ boldsymbol {\ theta}} \ right) {\ Bigg |} {\ boldsymbol {\ theta}} ^ {(c)} \ right]}$ ${\ displaystyle H \ left ({\ boldsymbol {\ theta}}; {\ boldsymbol {\ theta}} ^ {(c)} \ right) = \ mathbb {E} \ left [\ sum _ {i = 1} ^ {n} \ log f (z_ {i} | {\ boldsymbol {x}} _ {i}, {\ boldsymbol {\ theta}}) {\ Bigg |} {\ boldsymbol {\ theta}} ^ {( c)} \ vpravo]}$

Ukážeme, že posloupnost definovaná znakem

\ boldsymbol {\ theta} ^ {(c + 1)} = \ arg \ max _ {\ boldsymbol {\ theta}} \ left (Q \ left (\ boldsymbol {\ theta}, \ boldsymbol {\ theta} ^ { (c)} \ vpravo) \ vpravo)

inklinuje k místnímu maximu. $L \ left (\ mathbf {x}; \ boldsymbol {\ theta} ^ {(c + 1)} \ right)$

Algoritmus EM lze definovat:

Náhodná inicializace $θ (0)$
$c = 0$
Dokud se algoritmus nespojil, udělejte to
- Vyhodnocení očekávání (krok E): ${\ displaystyle Q \ left ({\ boldsymbol {\ theta}}; {\ boldsymbol {\ theta}} ^ {(c)} \ right) = \ mathbb {E} \ left [L \ left (\ mathbf {( x, z)}; {\ boldsymbol {\ theta}} \ right)) | {\ boldsymbol {\ theta}} ^ {(c)} \ right]}$
- Maximalizace (krok M): $\ boldsymbol {\ theta} ^ {(c + 1)} = \ arg \ max _ {\ boldsymbol {\ theta}} \ left (Q \ left (\ boldsymbol {\ theta}, \ boldsymbol {\ theta ^ {( c)}} \ vpravo) \ vpravo)$
- $c = c +1$
Konec

V praxi se k překonání lokálního charakteru dosaženého maxima algoritmus EM mnohokrát otočí z různých počátečních hodnot, aby měl větší šanci dosáhnout celkové maximální pravděpodobnosti.

Podrobný příklad: aplikace v automatické klasifikaci

Jednou z hlavních aplikací EM je odhad parametrů hustoty směsi v automatické klasifikaci v rámci Gaussových modelů směsí . V řešení tohoto problému, domníváme se, že vzorek $( x 1 , ..., x n )$ z , tedy vyznačuje $p$ kontinuální proměnné, ve skutečnosti pochází z $g$ různých skupin. Vezmeme-li v úvahu, že každá z těchto skupin $G$ $k$ sleduje zákon $f$ s parametrem $θ$ $k$ a jehož proporce jsou dány vektorem $(π$ $1$ $, ..., π$ $g$ $)$ . Zaznamenáním $Φ = (π$ $1$ $, ..., π$ $g$ $,$ $θ$ $1$ $, ...,$ $θ$ $g$ $)$ parametru směsi je funkce hustoty, kterou vzorek následuje, dána $\ mathbb {R} ^ str$

g (x, \ Phi) = \ sum_ {k = 1} ^ g \ pi_kf (x, \ theta_k),

a proto je logaritmická pravděpodobnost parametru $Φ$ dána vztahem

L (x, \ Phi) = \ sum_ {i = 1} ^ n \ log \ left (\ sum_ {k = 1} ^ g \ pi_kf (x_i, \ theta_k) \ right).

Maximalizace této funkce podle $Φ$ je velmi složitá. Například pokud si přejeme určit parametry odpovídající dvěma skupinám podle normálního zákona v prostoru dimenze 3, je nutné optimalizovat nelineární funkci . $\ mathbb {R} ^ {19}$

Současně, kdybychom znali skupiny, do kterých každý jednotlivec patří, pak by problém byl velmi jednoduchým a velmi klasickým problémem odhadu.

Síla algoritmu EM spočívá právě v tom, že se při provádění odhadu spoléháme na tato data. Zaznamenáním $z ik$ velikost, která se rovná 1, pokud jedinec $x i$ patří do skupiny $G k$ a 0, jinak se zapíše logaritmická pravděpodobnost vyplněných dat

L (x, z, \ Phi) = \ sum_ {i = 1} ^ n \ sum_ {k = 1} ^ gz_ {ik} \ log \ left (\ pi_kf (x_i, \ theta_k) \ right).

Poté rychle získáváme

{\ displaystyle Q \ left (\ Phi, \ Phi ^ {(c)} \ right) = \ sum _ {i = 1} ^ {n} \ sum _ {k = 1} ^ {g} \ mathbb {E } \ left (z_ {ik} {\ Bigg |} x, \ Phi ^ {(c)} \ right) \ log \ left (\ pi _ {k} f (x_ {i}, \ theta _ {k} ) \ že jo)}

Zaznamenáním $t ik$ veličiny dané , můžeme rozdělit EM algoritmus do dvou kroků, které se v případě modelů směsí klasicky nazývají krok odhadu a krok maximalizace. Tyto dva kroky jsou iterovány až do konvergence. ${\ displaystyle t_ {ik} = \ mathbb {E} \ vlevo (z_ {ik} {\ Bigg |} x, \ Phi ^ {(c)} \ vpravo)}$

Krok E: Výpočet $t ik$ podle Bayesova inverzního pravidla:

t_ {ik} = \ frac {\ pi_k ^ {(c)} f (x_i, \ theta_k ^ {(c)})} {\ sum _ {\ ell = 1} ^ g \ pi_ \ ell ^ {(c )} f (x_i, \ theta_ \ ell ^ {(c)})}

Krok M: stanovení maximalizace $Φ$

Q \ left (\ Phi, \ Phi ^ {(c)} \ right) = \ sum_ {i = 1} ^ n \ sum_ {k = 1} ^ gt_ {ik} \ log \ left (\ pi_kf (x_i, \ theta_k) \ vpravo)

Výhodou této metody je, že můžeme problém rozdělit na základní problémy $g,$ které jsou obecně relativně jednoduché. Ve všech případech jsou optimální poměry dány vztahem

\ pi_k = \ frac {1} {n} \ sum_ {i = 1} ^ nt_ {ik}

Odhad $θ$ závisí $také$ na zvolené pravděpodobnostní funkci $f$ . V normálním případě se jedná o $průměr μ k$ a variance-kovarianční matice $Σ k$ . Optimální odhady jsou pak dány vztahem

\ mu_k = \ frac {\ sum_ {i = 1} ^ nt_ {ik} x_i} {\ sum_ {i = 1} ^ nt_ {ik}}

{\ displaystyle \ Sigma _ {k} = {\ frac {\ sum _ {i = 1} ^ {n} t_ {ik} (x_ {i} - \ mu _ {k}) (x_ {i} - \ mu _ {k}) ^ {T}} {\ sum _ {i = 1} ^ {n} t_ {ik}}}}

S $M T$ transponovaná matice $M$ a za předpokladu, že $μ k$ jsou sloupcové vektory.

Běžné varianty EM

Algoritmus EM kombinuje ve většině případů jednoduchost implementace a efektivitu. Některé problematické případy však vedly k dalšímu vývoji. Ze stávajících variant tohoto algoritmu zmíníme algoritmus GEM (generalizovaný EM) , který zjednodušuje problém kroku maximalizace; algoritmus CEM (klasifikace EM) umožňující zohlednění klasifikačního aspektu během odhadu, stejně jako algoritmus SEM (stochastický EM), jehož cílem je snížit riziko pádu do optima místní pravděpodobnosti.

Algoritmus GEM

GEM navrhl spolu s EM Dempster a kol. (1977), který dokázal, že k zajištění konvergence k místní maximální pravděpodobnosti není nutné maximalizovat Q v každém kroku, ale že postačuje jednoduché zlepšení Q.

GEM lze tedy psát následovně:

Náhodná inicializace $\ theta ^ {(0)} \,$
$c = 0 \,$
Dokud se algoritmus nespojil, udělejte to
- zvolit jako $\ theta ^ {(c + 1)} \,$ ${\ Displaystyle Q \ left (\ theta ^ {(c + 1)}, \ theta ^ {(c)} \ right)> Q \ left (\ theta ^ {(c)}, \ theta ^ {(c) } \ že jo)}$
- $c = c + 1 \,$
Konec

Algoritmus CEM

Algoritmus EM je umístěn v perspektivě odhadu , to znamená, že se snažíme maximalizovat pravděpodobnost parametru , aniž bychom zvažovali klasifikaci provedenou a posteriori pomocí Bayesova pravidla. $\ theta \,$

Klasifikační přístup navržený Celeuxem a Govaertem (1991) spočívá v optimalizaci nikoli pravděpodobnosti parametru, ale přímo úplné pravděpodobnosti dané, v případě směšovacích modelů,

$L (x, z; \ theta) = \ sum_ {i = 1} ^ n \ sum_ {k = 1} ^ gz_ {ik} \ log \ left (\ pi_kf (x, \ theta_k) \ right)$

Chcete-li to provést, jednoduše postupujte takto:

Náhodná inicializace $\ theta ^ {(0)} \,$
$c = 0 \,$
Dokud se algoritmus nespojil, udělejte to
- $z ^ {(c + 1)} = \ arg \ max_ {z} \ vlevo (L \ vlevo (x, z; \ theta ^ {(c)} \ vpravo) \ vpravo)$
- $\ theta ^ {(c + 1)} = \ arg \ max _ {\ theta} \ left (L \ left (x, z ^ {(c + 1)}; \ theta \ right) \ right)$
- $c = c + 1 \,$
Konec

Když složky směsi patří do stejné exponenciální rodiny, pomocí bijekce mezi Bregmanovými divergencemi a exponenciálními rodinami získáme algoritmus k-MLE.

Algoritmus SEM

Aby se snížilo riziko pádu na místní maximální pravděpodobnost, navrhují Celeux a Diebolt ( 1985 ) vložit stochastický klasifikační krok mezi kroky E a M. Po výpočtu pravděpodobností je členství jednotlivců ve třídách vylosováno náhodně podle multinomické rozdělení parametrů . $t_ {ik} ^ {(c)}$ $z_ {ik} ^ {(c)}$ $\ mathcal {M} \ left (1, t_ {i1} ^ {(q)}, \ dots, t_ {ig} ^ {(q)} \ right)$

Na rozdíl od toho, co se děje v algoritmu CEM, nemůžeme uvažovat o tom, že algoritmus konvergoval, když jednotlivci již nemění třídy. Ve skutečnosti, když jsou kresleny náhodně, posloupnost se nespojuje v užším slova smyslu. V praxi Celeux a Diebolt (1985) navrhují spustit algoritmus SEM daný počet opakování a poté použít algoritmus CEM k získání oddílu a odhadu parametru . $\ left (z ^ {(q)}, \ theta ^ {(q)} \ right)$ $\ theta \,$

Podívejte se také

Rozdělení dat

Reference

(in) AP Dempster , NM Laird a Donald Rubin , „ Maximální pravděpodobnost neúplných údajů prostřednictvím algoritmu EM “ , Journal of the Royal Statistical Society. Řada B (metodická) , sv. 39, n o 1,1977, str. 1–38 ( JSTOR 2984875 )
(in) G. Celeux a G. Govaert , „ Klasifikační EM algoritmus pro shlukování a dvě stochastické verze “ , Computational Statistics Quarterly , sv. 2, n O 1, 1991, str. 73–82
(in) Frank Nielsen , „ k-MLE: Rychlý algoritmus pro učení modelů statistické směsi “ , arxiv (ICASSP 2012) , 2012( číst online )
(in) G. Celeux a G. Diebolt , „ Týden algoritmů: pravděpodobnostní algoritmus odvozený z algoritmu učitele em pro směsný problém “ , Research Report RR-1364, INRIA, National Institute for Research in Computer Science and Control , 1985