Vícerozměrný normální zákon

Vícerozměrné normální rozdělení



Nastavení	${\ displaystyle \ mu = [\ mu _ {1}, \ tečky, \ mu _ {N}] ^ {\ nahoru}}$ střední ( reálný vektor ) variančně-kovarianční matice ( jednoznačná pozitivní reálná matice ) $\ Sigma$ $N \ krát N$
Podpěra, podpora	${\ displaystyle x \ in \ mathbb {R} ^ {N}}$
Hustota pravděpodobnosti	${\ displaystyle {\ frac {1} {(2 \ pi) ^ {N / 2} \ vlevo \| \ Sigma \ vpravo \| ^ {1/2}}} \; \; e ^ {- {\ frac {1 } {2}} (x- \ mu) ^ {\ top} \ Sigma ^ {- 1} (x- \ mu)}}$
Naděje	$\ mu$
Medián	$\ mu$
Móda	$\ mu$
Rozptyl	$\ Sigma$
Asymetrie	0
Entropie	${\ displaystyle \ ln \ left ({\ sqrt {(2 \, \ pi \, e) ^ {N} \ left \| \ Sigma \ right \|}} \ right) \!}$
Funkce generující momenty	${\ displaystyle M_ {X} (t) = \ exp \ left (\ mu ^ {\ top} t + {\ frac {1} {2}} t ^ {\ top} \ Sigma t \ right)}$
Charakteristická funkce	${\ displaystyle \ phi _ {X} (t; \ mu, \ Sigma) = \ exp \ left (i \ mu ^ {\ top} t - {\ frac {1} {2}} t ^ {\ top} \ Sigma t \ right)}$

Říkáme vícerozměrný normální zákon , nebo vícerozměrný normální nebo vícerozměrný zákon nebo Gaussovo právo s několika proměnnými , zákon pravděpodobnosti, který je vícerozměrným zobecněním normálního zákona .

Zatímco klasický normální zákon je parametrizován skalárním $μ$ odpovídajícím jeho střední hodnotě a druhým skalárním $σ 2$ odpovídajícím jeho rozptylu, multinormální zákon je parametrizován vektorem představujícím jeho střed a kladnou semitečnou maticí, která je jeho maticí rozptylu -rovariance . Definujeme to jeho charakteristickou funkcí , pro vektor , ${\ boldsymbol {\ mu}} \ in \ mathbb {R} ^ {N}$ ${\ boldsymbol {\ Sigma}} \ in {\ mathcal {M}} _ {N} (\ mathbb {R})$ ${\ displaystyle {\ boldsymbol {x}} \ v \ mathbb {R} ^ {N}}$

{\ displaystyle \ phi _ {{\ boldsymbol {\ mu}}, {\ boldsymbol {\ Sigma}}} ({\ boldsymbol {x}}) = \ exp \ left (i {\ boldsymbol {x}} ^ { \ top} {\ boldsymbol {\ mu}} - {\ frac {1} {2}} {\ boldsymbol {x}} ^ {\ top} {\ boldsymbol {\ Sigma}} {\ boldsymbol {x}} \ že jo)}

V nedegenerovaném případě, kde $Σ$ je kladně definitivní , tedy invertibilní , vícerozměrný normální zákon připouští následující hustotu pravděpodobnosti :

všímat si $| X |$ determinant $X$ ,

{\ displaystyle f _ {{\ boldsymbol {\ mu}}, {\ boldsymbol {\ Sigma}}} \ left ({\ boldsymbol {x}} \ right) = {\ frac {1} {(2 \ pi) ^ {N / 2} \ left | {\ boldsymbol {\ Sigma}} \ right | ^ {1/2}}} \; \ exp \ left [- {\ frac {1} {2}} \ left ({ \ boldsymbol {x}} - {\ boldsymbol {\ mu}} \ doprava) ^ {\ top} {\ boldsymbol {\ Sigma}} ^ {- 1} \ doleva ({\ boldsymbol {x}} - {\ boldsymbol {\ mu}} \ vpravo) \ vpravo]}

Tento zákon je obvykle známý analogicky s jednorozměrným normálním zákonem. ${\ displaystyle {\ mathcal {N}} ({\ boldsymbol {\ mu}}, \, {\ boldsymbol {\ Sigma}})}$

Nedegenerovaný zákon

Tato část se zabývá konstrukcí vícerozměrného normálního rozdělení v nedegenerovaném případě, kde je variančně-kovarianční matice $Σ$ kladně definitivní.

Připomenutí jednorozměrného normálního zákona

Centrální limitní věta odhaluje sníženou centrovaný Gaussian proměnnou $U$ (nulovou střední hodnotou, rozdílnost jednotky):

{\ displaystyle \ mathbb {E} [U] = 0 \ qquad \ mathbb {E} [U ^ {2}] = 1}

{\ displaystyle p_ {U} (u) = {\ frac {1} {\ sqrt {2 \ pi}}} \; \; \ mathrm {e} ^ {- {\ frac {1} {2}} u ^ {2}} \,}

Jdeme na obecnou Gaussovu proměnnou změnou proměnné

{\ displaystyle X = \ sigma U + \ mu \,}

což vede k

{\ displaystyle \ mathbb {E} [X] = \ mu \ qquad \ mathbb {E} [(X- \ mu) ^ {2}] = \ sigma ^ {2}}

{\ displaystyle p_ {X} (x) = {\ frac {1} {\ sigma {\ sqrt {2 \ pi}}}} \; \; \ mathrm {e} ^ {- {(x- \ mu) ^ {2}} \ nad {2 \ sigma ^ {2}}}}

Hustotu tohoto zákona charakterizuje exponenciál zahrnující exponent druhého stupně.

Jednotkové právo s několika proměnnými

Vzhledem k N nezávislých náhodných proměnných se stejným redukovaným centrovaným Gaussovým zákonem se zapíše jejich společná hustota pravděpodobnosti:

{\ displaystyle p_ {U_ {1} ... U_ {N}} (u_ {1}, ..., u_ {N}) = {\ frac {1} {{(2 \ pi)} ^ {N / 2}}} \; \; \ mathrm {e} ^ {- {1 \ nad 2} \ sum _ {j = 1} ^ {N} u_ {j} ^ {2}}}

Je to zákon, který je základem zákona χ² .

Může být syntetizován v maticových vzorcích. Nejprve definujeme náhodný vektor $U,$ který má N proměnných jako komponenty, a stavový vektor $u,$ který má své digitální hodnoty jako komponenty.

Můžeme spojit se stavovým vektorem střední vektor, který má pro komponenty prostředky komponent, to znamená v tomto případě nulový vektor:

{\ displaystyle \ mathbb {E} [{\ boldsymbol {U}}] = {\ boldsymbol {0}} \,}

Kovarianční matice má diagonální prvky (odchylky), které se rovnají 1, zatímco ne-diagonální prvky (kovariance v užším slova smyslu) jsou nulové: je to jednotková matice. Lze jej napsat pomocí transpozice:

{\ displaystyle \ mathbb {E} [{\ boldsymbol {U}} {\ boldsymbol {U}} ^ {\ top}] = {\ boldsymbol {I}} \,}

Nakonec je zapsána hustota pravděpodobnosti:

{\ displaystyle p _ {\ boldsymbol {U}} ({\ boldsymbol {u}}) = {\ frac {1} {{{(2 \ pi)} ^ {N / 2}}} \; \; \ mathrm {e} ^ {- {1 \ nad 2} {\ boldsymbol {u}} ^ {\ top} {\ boldsymbol {u}}}}

Obecný zákon s několika proměnnými

Získává se změnou afinní proměnné

{\ displaystyle {\ boldsymbol {X}} = {\ boldsymbol {a}} {\ boldsymbol {U}} + {\ boldsymbol {\ mu}}}

Problém je omezena na případ matice $je$ čtvercová (stejný počet výstupních proměnných) a pravidelný. Operátor očekávání vektoru, který je lineární, získáme střední vektor

{\ displaystyle \ mathbb {E} [{\ boldsymbol {X}}] = {\ boldsymbol {a}} \ mathbb {E} [{\ boldsymbol {U}}] + {\ boldsymbol {\ mu}} = { \ boldsymbol {\ mu}} \,}

a kovarianční matice

{\ displaystyle \ mathbb {E} [{\ boldsymbol {(X- \ mu)}} {\ boldsymbol {(X- \ mu)}} ^ {\ top}] = \ mathbb {E} [{\ boldsymbol { a}} {\ boldsymbol {U}} {\ boldsymbol {U}} ^ {\ top} {\ boldsymbol {a}} ^ {\ top}] = {\ boldsymbol {a}} {\ boldsymbol {a}} ^ {\ top} = {\ boldsymbol {\ Sigma}} \,}

Hustota pravděpodobnosti je zapsána

{\ displaystyle p _ {\ boldsymbol {X}} ({\ boldsymbol {x}}) = {\ frac {1} {{{(2 \ pi)} ^ {N / 2} \ left | {\ boldsymbol { \ Sigma}} \ right | ^ {1/2}}} \; \ mathrm {e} ^ {- {1 \ nad 2} {\ boldsymbol {(x- \ mu)}} ^ {\ top} {\ boldsymbol {\ Sigma}} ^ {- 1} {\ boldsymbol {(x- \ mu)}}}}

Různé poznámky

Nová lineární změna proměnných aplikovaná na $X$ má za následek hustotu pravděpodobnosti, která má stejný matematický tvar:

{\ displaystyle {\ boldsymbol {Y}} = {\ boldsymbol {b}} {\ boldsymbol {X}} + {\ boldsymbol {\ nu}} = {\ boldsymbol {b}} {\ boldsymbol {a}} { \ boldsymbol {U}} + {\ boldsymbol {b}} {\ boldsymbol {\ mu}} + {\ boldsymbol {\ nu}}}

Základní vzorce, běžně získané z maticového počtu, se překládají do skalárních výrazů:

{\ displaystyle X_ {k} = \ součet _ {j = 1} ^ {N} {a_ {kj} U_ {j}} \, (k = 1, N) \,}

{\ displaystyle p_ {X_ {1} ... X_ {N}} (x_ {1}, ... x_ {N}) = {\ frac {1} {{(2 \ pi)} ^ {N / 2} \ left | {\ boldsymbol {\ Sigma}} \ right | ^ {1/2}}} \; \; \ mathrm {e} ^ {- {1 \ přes 2} \ sum _ {j = 1} ^ {N} \ sum _ {k = 1} ^ {N} t_ {jk} (x_ {j} - \ mu _ {j}) (x_ {k} - \ mu _ {k})}}

přičemž $t jk$ jsou koeficienty inverzní kovarianční matice.

Exponent ve výše uvedeném vzorci je kvadratický s ohledem na všechny proměnné. Je ověřeno, že integrace ve vztahu k jednomu z nich poskytuje podobný výsledek. Postupné integrace ( N -1) vedou k zákonu mezní pravděpodobnosti opatřenému kvadratickým exponentem: každá proměnná je Gaussova, což nebylo a priori zřejmé .

Kombinací předcházejících poznámek se dospěje k výsledku, podle kterého je jakákoli lineární kombinace složek Gaussova vektoru Gaussovou proměnnou.

V tomto společném zákonu pravděpodobnosti každé dvojici dekorelovaných proměnných odpovídá diagonální kovarianční matice, která zajišťuje jejich nezávislost. Ve skutečnosti je tento pár sám Gaussian a jeho hustota kloubu je výsledkem hustoty jeho dvou složek.
Termín přítomný v exponenciálu je druhou mocninou Mahalanobisovy vzdálenosti . ${\ displaystyle \ left ({\ boldsymbol {x}} - {\ boldsymbol {\ mu}} \ right) ^ {\ top} {\ boldsymbol {\ Sigma}} ^ {- 1} \ left ({\ boldsymbol { x}} - {\ boldsymbol {\ mu}} \ vpravo)}$

Podmíněné distribuce

Pokud , a jsou rozděleny, jak je popsáno níže $X$ $\ mu$ $\ Sigma$

{\ displaystyle \ mu = {\ begin {bmatrix} \ mu _ {1} \\\ mu _ {2} \ end {bmatrix}} \ quad}

s rozměry kde

{\ displaystyle {\ begin {bmatrix} q \ krát 1 \\ p \ krát 1 \ konec {bmatrix}}}

{\ displaystyle N = p + q}

{\ displaystyle \ Sigma = {\ begin {bmatrix} \ Sigma _ {11} & \ Sigma _ {12} \\\ Sigma _ {21} & \ Sigma _ {22} \ end {bmatrix}} \ quad}

s rozměry

{\ displaystyle {\ begin {bmatrix} q \ times q & q \ times p \\ p \ times q & p \ times p \ end {bmatrix}}}

${\ displaystyle X = {\ begin {bmatrix} X_ {1} \\ X_ {2} \ end {bmatrix}} \ sim {\ mathcal {N}} _ {N} \ left (\ mu, \ Sigma \ right )}$

potom rozdělení podmíněně na je vícerozměrné normální rozdělení kde $X_ {1}$ ${\ displaystyle X_ {2} = a}$ ${\ displaystyle (X_ {1} | X_ {2} = a) \ sim {\ mathcal {N}} _ {q} (\ mu _ {1 | a}, \ Sigma _ {11.2})}$

{\ displaystyle \ mu _ {1 | a} = \ mu _ {1} + \ Sigma _ {12} \ Sigma _ {22} ^ {- 1} \ vlevo (a- \ mu _ {2} \ vpravo) }

a je zapsána matice variance-kovarianční matice

{\ displaystyle \ Sigma _ {11.2} = \ Sigma _ {11} - \ Sigma _ {12} \ Sigma _ {22} ^ {- 1} \ Sigma _ {21}.}

Tato matice je Schurova doplněk z oblasti . ${\ displaystyle {\ mathbf {\ Sigma} _ {22}}}$ ${\ displaystyle {\ mathbf {\ Sigma}}}$

Všimněte si, že věděl, že je rovna změní rozptyl , a že stejně tak překvapením, že průměrná také změněn. To je třeba ve srovnání se situací, v níž nevíme , přičemž v tomto případě má pro distribuci . To vyplývá ze stavu, který není triviální! $X_ {2}$ $X_ {1}$ $X_ {1}$ ${\ displaystyle {\ mathcal {N}} _ {q} \ vlevo (\ mu _ {1}, \ Sigma _ {11} \ vpravo)}$ ${\ displaystyle X \ sim {\ mathcal {N}} _ {N} \ vlevo (\ mu, \ Sigma \ vpravo)}$

Matice se nazývá matice regresního koeficientu . ${\ displaystyle \ Sigma _ {12} \ Sigma _ {22} ^ {- 1}}$

Vlastnosti

Izoobrysy nesingulárního vícerozměrného normálního rozdělení jsou elipsoidy se středem na střední $μ$ . Směry hlavních os těchto elipsoidy jsou vektory z $å$ . Čtverce relativních délek těchto os jsou dány vlastními hodnotami spojenými s těmito vlastními vektory.

Diferenciál entropie vícerozměrné normální distribuce je dána vztahem

{\ displaystyle H \ left (f \ right) = - \ int _ {\ mathbb {R} ^ {N}} f (x) \ ln f (x) \, \ mathrm {d} x}

{\ displaystyle = {\ frac {1} {2}} \ levý (N + N \ ln \ levý (2 \ pi \ pravý) + \ ln \ levý | \ Sigma \ pravý | \ pravý) \!}

{\ displaystyle = {\ frac {1} {2}} \ ln \ {(2 \ pi \ mathrm {e}) ^ {N} \ vlevo | \ Sigma \ vpravo | \}}

Kullback-Leibler divergence má zvláštní formu v případě dvou vícerozměrných normálních zákonů a ${\ displaystyle {\ mathcal {N}} _ {0} (\ mu _ {0}, \ Sigma _ {0})}$ ${\ displaystyle {\ mathcal {N}} _ {1} (\ mu _ {1}, \ Sigma _ {1})}$

{\ displaystyle D _ {\ text {KL}} (N_ {0} \ | N_ {1}) = {1 \ nad 2} \ left (\ ln \ left ({\ frac {\ left | \ Sigma _ { 1} \ right |} {\ left | \ Sigma _ {0} \ right |}} \ right) + \ mathrm {tr} \ left (\ Sigma _ {1} ^ {- 1} \ Sigma _ {0} \ right) + \ left (\ mu _ {1} - \ mu _ {0} \ right) ^ {\ top} \ Sigma _ {1} ^ {- 1} (\ mu _ {1} - \ mu _ {0}) - N \ vpravo).}

Pojem kumulativní funkce $Φ$ (nebo distribuční funkce) normálního zákona v dimenzi 1 lze zobecnit na vícerozměrný normální zákon. Klíčovým principem je Mahalanobisova vzdálenost : kumulativní funkcí je pravděpodobnost, že normální náhodná proměnná spadne do elipsy určené její vzdáleností od Mahalanobis $r$ po Gaussian. Existují analytické vzorce pro výpočet hodnot kumulativní funkce. ${\ displaystyle \ Phi _ {n} (r)}$

Simulace

Abychom simulovali multinormální zákon, jehož parametry jsou známé nebo odhadnuté, tj. A , snažíme se generovat umělý vzorek nezávislých vektorů . ${\ displaystyle {\ boldsymbol {X}} \ sim {\ mathcal {N}} (\ mu, \, \ Sigma)}$ ${\ displaystyle m \ sim \ mu}$ ${\ displaystyle C \ sim \ Sigma}$ ${\ boldsymbol {X}}$

Pokud $C$ není diagonální , není možné postupně vytvářet n proměnných $X i$ , protože tato metoda by nerespektovala kovariance.

Přístup spíše spočívá ve vyjádření vektoru $X$ jako lineární kombinace nezávislých skalárních proměnných formy ${\ displaystyle Y_ {i} \ sim {\ mathcal {N}} (0,1)}$

{\ displaystyle {\ boldsymbol {X}} = m + B {\ boldsymbol {Y}}}

kde $B$ je čtvercová matice splňující omezení

{\ displaystyle C = BB ^ {T}.}

Vlastnost kovariance vskutku ukazuje, že toto omezení zajišťuje, že kovariance $je X$ respektována .

Po určení $B$ , potom generovat simulace z $Y i$ pro (pomocí výše uvedeného vztahu) nezávislých verzí vektoru $X$ .

Existuje několik možností pro výběr $B$ :

Pokud multinormal zákon nedegenerovaný se Choleského faktorizace z $C$ (potom obrácení) určuje trojúhelníková matice dolní $B$ přesně splňující předchozí omezení.
Obecně platí, že $C$ je kladný semitečný a metoda diagonalizace umožňuje charakterizovat

{\ displaystyle C = ODO ^ {T}}

kde

O

je ortogonální matice, jejíž sloupce jsou vlastní vektory

C

, a

D

je diagonální matice složená z vlastních čísel

C

, všech kladných nebo nulových. Musíte si jen vybrat

{\ displaystyle B = OD ^ {1/2}}

Poznámky:

Ačkoli jsou tyto přístupy teoreticky ekvivalentní, druhý je numericky výhodnější, protože vykazuje lepší stabilitu, když je stav kovarianční matice „špatný“.
Generátor pseudonáhodných čísel nejčastěji smyčkuje hodnoty omezené řady (stejné výsledky najdeme po dosažení konce řady). S tímto aspektem buďte opatrní, pokud jde o generování velkého počtu simulací multinormálního vektoru velké velikosti n : po vyčerpání série již nebude zaručena nezávislost.

Aplikace

Vícerozměrný normální zákon se používá zejména při zpracování lékařských snímků. Proto se například často používá při zobrazování difuzního tenzoru . Tento snímek skutečně modeluje distribuci hlavních směrů difúze vody vícerozměrným normálním zákonem s nulovým průměrem. Tenzor v každém bodě obrazu tedy není nic jiného než kovarianční matice vícerozměrného normálního zákona.

Druhou aplikací vícerozměrné normální distribuce je stanovení intenzity MRI v mozku pacienta, které tvoří různé tkáňové třídy ( šedá hmota , bílá hmota , mozkomíšní mok ). Tato technika je založena na použití algoritmu maximalizace očekávání, ve kterém je každá z tříd modelována vícerozměrným normálním zákonem, jehož dimenze se rovná počtu modalit použitých pro klasifikaci.

Poznámky a odkazy

(in) DV Gokhale, NA Ahmed, BC Res, NJ Piscataway, „ Entropy Estimators for Expressions and their Multivariate Distribuce “ , IEEE Transaction on Information Theory , sv. 35, n o 3,Květen 1989, str. 688–692
Viz například (in) Michael Bensimhoun , „ N-Dimenzionální kumulativní funkce a další užitečná fakta o Gaussianech a normální hustotě “ [PDF] ,2006

Související články

Normální zákon
Vícerozměrný zákon pravděpodobnosti
Algoritmus maximalizace očekávání : obsahující podrobnosti aplikace na klasifikaci tkání