Latentní sémantická analýza

Latentní sémantická analýza ( LSA je anglicky  : Latentní sémantická analýza ), nebo latentní sémantické indexování (nebo LSI , anglicky: latentní sémantické indexování ) je proces zpracování přirozeného jazyka , jako součást sémantiky Vector . LSA byl patentován v roce 1988 a publikován v roce 1990 .

Umožňuje vytvořit vztahy mezi sadou dokumentů a pojmy, které obsahují, vytvořením „konceptů“ souvisejících s dokumenty a pojmy.

Matice výskytů

LSA používá matici, která popisuje výskyt určitých termínů v dokumentech. Jedná se o řídkou matici, jejíž řádky odpovídají „výrazům“ a jejichž sloupce odpovídají „dokumentům“.

„Termíny“ jsou obecně slova zkrácená nebo zredukovaná na jejich radikál převzatá z celého korpusu. Proto máme v každém dokumentu počet výskytů slova a pro všechna slova. Toto číslo je normalizováno pomocí vážení tf-idf (z angličtiny  : termín frekvence -  inverzní frekvence dokumentu ), kombinace dvou technik: koeficient matice je tím větší, čím více se v dokumentu objeví, a že je vzácné - předložit je.

Tato matice je běžná ve standardních sémantických modelech, jako je vektorový model , i když její maticová forma není systematická, protože matematické vlastnosti matic se používají jen zřídka.

LSA transformuje matici výskytů na „vztah“ mezi pojmy a „koncepty“ a vztah mezi těmito pojmy a dokumenty. Můžeme tedy dokumenty propojit.

Aplikace

Tato organizace mezi pojmy a koncepty se obecně používá pro:

Rozlišení synonymie a polysémie je hlavním problémem automatického zpracování jazyka  :

Snížení hodnosti

Po zkonstruování matice výskytů umožňuje LSA najít matici nižšího řádu , která poskytuje aproximaci této matice výskytů. Tuto aproximaci můžeme ospravedlnit několika aspekty:

Snížení pořadí matice výskytu má však účinek kombinace některých dimenzí, které nemusí být relevantní. Obecně se nám podaří - pokud je to možné - sloučit termíny s podobným významem. Snížení z pozice 3 na pozici 2 tedy může ovlivnit transformaci:

{(Car), (Truck), (Flower)} → {(1.3452 × Car + 0.2828 × Truck), (Flower)}

Synonymie je vyřešena tímto způsobem. Ale někdy to není možné. V těchto případech může LSA provést následující transformaci:

{(Auto), (Láhev), (Květina)} - → {(1,3452 × Auto + 0,2828 × Láhev), (Květ)}

Toto seskupení je mnohem obtížnější interpretovat - je to oprávněné z matematického hlediska, ale není relevantní pro lidského mluvčího -.

Popis

Konstrukce matice výskytu

Nechť X je matice, kde prvek (i, j) popisuje výskyty termínu i v dokumentu j - například frekvenci . Pak X bude vypadat takto:

Řádek této matice je tedy vektor, který odpovídá pojmu a jehož komponenty dávají jeho přítomnost (nebo spíše jeho důležitost) v každém dokumentu:

Podobně sloupec této matice je vektor, který odpovídá dokumentu a jehož komponenty jsou důležité v jeho vlastním obsahu každého výrazu.

Korelace

Skalární součin  :

mezi dvěma „ členy “ vektory dává korelaci mezi dvěma členy v celém korpusu. Maticový produkt obsahuje všechny tečkové produkty této formy: položka (i, p) - která je stejná jako položka (p, i), protože matice je symetrická  - je tedy bodový produkt:

( ).

Podobně produkt obsahuje všechny skalární produkty mezi vektory „dokumentu“, které dávají své korelace v celé lexikonu:

.

Rozklad singulární hodnoty

Jeden pak provede rozklad v singulárních hodnotách na X , což dá dvě ortonormální matice U a V a diagonální matici Σ . Pak máme:

Potom se zapíší maticové produkty, které dávají korelace mezi pojmy na jedné straně a mezi dokumenty na straně druhé:

Vzhledem k tomu, že matice a jsou diagonální, U je vyroben z vektorů v , a V je vyrobena z charakteristických vektorů . Oba produkty pak mají stejné nenulové vlastní hodnoty - což odpovídá nenulovým diagonálním koeficientům . Rozklad se pak zapíše:

Hodnoty jsou singulární hodnoty X . Na druhou stranu, vektory a jsou respektive levý a pravý singulární.

Všimněte si také, že jedinou částí U, která přispívá, je i- tý řádek. Nyní označujeme tento vektor . Podobně jediná část, ke které přispívá, je j- tý sloupec, který označujeme .

Koncept prostor

Když vybereme k největší singulární hodnoty, stejně jako odpovídající singulární vektory v U a V , získáme aproximaci hodnosti k matice výskytů.

Důležité je, že touto aproximací se vektory „pojmy“ a „dokumenty“ převedou do prostoru „pojmů“.

Vektor má potom k komponent, z nichž každá dává důležitost termínu i v každém z k různých „konceptů“. Podobně vektor udává intenzitu vztahů mezi dokumentem j a každým konceptem. Tuto aproximaci píšeme v následující podobě:

Poté lze provést následující operace:

před porovnáním tohoto vektoru s korpusem.

Implementace

Rozklad na singulární hodnoty se obvykle počítá metodami optimalizovanými pro velké matice - například na algoritmu lanczos  - iteračními programy, nebo dokonce neuronových sítí , druhý přístup nevyžaduje pouze celá matrice se udržuje v paměti.

Omezení

Limity LSA zahrnují:

Pravděpodobnostní latentní sémantická analýza (PLSA)

Statistický model latentní sémantické analýzy neodpovídá pozorovaným údajům: předpokládá, že slova a dokumenty společně tvoří Gaussův model (jedná se o ergodickou hypotézu ), zatímco je pozorováno Poissonovo rozdělení .

Novějším přístupem je tedy pravděpodobnostní latentní sémantická analýza neboli PLSA (z angličtiny: Probabilistic latent semantic analysis ) založená na multinomálním modelu .

Poznámky a odkazy

  1. (in) Podání patentu Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum a Lynn Streeter.
  2. (in) Scott Deerwester, Susan Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman, „  Indexing by Latent Semantic Analysis  “ , Journal of the Society for Information Science , sv.  41, n O  6,1990, str.  391-407 ( číst online ).
  3. (in) Alain Lifshitz, Sandra Jhean-Larose, Guy Denhière, „  Effect of the year we tuned parameters multiple choice question answering LSA model  “ , Behavior Research Methods , Behavior Research Methods, vol.  41, n O  4,2009, str.  1201-1209 ( PMID  19897829 , DOI  10,3758 / BRM.41.4.1201 , číst online ).
  4. Můžeme dokonce ukázat, že je to nejlepší aproximace ve smyslu Frobeniovy normy. Důkaz je uveden v článku o rozkladu singulární hodnoty .
  5. (in) Genevieve Brandyn Gorrell and Webb (2005). „  Zobecněný hebobský algoritmus pro latentní sémantickou analýzu  “ Interspeech'2005 .  .

Dodatky

Bibliografie

Související články

Externí odkaz

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">