Podtřída | Kanonický (počítačová věda) |
---|---|
Pojmenováno odkazem na | Lemma ( in ) , lemma |
Lemmatisation znamená lexikální zpracování stanoveno text pro analýzu. Toto zpracování spočívá v aplikaci kódování na výskyt lexémů podléhajících skloňování (ve francouzštině, slovesech, podstatných jménech, přídavných jménech) s odkazem na jejich běžnou lexikální položku („kanonická forma“ zaznamenaná ve slovnících jazyka, nejčastěji), kterou „označujeme termínem lemma .
Lexémy ( lemmy ) jazyka mohou mít několik forem v závislosti na jejich pohlaví (mužském nebo ženském), jejich počtu (jednom nebo více), jejich osobě (já, vy, oni ...), jejich režimu (orientační, imperativní). ..). Setkáváme se tak s několika formami pro stejné lemma . Tyto tvary se označují jako flexe nebo ohnuté tvary.
Lemmatizace vyskytující se formy je aplikace na tuto formu kódování, která umožňuje identifikovat její lemma. Obecně se jako lemma používá kanonická forma používaná k lokalizaci lexému v aktuálních slovnících daného jazyka. Ve francouzštině například pro sloveso jeho infinitiv, pro věcné jeho singulární, pro adjektivum jeho mužský-singulární. Ale v latině budeme nejčastěji používat podle konvence formu 1. osoby jednotného čísla přítomného indikativu.
Všechny položky ve slovníku jsou proto uvedeny (konkrétně v abecedním pořadí nebo jako cíle v hypertextové perspektivě Wikipedie například jako lemma). Příklady, citace, které krmí článek, obsahují ohýbané tvary.
Příklady:
Stejný grafický tvar (výskyt) může odkazovat na dva nebo více různých lemmat.
Příklady:
Po dlouhou dobu Lemmatizace spočívala ve vytvoření artefaktu textu, kde lemata zcela nahradila skloněné vyskytující se formy. Jasné hvězdy září v temné noci a staly se jasnou hvězdnou září v temné noci . Softwarové skripty analyzovaly dvě verze samostatně. Zobecněním HTML a zejména XML je možné sladit lemmatizované a raw verze ve formě paralelních sloupců.
Příklad:
/
hvězdy /
jasné / jasné hvězdy
září / září
v / v
/
noc /
temná noc / černá
poté do stejného kontejneru XML integrovat různé informace o výskytu, včetně jeho grafické podoby a lemmatu. Například <w form = "clear" lemma = "clear"> .
V textových výpočtech nebo v textometrii je nemožné, aby se počítačový program seskupil, aniž by se uchýlil k externím zdrojům nebo k internímu značení a kódování interně v textovém souboru, skloňování stejného lemmatu, a ještě více rozlišovat lexikální hodnoty Stejných tvarů („volant, závoj, dveře…“). Lemmatizace je tedy předběžnou operací k lingvisticky založenému uznání složek trestu. „Konzervativní“ lemmatizace, kterou umožňuje kódování XML, opravňuje výzkum, který má být proveden stejně tak na lemmatech, jako na jejich skloněných formách (například pokud si přejeme odlišit svobodu od svobod ).