Počítačová lingvistika

Počítačová lingvistika
Podtřída Počítačová věda , matematická lingvistika ( d )

Výpočetní lingvistika je interdisciplinární obor založený na symbolickém (pravidlo-based) nebo statistické modelování z přirozeného jazyka stanoveného z počítačového hlediska.

Úvod

Lidské jazyky jsou semiotické systémy, kde vše do sebe zapadá a jejichž význam je obchodovatelný, což umožňuje jejich vývoj. Jazyk je vyjádřen několika smyslovými modalitami: zvuk ( řeč ), grafické stopy ( psaní ), gesta ( znaková řeč , verbální gesta). Lidé vytvářejí řetězce podle syntaktických konvencí, které jim dávají smysl: vyprávění příběhů, učení znalostí, vyjednávání, hádky. Mluvený nebo psaný řetězec nabývá významu díky svým složkám, své struktuře a kontextu (místo, čas, role přítomných, jejich společná historie). Lidský jazyk nám umožňuje mluvit o věcech v jejich nepřítomnosti, pamatovat si naši historii, vytvářet imaginární věci, jako jsou mýty, příběhy, a dělat plány. Je to jediný způsob komunikace, kterým lze parafrázovat všechny ostatní jazyky, tedy matematiku , logiku , počítače , hudbu nebo tanec .

Lidé mluví miliony let a píší asi 5000 let. Mnoho oborů studuje jazyk: filozofie jazyka , lingvistika , psycholingvistika , sociolingvistika , antropologie a informatika . Výpočetní lingvistika je oblast technologického výzkumu a praxe, která má kořeny jak v informatice, tak v lingvistice, přičemž někdy vyžaduje jiné obory. Výpočetní lingvistika je nedílnou součástí počítačových technik a zasahuje také do podoblastí umělé inteligence . S rychlým rozvojem počítačových technologií rychle vznikla potřeba spoléhat se na jazykové techniky, aby se usnadnila komunikace člověk-stroj. Lingvistika zároveň dokázala využít sílu počítačů k získání nové dimenze a připravit půdu pro nové oblasti výzkumu.

Výpočetní lingvistika zahrnuje:

Začátky

První výzkumná práce na jazycích využívajících počítačové prostředky proběhla v roce 1950 za účelem strojového překladu financovaného americkou armádou na základě dobrých výsledků dosažených použitím strojů k dešifrování kódovaných zpráv. Překlad však byl mnohem obtížnější než dekódování zašifrovaných zpráv té doby. V šedesátých letech se vědci umělé inteligence domnívali, že znalost strojového jazyka byla krátkodobým cílem. Tehdy počítačoví vědci věřili, že znají jazyky, protože je používali od dětství. Znali pravidla dobrého používání gramatiky , která nezávisí na vědeckém popisu jazyka, a proto si mysleli, že k získání výsledků strojového překladu stačí dobrý dvojjazyčný slovník a statistické nástroje. Vzhledem k nedostatečným výsledkům byly v roce 1960 prostředky sníženy (zpráva ALPAC).

V 70. letech jsme museli začít znovu na nových základech formalizací gramatiky. Formální gramatický model byl pro počítačové jazyky velmi produktivní. Tyto tlumočníci nebo překladače sestávají z léčebného řetězce: lexikální , syntaktickou , sémantické . Práce Noama Chomského předpokládala podobnost mezi přirozenými a počítačovými jazyky. Návrhy formálních jazykových modelů od Zelliga Harrisa a poté Chomského zaměřily hledání řešení na formalizaci syntaxe. Tyto generativní gramatiky Chomsky popisuje pravidla výrobních systémů pro generování všechny způsobilé věty. Inverzní automaty by měly umožňovat rozpoznávání dobře sestavených vět. S tímto předpokladem je interpretace textu tvořena řetězcem operací zpracování podobných těm, které provádějí kompilátoři. Příkladem je systém SHUDLU představený v úvodu k TAL . Formální gramatiky však narazily na mnoho obtíží lidského jazyka. Ve stejné době začala první práce na dialogu člověk-stroj v šedesátých letech s Elizou , která může dialog udržovat pomocí rozpoznávání klíčových slov. Toto je první pokus o interaktivní model.

Znalostní modely převzaly v 80. letech 20. století a podporují budování velmi důležité znalostní základny doplňující formální metody. Předpokládají, že klíčem k porozumění jazykům jsou sdílené znalosti. Ale pokud ano, jak by se děti naučily mluvit? I zde byly výsledky mnohem pomalejší, než se očekávalo. Bylo to také v 80. letech, kdy záznam řeči a automatické zpracování zaznamenaného signálu, stejně jako syntéza řeči , zavedly orální do jazykových technologií.

Po zklamaných nadějích na zvládnutí jazyků pomocí počítačů si počítačoví vědci uvědomili obtížnost problémů a stali se skromnými. Metody se hodně vyvinuly a kombinují statistické metody, formalismy a znalosti. To byla podmínka pro konstrukci efektivních a užitečných jazykových technologií, jaké jsou uvedeny v blogu Jeana Véronise [2] . Cíle se diverzifikovaly. V posledních letech byla gestační dimenze zohledněna u videozáznamů, animovaných postav a robotů. Dialog mezi lidmi prostřednictvím strojů vynalézá nové formy společenských praktik: pošta, chaty, fóra, které mění ústní / písemný vztah.

Obor studia

Existují tři hlavní oblasti počítačového jazykového výzkumu a inženýrství: zpracování řeči , automatické zpracování psaného jazyka nebo NLP a dialog člověk / stroj .

  1. „Řeč“ se zajímá o mluvené slovo, začíná zpracováním akustického signálu a snaží se jej dekódovat, aby jej bylo možné převést na psaní. Syntéza řeči je doplňkovým hlediskem, které transformuje psaný text na zvuk. Jsou vyžadovány dvě úrovně, fonologie (fonémy, slabiky) a prozódie  : pauzy, zdůraznění, rytmus, změna tónu, stoupání nebo klesání. Dobrým příkladem použití těchto technik jsou hlasové telefonní servery.
  2. TAL má zájem hlavně v psaných textů, při jejich analýze, je shrnutí, překládat. Základní otázky jsou:
  3. Práce na dialogu, ať už ústním nebo písemném (chaty, fóra), se zabývá účtováním spontánní řeči, hledáním jejích provozních pravidel a zahrnutím strojů do procesů lidského dialogu. Ve dvou oblastech „řeči“ a NLP je to zřídka spontánní řeč, ale texty jsou psány, korektury a opraveny, než jsou k dispozici v ústní (rozhlasové, televizní) nebo písemné formě. Spontánní dialog však předchází všem formám používání jazyka, a to jak u lidských druhů, tak v historii každého dítěte. Studium dialogu člověk-stroj se týká základních aspektů jazyka.

Ale díky počítačové vědě lze studovat i jiné aspekty jazyka. Antropologie například studuje vzhled a vývoj orálního jazyka a psaní během evoluce člověka a jeho šíření po celém světě. Studie o původu jazyka přinesly nový život pomocí počítačových simulací.

Teoretické modely

Teoretické modely se snaží vytvořit formalizaci fungování jazyka umožňující reprodukci umělým systémem lidských jazykových dovedností. Rozlišujeme mezi empirickými přístupy (založenými na statistických modelech vytvořených z pozorování), logicko-gramatickými přístupy (založenými na logických nebo algebraických modelech, postavenými na příkladech, které mohou být popisné nebo generativní) a přístupy interaktivní (založenými na modelech s více agenty, nebo o pozorování lidských interakcí nebo interakcí člověk-stroj).

Empirické přístupy

Pro studium jazyků se velmi často používají statistické modely. Výpočty frekvencí, průměrů a rozptylu někdy dávají překvapivé výsledky. Markovovy modely jsou nejpoužívanější pro analýzu řeči i pro lexikální a syntaktické analýzy. Pokusy o využití neuronových sítí jsou vzácnější.

Zipfův zákon

Ve třicátých letech 20. století vědec z Harvardovy univerzity GK Zipf ukázal, že klasifikací slov textu snížením frekvence pozorujeme, že četnost použití slova je nepřímo úměrná jeho hodnosti. Zákon Zipf uvádí, že frekvence druhého nejčastějšího slova je poloviční než frekvence prvního, frekvence nejčastějšího třetího slova, jejího třetího atd. Tento zákon lze vyjádřit následovně: Frekvence slova úrovně N = (Frekvence slova úrovně 1) / N Pokud sestavíme tabulku všech různých slov libovolného textu, seřazených v sestupném pořadí frekvencí, vidět, že četnost slova je nepřímo úměrná jeho pořadí v seznamu, nebo jinými slovy, že součin četnosti kteréhokoli slova podle jeho pořadí je konstantní: to, co překládá vzorec f * r = C, kde f je frekvence a r pozice. Tato rovnost, která platí pouze v aproximaci, je nezávislá na mluvčích, typech textů a jazycích. Zdá se tedy, že se jedná skutečně o obecný rys jazykových projevů. Toto zjištění není ojedinělé, ale je pouze prvním z celé řady dalších, které lze shrnout takto:

Vynesením páru hodnost / efektivní pro každé slovo v logaritmickém souřadnicovém systému se mrak bodů jeví jako lineární. Na tomto mraku je také možné vypočítat rovnici lineární regresní přímky. Rozložení bodů kolem této přímky ukazuje, že linearita je pouze přibližná. Při studiu seznamu frekvencí si můžeme povšimnout, že nejčastějšími slovy jsou gramatická slova a že jejich pořadí v seznamu je stabilní od jednoho textu k druhému od okamžiku, kdy má text značnou délku (jedná se o tendenční právo). Poté se objeví lexikální slova, počínaje slovy, která tematizují dokument.

Skryté Markovovy modely

Na větu nebo text lze pohlížet jako na sekvenci slov. Předpokládejme, že máme vyčerpávající slovník, kde jsou slova očíslována od 1 do M a  jako oddělovač přidáme slovo n o 0 poznamenal #. Malá kočka je mrtvá. bude přepsáno w0 w42 w817 w67 w76 w543 w0 (například) nahrazením každého slova jeho záznamem ve slovníku. Nazveme W1 pozorováním prvního slova a obecně Wi pozorováním i-tého slova.

P (# malá kočka je mrtvá #) = P (W0 = 0, W1 = 42, W2 = 817…)

Markov Model se snaží předpovědět výskyt slova v závislosti na slova, která mu předchází (bigram modelu) nebo dvou slov, která ji (trigram model) předcházejí. Bigramův model předpokládá, že Markovův model, který je základem jazyka, je stacionární. O Markovově modelu se říká, že je stacionární, pokud pozorování současného stavu umožňuje předvídat následující stavy. Existuje přímá souvislost mezi stavem procesu a pravděpodobností následných stavů. Automatické rozpoznávání řeči skvěle využívá Markovovy modely, které pomáhají rozpoznávat slova v nepřetržitém řečovém signálu. Abyste se naučili podmíněné pravděpodobnosti bigramů nebo trigramů, potřebujete velké množství anotovaného korpusu. Stejný princip lze použít i pro jiné úkoly, například pro označování (přiřazování slovních druhů ke slovům). V tomto případě sledujeme slova, nikoli jejich označení, a mluvíme o skrytém Markovově modelu. Labeler Brill  (in) je založen na tomto principu. To zahrnuje přiřazení značek ke slovům, aby se maximalizovala pravděpodobnost správné odpovědi na všechny značky.

Neuronové sítě

Tyto neuronové sítě Formální byly použity k modelování sémantiky jazyka a umožňují dynamické konstrukci významu vět.

Logicko-gramatické přístupy

Pojednání Noama Chomského o syntaxi přirozených jazyků byla zdrojem inspirace pro zacházení s větami jako výrazy formálního jazyka. Ale zatímco Chomského model je generativní, formální gramatické modely musí zahrnovat jak analýzu, tak generaci.

Jazyková kompetence má však pro systém, který neví, o čem se mluví, malý význam. V roce 1972 je SHRDLU od Terryho Winograda založen na modelování dokonale ohraničeného mikrosvěta (několik kostek a pyramid různých barev, nahromaděných na stole), aby bylo možné vést rozhovor o konkrétních situacích, které ten se mohou setkat v tomto omezeném vesmíru. Vybaveni dvěma klíči: formální gramatikou pro morfosyntaxi a sítěmi sémantických asociací pro význam, experimentátoři z poloviny a konce šedesátých let realizovali řadu systémů. Při přechodu od dialogu v mikrosvěti k lidskému světu byla velkou otázkou 70. let otázka reprezentace znalostí . V roce 1974 odhalil Marvin Minsky , jeden ze zakladatelů AI , ve sbírce umělého vidění představu stereotypů (anglicky: frames). Stereotyp je popis charakteristik prvku světa spojeného s odpovídajícími slovy. stereotypy fungují v sítích, které se nazývají sémantické sítě. Spojení této sítě jsou vztahy specializace zobecnění a vztahy všech částí. K pochopení příběhů však nestačí popsat svět, Roger Schank si klade otázku chování z hlediska předem definovaných scénářů.

Průběh Jean Véronis seznamů Morpho-syntaktické i sémantické modely proudy. V roce 1991 byla vypracována zpráva, která ukazuje silné a slabé stránky tohoto přístupu.

Interaktivní přístupy

Dialog je maticí našich jazyků, našeho myšlení, naší paměti a dialogu samotného. Je to matice našich institucí a našich společností. Představuje nás jako lidi. Dialog je primárním stavem jazykové činnosti, pokud ji porovnáme s psaním, samozřejmě, ale také s jinými formami ústního jazyka, jako je vyprávění příběhu nebo řeč. Malé dítě se učí mluvit pomocí řeči a dialogu. Interaktivní přístupy k jazykovému modelování byly vyvinuty pro dialog mezi lidmi a stroji, pro dialog mezi softwarovými agenty nebo pro zlepšení grafických rozhraní.

Lidské interakce, interakce člověk-stroj

Mezi lidmi probíhá interakce hlavně prostřednictvím společných akcí (hraní fotbalu), pohybů, gest, výrazů těla a obličeje, hlasu (výkřiky, slova) a sekundárně prostřednictvím psaní. Je součástí sdíleného světa a buduje sociální svět. Přináší do hry mezilehlé objekty jako zdroje, jako problémy nebo jako projev dohody. V dialogových oknech se každý účastník střídá v rolích řečníka, partnera nebo pozorovatele. Interakce mezi lidmi je tedy symetrická jak z hlediska modalit, tak iz hlediska rolí.

Interakce uživatele s počítači je pouze interakce se znaménkem. Není to symetrické ani z hlediska modalit, ani z hlediska rolí. Zařízení většinou prezentuje stránky na obrazovce obsahující texty a obrázky a odesílá zvukové zprávy (vizuální a sluchový režim). Uživatel jedná hlavně psaním (textový režim) a myší (režim gest). Tato interakce přináší do hry pouze svět počítače, jeho vnitřní svět a toky přicházející přes jeho senzory, nikoli jeho partnera. U všech jednoduchých počítačových aplikací, kde lze snadno vyčíslit a zapamatovat všechny příkazy, které mají být zadány stroji, jsou rozhraní s tlačítky nebo rozbalovacími nabídkami, která zůstávají v kompozičním a vyčerpávajícím paradigmatu, rozhodně lepší než dialog v jazyce. . Omezení jejich použití, obavy a obtíže uživatelů jsou však často způsobeny obtížemi interakce. Lze například pozorovat obtíže uživatelů porozumět chybovým zprávám nebo použít logické vzorce dotazování dokumentárních databází.

Bylo to po neúspěšných pokusech o formalizaci jazyků, jak tomu bylo efektivně u programovacích jazyků v 60. letech, když byl vyvinut jiný úhel pohledu, úhel pohledu interakce. Jako zdroje a podílu na ústavě jazyků. Lidé mohou mezi sebou komunikovat prostřednictvím znamení několika způsoby. Mohou komunikovat prostřednictvím silničních nebo navigačních signálů, jejichž význam nelze vyjednat. Mohou používat kódy, které lze kompozičně analyzovat po termínech, jako jsou matematické notace a programovací jazyky. Tyto kódy mají kompoziční a jednoznačnou sémantiku, která opravuje význam zpráv nezávisle na kontextu, ve kterém k nim dochází. Kodex vyžaduje předchozí dohodu mezi stranami o významu prvků a významu jejich kombinací. Lidé používají hlavně ke komunikaci přirozené jazyky, které nefungují podle modelu kódu, ale podle modelu přenosu. Jazyky jsou předpokladem pro vytváření systémů signálů, vzorců a kódů a pro jejich vývoj.

Interpretační sémantika

Interpretační sémantika Françoise Rastiera popisuje, jak je význam konstruován rétorickým a hermeneutickým způsobem, tj. V procesu interpretace v kontextu a v historii interakcí. Snaží se popsat texty (nebo dialogy) v plném rozsahu. Slouží jako základ pro studie a IT projekty.

Relevantnost

Jean-Louis Dessalles nabízí model relevance a jeho kognitivních původů, který osvětluje fungování jazyka v interakci. Neočekávané, náhody, bagatelizace jsou hlavními hnacími silami rozhovorů.

Podpora pro lingvisty

Lingvistika byla nejprve popisná a popisovala vývoj jazyků, jejich společné kořeny. Lingvistika může být normativní a stanoví standardy pro konkrétní jazyk. To se pak nazývá gramatika. Stanovuje standardy pro výuku jazyků a konvence pro tisk. Lingvistika může být teoretická a nabízí teorie jazyka, produkce nebo interpretace jazyků: Saussure (znakový systém, strukturní lingvistika), Chomsky (systém pravidel, generativní lingvistika), Langaker (kognitivní gramatika).

V lingvistických teoriích existuje několik studijních oborů:

  • fonetika a fonologie (řeč)
  • morfologie a syntaxe (struktura slov a vět)
  • sémantika (význam, slovníky, shrnutí)
  • projev (texty, dialogy).

IT může lingvistům pomoci:

  • hledat příklady a protiklady velkých korpusů
  • dělat statistiky o používání termínů, syntaktických konstrukcí, rýmů ...
  • vypočítat společné výskyty termínů,

Korpusová lingvistika je výsledkem tohoto technického přínosu počítačové vědy pro lingvistická studia.

Dalším hlediskem vztahů v lingvistice a informatice je vytvoření výpočetních modelů lingvistických teorií a testování těchto modelů jejich implantováním do stroje. Například syntaxe Luciena Tesnièra používaná Jacquesem Vergnem k vytvoření analyzátoru syntaxe bez slovníku.

Korpusová lingvistika

Korpusy jsou jak surovinou pro studium jazyků a textů, tak prostředkem testování navržených modelů. Výpočetní technika umožňuje použití velkých korpusů textů pro studium jazyků. Usnadňuje jejich shromažďování, jejich složení, jejich anotace. Šíření korpusů představuje vědecké, technické a právní problémy:

  • Práva autorů, editorů, překladatelů, anotátorů.
  • Ochrana osoby a jejího obrazu v případě ústních korpusů.

Co je to korpus?

Korpus je velké množství dokumentovaného lingvistického materiálu: knihy, noviny, domácí úkoly studentů, rozhlasové a televizní nahrávky, rodinné setkání, diskuze o kávě ... Digitalizované korpusy jsou nejužitečnější pro lingvisty, literární lidi, stejně jako pro výzkumníky NLP. Existuje mnoho zdrojů písemného korpusu, a to jak na webu, tak proto, že publikování bylo digitalizováno od 80. let.

U určitých úkolů musí být korpus reprezentativní: zástupce jazykového státu v zemi, sociálního prostředí, v daném čase. Z tohoto důvodu je nutné vzorky pečlivě odebírat a tyto volby je třeba zdokumentovat (příklad Frantext pro TLFI ). Korpusy „dědictví“ se shromažďují, aby sloužily jako základ pro následné srovnání stavů jazyků nebo k uchování svědectví o ohrožených jazycích. K vytvoření automatického systému rezervace jízdenek na vlak je nutné zaznamenávat dialogy na přepážkách SNCF na různých místech s mnoha účastníky. Ostatní dialogy přinesou málo informací, rádio ještě méně.

Korpus respektuje kontext enunkce a soubor textů. Zahrnuje tedy metadata  : autor, datum, vydání atd. Je organizována s ohledem na vědecké nebo technické využití. Otázka formátů je zásadní: kódování znaků, znaková sada, formátování materiálu, formát souboru (HTML, Word, pdf atd.). Pokud je korpus anotován, je každý prvek korpusu popsán anotacemi a sada anotací musí být stejná pro všechny prvky korpusu. Korpus může být jednojazyčný nebo vícejazyčný. Zvláštní kategorie korpusu se týká textů přeložených do několika jazyků, seřazených podle významu, například textů z evropského společenství. Jsou široce používány ve strojovém překladu.

Historie korpusů

Myšlenka využití korpusů pro lingvistický výzkum předchází počítačovou vědu. Zellig Harris položil základy výzkumu distribuční syntaxe, který nemohl udělat. V jejich digitální podobě se korpusy začaly stavět kolem roku 1950, ale až v 80. letech byly stroje dostatečně dostupné pro stavbu velkých korpusů. Poprvé vznikly v angličtině v USA (Brown Corpus 1979 Francis) a v Anglii (British National Corpus, Bank of English). V 90. letech jsme začali hledat orální korpusy a vícejazyčné korpusy. Písemné korpusy jsou obecně dostupné pro vědecký výzkum. Na druhou stranu existuje jen málo ústních korpusů, ve francouzštině jen velmi málo, z právních důvodů a z důvodů průmyslového vlastnictví.

Anotace korpusu

Anotovaný korpus je korpus doprovázený informacemi doplňujícími metadata, která ho popisují. Poznámky mohou být manuální nebo automatické. Vyhýbají se nutnosti opakovat stejnou práci několikrát a otevírat možnosti automatického vyhledávání na anotovaných prvcích. Hlavní anotace jsou lexikální, morfologické nebo syntaktické anotace. Odkazují na slovníky nebo gramatické teorie (slovní druhy, funkce předmětu, sloveso, doplněk atd.). Mohou být systematické nebo částečné pro potřeby konkrétního zaměstnání (upozornit například na příslovce nebo slovesa v budoucnu…). Nastolují otázku objektivity těchto anotací, protože lingvisté mohou dlouho diskutovat o určitých možnostech, aniž by dosáhli dohody. Jde tedy o interpretace korpusu a podmínky tohoto výkladu musí být jasně popsány v metadatech, aby byly zveřejněny a výslovně uvedeny zásady, na nichž byla anotace vytvořena. Ruční anotace na velkých korpusech vytvářejí týmy lingvistů a je obtížné dosáhnout konzistence mezi jejich anotacemi. Experimenty s dobře vyškolenými a dobře koordinovanými lingvisty však neprokázaly skutečný problém konzistence v angličtině, francouzštině a španělštině. Automatické anotace se získávají sestavením modelu z manuálních anotací části korpusu. Nejsou dokonalé (3% chyby pro anotaci částí řeči), ale jsou velmi užitečné, pokud je tato chybovost přijatelná. Mohou je převzít ručně odborníci, což je méně těžkopádné než první anotace.

V současné době se anotace korpusu diverzifikuje. Našli jsme sémanticky anotované korpusy (hledání pojmenovaných entit). Existují také anotace diskursivní analýzy, pragmatiky a stylistiky. Stylistické anotace se používají zejména ve starověku k přiřazení autorů anonymním dílům nebo ke studiu vlivů autorů na sebe navzájem. Standardizaci svých anotací navrhuje TEI ( Text Encoding Initiative ).

Využívání korpusů v NLP

Použití anotovaných korpusů umožňuje vyhodnotit nové systémy, které lze porovnat na ověřených korpusech a jejichž anotace jsou validovány. Umožňuje pracovat na jiných úrovních jazykové analýzy tím, že má zdroje, kde se již provádějí nízkoúrovňové analýzy, a proto experimentovat s pragmatickými nebo rétorickými analýzami bez provádění syntaktických analyzátorů, které jsou předpokladem pro analýzu.

Jazyková technologie

Výpočetní lingvistika se odehrává v historii jazykové instrumentace. Jazykové technologie začínají psaním asi před 5 000 lety. Pokračují v sestavování slovníků a gramatik . Pak tisku se narodila v Číně v XIV th  století a je přičítán německé Gutenberg v Evropě v roce 1440. To umožnilo šíření textů a slovníků v XVII th  století. Psací stroj byl vynalezen v roce 1868. Výpočetní technika přebírá, transformuje a vyvíjí všechny tyto technologie: nahrazuje psací stroj, zpřístupňuje tiskové techniky všem a nabízí slovníky online. Otevírá nové oblasti použití pro počítačovou instrumentaci lidského jazyka.

Počítačoví vědci se snaží vybavit různé aspekty jazyka: rozpoznávání a syntézu řeči, generování řeči, dialog člověk-stroj, zpracování textu (morfologická a syntaktická analýza, sémantické a stylistické studie, shrnutí). Na oplátku IT potřebuje jazyk pro svůj vlastní účet, například v rozhraních člověk-stroj, v podpůrných systémech, pro získávání informací v databázích textových dokumentů.

Písemné technologie

Citujme:

Webové vyhledávače zobrazují texty jako sáčky se slovy. Analýzy nezávisí na místě slov, pouze na počtu výskytů slova v textu. Funkce pro úpravu textu v textových procesorech, například „najít“ a „nahradit“, považovat text za řetězec znaků. S prázdnými znaky, abecedními nebo číselnými znaky, interpunkčními znaménky a formátovacími znaky se zachází stejně jako s abecedními znaky. Používají regulární výrazy . Kontrola pravopisu porovnává slova v textu se všemi slovy ve slovníku skloňovaných tvarů, to znamená, že u substantiv a adjektiv a všech konjugovaných tvarů sloves existuje singulární, množné, mužské a ženské. Poukazují na tvary, které neexistují, ale ne na ty, které jsou nesprávně použity. Pro automatický překlad nebo shrnutí textů je text považován za projev jazyka a při jeho analýze je třeba vzít v úvahu jazykové znalosti, protože zpětně čtený text již není textem, pouze řetězcem.

Orální technologie

  • Přepis řeči

Ruční přepis řeči za účelem získání ekvivalentní písemné formy je velmi obtížná práce.

Transcriber je nástroj pro segmentaci, označování a přepis řeči. Používá se v korpusové lingvistice a při získávání dat pro rozpoznávání a syntézu řeči.

Rozpoznávání řeči bere proud vstupního signálu řeči jako vstup a vytváří psaný text jako výstup. Využívá skryté Markovovy modely. Rozdíl mezi různými systémy je následující:

- rozdělení jednotek v toku řeči

- velikost učícího se korpusu a způsob, jakým se učíme získávat jazykový model, který dává pravděpodobnost věty

- zohlednění bigramů, trigramů nebo více těchto jednotek pro predikci textového prvku, který má být vytvořen podle aktuální jednotky a modelu

Software pro hlasové diktování funguje dobře, když se úkoly opakují, například diktování administrativních dopisů nebo lékařských zpráv.

Převod textu na řeč je obráceným bodem rozpoznávání. Transformuje psaný text na tok řeči. Jsou vyžadovány dvě úrovně produkce, fonologie (fonémy, slabiky) a prozódie: pauzy, zdůraznění, rytmus, změna tónu, stoupání nebo klesání. Dobrým příkladem použití těchto technik jsou hlasové telefonní servery.

Aplikace

S nedávným vývojem v oblasti internetu otevřela velká masa dat široké brány nesčetným aplikacím výpočetní lingvistiky, které zažívají nový nárůst moci.

  • Automatický překlad  : Tento problém dlouho podceňován vlastně obrátil jeden z nejvíce obtížné provést na počítači. K lexikálním a syntaktickým fázím, více či méně zvládnutým, se přidává sémantická analýza , poté pragmatická , která se snaží určit konkrétní význam slova v kontextu, ve kterém se objevuje. Samotný kontext se může rozšířit na celý přeložený text.
  • Shrnutí  : Shrnutí textu znamená identifikaci kontextu a zvážení významných částí ostatních. (Malý známý výzkum)
  • Reformulace  : umožňuje odvrátit obvinění z plagiátorství. (Žádný výzkum není znám).
  • Analýza dotazů v přirozeném jazyce  : tato myšlenka byla po určitou dobu považována za uspokojivé řešení problému komunikace mezi člověkem a strojem. Jaký lepší způsob pro neodborníka než být schopen adresovat své objednávky a dotazy do počítače ve svém vlastním jazyce? Nástup grafických rozhraní, metafora myši a plochy tuto techniku ​​poněkud zastínil. Znovu se objevuje v jiných formách, zejména jako nezbytná součást analýzy a rozpoznávání hlasu nebo dokonce rozpoznávání rukopisu, popularizovaná některými osobními asistenty (PDA).
  • Korektory gramatiky a pravopisu  : tyto moduly jsou založeny jak na statických jazykových modelech, tak na jazykových modelech (viz)
  • Extrakce informací  : s rostoucí dostupností textů v digitálních formátech, zejména na internetu, postupně roste potřeba získávat a organizovat informace z těchto zdrojů. V tomto procesu hraje důležitou roli výpočetní lingvistika, zejména při identifikaci pojmenovaných entit (vlastní jména, adresy atd.), Analýze a klasifikaci pocitů a názorů atd.

Reference

  1. Sylvain Auroux, 1998 Důvod, jazyk a normy , Paříž, Presses Universitaires de France.
  2. Maurice Gross a André Lentin , Notions sur les grammaires formelles , Gauthier-Villars, 1967.
  3. Noam Chomsky, kartézská lingvistika, následovaná Formální podstatou jazyka , Éditions du Seuil, 1969, ( ISBN  2-02-002732-1 ) .
  4. Zellig Harris, Poznámky z Cours de syntaxe , Éditions du Seuil, 1976.
  5. Noam Chomsky, Structures syntactiques , Éditions du Seuil, 1979, ( ISBN  2020050730 ) .
  6. Gérard Sabah, Umělá inteligence a jazyk, Reprezentace znalostí, Proces porozumění, Hermès, 1989.
  7. Gérard Sabah, „Jazyk a komunikace člověk-stroj, stát a budoucnost“ in: Jean Vivier (ed.), Dialog člověk / stroj: mýtus nebo realita , Europia Productions, 1995.
  8. Jean-Louis Dessalles, Na počátky jazyka - Přirozená historie řeči , Hermès, 2000.
  9. B. Victorri, C. Fuchs C, La polysémie, stavební dynamika du sens, Paříž , Hermès, 1996.
  10. René Carré, Jean-François Dégremont, Maurice Gross, Jean-Marie Pierrel a Gérard Sabah, Lidský jazyk a stroj , 1991, vydání CNRS.
  11. B. Cyrulnik, Zrození smyslu , Hachette, 1995.
  12. Stroj, jazyk a dialog, L'Harmattan, Paříž, 1997.
  13. Kaplan F., Zrození jazyka v robotech, Hermès Science Publications, 2001.
  14. M. Beaudouin-Lafon, „Designing Interaction, not Interfaces“, Sborník z pracovní konference o pokročilých vizuálních rozhraních , 25. – 28. Května 2004.
  15. J. Coursil, Funkce ztlumení jazyka , Ibis Rouge Éditions, Presses Universitaires Créoles, Guadeloupe 2000.
  16. Francois Rastier, interpretační sémantiku , PUF, 1987 3 th ed. 2009, ( ISBN  978-2130574958 ) .
  17. M. Valette ed., Texty, digitální dokumenty, korpus. Za instrumentovanou vědu textů. Syntax and Semantics n o  9/2008, Presses Universitaires de Caen.
  18. Jean-Louis Dessales, Relevance a její kognitivní původ , Hermès Sciences, 2008.
  19. Jacques Vergne, „Automatická syntaktická analýza jazyků: od kombinatoriky po kalkulačku“ (pozvaná komunikace), Sborník TALN 2001 , s.  15-29 .
  20. M. Crochemore, C. Hancart et, T. Lecroq, Algorithmique du texte , Vuibert, 2001, 347 stran. ( ISBN  2-7117-8628-5 ) .
  21. Mohamed Zakaria Kurdi, Automatické zpracování jazyka a výpočetní lingvistika - svazek 1, „Řeč, morfologie a syntaxe“, Londýn, ISTE, 2017.

Podívejte se také

Bibliografie

  • François Rastier , Marc Cavazza a Anne Abeillé , Sémantika pro analýzu: Od lingvistiky k počítačové vědě , Paříž, Masson, kol.  "Kognitivní vědy",1994, 240  s. ( ISBN  2-225-84537-9 )
  • Jazykové inženýrství, pod dohledem Jean-Marie Pierrela, Sbírka „Informace - Komise - Komunikace“, Éditions Hermès Science, 360 s. ( ISBN  2-7462-0113-5 ) ,Říjen 2000
  • (en) Oxford Handbook of Computational Linguistics, edited by Ruslan Mitkov, Oxford University Press, ( ISBN  0-19-823882-7 ) , 2003

Související články

externí odkazy

Externí vzdělávací odkazy