Formální jazyk

V matematice , informatice a lingvistice je formální jazyk sada slov . Abeceda formálního jazyka je sada symbolů, písmen nebo lexémů, které se používají ke konstrukci slov jazyka; často se předpokládá, že je tato abeceda hotová. Cílem teorie formálních jazyků je popsat formální jazyky.

Slova jsou sekvence prvků této abecedy; slova, která patří k určitému formálnímu jazyku, se někdy nazývají dobře vytvořená slova nebo dobře formulované vzorce . Formální jazyk je často definován formální gramatikou , jako jsou algebraické gramatiky, a analyzován automaty .

Cíle

Teorie formálních jazyků studuje čistě syntaktické aspekty těchto jazyků, to znamená jejich formální vnitřní strukturu. Teorie jazyků vychází z lingvistiky jako prostředku porozumění syntaktickým zákonitostem přirozených jazyků :

V informatice se formální jazyky často používají jako základ pro definici programovacích jazyků a jiných systémů; slova jazyka pak obsahují také význam, sémantiku .
V algoritmické teorii složitosti , rozhodovací problémy jsou obecně definovány jako formálních jazyků a složitosti třídy jsou definovány jako soubor formálních jazyků, které mohou být analyzovány pomocí stroje s omezenými výpočetními zdroji.
V matematické logice se formální jazyky používají k reprezentaci syntaxe axiomatických systémů a formalistický přístup v matematice nebo logice tvrdí, že matematiku lze v zásadě omezit na syntaktickou manipulaci formálních jazyků.

Studium formálních jazyků zahrnuje všechny způsoby popisu a analýzy těchto jazyků, jako jsou formální gramatiky pro generování a automaty pro rozpoznávání, ale zajímá se také o strojové učení a překlad . V oblasti překladu se teorie jazyků vztahuje na překladače programovacích jazyků.

Slova a jazyky

Definice

Dáme si množinu zvanou abeceda, jejíž prvky se nazývají písmena . $NA$

Slovo délky k je sekvence z k- písmen. V praxi používáme zkrácenou notaci . $u = (a_ {1}, a_ {2}, ..., a_ {k})$ $u = a_ {1} a_ {2} \ cdots a_ {k}$
Sada slov v abecedě je zaznamenána . $NA$ $A ^ {*}$
Prázdné slovo , o délce 0, je třeba poznamenat , nebo někdy (nebo také pro odlišení od -transitions v konečných automatů). $1$ $\ varepsilon$ $\ Lambda$ $\ varepsilon$
Definujeme na , což je vnitrostátní právo kompozice nazývá zřetězení . Sdružuje dvě slova a slovo (v délce ). $A ^ {*}$ $a_ {1} \ cdots a_ {n}$ $b_ {1} \ cdots b_ {m}$ $a_ {1} \ cdots a_ {n} b_ {1} \ cdots b_ {m}$ $n + m$

Tento zákon vnitřní kompozice je asociativní a připouští prázdné slovo pro neutrální prvek (což ospravedlňuje notaci ). V důsledku toho je sada stanovená tímto zákonem monoidem . Je to bezplatný monoid ve smyslu algebry. $1$ $A ^ {*}$

Formální jazyk je soubor slov na konečných abeceda, to znamená, že část volné monoid na této abecedy.

Příklady

Některé příklady formálních jazyků:

množina všech slov , $\ {a, b \}$
množina slov ve tvaru , kde je prvočíslo , $a ^ {n}$ $ne$
množina syntakticky správných programů v daném programovacím jazyce ,
množina vstupních slov, na kterých se daný Turingův stroj zastaví,
sada 1 000 nejčastějších slov v daném jazyce.

Konstrukce formálního jazyka

Formální jazyk lze určit různými způsoby. Hledá se konečná a explicitní metoda nebo mechanismus, který umožňuje vytvořit nebo analyzovat obecně nekonečný jazyk. Mezi tyto metody patří:

že formální gramatiky . Slova jsou vytvářena pravidly v konečném počtu, která platí za přesných podmínek. Získáváme klasifikaci jazyků nazývanou Chomskyho hierarchie ;
jsou regulární výrazy . Slova jsou popsána podle symboliky, která umožňuje popsat posloupnosti, opakování, alternativy. Je to velmi populární způsob vyhledávání slov v textech;
PLC . Jsou to matematické stroje, které rozpoznávají určitou kategorii slov. Mezi nimi jsou systémy přechodu stavu , Turingovy stroje nebo konečné automaty ;
soubor případů rozhodovacího problému, jehož odpověď je ANO;
různé logické systémy popisu pomocí logických vzorců.
o přepisování systémů . Zvláštní rodina je tvořena shodnými jazyky .

Příslušnost, vypočítatelnost a složitost

Typické otázky, které si klademe ohledně formálního jazyka, jsou následující:

Můžeme pomocí algoritmu rozhodnout, zda dané slovo patří do tohoto jazyka?
Pokud ano, jaká je algoritmická složitost takové odpovědi?

Tyto otázky souvisejí s teorií vypočítatelnosti a složitosti .

Jazykové rodiny

Jazyky jsou seskupeny do jazykových rodin. Chomského hierarchie nám poskytuje čtyři typy gramatiky, přičemž každý typ gramatiky vytváří jazykovou rodinu.

Gramatiky typu 0 generují rodinu rekurzivně vyčíslitelných jazyků . Jedná se přesně o jazyky rozpoznatelné Turingovým strojem .
Gramatiky typu 1 generují rodinu kontextových jazyků . Jedná se přesně o jazyky rozpoznatelné lineárně ohraničenými automaty .
Gramatiky typu 2 generují rodinu algebraických jazyků . Jedná se o jazyky rozpoznatelné pomocí rozevíracích automatů .
Gramatiky typu 3 generují rodinu racionálních jazyků . Jedná se o jazyky rozpoznatelné konečnými automaty .

Tyto jazykové sady jsou navzájem zahrnuty a jsou zde uvedeny od největší sady po nejmenší. Takže veškerý racionální jazyk je algebraický , což je samo o sobě kontextové , což je samo o sobě rekurzivně spočetné .

Mezi těmito 4 rodinami jazyků je možné si povšimnout rodin, které nejsou součástí Chomského hierarchie, ale které zůstávají pozoruhodné svými definicemi a vlastnostmi. Tyto deterministické bezkontextové jazyky jsou jazyky uznávané automaty deterministické stohu a jsou striktně zahrnuty v rodině algebraických jazyků. Tyto rekurzivní jazyky jsou jazyky uznávané Turing stroj, a jehož doplňkem je také rozpoznán Turing stroj. Proto jsou striktně zahrnuty v rekurzivně nespočetných jazycích .

Operace ve formálních jazycích

K výrobě nových jazyků z daných jazyků lze použít několik operací. Předpokládejme, že L a M jsou jazyky na nějaké běžné abecedě.

Nastavit operace

Průsečík operací operací , sjednocení a doplňování jsou definovány jako pro jakoukoli sadu.

Zřetězení nebo produkt

Zřetězení z L a M , bylo právě uvedeno , je množina slov tvaru xy , kde x je slovo L a tam je slovo M . $LM$

Kvocienty nebo zbytky

Podíl na levé části slova je soubor slov , například patří k . Kvocient vlevo se také nazývá zbytkový . $x ^ {{- 1}} L.$ $L$ $X$ $y$ $xy$ $L$

Podíl na pravé části slova je definován symetricky jako množina slov , například patří . $Dx ^ {{- 1}}$ $L$ $X$ $y$ $yx$ $L$

Kvocientu na levé straně a podíl na právo rozšířit na jazyky. Kvocient nalevo od jazyka , jak je uvedeno , je tedy sjednocení jazyků pro v . $L$ $M$ $M ^ {{- 1}} L$ $x ^ {{- 1}} L.$ $X$ $M$

Hvězda Kleene

Kleene hvězda z L je množina všiml, složený ze slov formuláře s a . Tato sada obsahuje slovo prázdné . $L ^ {\ star}$ ${\ displaystyle u_ {1} .u_ {2}. \ tečky .u_ {n}}$ $n \ geqslant 0$ $u_ {1}, u_ {2}, \ dots, u_ {n} \ v L$

Převrácený nebo zrcadlový obraz

Reverzní z L , poznamenat, nebo obsahuje zrcadlové slova slova L , to znamená, že slova L číst zprava doleva. $L ^ {R}$ ${\ tilde {L}}$

Směs nebo „zamíchat“

Směs z L a M , označená L Ш M je množina slov, která mohou být zapsány , kde a jsou slova (případně prázdný) jako buď slovo L a buď slovem z M . Například Ű . $u_ {1} v_ {1} u_ {2} v_ {2} \ tečky u_ {n} v_ {n}$ $n \ geqslant 0$ $u_ {1}, \ dots, u_ {n}, v_ {1}, \ dots, v_ {n}$ $u_ {1} u_ {2} \ tečky u_ {n}$ $v_ {1} v_ {2} \ tečky v_ {n}$ $\ {ab \}$ $\ {ba \} = \ {abba, baab, baba, abab \}$

Morfismus a inverzní morfismus

Aplikace je morphism nebo homomorphism si všechna slova o . Homomorfní obraz jazykového ON je množina $f: A ^ {*} \ do B ^ {*}$ $f (xy) = f (x) f (y)$ $x, y$ $A ^ {*}$ $L$ $NA$

f (L) = \ {f (x) \ mid x \ v L \}

Zneužíváním jazyka nazýváme inverzní morfismus inverzí morfismu. Inverzní morfismus z je označován funkce z v množině dílů z definovaný $f: A ^ {*} \ do B ^ {*}$ $f ^ {- 1}$ $B ^ {*}$ $A ^ {*}$

f ^ {- 1} (y) = \ {x \ v A ^ {*} \ mid f (x) = y \}

Obecně to není morfismus. Obraz by inverzním morfismu jednoho jazyka na je jazyk $M$ $B$

f ^ {- 1} (M) = \ bigcup _ {y \ v M} f ^ {- 1} (y)

Morfismus nevymazává ani se nezvyšuje, nebo napodobováním angličtiny neobsahuje ε, pokud obraz dopisu nikdy není prázdným slovem. V tomto případě je délka obrazu slova větší nebo stejná jako délka slova.

Vlastnosti plotu

Běžnou otázkou těchto operací je znát uzavírací vlastnosti každé jazykové rodiny pro každou z těchto operací, tj. Pokud jazyk, který je výsledkem operace, zůstává ve stejné rodině jazyků jako jazyky, z nichž pochází.

Tabulka uzavíracích vlastností jazykových rodin vyplývajících z Chomského hierarchie

	Racionální jazyky	Deterministické algebraické jazyky	Algebraické jazyky	Kontextové jazyky	Rekurzivní jazyky	Rekurzivně vyčíslitelné jazyky
svaz	Zavřeno	Žádný plot	Zavřeno	Zavřeno	Zavřeno	Zavřeno
Průsečík	Zavřeno	Žádný plot	Žádný plot	Zavřeno	Zavřeno	Zavřeno
Komplementární	Zavřeno	Zavřeno	Žádný plot	Zavřeno	Zavřeno	Žádný plot
Zřetězení	Zavřeno	Žádný plot	Zavřeno	Zavřeno	Zavřeno	Zavřeno
Hvězda Kleene	Zavřeno	Žádný plot	Zavřeno	Zavřeno	Zavřeno	Zavřeno
Zrcadlo	Zavřeno	Žádný plot	Zavřeno	Zavřeno	Zavřeno	Zavřeno
Smíšený	Zavřeno	Žádný plot	Žádný plot	Žádný plot	Žádný plot	Žádný plot
Morfismus	Zavřeno	Žádný plot	Zavřeno	Žádný plot	Žádný plot	Zavřeno
Rostoucí morfismus	Zavřeno	Žádný plot	Zavřeno	Zavřeno	Zavřeno	Zavřeno
Reverzní morfismus	Zavřeno	Zavřeno	Zavřeno	Zavřeno	Zavřeno	Zavřeno

Poznámky a odkazy

„slovo“ v matematickém slova smyslu je řada symbolů odebraných ze série s názvem „abeceda“ .
Abychom tomuto příkladu porozuměli, napíšeme písmena druhého slova velkými písmeny. Takže dostaneme: $\ {ab \}$ Ш $\ {BA \} = \ {abBA, aBbA, BAab, BaAb, BabA, aBAb \}$ a když nahradíme velká písmena malými písmeny, máme uvedená slova.
Důkazy v Olivier Carton , Formální jazyky, vypočítatelnost a složitost ,2008[ detail vydání ] ( číst online )
Důkazy v (in) Zoltán esik a Imre Simon , „ Modelování doslovných morfismů v náhodném pořadí “ , Semigroup Forum , sv. 56,1998, str. 225-227

Olivier Carton , Formální jazyky, vypočítatelnost a složitost , Paříž, Vuibert , kol. "Capes-aggregate",28. října 2008, 1 st ed. , 240 s. , 17 x 24 ( ISBN 978-2-7117-2077-4 a 2-7117-2077-2 , online prezentace , číst online )

Podívejte se také