Chomsky normální forma

V teoretické informatice , a zejména v teorii jazyků , je bezkontextová gramatika v Chomského normální formě právě tehdy, pokud jsou všechna její produkční pravidla ve formě:

$X \ až YZ$ ;
nebo ; $X \ až a$
nebo $S \ to \ varepsilon$

kde jsou nekoncové symboly , je koncový symbol , je axiom gramatiky a je prázdné slovo. $X Y Z$ $na$ $S$ $\ varepsilon$

Pokud je přítomno poslední pravidlo, je požadováno, aby se axiom nikdy neobjevil ve správném členu pravidla.

Historický

Běžná forma Chomského je pojmenována podle amerického lingvistu Noama Chomského , který také navrhl hierarchii, která nese jeho jméno , a který tuto normální podobu popsal při této příležitosti v článku publikovaném v roce 1959 .

Varianty definice

Varianta definice spočívá v nepovolení prázdného slova: pouze pravidla formuláře

{\ displaystyle X \ to YZ}

nebo ,

{\ displaystyle X \ to a}

jsou povoleny, kde , a non-terminální symboly a je symbol terminál . Toto je definice přijatá například Cartonem nebo Hopcroftem et. al. . Tyto gramatiky samozřejmě negenerují prázdné slovo. $X$ $Y$ $Z$ $na$

Další varianta vyžaduje, aby přímé členy pravidel měly délku nejvýše 2, ale nevyžaduje, aby přímé členy délky 2 byly tvořeny výhradně z nekoncových symbolů. Taková gramatika se nazývá 2-normální forma nebo „2NF“.

Vlastnosti a použití

Jakákoli gramatika napsaná v Chomského normální formě je gramatika bez kontextu . Naopak jakoukoli gramatiku mimo kontext lze převést na ekvivalentní gramatiku (tj. Generující stejný jazyk) v Chomského normální podobě.

S výjimkou pravidla (3) se všechna pravidla gramatiky v Chomského normální formě zvyšují; v průběhu derivace se proto délky slov zvyšují. Zvyšují se o 1 s pravidlem typu (1) a zůstávají stejně dlouhé s pravidlem typu (2). Odvození slova délky se proto vždy provádí v krocích: existují kroky typu (1) a kroky typu (2). Kromě toho, protože všechna pravidla, která nevycházejí z terminálu, transformují jeden neterminál na dva neterminály, je derivační strom založený na gramatice Chomského normálního tvaru binární strom s vnitřními uzly a listy a jeho výška je nanejvýš délkou řetězec znaků. $n> 0$ $2n-1$ $n-1$ $ne$ $2n-1$ $ne$

Díky těmto vlastnostem se mnoho důkazů v oblasti formálních jazyků zjednodušuje pomocí Chomského normální formy (například skutečnost, že je rozhodující příslušnost slova ve generovaném jazyce). Několik běžných algoritmů syntaktické analýzy, jako je algoritmus Cocke-Younger-Kasami , používá tuto normální formu.

Převod gramatiky do Chomského normální podoby

Konverze gramatiky do Chomského normální formy se provádí řadou jednoduchých transformací aplikovaných v určitém pořadí. Většina učebnic teorie automatů popisuje tento převod. Ve vzdělávacím článku Lange a Leiß pečlivě popisují tyto operace a pojmenovávají fáze transformace, které usnadňují expozici. Kromě toho označují pořadí použití, které zaručuje lineární složitost.

Obecně transformaci předchází operace - zvaná „redukce“ v Cartonu 2008 (část 2.1.2: Redukované gramatiky , str. 79 ) nebo „eliminace zbytečných symbolů“ v Hopcroft, Motwani a Ullman 2007 , (část 7.1. 1: Eliminating zbytečné symboly , str. 262 ) - který slouží k odstranění nepotřebných proměnných. Proměnná X je užitečná, pokud se objeví v derivaci axiomu v terminálním slově; za tímto účelem musí být přístupný z axiomu řadou derivací a musí být „společně přístupný“ v tom smyslu, že musí být schopen být odvozen terminálním slovem.

Každá z následujících pěti transformací ( START , TERM , BIN , DEL , UNIT ) zavádí jednu z vlastností požadovaných Chomského normální formou. Představujeme je v návaznosti na Langeho a Leisi, jako by se vztahovali na obecnou gramatiku; uvidíme později, že pořadí aplikace je důležité, pokud chceme minimalizovat časovou složitost. V těchto konkrétních objednávkách jsou některé operace jednodušší, například operace UNIT, která se používá k odstranění pravidel jednotky.

Složitost operací se měří ve vztahu k velikosti dané gramatiky G. Je definována jednoduše jako místo, které zaujímá psaní pravidel

{\ displaystyle | G | = \ součet _ {X \ až \ alpha} | X \ alpha |}

kde předvolání zahrnuje všechna pravidla gramatiky. Zejména pravidlo ε přispívá k 1 v součtu. ${\ displaystyle X \ to \ alpha}$

START: Odstranění axiomu u správných členů pravidel

Za tímto účelem zavedeme nový symbol, který se stane axiomem a pravidlem $S_0$

{\ displaystyle S_ {0} \ to S}

kde je starý axiom. To nemění vygenerovaný jazyk a proměnná se neobjeví v pravém členu pravidla. $S$ $S_0$

TERMÍN: Odstranění koncových písmen u pravých členů pravidel délky alespoň 2

Pokud se písmeno terminálu objeví v pravém členu pravidla délky alespoň 2, nahraďte jej novým a přidejte nové pravidlo $na$ $N / A}$

{\ displaystyle N_ {a} \ to a}

a výše uvedené pravidlo nahradíme

{\ displaystyle X \ až WN_ {a} T}

Ve skutečnosti tuto náhradu provádíme současně pro všechny výskyty koncových písmen ve správných členech pravidel. To nemění generovaný jazyk a zvyšuje počet pravidel o maximálně počet terminálových písmen. Operace je proto lineární jako funkce | G |.

BIN: Odstranění přímých končetin s více než dvěma symboly

Nahradíme pravidlo

{\ displaystyle X \ až Y_ {1} Y_ {2} \ cdots Y_ {n}}

podle pravidel

{\ displaystyle X \ až Y_ {1} Z_ {1}, \ Z_ {1} \ až Y_ {2} Z_ {2}, \ ldots, \ Z_ {n-2} \ až Y_ {n-1} Y_ {ne}}

kde jsou nové neterminální symboly. Tato operace maximálně ztrojnásobuje gramatiku. $Z_ {i}$

DEL: Odstranění pravidel ε

Ε-pravidlo je pravidlo formy

{\ displaystyle X \ to \ varepsilon}

kde není axiom gramatiky. Začneme určením proměnných, které jsou odvozeny v ε; tyto proměnné, nazývané voidable (v angličtině „nullable“), se počítají podle opakování: X je zrušitelné, pokud existuje pravidlo $X$

{\ displaystyle X \ až Y_ {1} \ cdots Y_ {n}}

takové, které jsou všechny zrušitelné.

{\ displaystyle Y_ {1}, \ ldots, Y_ {n}}

Pro libovolnou proměnnou , zrušitelnou či nikoli, jakékoli pravidlo $X$

{\ displaystyle X \ až Y_ {1} \ cdots Y_ {n}}

je nahrazeno všemi pravidly získanými odstraněním jedné nebo více nebo dokonce všech zrušitelných proměnných ve správném členu pravidla, pak odstraníme všechna pravidla ε (s výjimkou axiomu, pokud je přítomen).

Například v následující gramatice s axiomem S 0 ,

S 0 → AbB | VS B → AA | AC C → b | vs. A → a | ε

Proměnná A , a tedy B , jsou zrušitelné a ani C, ani S 0 nejsou. V následující přechodné verzi byly proměnné, které mají být odstraněny, vybarveny:

S 0 → AbB | A bB | Ab B | A b B | VS B → AA | A A | A A | A ε A | AC | A C. C → b | vs. A → a | ε

Po odstranění žlutých proměnných a pravidel A → ε (původní) a B → ε (vytvořené) získáme gramatiku

S 0 → AbB | Ab | bB | b | VS B → AA | A | AC | VS C → b | vs. A → a

Tato gramatika generuje stejný jazyk bez pravidel ε.

UNIT: Odebrat pravidla jednotky

Pravidlo jednota je pravidlo ve tvaru

{\ displaystyle X \ až Y}

kde a jsou proměnné a obecněji pravidlo $X$ $Y$

{\ displaystyle X \ na WYT}

kde všechny proměnné jsou zrušitelné. Abychom tento typ pravidla vyloučili, nahradíme jej pravidlem ${\ displaystyle WT}$

{\ displaystyle X \ to \ alpha}

pro každé pravidlo

{\ displaystyle Y \ to \ alpha}

pokud se nejedná o dříve odstraněné pravidlo jednotky. Tato technika je dokončena v případě cyklů (například existence tří pravidel ) identifikací proměnných cyklu: všechny jsou nahrazeny jednou z nich. Transformace UNIT může změnit velikost gramatiky z | G | do | G | 2 . ${\ displaystyle X \ až Y, Y \ až Z, Z \ až X}$

Pořadí transformací

Zachování vlastností transformací
✓ zpracování X zachovává výsledek Y ✗ zpracování X se může měnit výsledek Y .
X \ Y	START	OBDOBÍ	ZÁSOBNÍK	části	JEDNOTKA
START		✓	✓	✓	✗
OBDOBÍ	✓		✗	✓	✓
ZÁSOBNÍK	✓	✓		✓	✓
části	✓	✓	✓		✗
JEDNOTKA	✓	✓	✓	( ✓ ) *
* JEDNOTKA uchová výsledek DEL, pokud již byl proveden START .

Pořadí, ve kterém jsou operace použity, je důležité ze dvou důvodů: zaprvé je možné, že by transformace mohla vyvrátit účinek předchozí operace; například pokud použijeme START po JEDNOTCE , znovu zavedeme pravidlo jednotky. Na tabulce jsou uvedeny příslušné objednávky.

Dalším důvodem pro výběr pořadí operací s opatrností je možné zvýšení velikosti gramatiky, a tím i složitost operací. Velikost výsledné gramatiky se může pohybovat od | G | 2 až 2 2 | G | pro gramatiku velikosti | G |. Zvýšení závisí na pořadí mezi DEL a BIN . Může být exponenciální, pokud se nejprve použije DEL , protože pravidlo, jehož pravá strana má délku n, může vytvořit 2 2 n pravidel a jinak je lineární. UNIT může způsobit kvadratické zvýšení výšky.

K nejmenšímu zvětšení velikosti dochází u objednávek ( START , TERM , BIN , DEL , UNIT ) a ( START , BIN , DEL , UNIT , TERM ).

Doklad o opravě

Různé učebnice a kurzy jazykové teorie obecně obsahují kromě prezentace postupů také ukázky správnosti algoritmů. Formalizace těchto redukčních operací, konkrétně odstranění nepotřebných proměnných, odstranění pravidel jednotek a pravidel epsilon v asistentovi Coq proof, se ujali Marcus VM Ramos a Ruy JGB de Queiroz. V tomto formalismu Coq dokazuje, že operace jsou správné v tom smyslu, že zachovávají jazyk generovaný gramatikou.

Reference

(in) Noam Chomsky , „ O některých formálních vlastnostech gramatik “ , Information and Control , Vol. 2,1959, str. 137–167 ( DOI 10.1016 / s0019-9958 (59) 90362-6 , číst online [PDF] ).
Rámeček 2008
Hopcroft, Motwani a Ullman 2007
Lange a Leiß 2009 , s. 5.
Romain Legendre a François Schwarzentruber, Kompilace: lexikální a syntaktická analýza: Od textu k jeho struktuře v počítačové vědě , Paříž, Ellipse,2015, 312 s. ( ISBN 978-2-340-00366-8 )
Hopcroft a Ullman 1979 , str. 87-94.
Hopcroft, Motwani a Ullman 2007 , oddíl 7.1: Normální formuláře pro bezkontextové gramatiky , str. 261-275 .
Wegener 1993 , oddíl 6.2 Die Chomsky-Normalform für kontextfreie Grammatiken , s. 149-152 .
Rámeček 2008 , oddíl 2.1.4: Kvadratická normální forma , str. 80-82 .
Sipser 2013 , Oddíl 2.1: Bezkontextové gramatiky . Chomsky normální forma str. 108 .
Martin 2003 , Oddíl 6.6: Zjednodušené formy a normální formy , str. 237-240 .
Linec 2001 , kapitola 6: Zjednodušení bezkontextových gramatik , s. 149-164
Lange a Leiß 2009 .
Hopcroft a Ullman 1979 , str. 93.
Hopcroft, Motwani a Ullman 2007 , s. 272
Hopcroft, Motwani a Ullman 2007 , s. 265.
Hopcroft, Motwani a Ullman 2007 , s. 268.
Lange a Leiß 2009 , s. 7.
Marcus VM Ramos a Ruy JGB de Queiroz, „ Formalizace zjednodušení pro bezkontextové gramatiky “, předtisk arXiv ,října 2015( arXiv 1509.02032v2 ).

Bibliografie

Výstavní předmět

Martin Lange a Hans Leiß, „ Do CNF nebo ne do CNF? Efektivní dosud představitelná verze algoritmu CYK “, Informatica Didactica , sv. 8,2009( číst online )- Informatica Didactica je elektronický deník.

Manuály

Olivier Carton, Formální jazyky, vyčíslitelnost a složitost: bakalářský a magisterský titul z matematiky nebo informatiky, výpočetní technika možnost agregace matematiky , Paříž, Vuibert,2008, 237 s. ( ISBN 978-2-7117-2077-4 , online prezentace )
John E. Hopcroft a Jeffrey D. Ullman , Úvod do teorie automatů, jazyky a výpočty , Addison-Wesley,1979
(en) John E. Hopcroft , Rajeev Motwani a Jeffrey D. Ullman , Úvod do teorie automatů, jazyků a výpočtů , Addison-Wesley ,2007, 3 e ed. ( ISBN 978-0-32146225-1 )
(en) John C. Martin, Úvod do jazyků a teorie výpočtu , McGraw-Hill Science / Engineering / Math,2003, 543 s. ( ISBN 978-0-07-232200-2 a 0072322004 )
(en) Peter Linz, Úvod do formálních jazyků a automatů , Jones & Bartlett Learning,2001, 410 str. ( ISBN 978-0-7637-1422-2 a 0763714224 , číst online ).
(en) Michael Sipser, Úvod do teorie výpočtu , Boston, MA, Cengage Learning,2013, 3 e ed. , 480 s. ( ISBN 978-1-133-18779-0 , OCLC 761858892 , číst online ).
(de) Ingo Wegener, Theoretische Informatik: Eine algorithmenorientierte Einführung , Vieweg + Teubner Verlag, kol. "Leitfäden und Monographien der Informatik",1993, 238 s. ( ISBN 978-3-519-02123-0 a 3519021234 )

Online kurz

Antoine Rozenknop, „ Jazykové modely a analýza syntaxe “ , University of Paris Nord,7. října 2010.
Jacques Désarménien, „ Kapitola 4: Bezkontextové gramatiky “ , University of Marne-la-Vallée .
Richard Cole, „ Konverze CFG na CNF (Chomsky normální forma) “ , New York University,17. října 2007. - používá objednávku TERM, BIN, START, DEL, UNIT.

Externí odkaz

Vzdělávací nástroj pro převod gramatiky do Chomského normální formy

Podívejte se také