Optické rozpoznávání znaků

Pro optické rozpoznávání znaků (OCR), anglicky optické rozpoznávání znaků ( OCR ), nebo zpracování OCR , prostředky počítačové procesy překladu tištěného textu nebo obrázků strojopisných textových souborů.

Počítač k provedení tohoto úkolu vyžaduje software OCR. To vám umožní načíst text v obraze tištěného textu a uložit jej do souboru, který lze použít v textovém editoru k obohacení, a uložit do databáze nebo na jiné médium, které lze použít v počítačovém systému.

Dějiny

První stroj OCR vytvořil německý inženýr Gustav Tauschek v roce 1929 . Obsahoval fotocitlivý detektor, který namířil světlo na slovo, když odpovídal šabloně v jeho paměti.

V roce 1950 požádal Frank Rowlett, který porušil japonský diplomatický kód PURPLE , Davida Sheparda, kryptoanalytika AFSA (předchůdce amerického NSA ), aby spolupracoval s Louisem Tordellou na agenturních návrzích pro procesní záležitosti. “Automatizace dat. Součástí problému byl problém převodu tištěných zpráv do počítačového jazyka pro počítačové zpracování. Shepard se rozhodl, že k tomu musí být možné postavit stroj, a s pomocí přítele Harveyho Cooka postavil v jeho podkroví během večerů a víkendů „Gismo“. Tato skutečnost byla uvedena ve Washington Daily News of April 27 , z roku 1951a v New York Times of26. prosince 1953po podání patentu číslo 2 663 758. Shepard poté založil společnost Intelligent Machines Research Corporation (IMR), která dodávala první systémy OCR na světě provozované soukromými společnostmi. První soukromý systém byl nainstalován na Reader's Digest v roce 1955 a o mnoho let později byl Readers Digest darován Smithsonianovi , kde byl vystaven. Mezi další systémy prodávané IMR koncem padesátých let patřila čtečka účtenek v Ohio Bell Telephone Company a digitizér (skener dokumentů) u amerického letectva pro čtení a dálnopisný přenos zpráv. IBM a další později použili Shepardovy patenty.

Od roku 1965 se Spojené státy Pošta se používá OCR stroje na třídění pošty, pracovní princip, který byl vynalezen Jacob Rabinow , plodný vynálezce. Canada Post používá OCR systémy od roku 1971 . Systémy OCR čtou jméno a adresu příjemce v prvním automatizovaném třídicím centru a tisknou čárový kód na základě poštovního směrovacího čísla na obálce . Písmena musí třídit v následujících centrech pouze levnější třídiči, kterým stačí číst čárový kód . Aby se zabránilo narušení čitelné adresy, která může být kdekoli na písmenu, používá se speciální inkoust, který je jasně viditelný pod UV světlem . Tento inkoust se za normálních světelných podmínek jeví jako oranžový.

Až v roce 1974 vědec shromáždil tyto nové znalosti do technologie, která umožňuje nevidomým lidem číst dokumenty uložené na počítačových médiích. Vycházíme z přesného pole optického rozpoznávání znaků, abychom jej mohli používat pomocí nových technologií. Za tímto účelem vytvořil tento vědec jménem Ray Kurzweil syntetizátor řeči, který „mluvil“ textem, a zdokonalil procesy digitalizace. V roce 1976 byl prototyp dokončen a projekt financoval Stevie Wonder . Marketing „čtecího stroje“ začal na trhu v roce 1978. O dva roky později společnost Xerox koupila.

Učení se

Brzy systémy potřebovaly „školení“ (sbírání známých vzorků pro každou postavu), aby mohly číst dané písmo . Ale dnes je běžné najít „inteligentní“ systémy, které dokážou rozpoznat většinu písem s vysokou úrovní přesnosti .

Úkon

Systém OCR začíná od digitálního obrazu vytvářeného optickým jednostránkovým skenerem (tištěný dokument, typový list atd.) Nebo digitálním fotoaparátem a vydává textový soubor v různých formátech (prostý text, formáty). Textové procesory, XML atd., Například standardizovaný formát ALTO ).

Některý software se pokusí zachovat obohacení textu ( těla , hmotnosti a fontů ), jakož i rozložení, dokonce znovu vytvořit tabulky a extrahovat obrázky.

Některý software také obsahuje rozhraní pro získávání digitálního obrazu.

Až donedávna bylo fungování účinných systémů OCR málo známé, protože bylo chráněno průmyslovým tajemstvím; dostupný software s otevřeným zdrojovým kódem (např. GOcr) je spíše dílem amatérů. Open-source publikace vysoce výkonných systémů (zejména Tesseract v roce 2006) tuto situaci poněkud změnila.

Kroky zpracování lze schematizovat takto:

Předběžná analýza obrazu: cílem je případně zlepšit kvalitu obrazu. To může zahrnovat narovnání nakloněných nebo zkreslených obrazů, korekce kontrastu, přepnutí do dvoubarevného režimu (černobílý, nebo spíše papír a inkoust), detekce hran.
Segmentace řádků a znaků (nebo Analýza stránky): má za cíl izolovat řádky textu a znaků v řádcích v obrázku. Tato fáze může také detekovat podtržený text, rámečky, obrázky.
Rozpoznání správných znaků: po normalizaci (měřítko, sklon) je instance, která má být rozpoznána, porovnána s knihovnou známých tvarů a nejpodobnější tvar (nebo N nejbližších tvarů) je zachován pro další krok.) Podle na vzdálenost nebo pravděpodobnost ( pravděpodobnost ). Techniky rozpoznávání lze rozdělit do několika hlavních typů:
1. Klasifikace podle charakteristik ( funkce ): forma k rozpoznání je reprezentována vektorem číselných hodnot - v angličtině nazývaných funkce - počítaných z tohoto formuláře. Počet prvků je řádově 100 až 300. Pokud jsou prvky dobře vybrány, bude třída znaků (například sada velkých písmen A) reprezentována souvislým „oblakem“ bodů ve vektorovém prostoru. Z funkce . Úlohou klasifikátoru je určit, do kterého cloudu (a tedy do které třídy znaků) tvar, který má být rozpoznán, s největší pravděpodobností patří. Klasifikace obecně používá různé typy umělých neuronových sítí trénovaných na velké bázi možných tvarů.
2. Metrické metody: spočívají v přímém porovnání tvaru, který má být rozpoznán, pomocí algoritmů vzdálenosti, se sadou naučených modelů. Tento typ metody je výzkumníky málo využíván a málo oceňován, protože je často naivní a pravděpodobně méně efektivní než funkce založené na metodách .
3. Statistické metody: v oblasti rozpoznávání rukopisu se často používají pravděpodobnostní / statistické metody, jako jsou Markovovy řetězce .
Následné zpracování pomocí jazykových a kontextových metod ke snížení počtu chyb rozpoznávání: systémy založené na pravidlech nebo statistické metody založené na slovnících slov, slabik, N-gramů (sekvence znaků nebo slov). V průmyslových systémech mohou speciální techniky pro určitá textová pole (jména, poštovní adresy) používat databáze k odstranění nesprávných řešení.
Generování výstupního formátu s rozvržením pro nejlepší systémy.

Oblast výzkumu

Obzvláště obtížným problémem pro počítače a lidi je starý náboženský rejstřík křtu a manželství, který obsahuje většinou jména, přičemž stránky mohou být poškozeny časem, vodou nebo ohněm a mohou být poškozena. Zastaralá nebo napsaná starými pravopisy . Techniky počítačového zpracování obrazu mohou lidem pomoci při čtení extrémně obtížných textů, jako jsou Archimédův Palimpsest nebo Kumránské rukopisy . Zajímavou oblastí výzkumu jsou kooperativní přístupy, kde počítače pomáhají lidem a naopak.

Rozpoznávání znaků je aktivní oblastí výzkumu v počítačové vědě od konce 50. let 20. století. Zpočátku to bylo považováno za snadný problém, ale ukázalo se, že je to snadný a mnohem zajímavější předmět. Bude to trvat ještě mnoho desetiletí, než počítače přečtou všechny dokumenty se stejnou přesností jako lidé, pokud se jim to někdy podaří.

Hlavní software

Svobodný software :
- GOCR ( Unix , Windows ),
- OCRopus (Unix),
- Tesseract (Unix, Windows),
- CuneiForm (Unix) (en) ;
Software Freemium :
- ManaCount (Windows, Max OS) oerizace faktur a bankovních nápisů;
Proprietární software :
- Freewarový software :
  - Moredata, freewarový software využívající tessnet ( Windows ),
  - MoredataFast (Windows),
- Placený software:
  - Ad'doc IIM (Windows) strojově psané a ručně psané rozpoznávání Www.imds.ca,
  - Multimediální řešení BotServer (Windows, Linux)
  - Adobe Acrobat Professional (Windows, Mac OS),
  - ExactScan ExactScan Pro a OCRKit (Mac OS),
  - ABBYY FineReader (Unix, Windows, Mac OS),
  - Nuance Omnipage (Windows),
  - IRIS Readiris (Unix, Windows, Mac OS),
  - Nicomsoft OCR (Windows, Unix),
  - Omnipage PRO (Windows 95 a následující).

Poznámky a odkazy

Principy klasifikace vzorů: Statistické, neuronové sítě a syntaktické metody, jak přimět roboty vidět a slyšet - Poznámky k přednášce D r Michael D. Alder, University of Western Australia, 1994
zdarma, pod licencemi GNU GPL nebo Apache.

Podívejte se také

Bibliografie

Uznání tisku , H 1348, autorem Philippe Lefèvre, Techniques de l'Ingénieur editions, 1999.
Kombinace vícestupňového rozpoznávání znaků a jazykových znalostí pro text OCR v přírodní scéně , Khaoula Elagouni [Orange Labs], Christophe Garcia [LIRIS], Franck Mamalet [Orange Labs], Pascale Sébillot [IRISA], 2012.

Související články

Inteligentní rozpoznávání znaků
Rozpoznávání rukopisu
Rozpoznávání vzorů
Diskriminační analýza
Tabulka znaků Unicode - optické rozpoznávání znaků
MNIST Database , standardní datová sada pro rozpoznávání rukopisu
Automatické čtení dokumentů