Pro optické rozpoznávání znaků (OCR), anglicky optické rozpoznávání znaků ( OCR ), nebo zpracování OCR , prostředky počítačové procesy překladu tištěného textu nebo obrázků strojopisných textových souborů.
Počítač k provedení tohoto úkolu vyžaduje software OCR. To vám umožní načíst text v obraze tištěného textu a uložit jej do souboru, který lze použít v textovém editoru k obohacení, a uložit do databáze nebo na jiné médium, které lze použít v počítačovém systému.
První stroj OCR vytvořil německý inženýr Gustav Tauschek v roce 1929 . Obsahoval fotocitlivý detektor, který namířil světlo na slovo, když odpovídal šabloně v jeho paměti.
V roce 1950 požádal Frank Rowlett, který porušil japonský diplomatický kód PURPLE , Davida Sheparda, kryptoanalytika AFSA (předchůdce amerického NSA ), aby spolupracoval s Louisem Tordellou na agenturních návrzích pro procesní záležitosti. “Automatizace dat. Součástí problému byl problém převodu tištěných zpráv do počítačového jazyka pro počítačové zpracování. Shepard se rozhodl, že k tomu musí být možné postavit stroj, a s pomocí přítele Harveyho Cooka postavil v jeho podkroví během večerů a víkendů „Gismo“. Tato skutečnost byla uvedena ve Washington Daily News of April 27 , z roku 1951a v New York Times of26. prosince 1953po podání patentu číslo 2 663 758. Shepard poté založil společnost Intelligent Machines Research Corporation (IMR), která dodávala první systémy OCR na světě provozované soukromými společnostmi. První soukromý systém byl nainstalován na Reader's Digest v roce 1955 a o mnoho let později byl Readers Digest darován Smithsonianovi , kde byl vystaven. Mezi další systémy prodávané IMR koncem padesátých let patřila čtečka účtenek v Ohio Bell Telephone Company a digitizér (skener dokumentů) u amerického letectva pro čtení a dálnopisný přenos zpráv. IBM a další později použili Shepardovy patenty.
Od roku 1965 se Spojené státy Pošta se používá OCR stroje na třídění pošty, pracovní princip, který byl vynalezen Jacob Rabinow , plodný vynálezce. Canada Post používá OCR systémy od roku 1971 . Systémy OCR čtou jméno a adresu příjemce v prvním automatizovaném třídicím centru a tisknou čárový kód na základě poštovního směrovacího čísla na obálce . Písmena musí třídit v následujících centrech pouze levnější třídiči, kterým stačí číst čárový kód . Aby se zabránilo narušení čitelné adresy, která může být kdekoli na písmenu, používá se speciální inkoust, který je jasně viditelný pod UV světlem . Tento inkoust se za normálních světelných podmínek jeví jako oranžový.
Až v roce 1974 vědec shromáždil tyto nové znalosti do technologie, která umožňuje nevidomým lidem číst dokumenty uložené na počítačových médiích. Vycházíme z přesného pole optického rozpoznávání znaků, abychom jej mohli používat pomocí nových technologií. Za tímto účelem vytvořil tento vědec jménem Ray Kurzweil syntetizátor řeči, který „mluvil“ textem, a zdokonalil procesy digitalizace. V roce 1976 byl prototyp dokončen a projekt financoval Stevie Wonder . Marketing „čtecího stroje“ začal na trhu v roce 1978. O dva roky později společnost Xerox koupila.
Brzy systémy potřebovaly „školení“ (sbírání známých vzorků pro každou postavu), aby mohly číst dané písmo . Ale dnes je běžné najít „inteligentní“ systémy, které dokážou rozpoznat většinu písem s vysokou úrovní přesnosti .
Systém OCR začíná od digitálního obrazu vytvářeného optickým jednostránkovým skenerem (tištěný dokument, typový list atd.) Nebo digitálním fotoaparátem a vydává textový soubor v různých formátech (prostý text, formáty). Textové procesory, XML atd., Například standardizovaný formát ALTO ).
Některý software se pokusí zachovat obohacení textu ( těla , hmotnosti a fontů ), jakož i rozložení, dokonce znovu vytvořit tabulky a extrahovat obrázky.
Některý software také obsahuje rozhraní pro získávání digitálního obrazu.
Až donedávna bylo fungování účinných systémů OCR málo známé, protože bylo chráněno průmyslovým tajemstvím; dostupný software s otevřeným zdrojovým kódem (např. GOcr) je spíše dílem amatérů. Open-source publikace vysoce výkonných systémů (zejména Tesseract v roce 2006) tuto situaci poněkud změnila.
Kroky zpracování lze schematizovat takto:
Obzvláště obtížným problémem pro počítače a lidi je starý náboženský rejstřík křtu a manželství, který obsahuje většinou jména, přičemž stránky mohou být poškozeny časem, vodou nebo ohněm a mohou být poškozena. Zastaralá nebo napsaná starými pravopisy . Techniky počítačového zpracování obrazu mohou lidem pomoci při čtení extrémně obtížných textů, jako jsou Archimédův Palimpsest nebo Kumránské rukopisy . Zajímavou oblastí výzkumu jsou kooperativní přístupy, kde počítače pomáhají lidem a naopak.
Rozpoznávání znaků je aktivní oblastí výzkumu v počítačové vědě od konce 50. let 20. století. Zpočátku to bylo považováno za snadný problém, ale ukázalo se, že je to snadný a mnohem zajímavější předmět. Bude to trvat ještě mnoho desetiletí, než počítače přečtou všechny dokumenty se stejnou přesností jako lidé, pokud se jim to někdy podaří.