OCR program Readiris Pro 6 - MujMAC.cz - Apple, Mac OS X, Apple iPod

Odběr fotomagazínu

Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!

 

Zadejte Vaši e-mailovou adresu:

Kamarád fotí rád?

Přihlas ho k odběru fotomagazínu!

 

Zadejte e-mailovou adresu kamaráda:

Seriály

Více seriálů



Software

OCR program Readiris Pro 6

22. srpna 2001, 00.00 | Ručnímu přepisování knih dávno odzvonilo, a už mnoho let se výrobci software snaží, aby skončilo i ruční přepisování z papíru do počítače. Jak to zvládá belgický program Readiris Pro 6?

OCR program (neboli program pro optické rozpoznávání znaků, tedy převod tištěného textu do počítačové podoby) Readiris Pro od belgické společnosti I.R.I.S. je mezi uživateli již poměrně známý, na Macu to byl první dostupný program, který podporoval i češtinu, v současnosti je podporováno přes 50 jazyků či jejich variant (americká a britská angličtina, například), včetně ruštiny, řečtiny a dalších – dle výrobce všechny evropské a americké jazyky. Program se často dodává jako příslušenství u mnoha skenerů (například skenery Agfa či HP), k rozšíření také určitě vedlo uveřejnění na CD u některých počítačových časopisů. V redakci jsme se podívali na zoubek nejnovější verzi Readiris Pro 6 pro Mac OS, program je však dostupný jak pro Mac OS, tak pro Windows.

Nová verze obsahuje především rychlejší rozpoznávací engine, výrobce udává 30%, což jsme rozhodně netestovali. Další novinkou by mělo být rozpoznávání barevných obrázků, tedy i například textu na barevném pozadí. Program jsme testovali na skeneru Agfa F40, ke kterému se program shodou okolností i standardně dodává – ovšem ve verzi 4.32, my jsme testovali nejnovější verzi 6.08. Upgrade je možný za cenu kolem 4 000 Kč, plná verze stojí zhruba 11 000 Kč bez DPH.

Readiris umožňuje načítat zdrojové texty buď přímo ze skeneru, nebo ze souboru. U souborů jsou podporované obvyklé formáty jako je TIFF, JPEG, BMP či přímo PSD soubory Photoshopu. Lze použití široké spektrum skenerů – program podporuje jak ovládání prostřednictvím TWAIN rozhraní, tak přímo prostřednictvím zásuvných modulů, používaných například Photoshopem. Při prvním spuštění je potřeba zdroj – skener – vybrat v předvolbách, posléze bude již automaticky volán. Předvolby umožňují nastavit ještě další parametry, například zda bude dokument zpracován barevně, a v jaké hloubce nebo ve stupních šedích, a jakým programům mají být vytvořené soubory přiřazeny. Je také důležité změnit jazyk na češtinu, k tomu je na hlavní liště zobrazován celý seznam všech podporovaných jazyků. Kromě toho tato lišta obsahuje řadu tlačítek pro další ruční práci s dokumenty – rotace, označování bloků a podobně, a také obsahuje informaci o stavu volné paměti a o parametrech právě převáděného dokumentu.

Většina uživatelů po nejzákladnějších nastaveních rovnou začne OCR-kovat – tlačítkem na ovládací liště lze spustit zcela automatizovaný proces, kdy se postupně naskenuje dokument, je automaticky zanalyzován a rozdělen do oblastí a následně převeden do textu a zobrazen v defaultní aplikaci – obvykle ve formátu RTF a ve Wordu. Tento čistě automatický postup může dát rozumný výstup, pokud se jedná o kvalitní předlohu, kde není problém s rozpoznáním oblastí a písmenka jsou dostatečně kvalitní. V opačném případě přichází na řadu ruční zásah.

Po naskenování dokumentu do programu je někdy nutné ručně otočit stránku – skenovací programy pro SOHO použití mají většinou tuto funkci zabudovanou v sobě, pokud ne, je nutné provést otočení přímo v Readirisu, protože program není schopen rozpoznávat jiné, než vodorovně umístněné texty. Na dokument je automaticky aplikována analýza oblastí, kdy se program snaží dokument rozdělit na některý z tří typů objektů a navázat správně pořadí jednotlivých části. Typy oblastí jsou text, grafika a tabulky. Text je jasný, je převeden, grafika je, v případě že je program tak nastaven, vložená do dokumentu, tabulky jsou prostě převedeny do tabulek – buď v RTF formátu, nebo do HTML – třetím formátem je čisté ASCII.

Někdy se programu podaří rozpoznat stránku korektně, někdy vznikne (zvlášť u členitých dokumentů) stránka skládající se z mnoha čtverečků, které jsou mezi sebou více či méně chaoticky pospojované. V případě že stránka není označená podle představ uživatele, lze buď pouze přeskupit pořadí oblastí, nebo některé oblasti smazat či předělat. Podle našich zkušeností u jednoduchých dokumentů ani u jednodušších letáků (viz. obrázek) nebyl žádný problém, problém se objevil při zpracování stránky, které měla po celé výšce nalevo barevný pruh – program byl zmaten, a bylo nutné ručně vytvořit správný objekt. U sloupcové novinové sazby byly někdy sloupce rozpoznány korektně, někdy došlo ke slití dvou menších sloupců do sebe.

Jak již bylo zmíněno, je možné nastavit, co bude výstupem rozpoznávání – zda čistý ASCII text, RTF soubor, kde lze nastavit buď čistý text, zachování stylů (program celkem úspěšně rozpoznával různé styly, jako tučný či kurzívu) nebo zachování vzhledu dokumentu – to obnáší i vícesloupcové formátování a podobně, což u testovaného dokumentu nedopadlo právě ideálně. Poslední možností je výstup do HTML, čeština se v tomto případě zapisuje pomocí HTML entit, tedy žádné běžné kódování. S použitím HTML souvisí jedna zajímavá finta – pokud potřebujete dostat tabulku do Excelu, nelze použít RTF, ale musí se nastavit právě HTML a jako cílový program Excel – tabulka je převedena v mžiku, včetně čar mezi buňkami.

Kromě výběru jazyka, který určuje, jaké znaky se budou rozpoznávat a také jaký slovník by se měl používat pro vyhodnocování (pokud slovo neodpovídá slovníku, je rázem „podezřelé“ a je uživateli předloženo k rozhodnutí), lze nastavit, zda je text vytištěn proporčním nebo neproporčním písmem – příkladem druhého je písmo Courier a také běžný psací stroj – všechny znaky, ať už „i“ nebo „m“ mají stejnou šířku, další nastavení umožňuje programu nastavit, že se jedná o vystup z maticové, tedy v podstatě jehličkové tiskárny.

Důležitou části OCR systému je schopnost učení se. Často se stává, především u méně kvalitních podkladů, že znak není určen se 100% přesností, v ten okamžik může do hry vstoupit uživatel a program korigovat. K tomu je určený takzvaný interaktivní učící mód, kdy program předkládá obsluze znaky, případně „slitky“, u kterých si není jist – v ten okamžik stačí pouze potvrzovat správné znaky či je vkládat a systém se učí, jak příště ten který znak či shluk písmen vyhodnotit. Tyto znalosti se vztahují k danému vzhledu písma, takže pokud víte, že budete častěji převádět texty z určitého média, lze celkem snadno naučit program tato písmenka znát lépe a takto vybudovaný slovník používat při další práci – stačí uložit na disk a příště nahrát do programu. Za běžných podmínek je zapnutá funkce, která s každou novou naskenovanou stránkou tyto informace smaže, neboť co se hodí pro jeden typ písma se nemusí hodit pro jiný, ovšem pokud si to uživatel přeje, lze tyto informace poměrně snadno ukládat. Při našich testech, převádění článků z „běžného deníku“, se po dvou ručně projitých článcích úspěšnost zvýšila poměrně výrazně – rozdíl mezi rozpoznáváním s a bez naučených znaků byl dost značný.

Programu pochopitelně dělají problémy podobné znaky a slitky více znaků do jednoho tvaru (tedy ne typografické slitky), poměrně dost utrpěly mezery – v některých případech byly tam kde být neměly, někdy se jich zase akutně nedostávalo. Bohužel, v některých případech se stalo, že program na určitým znakem nezaváhal a určil ho zcela chybně, bez konzultace s uživatelem. Bohužel jsme nenašli metodu, jak programu vysvětlit, že tento konkrétní znak si interpretuje špatně – pokud si je Readiris jistý, nepřipouští diskusi.

Zkoušeli jsme převádět různé typy dokumentů – od jednoduchého textu vytištěného na laserové tiskárně, kde byla úspešnost velmi vysoká a po naučení se problematického znaku či dvou byla v podstatě 100%, na jiném dokumentu obdobných kvalit jsme si vyzkoušeli, že dost záleží i na fontu, jakým je dokument vytištěn – programu víc svědčil klasický patkový font, než jakási variace na Courier. Další test byly noviny – zde byla úspěšnost rozpoznávání z počátku mizerná, po nastavení vstupu na barvu a ne stupně šedi se však výrazně zvedla – program mnohem přesněji rozpoznával jak jednotlivé bloky textu, tak i následně jednotlivé znaky. Učení v tomto případě bylo velmi efektivní, po ručním projetí dvou krátkých článečků byla úspěšnost mnohem vyšší, ovšem vzhledem k charakteru sazby, tedy krátké sloupce s častým dělením, je každopádně nezbytná důkladná ruční korektura. Proklamované rozpoznávání textu na barevném pozadí nás nepřesvědčilo – jak již bylo řečeno, program pracuje s barevnými obrázky, umí také převést inverzí text, tedy bílou na černém pozadí, ale bílá písmena na barevném pozadí neochvějně ignoroval.

Na kvalitu rozpoznávání má samozřejmě vliv i kvalita skenování, především rozlišení skenu, aby měl program dostatek informací, ale jak se ukázalo, i nastavení barva/stupně šedi můžou hrát důležitou roli. Program dokáže rozpoznávat znaky v rozmezí 6 – 72 bodů, občas tedy nabídne za znak i chybu tisku nebo papíru, v této oblasti je poměrně kreativní, zvlášť u špatných skenů.

Práce s programem je po pochopení principu nastavení a ukládání nastavení poměrně dost jednoduchá, učící mód je snadný na obsluhu, potěší vícenásobné undo pro ty, co se moc rychle uklepnou. Nepotěšily občasné chybové hlášky, například nebylo možné ukládat slovník pod stejným názvem příkazem z menu, musel se vždy použít příkaz uložit jako. Každopádně i přes tyto chybičky je Readiris velmi dobře použitelný program, který vám zrychlí zadávání textu do počítače několikanásobně – v případě „vyškolení“ programu na nízkou chybovost, případně pokud jsou podklady kvalitní, jsou stránky převedeny velmi rychle a s velmi nízkou chybovostí. U Maca chybí jakákoliv podpora pro práci s vícestránkovými dokumenty, takže je nutné takové dokumenty „poskládat“ z více dílů, u PC by tato vlastnost měly být zahrnutá, stejně jaké dávkové zpracování.

Tématické zařazení:

 » Rubriky  » Informace  

 » Rubriky  » Agregator  

 » Rubriky  » Software  

 

 

 

Nejčtenější články
Nejlépe hodnocené články
Apple kurzy

 

Přihlášení k mému účtu

Uživatelské jméno:

Heslo: