VietOCR je Java rozhranie pre Tesseract OCR systém, poskytujúci podporu rozoznávania znakov pre bežné formáty obrázkov a viacstranové obrázky. Program obsahuje funkciu post-spracovanie, ktorá pomáha pri opravovaní chýb, ktoré sa pravidelne objavujú pri OCR procese a tak sa zvyšuje miera presnosti výsledku. Program je tiež možné použiť ako konzolovú aplikáciu, ktorú je možné spustiť z príkazového riadku.
Podporované je aj dávkové spracovanie. Program monitoruje nové obrázkové súbory v sledovanom priečinku a automaticky ich spracuje pomocou OCR systému a výstup uloží do výstupného priečinka.
Java Runtime Environment 8 alebo vyššia verzia.
Windows veriza Tesseract je súčasťou programu. Ďalšie
jazykové dátové balíky pre Tesseract, ktoré začínajú s ISO639-3 kódom, by
mali byť umiestnené do podriečinka tessdata.
V Ubuntu sú Tesseract a jeho jazykové dáta súčasťou Graphics (universe) repository. Môžete ich nainštalovať pomocou Synaptic alebo príkazu:
sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-slk
Súbory budú umiestnené do /usr/bin resp. /usr/share/tesseract-ocr/tessdata.
Pokiaľ si Tesseract skompilujete sami
zo zdrojových kódov, nainštaluje sa do /usr/local/bin a /usr/local/share/tessdata.
Z tohoto dôvodu môže byť potrebné nastaviť umiestnenie programu Tesseract vo VietOCR
Nastaveniach. Ak sú dáta umiestnené neštandardne, je potrebné nalinkovať
ich do tessdata. Tiež je možné použiť premennú prostredia TESSDATA_PREFIX
na informovanie VietOCR, kde sú umiestnené dáta:export TESSDATA_PREFIX=/usr/local/share/
Informácie ohľadom inštalácie programu Tesseract na iných platformách hľadajte na Tesseract Wiki stránke.
VietOCR taktiež poskytuje podporu pre sťahovanie a inštaláciu vybraných jazykových
balíčkov cez Stiahnuť jazyk Dáta položku menu. V závislosti na umiestnení
tessdata zložky, môže byť potrebné spustiť program ako root alebo admin
aby bolo možné nainštalovať stiahnutých dát do priečinka, ak je vnútri systému zložky,
ako napríklad v /usr na Linuxe alebo C:\Program Files v systéme
Windows.
Podpora skenovania je poskytovaná cez knižnicu Windows Image Acquisition Library v2.0.
V systéme Linux, skenovanie vyžaduje inštaláciu balíčkov SANE:
sudo apt-get install libsane sane sane-utils libsane-extras xsane
PDF podpora je dostupná cez projekt GPL Ghostscript. Po jeho inštalácií sa prosím uistite, že zdieľaná knižnica (
gsdll32.dllalebolibgs.so) je v ceste (PATH), prípadne nastavte patričnú premennú prostredia. Vo Windows, pridajte nasledovný reťazec hodnotePath(prístupná je cez Kontrolný panel > Systém > Pokročilé nastavenia > Premenné prostredia) pre GS verzie 9.23:
PDF podpora je možná vďaka GPL Ghostscript.
V Ubuntu je Hunspell a jeho slovníky možné nainštalovať cez Synaptic alebo apt,
takto:
sudo apt-get install hunspell hunspell-en-us
INŠTRUKCIE
java -jar VietOCR.jar
Poznámka: Ak narazíte na problém „out-of-memory exception“, spustite
ocr(.bat) skript namiesto uvedeného príkazu.Obrázky určené na OCR by mali byť skenované v rozlíšení aspoň 200 DPI (dot per inch)
až 400 DPI v monochromatickom (čierno&bielom) režime alebo v odtieňoch šedej.
Skenovanie vo vyššom rozlíšení neprináša vyššiu presnosť pri rozoznávaní znakov.
Miera presnosti však závisí hlavne na kvalite naskenovaného obrázka. Typické nastavenie
pre skenovanie je 300 DPI a 1 bpp (bit per pixel) čierno-bielo alebo 8 bpp (odtiene
šedej) do nekomprimovaného TIFF alebo PNG formátu.
Nový Režim snímky obrazovky ponúka lepšiu mieru presnosti pre obrázky s nízkym rozlíšením ako napr. snímky obrazovky, pomocou zväčšenia rozlíšenia na 300 DPI.
Okrem vstavaného algoritmu pre post-spracovania textu, môžete si pridať vlastnú
schému nahradzovania textu textový súbor s názvom UTF-8-encoded tab-delimited x.DangAmbigs.txt, kde
x je ISO639-3 kód jazyka. Obaja prostý a Regex nahradenie textu sú podporované.
Niektoré vstavané nástroje poskytujú funkcie spájania niekoľkých obrázkov alebo PDF súborov do jedného (pre pohodlnejšie rozoznávanie znakov), alebo delenie PDF súborov na menšie, ak sú príliš veľké a spôsobujú „out-of-memory exceptions“.
POST-SPRACOVANIE
Chyby pri rozoznávaní znakov sa dajú rozdeliť do troch kategórií. Časté sú zámeny veľkosti písmen napr. „O“ — „o“, „Z“ — „z“, „S“ — „s“. Tieto chyby sa dajú opraviť pomocou populárnych Unicode textových editorov.
Poslednou kategóriou sú chyby, ktoré je ťažké detegovať, pretože sú to sémantické chyby, čo znamená, že dané slová sa nachádzajú v slovníku, ale sú chybné z hľadiska kontextu napr. „súd“ — „sud“ a pod. Tieto chyby si vyžadujú, aby ich opravil korektor manuálne podľa originálneho obrázka.
Tu sú inštrukcie, ako opraviť prvé dve kategórie OCR chýb s pomocou zabudovanej funkcie:
Zoskupenie riadkov. Riadky je potrebné zoskupiť tak, aby zodpovedali odsekom, ku ktorým patria (1 odsek = 1 riadok). Použite na to funkciu Odstrániť zalomenia riadkov, ktorá sa nachádza v menu Formát. Takáto operácia nie je potrebná pre básne.
Ak máte nejaké otázky, položte ich na VietOCR fórum.
Ak máte nejaké otázky, položte ich na VietOCR fórum.