विएतओसीआर टेसेरक्ट ओसीआर इंजन का एक जावा में बना जीयूआई फ्रंटएण्ड है , जो सामान्य फॉर्मेट की छवियों और कई-पेज वाली छवियों के अक्षर पहचानने में मदद करता है . इस प्रोग्राम में पोस्टप्रोसेसिंग है जिससे ओसीआर प्रक्रिया से होने वाले कई सामान्य गलतियाँ सुधारी जा सकती है, जिससे सफलता की दर बढ़ जाती है . प्रोग्राम को कॉन्सोल एप्लीकेशन के रूप में कमांड लाइन से भी चलाया जा सकता है .
अब बैच प्रोसेसिंग भी सपोर्टेड है . प्रोग्राम एक वाच फोल्डर को नयी छवि फाइलों के लिए चेक करता है औए उन्हें स्वतः ओसीआर करके रिकग्निशन की आउटपुट को आउटपुट फोल्डर में सहेजता है .
जावा रनटाइम एनवायरनमेंट 8 या उसके बादका.
टेसेरक्ट विंडोज एक्सीक्यूटेबल इस प्रोग्राम के साथ दिया गया है . टेसेरक्ट के अन्य लैंग्वेज डेटा पैक जिनके नाम ISO639-3 कोड से शुरू होते हैं, tessdata सबडिरेक्टरी में रखे जाने चाहिए .
लिनक्स के लिए, टेसेरक्ट और इसके लैंग्वेज डेटा पैकेज Graphics (universe) रिपोसिटरी में हैं. इनको सेनेप्टिक या निम्न कमांड से इनस्टॉल किया जा सकता है .
sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-hin
फाइलें क्रमशः /usr/bin और /usr/share/tesseract-ocr/tessdata में रखी जायेंगी . लेकिन, अगर टेसेरक्ट को source से बिल्ड और इनस्टॉल किया जाएगा तो, वे /usr/local/bin और /usr/local/share/tessdata. में रखी जायेंगी. आप विएतओसीआर के Settings मेनू द्वारा टेसेरक्ट एक्सिकयूटिबल की डायरेक्टरी बता सकते हैं . अगर डेटा गैर मानक स्थान में है, तो tessdata के लिए एक सॉफ्ट लिंक आवश्यक हो सकता है . आप विएतओसीआर को tessdata की जगह एनवायरनमेंट वेरिएबल TESSDATA_PREFIXके माध्यम से भी बता सकते हैं .
export TESSDATA_PREFIX=/usr/local/share/
अन्य प्लेटफार्म के लिए, कृपया टेसेरक्ट विकी पेज देखें ..
विएतओसीआर चुने हुए लैंग्वेज पैक को डाउनलोड और इनस्टॉल करने की सुविधा Download Language Data मेनू आइटम द्वारा प्रदान करता है . tessdata फोल्डर की लोकेशन के अनुसार, अगर डाउनलोड किया हुआ डेटा सिस्टम फोल्डर जैसे कि, लिनक्स में /usr या विंडोज में C:\Program Files में है, तो डाउनलोड किये डेटा को इंस्टाल करने के लिए आप को रूट या एडमिन के रूप में प्रोग्राम चलाना पडेगा .
विंडोज पर स्कैनिंग समर्थन विंडोज इमेज एक्वीजीशन लाइब्रेरी v2.0 के माध्यम से प्रदान किया गया है।
लिनक्स में, स्कैनिंग के लिए SANE पैकेज इंस्टाल करना आवश्यक है .
sudo apt-get install libsane sane sane-utils libsane-extras xsane
पीडीऍफ़ सपोर्ट जीपीएल घोस्टस्क्रिप्ट द्वारा उपलब्ध है.
स्पेलचेक सुविधा हन्स्पेल्ल द्वारा उपलब्ध है , जिसके
शब्दकोश की (.aff, .dic) फाइलें विएतओसीआर के dict फोल्डर में डालनी चाहियें. user.dic एक UTF-8-एन्कोडिंग वाली फाइल है जिसमे कस्टम शब्दों की सूची डाली जा सकती है, हर लाइन में एक शब्द .
लिनक्स में, हनस्पेल और इसके शब्दकोशों को सिनेप्टिक या apt द्वारा निम्न तरीके से इंस्टाल किया जा सकता है :
sudo apt-get install hunspell hunspell-hi-in
प्रोग्राम चलाने के लिए :
java -jar VietOCR.jar
नोट: अगर आपको आउट-ऑफ़-मेमोरी एक्सेप्शन मिले तो जार के बजाय ocr स्क्रिप्ट फाइल चलायें ..
वियतनामी लैंग्वेज डेटा टाइम्स न्यू रोमन, एरियल, वेर्दाना और कुरियर न्यू फ़ॉन्ट्स से बनाया गया है . जिन छवियों के फॉन्ट ग्लिफ इनसे मिलते जुलते हैं उनके रिकग्निशन का अच्छा चांस रहेगा . उन छवियों को ओसीआर करने के लिए जिनके फॉन्ट ग्लिफ इनसे अलग हैं, टेसेरक्ट को उन टाइपफेसेस का लैंग्वेज डेटा बनाने के लिए ट्रेनिंग की ज़रूरत पड़ेगी. लेटेस्ट वर्शन के साथ कुछ VNI और TCVN3 (ABC) फ़ॉन्ट्स का लैंग्वेज डेटा भी दिया गया है .
ओसीआर की जाने वाली छवियों को कम से कम 200 डीपीआई (डॉट पर इंच) से 400 डीपीआई रिसोल्यूशन तक मोनोक्रोम (ब्लैक एंड वाइट) या ग्रेस्केल में स्कैन करना चाहिए . ज्यादा ऊंचे रिसोल्यूशन पर स्कैन करने से पहचान में बेहतर सफलता मिलेगी ऐसा ज़रूरी नही है . अभी वियतनामी के लिए एक्यूरेसी 97% तक हो सकती है और हो सकता है की टेसेरक्ट की अगली रिलीस में ये और बढ़ जाए . फिर भी वास्तविक दर स्कैन् की हुई छवि की गुणवत्ता पर काफी निर्भर करती है . स्कैनिंग के लिए टिपिकल सेटिंग है 300 डीपीआई और ब्लैकएंडवाइट के लिए 1 बीपीपी (बिट पर पिक्स़ल) या ग्रेस्केल के लिए 8 बीपीपी अनकंप्रेस्ड टिफ या पीएनजी फॉर्मेट .
स्क्रीनशॉट मोड कम रिसोल्युशन की छवियो, जैसे कि स्क्रीन प्रिंट, को 300 डीपीआई तक रिस्केल करके ज्यादा बेहतर रिकग्निशन देता है .
बिल्ट-इन टेक्स्ट पोस्टप्रोसेसिंग अल्गोरिथम के साथ साथ आप UTF-8 एन्कोडिंग की टैब डिलिमिटेड टेक्स्ट फाइल x.DangAmbigs.txt द्वारा अपनी कस्टम टेक्स्ट रिप्लेसमेंट स्कीम भी बना सकते हैं, जिसमें x का अर्थ ISO639-3 भाषा कोड है . प्लेन और रेगऍक्स टेक्स्ट दोनों तरह के बदलाव किये जा सकते हैं .
आप टेसेरक्ट का व्यवहार बदलने के लिए, इनिट-ओन्ली और नॉन-इनिट कंट्रोल पैरामीटर्स को क्रमशः tessdata/configs/tess_configs
और tess_configvars फाइलों में डाल सकते हैं.
कुछ बिल्ट-इन औजार भी उपलब्ध हैं जिनसे सुविधाजनक ओसीआर करने के लिए अलग छवियों या पीडीऍफ़ फाइलों को जोड़ कर एक बनाया जा सकता है या बहुत से पेजों वाली छवियों या पीडीऍफ़ फाइलों को, जिनसे आउट-ऑफ़-मेमोरी एक्सेप्शन हो सकता है, विभाजित कर छोटा बनाया जा सकता है .
पहचानने में गलतियों को तीन श्रेणियों में विभाजित किया जा सकता है . कई गलतियाँ लैटर केस से सम्बंधित हैं, उदाहरण के लिए hOa, nhắC — इनको पॉपुलर यूनिकोड टेक्स्ट एडिटरों द्वारा आसानी से ठीक किया जा सकता है . अन्य कई गलतियाँ ओसीआर प्रक्रिया के फलस्वरूप हैं जैसे कि गलत मात्राएँ, या मिलतेजुलते रूप वाला दूसरा कोई लैटर — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. ये सब भी स्पेल चेकर प्रोग्रामों द्वारा आसानी से ठीक किये जा सकते हैं . बिल्ट-इन पोस्टप्रोसेसिंग फंक्शन से उपरलिखित कई गलतियाँ ठीक की जा सकती हैं .
आखिरी तरह की गलतियाँ पहचानने में सबसे मुश्किल है क्योंकि ये सेमांटिक हैं, मतलब की ये शब्द शब्दकोष में पाए जायेंगे पर इस कॉन्टेक्स्ट में उनका प्रयोग गलत है जैसे कि tinh – tình, vân – vấn.ऎसी गलतियों को एडिटर द्वारा पढ़ कर ओरिजिनल छवि के अनुरूप सही करने की आवश्यकता होगी .
निम्न तरीका बताता है कि बिल्ट-इन फंक्शनलिटी से पहेल दो तरह की ओसीआर त्रुटियों को किस तरह सुधारा जाय .
ऊपर लिखी प्रक्रिया से अधिकतर सामान्य त्रुटियाँ हटाई जा सकती हैं, बाकी सेमंटिक त्रुटियाँ थोड़ी हैं, पर उन्हें दूर कर डॉक्यूमेंट को ओरिजिनल स्कैन्ड डॉक्यूमेंट जैसा बनाने के लिए, ह्यूमन एडिटर को पढ़ कर गलतियाँ सुधारनी होंगी, अगर चाहिए तो.
अगर कोई प्रश्न हैं तो विएतओसीआर फोरम. में पोस्ट करें .