





| فهرست مقاله |
|---|
| اصطلاحات پایه ای OCR |
| ICR چیست |
| ocr چیست |
| تمام صفحات |
3. OCR چیست؟
تشخیص نوری نویسهها (Optical Character Recognition) که با سرواژهی OCR شناخته میشود، از مهمترین شاخه های بازشناسی متن است. OCR عبارت است از بازشناسی خودکار متون موجود در تصاویر اسناد و تبدیل آنها به متون قابل جستجو و ویرایش توسط رایانه. تصویر سند غالبا توسط روبشگر (اسکنر) و یا دوربین دیجیتال تولید میشود و شامل تعدادی پیکسل با رنگهای مختلف و سطوح روشنایی گوناگون است. از دید انسان، یک سند ممکن است ارزش اطلاعاتی زیادی داشته باشد، لیکن از دید رایانه تصویر یک سند با تصویر یک منظره تفاوتی ندارد، چرا که هر دوی آنها مجموعهای از پیکسلها هستند. برای اینکه بتوان از اطلاعات نوشتاری تصویر سند استفاده کرد، باید به نحوی نوشتههای موجود در سند را بازشناسی کرد. چنین کاری توسط نرم افزارهای نویسهخوان نوری انجام میشود.
واژهٔ OCR ابتدا تنها در مورد بازشناسی ارقام و حروف چاپی بکار گرفته میشد. پسوند نوری در این عبارت در مقابل عبارت مرکب مغناطیسی (Magnetic Ink) قرار داده شد تا این روش را از روش قدیمیتر بازشناسی نویسهها با مرکب مغناطیسی ،MICR، متمایز کند. با گذشت زمان و پیشرفت قابل توجه در این زمینه، روشهای بازشناسی دستنوشته و متون چاپی مطرح شدند که دامنهٔ کار را به کلمات و عبارات رساندند. با وجود عدم تطبیق دقیق OCR با این موارد، این نام برای این روشها هم استفاده شد و رواج پیدا کرد. هماکنون OCR را بیشتر برای بازشناسی مستندات چاپی مثل صفحات کتابها، مجلهها و نامههای چاپی به کار میبرند.
سامانهٔ نویسهخوان مثل یک نفر ماشین نویس یا تایپیست، متن سند را میخواند و آن را به قالب مناسب برای ذخیره در رایانه تبدیل میکند. معمولاً یک روبشگر، تصویر سند را برای OCR فراهم میکند. سامانهٔ نویسهخوان، اشیاء موجود در تصویر سند را که ارقام، حروف، علائم و کلمات هستند، بازشناسی کرده و رشتهی متناظر با آنها را در قالب مناسب ذخیره میکند. یک فایل تصویری، حجم زیادی دارد و جستجوی متنی در آن ممکن نیست. این در حالی است که فایل خروجی سامانهٔ نویسهخوان بسیار کم حجم و قابل جستجو است. ضمن اینکه اطلاعات فایل متنی را به راحتی می توان ویرایش کرد و در جای دیگر استفاده کرد در حالی که اطلاعات موجود در تصویر سند قابل ویرایش نیست.
سامانههای نویسهخوان مثل بسیاری از سامانه های هوشمند دیگر، پیچیدگی زیادی دارد. پردازش تصویر و بازشناسی الگو دو پایهٔ اصلی این سامانهها هستند. پیچیدگی این سامانهها برای زبانهای گوناگون، متفاوت است. به عنوان مثال نوشتن OCR برای زبانهای لاتین به دلیل اینکه حروف آنها به طور مجزا نوشته میشود آسانتر است از زبانهایی مثل فارسی و عربی که حروف یک کلمه به یکدیگر میچسبند. این موضوع به علاوهٔ جمعیت کم کاربران زبان فارسی، سبب شده سامانههای نویسهخوان کمی برای زبان فارسی داشته باشیم.
یک سیستم OCR از بخشهای متعددی تشکیل شده است. ابتدا باید تصویر ورودی آنالیز شده و اگر متن آن دارای چرخش است، اصلاح شود. پس از اصلاح چرخش باید موقعیت بلوکهای متنی، شکل و جدول در تصویر سند مشخص شود. پس از تعیین موقعیت بلوکهای مختلف (ناحیه بندی یا آنالیز ساختار سند)،باید بلوکهای متنی بازشناسی شوند؛ یعنی خطوط متنی یافت شده و سپس موقعیت کلمات مشخص شود و در مرحله بعد، موقعیت حروف در کلمه مشخص شود، در نهایت تک تک حروف باید شناخته شده و با یکدیگر ترکیب شوند تا کلمهی معادل آنها مشخص شود. این کل فرایند تشخیص خودکار متن بود که به صورت بسیار ساده بیان شد. لازم به ذکر است که به دلیل پیچیدگیهای زبان فارسی نسبت به زبانهای لاتین تولید OCR فارسی به مراتب دشوارتر از نمونه های انگلیسی است. از این رو محصولات موجود در این زمینه برای زبان فارسی بسیار کم است.
