اسکن و OCR

بعد از ظهر خوب

احتمالا هر یک از ما با وظیفه مواجه میشوید وقتی که شما نیاز به ترجمه سند کاغذی را به صورت الکترونیکی دارید. این به ویژه برای کسانی که تحصیل، کار با اسناد و مدارک، ترجمه متون با استفاده از واژه نامه های الکترونیکی و غیره لازم است.

در این مقاله می خواهم برخی از اصول این فرآیند را به اشتراک بگذارم. به طور کلی، تشخیص اسکن و متن بسیار وقت گیر است، زیرا اکثر عملیات باید انجام شود به صورت دستی. ما سعی خواهیم کرد که چطور، چطور و چرا.

همه بلافاصله یک چیز را درک نمی کنند. پس از اسکن کردن (نصب تمام ورق های اسکنر) تصاویر BMP، JPG، PNG، GIF را می توانید داشته باشید (ممکن است فرمت های دیگر وجود داشته باشد). بنابراین از این تصویر شما باید متن را دریافت کنید - این روش نامیده می شود. در این ترتیب، و در زیر ارائه خواهد شد.

محتوا

  • 1. برای اسکن و تشخیص مورد نیاز است؟
  • 2. گزینه های اسکن متن
  • 3. شناخت متن سند
    • 3.1 متن
    • 3.2 عکس
    • 3.3 جداول
    • 3.4 موارد غیر ضروری
  • 4. شناسایی فایل های PDF / DJVU
  • 5. خطا در بررسی و ذخیره نتایج کار

1. برای اسکن و تشخیص مورد نیاز است؟

1) اسکنر

برای انتقال اسناد چاپ شده به فرم متن، ابتدا به یک اسکنر نیاز دارید و به این ترتیب برنامه ها و رجیستری های "بومی" که با آن رفتید. با استفاده از آنها می توانید اسناد را اسکن کرده و آن را برای پردازش بیشتر ذخیره کنید.

شما می توانید از سایر آنالوگ ها استفاده کنید، اما نرم افزار هایی که با اسکنر در کیت موجود است، معمولا سریع تر کار می کنند و گزینه های بیشتری دارند.

بسته به نوع اسکنر شما - سرعت کار می تواند به طور قابل توجهی متفاوت باشد. اسکنرهایی وجود دارند که می توانند یک عکس از یک ورق در 10 ثانیه دریافت کنند، آنهایی هستند که 30 ثانیه آن را دریافت خواهند کرد. اگر شما یک کتاب را در 200 تا 300 ورق اسکن میکنید - فکر میکنم محاسبه چند بار در زمان تفاوت چندان دشوار نیست؟

2) برنامه برای به رسمیت شناختن

در مقاله ما، من شما را در یکی از بهترین برنامه ها برای اسکن و به رسمیت شناختن هر گونه اسناد - ABBYY FineReader را نشان می دهد. از آنجا این برنامه پرداخت می شود، و سپس بلافاصله لینک دیگری را به دیگری می دهد - آنالوگ آزاد آن از فرم Cunei. درست است، من نمی توانم آنها را مقایسه کنم، به این دلیل که FineReader در همه جهات برنده می شود، توصیه می کنم آن را امتحان کنید.

ABBYY FineReader 11

سایت رسمی: //www.abbyy.ru/

یکی از بهترین برنامه های این نوع. این طراحی برای تشخیص متن در تصویر است. بسیاری از گزینه ها و ویژگی های ساخته شده است. این می تواند یک دسته از فونت را تجزیه و تحلیل کند، حتی نسخه های دست نویس را پشتیبانی می کند (هرچند من شخصا آن را امتحان نکردم، فکر می کنم خوب است که نسخه دست نویس را به سختی تشخیص دهیم، مگر اینکه دست خط دستنویس کامل داشته باشید). اطلاعات بیشتر در مورد کار با او در زیر بحث خواهد شد. ما همچنین در اینجا خاطر نشان می کنیم که مقاله این کار را در نسخه 11 برنامه انجام خواهد داد.

به طور معمول، نسخه های مختلف ABBYY FineReader بسیار متفاوت از یکدیگر نیستند. شما به راحتی می توانید همین کار را در دیگر انجام دهید. تفاوت اصلی ممکن است در راحتی، سرعت برنامه و قابلیت های آن باشد. به عنوان مثال، نسخه های قبلی سعی در باز کردن یک سند PDF و DJVU ...

3) مدارک اسکن

بله، بنابراین، در اینجا، تصمیم گرفتم اسناد را در یک ستون جداگانه بیرون بیاورم. در بیشتر موارد، هر کتاب درسی، روزنامه، مقاله، مجله، و غیره اسکن کنید. Ie آن کتاب ها و ادبیات که در تقاضا هستند. چه من را منجر می شود؟ از تجربه شخصی، می توانم بگویم که شما می خواهید که اسکن کنید - شاید هم در شبکه باشد! چند بار وقتی من یک کتاب یا دیگری را که قبلا در شبکه اسکن کرده بودم، وقت خود را صرفه جویی کردم. من فقط مجبور شدم متن را به سند کپی کنم و با آن ادامه دهم.

از این توصیه ساده - قبل از اینکه چیزی را اسکن کنید، بررسی کنید که آیا کسی قبلا آن را اسکن کرده و نیازی به اتلاف وقت خود نداشته باشد.

2. گزینه های اسکن متن

در اینجا من در مورد رانندگان شما برای اسکنر صحبت نمی کنم، برنامه هایی که با آن رفت و آمد می کنند، چرا که همه مدل های اسکنر متفاوت هستند، نرم افزار نیز در همه جا متفاوت است و حدس زدن و حتی واضح تر نشان می دهد که چگونه عملیات انجام غیر واقعی است.

اما همه اسکنر ها دارای تنظیماتی مشابه هستند که می تواند تا حد زیادی سرعت و کیفیت کار شما را تحت تاثیر قرار دهد. اینجا در مورد آنها من فقط اینجا صحبت خواهم کرد. من لیست را به ترتیب.

1) کیفیت اسکن - DPI

اول، کیفیت اسکن را در گزینه های پایین تر از 300 DPI تنظیم کنید. توصیه می شود حتی کمی بیشتر، اگر ممکن است. شاخص DPI بالاتر است، هرچه تصویر شما روشن تر شود، پردازش بیشتر انجام خواهد شد سریعتر. علاوه بر این، هرچه کیفیت اسکن بالاتر باشد، اشتباهات کمتر شما بعدا باید اصلاح شود.

بهترین گزینه را فراهم می کند، معمولا 300-400 DPI است.

2) رنگ آمیزی

این پارامتر تا حد زیادی بر روی زمان اسکن تاثیر می گذارد (به هر حال، DPI نیز تاثیر می گذارد، اما آنها بسیار قوی هستند و تنها زمانی که کاربر مقدار های بالا را تعیین می کند).

معمولا سه حالت وجود دارد:

- سیاه و سفید (مناسب برای متن ساده)؛

- خاکستری (مناسب برای متن با جداول و تصاویر)؛

- رنگ (برای مجلات رنگی، کتاب ها، به طور کلی اسناد، که در آن رنگ مهم است).

معمولا زمان اسکن بستگی به انتخاب رنگ دارد. پس از همه، اگر شما یک سند بزرگ داشته باشید، حتی 5 تا 10 ثانیه اضافی در صفحه به عنوان یک کل زمان مناسبی را به همراه خواهد آورد ...

3) عکس

شما می توانید سند را نه تنها با اسکن، بلکه همچنین با گرفتن یک تصویر از آن. به عنوان یک قاعده، در این مورد شما باید برخی از مشکلات دیگر: اعوجاج تصویر، تار شدن. از این جهت، ممکن است نیاز به ویرایش و پردازش متن طولانی تر داشته باشد. شخصا، من برای استفاده از دوربین برای این کسب و کار توصیه نمی کنم.

مهم است که توجه داشته باشیم که هر یک از این سند به رسمیت شناخته نمی شود، زیرا کیفیت اسکن می تواند بسیار کم باشد ...

3. شناخت متن سند

ما فرض می کنیم که صفحات گرانبها به شما اسکن شده اند. اغلب آنها فرمت ها هستند: tif، bmb، jpg، png. به طور کلی، برای ABBYY FineReader - این بسیار مهم نیست ...

پس از باز کردن تصویر در ABBYY FineReader، برنامه، به عنوان یک قاعده، بر روی دستگاه شروع به انتخاب مناطق و تشخیص آنها. اما گاهی اوقات او اشتباه می کند. برای این منظور انتخاب مناطق مورد نظر را به صورت دستی در نظر بگیرید.

مهم است! همه بلافاصله متوجه نمی شوند که پس از باز کردن یک سند در برنامه، سند اصلی در سمت چپ پنجره نمایش داده می شود که در آن مناطق مختلف را برجسته می کند. پس از کلیک کردن بر روی دکمه "تشخیص"، برنامه در پنجره سمت راست به شما متن کامل را به شما می دهد. به هر حال، پس از شناسایی، توصیه می شود متن را برای خطاهای FineReader مشابه بررسی کنید.

3.1 متن

این منطقه برای برجسته کردن متن استفاده می شود. تصاویر و جداول باید از آن حذف شوند. فونت های نادر و غیر عادی باید به صورت دستی وارد شوند ...

برای انتخاب یک منطقه متن، توجه به پانل در بالای FineReader. یک دکمه "T" وجود دارد (نگاه کنید به تصویر زیر، اشاره گر ماوس فقط روی این دکمه است). روی آن کلیک کنید، سپس در تصویر زیر، منطقه منظمی مستطیلی را که متن در آن واقع شده است انتخاب کنید. به هر حال، در برخی موارد شما نیاز به ایجاد بلوک متن 2-3، و گاهی اوقات 10-12 در هر صفحه، زیرا فرمت متن می تواند متفاوت باشد و کل منطقه را با یک مستطیل انتخاب نکنید.

مهم است که توجه داشته باشید تصاویر نباید در قسمت متن قرار گیرند! در آینده، آن را به شما زمان زیادی را صرفه جویی کنید ...

3.2 عکس

استفاده می شود برای برجسته کردن تصاویر و مناطقی که دشوار است به دلیل کیفیت پایین و یا فونت غیر معمول.

در تصویر زیر، نشانگر ماوس بر روی دکمهی مورد استفاده برای انتخاب "تصویر" منطقه قرار دارد. به هر حال، هر بخش از صفحه را می توان در این قسمت انتخاب کرد، و سپس FineReader آن را به عنوان یک تصویر طبیعی در سند قرار می دهد. یعنی فقط "احمق" کپی خواهد کرد ...

به طور معمول، این منطقه برای برجسته کردن جداول ضعیف اسکن شده برای برجسته کردن متن و فونت غیر استاندارد و تصاویر خود استفاده می شود.

3.3 جداول

تصویر زیر دکمه را برای برجسته کردن جداول نشان می دهد. به طور کلی، من شخصا از آن استفاده می کنم بسیار نادر است. واقعیت این است که شما باید به طور مرتب (در واقع) هر خط روی میز را نشان دهید و نشان دهید که چه چیزی و چگونه برنامه. اگر جدول کوچک و با کیفیت نداشته باشد، توصیه می کنم از این منطقه برای استفاده از "عکس" استفاده کنید. در نتیجه صرفه جویی در زمان زیادی، و سپس شما می توانید به سرعت یک جدول در Word بر اساس یک تصویر ایجاد کنید.

3.4 موارد غیر ضروری

مهم است که توجه داشته باشید. گاهی اوقات عناصر غیر ضروری در صفحه وجود دارد که دشوار بودن تشخیص متن را دچار مشکل می کند یا اجازه ندهید منطقه مطلوب شما را انتخاب کنید. آنها می توانند با استفاده از "پاک کن" حذف شوند.

برای انجام این کار، به حالت ویرایش تصویر بروید.

ابزار پاک کن را انتخاب کنید و ناحیه ناخواسته را انتخاب کنید. آن پاک خواهد شد و در جای خود خواهد بود برگ کاغذ سفید.

به هر حال، من توصیه می کنم با استفاده از این گزینه به شما که ممکن است اغلب. تمام زمینه های متن را که انتخاب کرده اید، امتحان کنید، جایی که نیازی به تکه ای از متن ندارید، یا نقاط غیر ضروری، تار شدن، اعوجاج - حذف با پاک کن. با تشکر از این شناخت سریعتر خواهد بود!

4. شناسایی فایل های PDF / DJVU

به طور کلی این فرمت شناخت متفاوت از سایرین نیست - به عنوان مثال شما می توانید با آن فقط با تصاویر کار کنید. تنها چیزی که نباید نسخه برنامه قدیمی باشد، اگر شما فایلهای PDF / DJVU را باز نکنید - نسخه را به 11 نسخه ارتقا دهید.

مشاوره کمی پس از باز کردن سند در FineReader - آن را به طور خودکار شروع به تشخیص سند. اغلب در فایل های PDF / DJVU، یک منطقه خاص از صفحه در کل سند مورد نیاز نیست! برای حذف چنین منطقه ای در تمام صفحات، موارد زیر را انجام دهید:

1. به قسمت ویرایش تصویر بروید.

2. گزینه "مرتب سازی" را فعال کنید.

3. منطقه ای را که در همه صفحات نیاز دارید را انتخاب کنید.

4. روی همه صفحات اعمال می شود و ترمیم می شود.

5. خطا در بررسی و ذخیره نتایج کار

به نظر می رسد که وقتی تمام مناطق انتخاب شد، مشکلی وجود دارد، اما پس از آن به رسمیت شناخته شد - آن را گرفته و آن را ذخیره کنید ... آنجا نبود!

اول، ما باید سند را بررسی کنیم!

برای فعال کردن آن، پس از شناخت، در پنجره سمت راست، یک دکمه «بررسی» وجود دارد، تصویر زیر را ببینید. پس از کلیک کردن بر روی آن، برنامه FineReader به طور خودکار به شما مناطقی را نشان می دهد که برنامه دارای اشتباهات است و نمیتواند به درستی یک یا چند نماد را تعیین کند. شما فقط باید انتخاب کنید یا با نظر برنامه موافقید یا شخصیت خود را وارد کنید.

به هر حال، در نیمی از موارد، تقریبا، برنامه به شما یک کلمه درست آماده ارائه می دهد - شما فقط باید از ماوس برای انتخاب گزینه ای که می خواهید استفاده کنید.

ثانیا، پس از چک کردن شما باید فرمت را انتخاب کنید که در آن نتیجه کار شما را ذخیره کنید.

در اینجا FineReader شما را به نوبه خود به طور کامل: شما می توانید به سادگی انتقال اطلاعات در ورد یک به یک، و شما می توانید آن را در یکی از ده ها فرمت ذخیره کنید. اما من می خواهم یک جنبه مهم دیگر را برجسته کنم. هر فرمت که انتخاب می کنید، انتخاب نوع کپی مهم تر است! جالب ترین گزینه ها را در نظر بگیرید

کپی دقیق

تمام مناطقی که در صفحه در سند شناخته شده انتخاب کرده اید دقیقا در سند منبع مطابقت دارند. یک گزینه بسیار مناسب زمانی که برای شما مهم نیست که قالب بندی متن را از دست بدهید. به هر حال، فونت ها نیز بسیار شبیه به اصل هستند. من با این گزینه برای انتقال سند به ورد توصیه می کنم تا کار بیشتری را ادامه دهم.

کپی قابل ویرایش

این گزینه خوب است زیرا شما یک نسخه از متن فرمت شده ای که در حال حاضر است را دریافت می کنید. یعنی ترس از "کیلومتر"، که ممکن است در سند اصلی باشد - شما ملاقات نخواهید کرد. گزینه مفید زمانی که شما به طور قابل توجهی اطلاعات را ویرایش کنید.

درست است، شما نباید انتخاب کنید که آیا برای حفظ سبک طراحی، فونت ها، وردپرس مهم است. گاهی اوقات، اگر تشخیص بسیار موفقیت آمیز نیست - سند شما ممکن است به دلیل قالب بندی تغییر یافته، از بین برود. در این مورد، بهتر است کپی دقیق را انتخاب کنید.

متن ساده

یک گزینه برای کسانی که فقط متن را از صفحه بدون نیاز به هر چیزی نیاز دارند. مناسب برای اسناد بدون تصاویر و جداول.

این نتیجه مقاله اسکن و تشخیص سند است. امیدوارم با کمک این نکات ساده شما بتوانید مشکلات خود را حل کنید ...

موفق باشید