شناسایی متن برنامه رایگان - آنالوگ FINEREADER

دیر یا زود همه کسانی که اغلب با برنامه های اداری کار می کنند، یک کار معمولی را انجام می دهند - متن را از یک کتاب، مجله، روزنامه، به سادگی جزوات اسکن می کنند و سپس این تصاویر را به فرمت متن، به عنوان مثال، به یک سند Word می نویسند.

برای انجام این کار، شما نیاز به یک اسکنر و یک برنامه خاص برای به رسمیت شناختن متن دارید. این مقاله در مورد آنالوگ آزاد FineReader بحث خواهد کرد -شمشیر (در مورد شناخت در FineReader - این مقاله را ببینید).

بیایید شروع کنیم ...

محتوا

1. ویژگی های برنامه CuneiForm، ویژگی ها
2. یک مثال از شناخت متن
3. تشخیص متن دسته ای
4. نتیجه گیری

1. ویژگی های برنامه CuneiForm، ویژگی ها

شمشیر

شما می توانید از سایت توسعه دهنده دانلود کنید: //cognitiveforms.com/

یک نرم افزار تشخیص متن متن باز. علاوه بر این، آن را در تمام نسخه های ویندوز: XP، ویستا، 7، 8، که لذت می برد. به علاوه، اضافه کردن ترجمه کامل روسیه از برنامه!

جوانب مثبت:

- به رسمیت شناختن متن در 20 محبوب ترین زبان های جهان (خود انگلیسی و روسی در این شماره گنجانده شده است)؛

- پشتیبانی عالی برای فونتهای چاپی مختلف؛

- فرهنگ لغت متن را بررسی کنید

- توانایی صرفه جویی در نتایج کار در چندین راه؛

- حفظ ساختار سند؛

- پشتیبانی عالی و جداول شناخت.

مضرات:

- اسناد و فایل های بیش از حد بزرگ (بیش از 400 نقطه در اینچ) پشتیبانی نمی کند.

- برخی از انواع اسکنرها را مستقیما پشتیبانی نمی کند (خوب، این ترسناک نیست، یک اسکنر ویژه همراه با رانندگان اسکنر)؛

- طراحی نمی کند درخشش (اما کسی که به آن نیاز دارد، اگر برنامه به طور کامل مشکل را حل کند).

2. یک مثال از شناخت متن

فرض می کنیم که شما قبلا تصاویر مورد نیاز برای شناسایی دریافت کرده اید (اسکن شده در اینجا، یا کتاب را در قالب pdf / djvu در اینترنت دریافت کرده اید و تصاویر لازم را از آنها دریافت کرده اید. چگونگی انجام این کار - این مقاله را ببینید).

1) تصویر مورد نیاز را در برنامه CuineForm (file / open یا "Cntrl + O") باز کنید.

2) برای شروع تشخیص - ابتدا باید مناطق مختلف را انتخاب کنید: متن، تصاویر، جداول و غیره. در برنامه Cuneiform، این را می توان نه تنها دستی، بلکه همچنین به طور خودکار! برای انجام این کار، بر روی دکمه «نشانه گذاری» در بالای پنجره پنجره کلیک کنید.

3) پس از 10-15 ثانیه. این برنامه به طور خودکار همه مناطق با رنگ های مختلف را برجسته می کند. به عنوان مثال، یک منطقه متن در آبی رنگ برجسته شده است. به هر حال، او به درستی و به سرعت به همه مناطق اشاره کرد. صادقانه، من چنین پاسخ سریع و صحیح از او انتظار نداشتم ...

4) برای کسانی که به نشانه گذاری خودکار اعتماد ندارند، می توانید از یک کتابچه راهنمای استفاده کنید. برای این یک نوار ابزار وجود دارد (نگاه کنید به تصویر زیر)، به لطف آن شما می توانید انتخاب کنید: متن، جدول، تصویر. حرکت، افزایش / کاهش تصویر اولیه، تر و تمیز کردن لبه ها. به طور کلی یک مجموعه خوب است.

5) پس از همه مناطق مشخص شده است، می توانید به ادامه بروید تشخیص. برای انجام این کار، به سادگی با کلیک بر روی دکمه همان نام، همانطور که در تصویر زیر.

6) به معنای واقعی کلمه در 10-20 ثانیه. شما یک سند را در مایکروسافت ورد با متن شناسایی خواهید دید. جالب است که در متن این مثال، البته اشتباهاتی وجود دارد، اما تعداد کمی از آنها وجود دارد! به خصوص، با توجه به اینکه مواد اصلی اصلی ساده است - تصویر.

سرعت و کیفیت کاملا قابل مقایسه با FineReader است!

3. تشخیص متن دسته ای

این تابع از برنامه می تواند مفید باشد وقتی که شما نیاز به تشخیص یک عکس نیست، اما چند در یک بار. میانبر برای به دست آوردن به رسمیت شناختن دسته معمولا در منوی شروع پنهان است.

1) پس از باز کردن برنامه، شما باید یک بسته جدید ایجاد کنید یا یک ذخیره شده قبلی را باز کنید. در مثال ما - ایجاد یک جدید.

2) در مرحله بعد، نام آن را ترجیح می دهیم، به طوری که شش ماه بعد ما آن را ذخیره می کنیم.

3) بعد، زبان سند را انتخاب کنید (روسی-انگلیسی)، نشان می دهد که تصاویر و جداول موجود در مواد اسکن شده شما وجود دارد.

4) حالا شما باید پوشه ای را که در آن فایل ها برای شناسایی قرار دارند تعیین کنید. به هر حال، جالب این است که برنامه به طور کامل تمام تصاویر و سایر فایل های گرافیکی را که می تواند آنها را شناسایی کند و آنها را به پروژه اضافه کند پیدا می کند. شما همچنین نیاز به حذف اضافی.

5) گام بعدی مهم نیست - پس از شناخت، چه کاری را با فایلهای منبع انجام دهید، انتخاب کنید. من توصیه می کنم کادر انتخاب "انجام دهید" را انتخاب کنید.

6) فقط برای انتخاب فرمت که در آن سند شناخته شده ذخیره خواهد شد. چندین گزینه وجود دارد:

- rtf - فایل از سند کلمه توسط همه دفاتر محبوب (از جمله موارد آزاد، لینک به برنامه ها) باز می شود؛

- TXT - قالب متن، شما می توانید تنها متن، تصاویر و جداول در آن را ذخیره کنید.

- هتم - صفحه بیش از حد متن، اگر شما اسکن و تشخیص فایل ها برای سایت راحت است. او را در مثال خود انتخاب کنید.

7) بعد از کلیک روی دکمه Finish، پردازش پروژه شما شروع می شود.

8) برنامه خیلی سریع کار می کند. پس از شناختن، یک تب با فایل های htm خواهید یافت. اگر بر روی چنین فایل کلیک کنید، یک مرورگر شروع می شود که در آن می توانید نتایج را ببینید. به هر حال، بسته را می توان برای کار بیشتر با آن ذخیره شده است.

9) همانطور که می بینید نتایج کار بسیار چشمگیر است این برنامه به راحتی تصویر را به رسمیت می شناسد و به راحتی متن زیر را می شناسد. در حالی که برنامه رایگان است، به طور کلی فوق العاده است!

4. نتیجه گیری

اگر اغلب اسناد را اسکن و تشخیص ندهید، خرید FineReader احتمالا منطقی نیست. CuneiForm به راحتی بیشتر وظایف را مدیریت می کند.

از سوی دیگر، او نیز دارای معایب است.

اولا ابزار بسیار کم برای ویرایش و بررسی نتیجه نتیجه وجود دارد. در مرحله دوم، هنگامی که شما باید بسیاری از تصاویر را شناسایی کنید، در FineReader راحت است که بلافاصله همه چیز را به پروژه اضافه کنید در ستون سمت راست: سریع حذف غیر ضروری، ویرایش، و غیره. سوم، در اسناد کیفیت مطلقا بد، CuneiForm از دستش بر می آید: شما باید سند را به خاطر بیاورید - اشتباهات درست، علامت های نقطه گذاری، نقل قول ها و غیره قرار دهید.

همه چیز هست آیا شما هر نرم افزار تشخیص متن مناسب و معقول رایگان را می دانید؟