Abbyy finereader express 8.4: розпізнавання тексту з будь-яких джерел на льоту (роздача кодів завершена)

Цифровий контент і електронні версії документів оточують нас з усіх боків. Для паперу в нашому житті майже не залишилося місця. Газети і журнали перейшли в онлайн-формат, книги ми читаємо на e-ink ридерах або планшетах, звичайні листи замінили email і sms. Але все ж, іноді нам доводиться спочатку повозитися з папірцями, щоб отримати їх електронну копію. Тут нам на допомогу приходять спеціальні програми, які використовують технологію оптичного розпізнавання тексту OCR (Optical Character Recognition). Найвідомішою з них, безперечно є ABBYY FineReader. З її допомогою можна перетворити паперові документи в редаговані формати і зберегти PDF з можливістю пошуку по тексту. І сьогодні у нас є відмінна можливість познайомитися з нею ближче.

* * *

Для Mac'ов, ABBYY пропонує тільки FineReader Express, проте вона має необхідну функціональністю. Ключовими особливостями ABBYY FineReader Express є точність розпізнавання і збереження оформлення, підтримка великої кількості мов (171 мову, до трьох мов в одному документі), перетворення і створення PDF (конвертація PDF в редаговані формати), редактор для ручної розмітки областей (текст, таблиця, картинка) і простий, зручний інтерфейс програми.

Перший погляд

Робоче вікно FineReader Express досить мінімалістично, тут присутні лише найнеобхідніші елементи. У бічній панелі розташовуються ескізи доданих сторінок, а на панелі існтрумент кнопки з випадають списками: для вибору мови і вихідного файлу. Ще є кнопки конвертації і масштабування. В іншому, інтерфейс відповідає швидкої експрес-версії, в якій зроблена ставка на автоматичне виконання операцій, з мінімумом налаштувань і участі користувача.

Переходимо до випробувань

Після запуску FineReader зустрічає нас компактним віконцем з вибором сценарію. Тут нам пропонується вибрати джерело захоплення: сканер, факс або читання з файлу. Також рекомендується вказати мову документа (або мови, якщо їх декілька) - це допоможе поліпшити точність розпізнавання вихідного документа. Ну і власне формат вихідного файлу, тут все просто - вибираємо, виходячи з типу паперового документа.

Сканера під рукою у мене не виявилося, але це навіть на краще - використовуючи в якості джерела фото зроблені за допомогою iPhone, я ускладнив завдання з розпізнавання тексту. Як приклад тексту я взяв одну з книжок своєї дружини, а як приклад таблиці - якусь стару робочу накладну з фотоплівки айфона. Що ж, давайте приступимо.

Розпізнаємо сторінку з текстом

Через брак сканера я просто зробив фото розвороту книги - звичайне фото при кімнатному освітленні, ніяких штативів та інших хитрощів. Ось оригінал:

Подивимося, що з ним зможе зробити FineReader. Зазначаємо, що хочемо витягти з фото текст, визначаємо мову як російська і запускаємо процес.

До честі додатки потрібно сказати, що визначився весь текст, включаючи випадково потрапив з вигину сусідній сторінки. Шматок столу, який я спеціально залишив в кадрі, очікувано визначився як картинка. Але це не страшно, тому що ми можемо вручну змінити області визначення, вказати їх тип (якщо програма визначить невірно) і видалити області, розпізнавання яких не потрібно. Всі маніпуляції зайняли у мене менше хвилини, а в підсумку я отримав ось такий, цілком прийнятний результат:

Після невеликої вичитки і редагування документ готовий. Я вважаю, що це гідний результат для такого швидкого, майже автоматичного процесу розпізнавання.

розпізнаємо таблицю

Як піддослідної таблиці виступає простенька накладна, яка теж була знята на айфон. Тут вже використовується український (заодно і перевіримо підтримку мов), що теж корисно для нашого досвіду. Вибираємо новий сценарій (⌘N) вказуємо джерело - читання з файлу, мова - українська і файл на виході - таблиця.

Програма замислюється на кілька секунд і ось перед нами результат:

З таблицею програма впоралася не так добре, але в принципі визначення тексту більш-менш стерпне, хіба що чому домалювати осередки, яких не було у вихідному документі. Тут доведеться повозитися трошки довше, щоб домогтися фінального виду відображення документа, але все ж це простіше ніж набирати табличку з вручну з нуля.

Збереження в PDF

При збереженні в PDF, на жаль програма ніяк не покращує вихідне зображення (контраст, яскравість) і воно поміщається в PDF-документ як є. Але тим менш, пошук по тексту присутній, а це вже добре.

підсумок

Як і будь-який інструмент, FineReader має свої плюси і мінуси. До сильних сторін, крім заявлених виробником характеристик, є те, що розпізнавання тексту і таблиць працює досить непогано, а конвертування в PDF, як і обіцяно, підтримує пошук по тексту. Мінусом можна вважати відсутність налаштувань і дуже мізерні можливості по ручному управлінню процесом. Але це почасти виправдовується, тим що це експрес-версія і працює вона в автоматичному режимі.

Коди для програми FineReader Express виграли Григорій Ушаров і Микола Блінов. Вітаємо! Перевіряйте приватні повідомлення, коди відправлені.

Завантажити в appstore