Витяг тексту з зображень з цими кращими OCR програмного забезпечення

2019

У ці дні майже все (наприклад, фотографії, музика, відео) стало цифровим (і це має сенс, оскільки цифровий контент можна зручно керувати, редагувати і спільно використовувати). Отже, як можна залишити текстові документи. Завдяки вдосконаленням методів оптичного розпізнавання символів (OCR), тепер простіше, ніж будь-коли, оцифровувати текстові матеріали в друкованих / рукописних документах, що робить їх доступними для редагування за допомогою програм обробки текстів.

Тепер, щоб зробити це, вам потрібні деякі дійсно хороші програми OCR програмного забезпечення, і це саме те, що ця стаття все о. Це програмне забезпечення може або придбати вихідні друковані документи як зображення з пристроїв сканування, або ви можете ввести власні зображення документів, які потрібно конвертувати в редагований текст. Заінтригований? Добре, то давайте не бити навколо куща, і дістатися до 5 кращих програм OCR .

1. ABBYY FineReader

Коли йдеться про оптичне розпізнавання символів, навряд чи щось наблизиться до ABBYY FineReader. Завантажений до країв з величезною кількістю потужних функцій, ABBYY FineReader робить витягування тексту з усіх видів зображень легким.

Незважаючи на широкий перелік функцій, ABBYY FineReader дуже простий у використанні. Він може витягувати текст з майже всіх видів популярних форматів зображень, таких як PNG, JPG, BMP і TIFF. І це ще не все. ABBYY FineReader також може витягувати текст з файлів PDF та DJVU. Після завантаження вихідного файлу або зображення (що бажано має мати роздільну здатність не менше 300 dpi, для оптимального сканування) програма аналізує та автоматично визначає різні розділи файлу, що мають витяжний текст. Ви можете витягти весь текст або вибрати лише окремі розділи. Після цього все, що вам потрібно зробити, це використовувати опцію Save, щоб вибрати формат виводу, а ABBYY FIneReader піклується про решту. Існує безліч вихідних форматів, таких як TXT, PDF, RTF і навіть EPUB.

Вихідний текст ідеально можна редагувати, а текст із документів, що містять більшу кількість вмісту (наприклад, з кількома стовпцями і складними макетами), безумовний. Інші функції включають велику підтримку мови, численні стилі / розміри шрифтів, а також інструменти корекції зображень для файлів, отриманих з сканерів і камер.

У двох словах, якщо ви хочете, щоб у вас було найкраще програмне забезпечення для розпізнавання, разом з великим форматом вводу / виводу та підтримкою обробки, зверніться до програми ABBYY FineReader.

Наявність платформи: Windows 10, 8, 7, Vista і XP; Mac OS X 10.6 і пізніших версій

Ціна: Платні версії починаються від $ 169.99, 30 днів безкоштовної пробної версії

Завантажити

2. Readiris

На полюванні за надзвичайно потужним програмним забезпеченням для розпізнавання зображень, яке важке для функцій, але не дуже багато зусиль, щоб розпочати роботу? Погляньте на Readiris, тому що це може бути те, що вам потрібно.

Професійне додаток Readiris має широкий набір функцій, що в значній мірі ідентичний раніше обговорюваному ABBYY FineReader. Від BMP до PNG і від PCX до TIFF, Readiris підтримує чимало форматів зображень. Крім цього, файли PDF і DJVU можуть бути оброблені так само добре. Зображення можуть бути отримані з пристроїв сканування, а також додаток дозволяє встановлювати параметри обробки користувача до вихідних файлів / зображень, таких як вирівнювання та налаштування DPI, перед їх аналізом. Хоча Readiris може опрацьовувати зображення з низькою роздільною здатністю, оптимальна роздільна здатність має бути не менше 300 dpi. Після аналізу Readiris визначає текстові розділи (або зони), і текст може бути вилучений з конкретних зон або всього файлу. Витягнутий текст можна редагувати і зберігати в численних форматах, таких як PDF, DOCX, TXT, CSV і HTM.

Більш того, функція збереження хмари Readiris Pro дає змогу безпосередньо зберегти витягнутий текст до різних служб зберігання даних у хмарі, таких як Dropbox, OneDrive, GoogleDrive, а потім ще. Є також здорове число функцій редагування / обробки тексту, і навіть штрих-коди можуть бути скановані.

Загалом, ви повинні використовувати Readiris, якщо ви хочете мати потужні функції видобування / редагування тексту у простому пакунку, що має обширну підтримку формату введення / виводу. Проте Readiris трохи відхиляється, коли йдеться про обробку документів зі складною розкладкою, як, наприклад, кілька стовпців, таблиць тощо

Наявність платформи: Windows 10, 8, 7, Vista і XP; Mac OS X 10.7 і пізніших версій

Ціна: Платні версії починаються від $ 99, 10 днів безкоштовно

Завантажити

3. FreeOCR

Якщо ви шукаєте просте програмне забезпечення для розпізнавання OCR, що не потребує суєти, і пристойні можливості розпізнавання тексту, дивіться не далі, ніж FreeOCR . Хоча він не може бути перевантажений всіма видами фантазії, він все ще працює дуже добре для того, що він є.

Заснований на надзвичайно популярному двигуні Tesseract OCR компанії Google, FreeOCR надзвичайно простий у використанні. Він може отримувати друковані документи, скановані за допомогою сканерів, а також дозволяє завантажувати зображення з текстовим вмістом. Мало того, він може також витягувати текст з багато форматованих багатосторінкових документів. Ви можете отримати додаток або весь текст з вхідного PDF / зображення, або визначити конкретний шматок тексту. Швидкість перетворення досить хороша, а перетворений текст можна зберігати у форматах TXT і RTF, або експортувати безпосередньо до Microsoft Word. FreeOCR підтримує всі головні формати зображень, такі як PNG, JPG і TIFF.

При цьому FreeOCR має деякі недоліки. Це занадто просто і не має функцій пост-обробки тексту. Більш того, макет витягнутого тексту часто переплутається, з перекриваються рядків і стовпців. Використовуйте його лише у випадку, якщо вам потрібні основні функції розпізнавання для випадкового використання.

Наявність платформи: Windows 10, 8, 7, Vista і XP

Ціна: Безкоштовно

Завантажити

4. Microsoft OneNote

OneNote - це вражаюче багатофункціональне додаток для запису, який легко розпочати. Але, notetaking є не єдина річ є гарна у. Якщо ви використовуєте OneNote як частину робочого процесу, ви можете використовувати його для виконання деяких основних видобутку тексту, завдяки вбудованому в нього знаку OCR.

Використання OneNote для вилучення тексту з зображень є смішно простим. Якщо ви використовуєте настільну програму, все, що вам потрібно зробити, це використовувати опцію Вставити, щоб вставити зображення в будь-який з ноутбуків або розділів. Як тільки це зроблено, просто клацніть правою кнопкою миші на зображенні та виберіть опцію Копіювати текст із зображення . Весь текстовий вміст із зображення буде скопійовано в буфер обміну і може бути вставлений (і, отже, відредагований) в будь-якому місці, відповідно до вимог. Будь то PNG, JPG, BMP або TIFF, OneNote підтримує майже всі основні формати зображень.

Проте, можливості вилучення тексту OneNote досить обмежені, і вони не можуть мати справу з зображеннями, що мають складні текстові макети змісту, такі як таблиці та підрозділи. Отже, це те, що ви повинні мати на увазі.

Доступність платформи: Windows 10, 8, 7 і Vista; Mac OS X 10.10 і пізніших версій

Ціна: Безкоштовно

Завантажити

5. ГОКР

Примітка: Перш ніж розпочати роботу, важливо знати, що, незважаючи на те, що GOCR підтримує звичайні формати зображень, такі як PNG і JPG, воно не вдалося розпізнати під час нашого тестування (виконуваного на комп'ютері під керуванням Windows 10). Дуже можливо, що він може працювати з цими форматами на машинах Linux, але якщо ви використовуєте Windows, вам потрібно конвертувати вихідне зображення у формат PNM. Це можна зробити за допомогою численних інструментів перетворення файлів онлайн, таких як цей.

Відмінність GOCR від партії полягає в тому, що вона не має інтерфейсу графічного інтерфейсу користувача (GUI). Це інструмент, заснований на командному рядку, і тому він не є найпростішим у використанні. Але як тільки Ви почуваєтесь з основами, GOCR може виявитися дійсно корисним у вилученні тексту із зображень. Варто також відзначити, що для правильної роботи GOCR вихідні зображення повинні мати чіткий текстовий вміст, а переважно білий фон, оскільки утиліта не працює з складними вихідними файлами. GOCR витягує текст із зображень і зберігає їх у форматі TXT. Незважаючи на те, що він підтримує досить багато аргументів і функцій, лише деякі з них повинні бути відомі, щоб розпочати. Наприклад, щоб витягти текст із зразка зображення PNM, вам слід ввести в командному рядку наступне.

X: зразок теки gocr049 -i file.pnm -o file.txt

Тут X: sample folder - це розташування, де знаходиться інструмент командного рядка GOCR, а файли file.pnm і file.txt є вхідними та вихідними файлами відповідно (як у тому ж місці, що і GOCR;, слід вказати повний шлях). Також, якщо ви хочете змінити рівні відтінків сірого для зображення, ви можете вказати числове значення як аргумент разом з -l. Натисніть тут, щоб детально прочитати про використання.

Підводячи підсумок, GOCR є досить гарною утилітою OCR, і коли справа доходить до вилучення тексту з простих зображень, вона працює виключно добре. Тим не менш, це сильно обмежена в можливостях, і вимагає достатньої кількості зусиль, щоб отримати роботу.

Наявність платформи: Windows 10, 8, 7, Vista і XP; Linux; OS / 2

Ціна: Безкоштовно

Завантажити

Всі налаштовані для перетворення зображень у текст?

Оцифрування друкованого (і рукописного) текстового вмісту є надзвичайно корисним, оскільки робить зберігання, редагування та обмін текстом надзвичайно простим. І вищезазначене програмне забезпечення OCR робить швидку роботу, роблячи саме це, незалежно від того, наскільки основні або просунуті ваші потреби у витяганні тексту. Потрібні професійні функції вилучення тексту з найкращими інструментами поштової обробки? Перейдіть до ABBYY FineReader або Readiris. Ви віддаєте перевагу більш простому програмному забезпеченню OCR, який просто отримує основи? Використовуйте OneNote або FreeOCR. Спробуйте їх, і подивіться, як вони працюють для вас. Знати будь-яке інше програмне забезпечення OCR, яке можна було б включити до переліку вище? Викрикуйте в коментарях нижче.