Распознавание PDF и сканов в ABBYY FineReader: быстрый алгоритм

ABBYY FineReader OCR помогает превратить скан, фото документа или «неживой» PDF (где текст — это картинка) в редактируемый текст, таблицу или поисковый PDF. Для максимальной точности достаточно: нормального исходника (лучше 300 dpi), правильных языков и быстрой проверки реквизитов.

Оглавление

Что делает FineReader OCR и какой результат выбрать
Подготовка скана/фото: что сильнее всего влияет на точность
Пошагово: OCR PDF/скана и сохранение в нужный формат
Таблицы и Excel: как не «сломать» структуру
Частые ошибки
FAQ

Что делает FineReader OCR и какой результат выбрать

FineReader решает три практические задачи:

Сделать PDF поисковым: внешний вид как у оригинала, но появляется поиск, выделение и копирование текста.
Конвертировать в DOCX: когда документ нужно править (договор, письмо, инструкция).
Конвертировать в XLSX: когда главное — цифры и ячейки (счета, ведомости, прайсы).

Если документ нужен «как на бумаге», но с поиском — почти всегда выбирайте поисковый PDF. Это быстрее и надежнее, чем «идеально» восстанавливать верстку в Word.

Подготовка скана/фото: что сильнее всего влияет на точность

Качество OCR чаще всего упирается в исходник. Минимальный чек-лист:

Разрешение 300 dpi для текста и таблиц (200 dpi — риск ошибок в мелком шрифте).
Ровная геометрия: без наклона, «волн» от сгиба, обрезанных полей.
Контраст и чистота: серый/ч/б скан часто лучше цветного, если в цвете много шума.
Фото с телефона: снимайте строго параллельно листу, без теней, с равномерным светом.

Самая частая причина «каши» в распознавании — низкое качество (размыто, криво, темно). В таких случаях быстрее переснять/пересканировать, чем долго править результат.

Пошагово: OCR PDF/скана и сохранение в нужный формат

Откройте файл (PDF/JPG/PNG/TIFF) и проверьте порядок страниц.
Выберите язык(и) распознавания вручную.
- Документ на русском → оставьте русский; английский добавляйте только если он реально встречается.
- Чем больше языков включено «на всякий случай», тем выше шанс ошибок в похожих символах.
Запустите распознавание и сделайте короткую проверку критичных мест:
- номера договоров/счетов, даты;
- суммы, валюты, реквизиты;
- ФИО, адреса, артикулы;
- заголовки таблиц и итоги.
Сохраните результат:
- DOCX — для редактирования;
- XLSX — для таблиц;
- Searchable PDF / PDF с текстовым слоем — для архива и поиска.

Таблицы и Excel: как не «сломать» структуру

Таблицы — самый сложный сценарий для OCR, потому что нужно правильно восстановить строки/столбцы.

Что помогает на практике:

Убедитесь, что таблица распознана именно как табличная область, а не как набор текстовых блоков.
Если линии тонкие и «рвутся», попробуйте исходник в оттенках серого — границы читаются стабильнее.
После экспорта быстро проверьте:
- десятичные разделители и разряды (запятая/точка, пробелы);
- «склеенные» ячейки и съехавшие столбцы;
- минусы и валюты (часто теряются на бледных сканах).

Если XLSX получился нестабильным, рабочий обходной путь — сохранить в DOCX, а затем аккуратно перенести таблицу в Excel (иногда так меньше ручных правок).

Частые ошибки

Включены лишние языки → появляются подмены символов и странные слова.
Путаются O/0, I/1, B/8 → всегда перепроверяйте номера, суммы, ИНН/коды, особенно в мелком шрифте.
Таблица «рассыпалась» → проверьте зоны (таблица/текст), улучшите контраст, попробуйте другой режим скана.
Съедены поля или часть строк → при сканировании оставляйте поля; при фото не обрезайте документ «впритык».

FAQ

FineReader распознает рукописный текст?
Обычно лучше всего распознается печатный текст. Рукописный (особенно курсив) зависит от качества и почерка и часто требует ручной проверки.

Что выбрать: DOCX или поисковый PDF?
DOCX — когда нужно редактировать содержание. Поисковый PDF — когда важно сохранить вид оригинала и добавить поиск/копирование.

Как выжать максимум точности на русском?
Хороший исходник (желательно 300 dpi), минимум языков, плюс короткая проверка реквизитов и чисел сразу после OCR.