PDF в текст: извлечение или OCR — что выбрать и как сделать быстро

Перевести PDF в текст можно двумя путями: извлечь готовый текст (если он выделяется) или распознать скан через OCR (если PDF — картинки). Сначала определите тип файла — это сэкономит время и даст более чистый результат.

Определите тип PDF за 10 секунд

Откройте PDF и попробуйте:

выделить пару строк мышкой и скопировать;
найти слово через поиск (Ctrl/⌘ + F).

Если текст выделяется и ищется — это PDF с текстовым слоем, OCR не нужен. Если не выделяется/поиск не работает — это скан или фото, нужен OCR.

Бывает «смешанный» PDF: часть страниц — текст, часть — сканы. В таком случае делайте OCR только для нужных страниц.

Как извлечь текст из обычного (текстового) PDF

1) Копировать и вставить (для небольших фрагментов)

Подходит, когда нужно быстро забрать несколько абзацев.

Вставляйте сначала в простой текстовый режим (plain text), чтобы убрать лишнее форматирование.
Если документ в две колонки или с таблицами, копирование часто «перемешивает» порядок — тогда лучше экспорт.

В PDF порядок отображения может отличаться от логического (колонки, сноски, таблицы). Если важна точность — используйте экспорт или командные утилиты.

2) Экспорт в TXT/DOCX через PDF‑редактор (для всего документа)

Во многих настольных редакторах PDF есть функция «Экспорт/Сохранить как» → TXT или DOCX. Обычно это самый предсказуемый способ получить файл целиком без «лесенки» и разрывов строк.

3) Офлайн и пакетно: `pdftotext` (Windows/macOS/Linux)

Если нужен быстрый массовый прогон и без интернета, используйте pdftotext (пакет Poppler):

pdftotext "input.pdf" "output.txt"

Полезно попробовать режим сохранения расположения:

pdftotext -layout "input.pdf" "output.txt"

Как сделать «PDF в текст», если это скан (OCR)

OCR превращает изображение текста в редактируемые символы. Выбор простой:

Онлайн‑OCR — быстро, но подходит только для неважных/нечувствительных документов.
Офлайн‑OCR — дольше на настройку, но лучше для конфиденциальности и больших объёмов.

Не загружайте в онлайн‑OCR файлы с паспортными данными, договорами, мединформацией и другими чувствительными данными — используйте офлайн‑распознавание.

Офлайн‑вариант: Tesseract (точность зависит от качества)

Упрощённая схема:

конвертировать страницы PDF в изображения (PNG/JPG),
запустить OCR,
собрать результат в текст.

Пример распознавания одной страницы:

tesseract page.png out -l rus

Для качественного OCR чаще всего достаточно: ровного скана без наклона, хорошего контраста и разрешения около 300 dpi (особенно для мелкого шрифта).

Что выбрать: быстрый ориентир

Сравнение способов «PDF в текст»

Способ	Подходит для	Плюсы	Минусы
Копировать/вставить	Текстовый PDF, фрагменты	Быстро, без настроек	Ломает колонки/таблицы
Экспорт в TXT/DOCX	Текстовый PDF целиком	Более чистый результат	Зависит от функций программы
`pdftotext`	Текстовый PDF, пакетно	Офлайн, быстро, скриптуется	Иногда требует подбора режимов
OCR (онлайн)	Скан/фото	«Здесь и сейчас»	Риски конфиденциальности
OCR (офлайн, Tesseract)	Скан/фото	Контроль, приватность	Нужно подготовить изображения

Частые ошибки

Текст “лесенкой” (много переносов строк): попробуйте экспорт вместо копирования или переключите режим pdftotext (с -layout и без него).
Таблицы превратились в кашу: для таблиц чаще лучше DOCX, чем TXT; при OCR выбирайте формат, который сохраняет разметку.
Путаются буквы и цифры (О/0, I/1): улучшите качество скана (контраст, резкость, 300 dpi), проверьте язык OCR (rus, eng или оба).
Не получается скопировать из PDF: иногда это ограничения документа; если это скан — выручит OCR, если текстовый — используйте экспорт.

FAQ

Как понять, нужен ли OCR? Если текст не выделяется и поиск по документу не находит слова — нужен OCR.
Что лучше: TXT или DOCX? TXT — максимально «чистый» текст без оформления. DOCX — когда важны абзацы, заголовки и частично структура.
Можно ли сделать “pdf в текст” на телефоне? Да: для текстового PDF часто достаточно выделения и копирования, для сканов потребуется OCR‑приложение (или онлайн‑OCR, если документ не конфиденциальный).