PDF в текст: извлечение или OCR — что выбрать и как сделать быстро
Перевести PDF в текст можно двумя путями: извлечь готовый текст (если он выделяется) или распознать скан через OCR (если PDF — картинки). Сначала определите тип файла — это сэкономит время и даст более чистый результат.
Определите тип PDF за 10 секунд
Откройте PDF и попробуйте:
- выделить пару строк мышкой и скопировать;
- найти слово через поиск (Ctrl/⌘ + F).
Если текст выделяется и ищется — это PDF с текстовым слоем, OCR не нужен. Если не выделяется/поиск не работает — это скан или фото, нужен OCR.
Бывает «смешанный» PDF: часть страниц — текст, часть — сканы. В таком случае делайте OCR только для нужных страниц.
Как извлечь текст из обычного (текстового) PDF
1) Копировать и вставить (для небольших фрагментов)
Подходит, когда нужно быстро забрать несколько абзацев.
- Вставляйте сначала в простой текстовый режим (plain text), чтобы убрать лишнее форматирование.
- Если документ в две колонки или с таблицами, копирование часто «перемешивает» порядок — тогда лучше экспорт.
В PDF порядок отображения может отличаться от логического (колонки, сноски, таблицы). Если важна точность — используйте экспорт или командные утилиты.
2) Экспорт в TXT/DOCX через PDF‑редактор (для всего документа)
Во многих настольных редакторах PDF есть функция «Экспорт/Сохранить как» → TXT или DOCX. Обычно это самый предсказуемый способ получить файл целиком без «лесенки» и разрывов строк.
3) Офлайн и пакетно: pdftotext (Windows/macOS/Linux)
Если нужен быстрый массовый прогон и без интернета, используйте pdftotext (пакет Poppler):
pdftotext "input.pdf" "output.txt"
Полезно попробовать режим сохранения расположения:
pdftotext -layout "input.pdf" "output.txt"
Как сделать «PDF в текст», если это скан (OCR)
OCR превращает изображение текста в редактируемые символы. Выбор простой:
- Онлайн‑OCR — быстро, но подходит только для неважных/нечувствительных документов.
- Офлайн‑OCR — дольше на настройку, но лучше для конфиденциальности и больших объёмов.
Не загружайте в онлайн‑OCR файлы с паспортными данными, договорами, мединформацией и другими чувствительными данными — используйте офлайн‑распознавание.
Офлайн‑вариант: Tesseract (точность зависит от качества)
Упрощённая схема:
- конвертировать страницы PDF в изображения (PNG/JPG),
- запустить OCR,
- собрать результат в текст.
Пример распознавания одной страницы:
tesseract page.png out -l rus
Для качественного OCR чаще всего достаточно: ровного скана без наклона, хорошего контраста и разрешения около 300 dpi (особенно для мелкого шрифта).
Что выбрать: быстрый ориентир
Сравнение способов «PDF в текст»
| Способ | Подходит для | Плюсы | Минусы |
|---|---|---|---|
| Копировать/вставить | Текстовый PDF, фрагменты | Быстро, без настроек | Ломает колонки/таблицы |
| Экспорт в TXT/DOCX | Текстовый PDF целиком | Более чистый результат | Зависит от функций программы |
pdftotext | Текстовый PDF, пакетно | Офлайн, быстро, скриптуется | Иногда требует подбора режимов |
| OCR (онлайн) | Скан/фото | «Здесь и сейчас» | Риски конфиденциальности |
| OCR (офлайн, Tesseract) | Скан/фото | Контроль, приватность | Нужно подготовить изображения |
Частые ошибки
- Текст “лесенкой” (много переносов строк): попробуйте экспорт вместо копирования или переключите режим
pdftotext(с-layoutи без него). - Таблицы превратились в кашу: для таблиц чаще лучше DOCX, чем TXT; при OCR выбирайте формат, который сохраняет разметку.
- Путаются буквы и цифры (О/0, I/1): улучшите качество скана (контраст, резкость, 300 dpi), проверьте язык OCR (
rus,engили оба). - Не получается скопировать из PDF: иногда это ограничения документа; если это скан — выручит OCR, если текстовый — используйте экспорт.
FAQ
- Как понять, нужен ли OCR? Если текст не выделяется и поиск по документу не находит слова — нужен OCR.
- Что лучше: TXT или DOCX? TXT — максимально «чистый» текст без оформления. DOCX — когда важны абзацы, заголовки и частично структура.
- Можно ли сделать “pdf в текст” на телефоне? Да: для текстового PDF часто достаточно выделения и копирования, для сканов потребуется OCR‑приложение (или онлайн‑OCR, если документ не конфиденциальный).