PDF в текст: извлечение или OCR — что выбрать и как сделать быстро

Перевести PDF в текст можно двумя путями: извлечь готовый текст (если он выделяется) или распознать скан через OCR (если PDF — картинки). Сначала определите тип файла — это сэкономит время и даст более чистый результат.

Определите тип PDF за 10 секунд

Откройте PDF и попробуйте:

  • выделить пару строк мышкой и скопировать;
  • найти слово через поиск (Ctrl/⌘ + F).

Если текст выделяется и ищется — это PDF с текстовым слоем, OCR не нужен. Если не выделяется/поиск не работает — это скан или фото, нужен OCR.

Бывает «смешанный» PDF: часть страниц — текст, часть — сканы. В таком случае делайте OCR только для нужных страниц.

Как извлечь текст из обычного (текстового) PDF

1) Копировать и вставить (для небольших фрагментов)

Подходит, когда нужно быстро забрать несколько абзацев.

  • Вставляйте сначала в простой текстовый режим (plain text), чтобы убрать лишнее форматирование.
  • Если документ в две колонки или с таблицами, копирование часто «перемешивает» порядок — тогда лучше экспорт.

В PDF порядок отображения может отличаться от логического (колонки, сноски, таблицы). Если важна точность — используйте экспорт или командные утилиты.

2) Экспорт в TXT/DOCX через PDF‑редактор (для всего документа)

Во многих настольных редакторах PDF есть функция «Экспорт/Сохранить как» → TXT или DOCX. Обычно это самый предсказуемый способ получить файл целиком без «лесенки» и разрывов строк.

3) Офлайн и пакетно: pdftotext (Windows/macOS/Linux)

Если нужен быстрый массовый прогон и без интернета, используйте pdftotext (пакет Poppler):

pdftotext "input.pdf" "output.txt"

Полезно попробовать режим сохранения расположения:

pdftotext -layout "input.pdf" "output.txt"

Как сделать «PDF в текст», если это скан (OCR)

OCR превращает изображение текста в редактируемые символы. Выбор простой:

  • Онлайн‑OCR — быстро, но подходит только для неважных/нечувствительных документов.
  • Офлайн‑OCR — дольше на настройку, но лучше для конфиденциальности и больших объёмов.

Не загружайте в онлайн‑OCR файлы с паспортными данными, договорами, мединформацией и другими чувствительными данными — используйте офлайн‑распознавание.

Офлайн‑вариант: Tesseract (точность зависит от качества)

Упрощённая схема:

  1. конвертировать страницы PDF в изображения (PNG/JPG),
  2. запустить OCR,
  3. собрать результат в текст.

Пример распознавания одной страницы:

tesseract page.png out -l rus

Для качественного OCR чаще всего достаточно: ровного скана без наклона, хорошего контраста и разрешения около 300 dpi (особенно для мелкого шрифта).

Что выбрать: быстрый ориентир

Сравнение способов «PDF в текст»

СпособПодходит дляПлюсыМинусы
Копировать/вставитьТекстовый PDF, фрагментыБыстро, без настроекЛомает колонки/таблицы
Экспорт в TXT/DOCXТекстовый PDF целикомБолее чистый результатЗависит от функций программы
pdftotextТекстовый PDF, пакетноОфлайн, быстро, скриптуетсяИногда требует подбора режимов
OCR (онлайн)Скан/фото«Здесь и сейчас»Риски конфиденциальности
OCR (офлайн, Tesseract)Скан/фотоКонтроль, приватностьНужно подготовить изображения

Частые ошибки

  • Текст “лесенкой” (много переносов строк): попробуйте экспорт вместо копирования или переключите режим pdftotext-layout и без него).
  • Таблицы превратились в кашу: для таблиц чаще лучше DOCX, чем TXT; при OCR выбирайте формат, который сохраняет разметку.
  • Путаются буквы и цифры (О/0, I/1): улучшите качество скана (контраст, резкость, 300 dpi), проверьте язык OCR (rus, eng или оба).
  • Не получается скопировать из PDF: иногда это ограничения документа; если это скан — выручит OCR, если текстовый — используйте экспорт.

FAQ

  • Как понять, нужен ли OCR? Если текст не выделяется и поиск по документу не находит слова — нужен OCR.
  • Что лучше: TXT или DOCX? TXT — максимально «чистый» текст без оформления. DOCX — когда важны абзацы, заголовки и частично структура.
  • Можно ли сделать “pdf в текст” на телефоне? Да: для текстового PDF часто достаточно выделения и копирования, для сканов потребуется OCR‑приложение (или онлайн‑OCR, если документ не конфиденциальный).