Как настроить 1‑битный скан для архива и не потерять текст

Для архивного чёрно-белого скана ключевое — правильно выбрать порог/бинаризацию и проверить мелкие детали: точки, запятые, тонкие штрихи и бледные подписи. Ошибка на этом шаге необратима: 1‑бит не хранит полутона.

Оглавление

Когда 1‑бит подходит, а когда лучше серый/цвет

1‑бит (bitonal) уместен, если документ чётко напечатан чёрным по светлой бумаге и фон ровный (без теней, фактуры, бланковых сеток, «защиты», водяных знаков).

Лучше не делать 1‑бит “мастером”, если есть: выцветание, карандаш, штампы «в полтона», пятна, желтизна бумаги, тень у корешка/сгиба, мелкая типографика или тонкие линии.

Надёжная практика для архива: хранить мастер в 8‑бит сером или в цвете, а 1‑бит делать как производную копию (для OCR/быстрого просмотра/экономии места).

База перед порогом: DPI и режим

DPI:

  • 300 dpi — только для простого, контрастного текста.
  • 600 dpi — безопаснее для мелкого шрифта, тонких линий, слабого контраста и “сложной” бумаги.

Режим сканирования:

  • оптимально: 8‑бит Grayscale (серый) → затем бинаризация;
  • “сканировать сразу в Ч/Б” стоит лишь на идеально чистых документах, иначе вы не увидите, что именно потеряли.

Порог и бинаризация: что выбрать

Порог (threshold) — граница, где серый пиксель становится белым или чёрным:

  • слишком высокий порог → буквы толстеют, слипаются, фон «чернеет»;
  • слишком низкий порог → пропадают точки, запятые, тонкие элементы, бледные подписи.

Глобальная и адаптивная бинаризация

Сравнение методов бинаризации для архивного 1‑бита

Ситуация на листеЧто выбиратьРиск, если ошибиться
Ровный фон, без тенейГлобальный порогМинимальный
Тень у корешка, градиент освещенияАдаптивный (локальный) порогШум/«пятнистый» фон
Выцветший текст/карандашМастер в сером + аккуратная обработкаПотеря слабых штрихов в 1‑бит
Штампы/печати с полутонамиМастер серый/цвет, 1‑бит — только копия«Каша» из точек или исчезновение деталей

Цель — не «самый белый фон», а стабильная форма символов: межбуквенные просветы, диакритика, пунктуация, тонкие засечки.

Пошаговый алгоритм под архив и OCR

  1. Сканируйте мастер: 8‑бит серый, 300–600 dpi (чаще 600 для подстраховки). Отключите агрессивные автоулучшения (автоконтраст, “удаление фона”), если они дают артефакты.

  2. Подготовка до порога (минимум):

  • обрезка полей (чтобы порог не “ориентировался” на тёмные рамки),
  • выравнивание (deskew),
  • лёгкое удаление пыли/точек — очень осторожно, чтобы не съесть пунктуацию.
  1. Выберите тип порога:
  • документ ровный → глобальный порог;
  • есть тени/неравномерность → адаптивный порог.
  1. Настраивайте “от текста”: проверьте 5–7 контрольных зон:
  • самый мелкий шрифт,
  • самое светлое место текста,
  • запятые/точки/двоеточия,
  • подписи и пометы,
  • участок у сгиба/корешка.
  1. Контроль качества:
  • просмотр в 100% и 200%;
  • сравнение с серым мастером: ничего ли не исчезло и не “слиплось”;
  • если планируется OCR — проверьте пару страниц распознавания: ошибки часто указывают на неверный порог/шум.

Форматы сохранения

  • TIFF 1‑bit + CCITT Group 4 — стандартный вариант для 1‑битных страниц: маленький размер, хорош для текста.
  • PDF — удобно для многостраничных комплектов.
  • PDF/A — если нужен именно архивный профиль PDF (долговременное хранение и предсказуемое открытие).

Частые ошибки

  • Слипшиеся буквы (просветы пропали, «м» стала чёрным блоком).
    Причина: высокий порог/переконтраст. Решение: снизить порог, уменьшить “усиление”.

  • Пропали точки/запятые/тонкие штрихи.
    Причина: низкий порог или слишком сильное удаление шума. Решение: поднять порог, ослабить despeckle, при необходимости перейти на 600 dpi.

  • «Чёрный снег» по фону после адаптивного порога.
    Причина: неподходящее окно/смещение. Решение: увеличить окно, уменьшить агрессивность, сначала выровнять фон.

  • Тень у корешка стала чёрной полосой.
    Причина: глобальный порог на градиенте. Решение: адаптивная бинаризация или предварительная коррекция освещения.

FAQ

Можно ли делать 1‑бит сразу на сканере?
Можно, но только для очень чистых и контрастных листов. Для архива надёжнее: серый мастер → 1‑бит как производная.

Какой DPI выбрать “по умолчанию”?
Если нет уверенности, берите 600 dpi в 8‑бит сером: это даёт запас для аккуратной бинаризации и OCR.

Что важнее: белый фон или сохранность знаков?
Для архива важнее не потерять элементы символов. Чуть “серее” фон в мастере — нормальная плата за сохранённые штрихи.

TIFF или PDF?
Для 1‑битных страниц как “изображения-оригиналы” обычно удобнее TIFF G4. Для выдачи комплектом и/или с OCR — PDF (а при архивных требованиях — PDF/A).