Как настроить 1‑битный скан для архива и не потерять текст
Для архивного чёрно-белого скана ключевое — правильно выбрать порог/бинаризацию и проверить мелкие детали: точки, запятые, тонкие штрихи и бледные подписи. Ошибка на этом шаге необратима: 1‑бит не хранит полутона.
Оглавление
Когда 1‑бит подходит, а когда лучше серый/цвет
1‑бит (bitonal) уместен, если документ чётко напечатан чёрным по светлой бумаге и фон ровный (без теней, фактуры, бланковых сеток, «защиты», водяных знаков).
Лучше не делать 1‑бит “мастером”, если есть: выцветание, карандаш, штампы «в полтона», пятна, желтизна бумаги, тень у корешка/сгиба, мелкая типографика или тонкие линии.
Надёжная практика для архива: хранить мастер в 8‑бит сером или в цвете, а 1‑бит делать как производную копию (для OCR/быстрого просмотра/экономии места).
База перед порогом: DPI и режим
DPI:
- 300 dpi — только для простого, контрастного текста.
- 600 dpi — безопаснее для мелкого шрифта, тонких линий, слабого контраста и “сложной” бумаги.
Режим сканирования:
- оптимально: 8‑бит Grayscale (серый) → затем бинаризация;
- “сканировать сразу в Ч/Б” стоит лишь на идеально чистых документах, иначе вы не увидите, что именно потеряли.
Порог и бинаризация: что выбрать
Порог (threshold) — граница, где серый пиксель становится белым или чёрным:
- слишком высокий порог → буквы толстеют, слипаются, фон «чернеет»;
- слишком низкий порог → пропадают точки, запятые, тонкие элементы, бледные подписи.
Глобальная и адаптивная бинаризация
Сравнение методов бинаризации для архивного 1‑бита
| Ситуация на листе | Что выбирать | Риск, если ошибиться |
|---|---|---|
| Ровный фон, без теней | Глобальный порог | Минимальный |
| Тень у корешка, градиент освещения | Адаптивный (локальный) порог | Шум/«пятнистый» фон |
| Выцветший текст/карандаш | Мастер в сером + аккуратная обработка | Потеря слабых штрихов в 1‑бит |
| Штампы/печати с полутонами | Мастер серый/цвет, 1‑бит — только копия | «Каша» из точек или исчезновение деталей |
Цель — не «самый белый фон», а стабильная форма символов: межбуквенные просветы, диакритика, пунктуация, тонкие засечки.
Пошаговый алгоритм под архив и OCR
-
Сканируйте мастер: 8‑бит серый, 300–600 dpi (чаще 600 для подстраховки). Отключите агрессивные автоулучшения (автоконтраст, “удаление фона”), если они дают артефакты.
-
Подготовка до порога (минимум):
- обрезка полей (чтобы порог не “ориентировался” на тёмные рамки),
- выравнивание (deskew),
- лёгкое удаление пыли/точек — очень осторожно, чтобы не съесть пунктуацию.
- Выберите тип порога:
- документ ровный → глобальный порог;
- есть тени/неравномерность → адаптивный порог.
- Настраивайте “от текста”: проверьте 5–7 контрольных зон:
- самый мелкий шрифт,
- самое светлое место текста,
- запятые/точки/двоеточия,
- подписи и пометы,
- участок у сгиба/корешка.
- Контроль качества:
- просмотр в 100% и 200%;
- сравнение с серым мастером: ничего ли не исчезло и не “слиплось”;
- если планируется OCR — проверьте пару страниц распознавания: ошибки часто указывают на неверный порог/шум.
Форматы сохранения
- TIFF 1‑bit + CCITT Group 4 — стандартный вариант для 1‑битных страниц: маленький размер, хорош для текста.
- PDF — удобно для многостраничных комплектов.
- PDF/A — если нужен именно архивный профиль PDF (долговременное хранение и предсказуемое открытие).
Частые ошибки
-
Слипшиеся буквы (просветы пропали, «м» стала чёрным блоком).
Причина: высокий порог/переконтраст. Решение: снизить порог, уменьшить “усиление”. -
Пропали точки/запятые/тонкие штрихи.
Причина: низкий порог или слишком сильное удаление шума. Решение: поднять порог, ослабить despeckle, при необходимости перейти на 600 dpi. -
«Чёрный снег» по фону после адаптивного порога.
Причина: неподходящее окно/смещение. Решение: увеличить окно, уменьшить агрессивность, сначала выровнять фон. -
Тень у корешка стала чёрной полосой.
Причина: глобальный порог на градиенте. Решение: адаптивная бинаризация или предварительная коррекция освещения.
FAQ
Можно ли делать 1‑бит сразу на сканере?
Можно, но только для очень чистых и контрастных листов. Для архива надёжнее: серый мастер → 1‑бит как производная.
Какой DPI выбрать “по умолчанию”?
Если нет уверенности, берите 600 dpi в 8‑бит сером: это даёт запас для аккуратной бинаризации и OCR.
Что важнее: белый фон или сохранность знаков?
Для архива важнее не потерять элементы символов. Чуть “серее” фон в мастере — нормальная плата за сохранённые штрихи.
TIFF или PDF?
Для 1‑битных страниц как “изображения-оригиналы” обычно удобнее TIFF G4. Для выдачи комплектом и/или с OCR — PDF (а при архивных требованиях — PDF/A).