Распознавание накладных и счетов‑фактур без ручного ввода

Чтобы OCR для накладных и счетов‑фактур реально экономил время, нужно не просто «распознать текст», а автоматически определить тип документа, извлечь нужные поля и строки таблицы, проверить арифметику и загрузить результат в 1С/ERP с быстрым экраном верификации для исключений.

Оглавление

Что должно уметь OCR для первички (на деле — IDP)

Обычный OCR отвечает на вопрос «какой текст на изображении». Для первичных документов этого мало: бухгалтерии нужен результат в виде структурированных данных, готовых к созданию документа в учетной системе. Поэтому ориентируйтесь на IDP-подход (интеллектуальная обработка документов), где есть:

  • Классификация: отличить ТОРГ‑12 от УПД, счета‑фактуры, акта, письма/вложения «не по форме».
  • Извлечение полей: номер, дата, контрагенты, суммы, НДС, реквизиты.
  • Табличная часть (строки): номенклатура/услуги, количество, цена, ставка НДС, суммы по строкам.
  • Валидация: контроль обязательных полей и математических связей.
  • Human-in-the-loop: оператор видит подсветку распознанных зон и правит только спорное, а не перепечатывает всё.

Какие поля извлекать из накладных, УПД и счетов‑фактур

Фиксируйте «боевой минимум» — так проще добиться стабильного качества и быстро выйти в экономию.

Начните с шапки + 4–6 ключевых колонок в строках. 80% эффекта обычно даёт именно этот минимум, а расширение полей добавляйте итерациями по результатам пилота.

Счет‑фактура / УПД (функция счета‑фактуры)
Шапка: номер, дата, продавец/покупатель, ИНН/КПП, сумма без НДС, НДС, сумма с НДС, ставка(и) НДС.
Таблица: наименование, кол-во, ед. изм., цена, сумма без НДС, ставка НДС, сумма НДС, сумма с НДС.

Накладная (ТОРГ‑12) / УПД (функция накладной)
Шапка: номер, дата, поставщик/покупатель, сумма документа, основание (договор/заказ/счет — опционально).
Таблица: наименование, количество, цена, сумма, НДС (если выделен), итоги.

Если у вас часто встречаются артикулы, коды поставщика, ГТД/страна — включайте их только после того, как стабилизировали базовые поля и таблицу.

Внедрение: пилот, проверки и маршрут обработки

1) Опишите цель в цифрах (иначе качество «не померить»):

  • среднее время на документ (например, 8 → 2 минуты);
  • доля документов с корректной шапкой без правок (например, ≥95%);
  • доля строк таблицы, требующих правки (например, ≤20–30%).

2) Соберите тестовый набор из реальных файлов: цифровые PDF, обычные сканы и «тяжёлые» случаи (фото, перекос, печати, низкое качество). Обязательно добавьте документы с длинными таблицами и разными ставками НДС.

3) Включите валидацию до загрузки в 1С/ERP:

  • сумма без НДС + НДС = сумма с НДС (с учетом правила округления);
  • сумма строк = итоги (с допуском на копейки по вашей методике);
  • ставка НДС только из допустимого списка;
  • форматы ИНН/КПП и обязательность ключевых реквизитов.

Без валидации система может «уверенно» распознавать неверные цифры. Это опаснее ручного ввода: ошибка быстро попадает в учет и сложнее отлавливается.

4) Постройте два маршрута:

  • Straight-through: высокая уверенность + проверки пройдены → документ создаётся автоматически, скан прикрепляется.
  • Exceptions: всё сомнительное → в короткую верификацию (один экран, подсветка, горячие клавиши, минимум кликов).

Сравнение подходов внедрения (кратко)

ПодходКогда подходитГлавный риск
Встроенное распознавание в учетной системебыстрый старт, фокус на ввод в 1Сможет «плыть» на нестандартных шаблонах и сложных таблицах
Корпоративная IDP-платформамного поставщиков, потоки, роли, аудит, несколько систем-получателейтребуется настройка, обучение и сопровождение
OCR/API + своя логикаесть разработка, нужен контроль и кастомные правилаинтеграция и поддержка на вашей стороне

Частые ошибки

  • Пилот на идеальных PDF вместо реальных «кривых» сканов → в проде качество падает.
  • Нет правил округлений и допусков (по строкам или по документу) → постоянные расхождения в НДС/итогах.
  • Игнорируется сопоставление справочников (контрагенты/номенклатура) → оператор всё равно вручную выбирает позиции.
  • Пытаются извлечь максимум полей сразу → сроки растут, качество не стабилизируется.

FAQ

Нужен ли IDP, если “OCR и так распознаёт текст”?
Да, потому что для учета важны поля и строки в структуре, а не просто текстовый слой.

Что самое сложное в накладных и счетах‑фактурах?
Табличная часть: переносы строк, «съехавшие» колонки, печати поверх цифр, разные макеты у поставщиков.

Как понять, что решение готово к промышленной эксплуатации?
Когда на вашем потоке достигнуты целевые метрики по времени, доле автозаполнения и числу правок строк, а ошибки ловятся валидацией до загрузки в 1С/ERP.