Распознавание накладных и счетов‑фактур без ручного ввода
Чтобы OCR для накладных и счетов‑фактур реально экономил время, нужно не просто «распознать текст», а автоматически определить тип документа, извлечь нужные поля и строки таблицы, проверить арифметику и загрузить результат в 1С/ERP с быстрым экраном верификации для исключений.
Оглавление
Что должно уметь OCR для первички (на деле — IDP)
Обычный OCR отвечает на вопрос «какой текст на изображении». Для первичных документов этого мало: бухгалтерии нужен результат в виде структурированных данных, готовых к созданию документа в учетной системе. Поэтому ориентируйтесь на IDP-подход (интеллектуальная обработка документов), где есть:
- Классификация: отличить ТОРГ‑12 от УПД, счета‑фактуры, акта, письма/вложения «не по форме».
- Извлечение полей: номер, дата, контрагенты, суммы, НДС, реквизиты.
- Табличная часть (строки): номенклатура/услуги, количество, цена, ставка НДС, суммы по строкам.
- Валидация: контроль обязательных полей и математических связей.
- Human-in-the-loop: оператор видит подсветку распознанных зон и правит только спорное, а не перепечатывает всё.
Какие поля извлекать из накладных, УПД и счетов‑фактур
Фиксируйте «боевой минимум» — так проще добиться стабильного качества и быстро выйти в экономию.
Начните с шапки + 4–6 ключевых колонок в строках. 80% эффекта обычно даёт именно этот минимум, а расширение полей добавляйте итерациями по результатам пилота.
Счет‑фактура / УПД (функция счета‑фактуры)
Шапка: номер, дата, продавец/покупатель, ИНН/КПП, сумма без НДС, НДС, сумма с НДС, ставка(и) НДС.
Таблица: наименование, кол-во, ед. изм., цена, сумма без НДС, ставка НДС, сумма НДС, сумма с НДС.
Накладная (ТОРГ‑12) / УПД (функция накладной)
Шапка: номер, дата, поставщик/покупатель, сумма документа, основание (договор/заказ/счет — опционально).
Таблица: наименование, количество, цена, сумма, НДС (если выделен), итоги.
Если у вас часто встречаются артикулы, коды поставщика, ГТД/страна — включайте их только после того, как стабилизировали базовые поля и таблицу.
Внедрение: пилот, проверки и маршрут обработки
1) Опишите цель в цифрах (иначе качество «не померить»):
- среднее время на документ (например, 8 → 2 минуты);
- доля документов с корректной шапкой без правок (например, ≥95%);
- доля строк таблицы, требующих правки (например, ≤20–30%).
2) Соберите тестовый набор из реальных файлов: цифровые PDF, обычные сканы и «тяжёлые» случаи (фото, перекос, печати, низкое качество). Обязательно добавьте документы с длинными таблицами и разными ставками НДС.
3) Включите валидацию до загрузки в 1С/ERP:
- сумма без НДС + НДС = сумма с НДС (с учетом правила округления);
- сумма строк = итоги (с допуском на копейки по вашей методике);
- ставка НДС только из допустимого списка;
- форматы ИНН/КПП и обязательность ключевых реквизитов.
Без валидации система может «уверенно» распознавать неверные цифры. Это опаснее ручного ввода: ошибка быстро попадает в учет и сложнее отлавливается.
4) Постройте два маршрута:
- Straight-through: высокая уверенность + проверки пройдены → документ создаётся автоматически, скан прикрепляется.
- Exceptions: всё сомнительное → в короткую верификацию (один экран, подсветка, горячие клавиши, минимум кликов).
Сравнение подходов внедрения (кратко)
| Подход | Когда подходит | Главный риск |
|---|---|---|
| Встроенное распознавание в учетной системе | быстрый старт, фокус на ввод в 1С | может «плыть» на нестандартных шаблонах и сложных таблицах |
| Корпоративная IDP-платформа | много поставщиков, потоки, роли, аудит, несколько систем-получателей | требуется настройка, обучение и сопровождение |
| OCR/API + своя логика | есть разработка, нужен контроль и кастомные правила | интеграция и поддержка на вашей стороне |
Частые ошибки
- Пилот на идеальных PDF вместо реальных «кривых» сканов → в проде качество падает.
- Нет правил округлений и допусков (по строкам или по документу) → постоянные расхождения в НДС/итогах.
- Игнорируется сопоставление справочников (контрагенты/номенклатура) → оператор всё равно вручную выбирает позиции.
- Пытаются извлечь максимум полей сразу → сроки растут, качество не стабилизируется.
FAQ
Нужен ли IDP, если “OCR и так распознаёт текст”?
Да, потому что для учета важны поля и строки в структуре, а не просто текстовый слой.
Что самое сложное в накладных и счетах‑фактурах?
Табличная часть: переносы строк, «съехавшие» колонки, печати поверх цифр, разные макеты у поставщиков.
Как понять, что решение готово к промышленной эксплуатации?
Когда на вашем потоке достигнуты целевые метрики по времени, доле автозаполнения и числу правок строк, а ошибки ловятся валидацией до загрузки в 1С/ERP.