Обработка документов
Обработка документов (англ. document processing) — область научных исследований и совокупность производственных процессов, направленных на перевод аналогового документа в цифровую форму. Обработка документов включает не только фотографирование или сканирование документа для получения цифрового изображения, но и обеспечение его цифровой интерпретируемости. Это предполагает извлечение структуры документа или выполнения разметки макета, а затем содержимого, представленное в виде текста или изображений. В процессе могут быть задействованы традиционные алгоритмы компьютерного зрения, свёрточные нейронные сети или ручной труд. Среди решаемых задач — семантическая сегментация, обнаружение объектов, оптическое распознавание символов (OCR), распознавание рукописного текста (HTR) и, шире, транскрипция — как автоматическая, так и ручная[1]. Термин также может включать этап оцифровки документа с помощью сканера и стадию интерпретации, например, с использованием технологий обработки естественного языка (NLP) или классификации изображений. Обработка документов широко применяется в различных отраслях промышленности и науки для оптимизации административных процессов, обработки корреспонденции, а также оцифровки аналоговых архивов и исторических документов.
Предпосылки
Обработка документов изначально, и до некоторой степени до сих пор, представляет собой разновидность конвейерной работы, связанной с обработкой различных документов, таких как письма и посылки, с целью сортировки, извлечения или массового извлечения данных. Эта работа может выполняться штатными силами или посредством аутсорсинга бизнес-процессов[2][3]. Обработка документов может предполагать и внешний ручной труд, например с помощью платформ наподобие Mechanical Turk.
Примером ручной обработки документов может служить работа по рассмотрению «миллионов заявок на визы и гражданство» в 2007 году[4], при которой около тысячи подрядных работников занимались «управлением почтовым отделением и вводом данных».
Хотя обработка документов предусматривала ручной ввод данных задолго до появления компьютерной мыши или компьютерного сканера, статья 1990 года в газете «The New York Times», посвящённая концепции «безбумажного офиса», отмечала, что «обработка документов начинается со сканирования»[5]. В этом контексте бывший вице-президент Xerox Пол Страссманн выразил критическую точку зрения, заявив, что компьютеры не снижают, а увеличивают объёмы бумажных документов в офисе[5]. Отмечалось, что инженерные и технические документы по эксплуатации самолёта могут весить «больше, чем сам самолёт».
Автоматическая обработка документов
С развитием текущего уровня данной области обработка документов перешла на уровень представления «компонентов документов как сущностей базы данных»[6].
Технология автоматической обработки документов, иногда также называемая интеллектуальной обработкой документов (IDP), возникла как специфическая форма интеллектуальной автоматизации процессов (IPA), объединяя искусственный интеллект, такие как машинное обучение (ML), обработка естественного языка (NLP) и интеллектуальное распознавание символов (ICE) для извлечения данных из различных типов документов[7][8]. Современные системы автоматической обработки документов (Intelligent Document Processing) позволяют обрабатывать неструктурированные данные с меньшим количеством исключений и на более высоких скоростях[9].
Автоматическая обработка документов применяется ко множеству документов независимо от их структуры. В частности, в бизнесе и финансах такие технологии используют для работы с бумажными счетами-фактурами, бланками, заказами на закупку, контрактами и купюрами[10]. Финансовые организации используют интеллектуальные системы для обработки больших объёмов форм, таких как регуляторная документация или заявки на кредиты. Интеллектуальная обработка документов заменяет ручной ввод данных, извлекая и классифицируя информацию с помощью ИИ[11].
Технологии также находят применение в логистике и управлении персоналом. В сфере управления цепочками поставок они позволяют ускорить сбор данных из транспортных накладных и таможенных деклараций[12]. В области управления персоналом (HR) автоматизируется обработка резюме, заявлений и других кадровых документов[13].
В медицине методы обработки документов применяют для отслеживания пациентов и оптимизации управленческих процедур, в частности за счёт оцифровки медицинских или лабораторных заключений. Кроме того, обработка документов позволяет унифицировать медицинские базы данных[14]. Алгоритмы также применяются, чтобы помогать врачам при постановке диагноза, например, при анализе магнитно-резонансных изображений[15][16], или микроскопических изображений[17].
Обработка документов широко используется и в гуманитарных, и в цифровых гуманитарных науках, для извлечения исторических данных из архивов и культурных коллекций. Для работы с различными источниками, включая текстовые документы (например, газетные архивы)[18], изображения[19], или карты[20][21], были разработаны специфические подходы.
Если с 1980-х годов решения для обработки документов базировались на традиционных алгоритмах компьютерного зрения[22][23], в 2010-х годах им на смену пришли алгоритмы на основе нейронных сетей[24]. Тем не менее, классические алгоритмы компьютерного зрения по-прежнему применяются, иногда в сочетании с нейронными сетями, в отдельных областях.
Ключевыми технологиями в обработке документов выступают оптическое распознавание символов (OCR) и распознавание рукописного текста (HTR), позволяющие осуществлять автоматическую транскрипцию текста. Текстовые сегменты обнаруживаются с помощью алгоритмов инстанс- или обнаружения объектов, которые могут также определять структуру документа. Для последней задачи нередко применяют также алгоритмы семантической сегментации.
Эти технологии часто составляют базовый уровень обработки документов, однако и до, и после них могут применяться альтернативные алгоритмы. Среди них — технологии оцифровки документов, включая как классическое, так и трёхмерное сканирование[25]. Оцифровка 3D-документов может базироваться на производных фотограмметрии. Для оцифровки особо крупных документов или в целях повышения эргономики иногда разрабатываются специализированные 2D-сканеры[19]. Важную роль играет и цифровое кодирование документов в подходящем формате файла. Кроме того, обработка гетерогенных баз данных опирается на технологии классификации изображений.
В финальных этапах применяются разные алгоритмы для дорисовки/очистки изображений или для финальной обработки данных. Для текстовых документов при интерпретации может использоваться обработка естественного языка (NLP).
С начала 2020-х годов развитие технологий интеллектуальной обработки документов (IDP) было связано с несколькими ключевыми тенденциями. IDP-решения стали неотъемлемой частью концепции гиперавтоматизации, интегрируясь с роботизированной автоматизацией процессов (RPA) для создания сквозных интеллектуальных рабочих процессов[26][27]. Произошёл массовый переход на облачные платформы, которые обеспечивают большую масштабируемость и доступ к передовым технологиям ИИ и стали доминирующими к 2024 году.
Главным технологическим сдвигом стала интеграция генеративного ИИ и больших языковых моделей (LLM)[28]. Это позволило перейти от простого извлечения данных к глубокому семантическому пониманию неструктурированного контента, его анализу и обобщению[29], причём часто без необходимости предварительного обучения моделей на конкретных типах документов[30]. Наряду с этим, получили развитие мультимодальные системы, способные обрабатывать различные типы данных, включая текст, голос и изображения[31]. Одновременно фокус сместился на повышение надёжности ИИ и борьбу с «галлюцинациями» генеративных моделей[32].
Современное развитие и рынок
В 2021 году рынок интеллектуальной обработки документов (IDP) показал значительный рост, ускоренный глобальным переходом на удалённую работу и цифровой трансформацией бизнеса. Объём мирового рынка оценивался в 1,1—1,2 млрд долларов США[33][34]. Рост был обусловлен последствиями пандемии COVID-19, которая подчеркнула необходимость в непрерывности бизнес-процессов и повышении эффективности за счёт автоматизации[35]. Ключевыми тенденциями стали интеграция IDP в стратегии гиперавтоматизации совместно с RPA[36], рост популярности облачных решений и фокус на обработке неструктурированных данных, составляющих до 80 % корпоративной информации[37].
В 2022 году тенденции получили дальнейшее развитие: IDP-решения стали неотъемлемой частью сквозных интеллектуальных рабочих процессов, а в технологиях произошёл качественный скачок в обработке неструктурированных документов, таких как договоры и электронные письма. Рынок продолжил уверенный рост, достигнув, по разным оценкам, от 1,1 до 1,5 млрд долларов[38]. Основными драйверами роста оставались потребность в сокращении операционных расходов и повышении производительности.
Для российского рынка 2022 год стал переломным из-за ухода крупных международных вендоров, включая Kofax, Adobe и ABBYY[39]. Это событие стимулировало импортозамещение: освободившиеся ниши начали занимать отечественные разработчики. В апреле 2022 года команда менеджмента бывшего российского офиса ABBYY создала независимую компанию Content AI, которая унаследовала технологии и стала одним из лидеров на российском рынке[39].
В 2023 году мировой рынок интеллектуальной обработки документов достиг 1,7 млрд долларов[40]. Главным технологическим трендом этого периода стала интеграция генеративного ИИ и больших языковых моделей (LLM). Это позволило перейти от простого извлечения данных к глубокому семантическому пониманию неструктурированного контента, его анализу и обобщению. На российском рынке этот период характеризовался активным импортозамещением после ухода западных вендоров.
В 2024 году продолжился рост рынка, а облачные IDP-решения стали доминирующими, предоставляя доступ к передовым технологиям ИИ. Генеративный ИИ позволил не только извлекать информацию, но и анализировать, обобщать и создавать новые документы на основе имеющихся[41]. Получили развитие мультимодальные системы, способные обрабатывать различные типы данных, включая текст, голос и изображения. Исследование, проведённое в 2024 году, показало, что 80 % российских организаций за последние пять лет внедряли технологии автоматизации работы с документами.
К 2025 году IDP-решения стали массово внедряться: по данным исследования AIIM, 78 % предприятий уже использовали искусственный интеллект в своих системах[42]. Ключевыми направлениями развития стали повышение надёжности ИИ и борьба с «галлюцинациями», а также применение LLM для обработки сложных документов без предварительного обучения. Технологии начали активно применяться не только для внутренних процессов (бэк-офис), но и в задачах, ориентированных на клиента (фронт-офис)[42]. Среди практических примеров внедрения — ускорение обработки ипотечных договоров в банке ДОМ.РФ, обработка сотен тысяч документов в месяц в НПФ «Будущее»[43] и повышение доли извлечения металлов из руды в «Норникеле» на 2,5 %[44].


