Классификация документов

Классификация документов, также известная как категоризация документов, — задача, стоящая в библиотековедении, информационной науке и информатике. Её суть состоит в отнесении документа к одному или нескольким классам либо категориям. Классификация может проводиться как вручную (то есть человеком), так и алгоритмически. Ментальная (рукописная) классификация относится преимущественно к сфере библиотековедения, в то время как автоматизированная — к информационной науке и информатике. Тем не менее, эти задачи пересекаются, поэтому по проблеме классификации документов ведутся междисциплинарные исследования.

Классификации могут подвергаться тексты, изображения, музыкальные произведения и другие типы документов. Каждый вид документов обладает специфическими трудностями классификации. Если не указано иное, под классификацией документов обычно подразумевается классификация текстов.

Документы могут классифицироваться по тематике или по другим признакам (тип документа, автор, год издания и др.). В данной статье рассматривается только тематическая классификация. Принято выделять два основных подхода: ориентированный на содержание и ориентированный на спрос.

Содержательная и ориентированная на спрос классификация

Содержательная классификация заключается в том, что вес, придаваемый определённым темам в документе, определяет его принадлежность к тому или иному классу. Например, при библиотечной классификации действует правило, согласно которому тема, по которой книга классифицируется в определённый класс, должна быть раскрыта по меньшей мере на 20 % её содержания[1]. В автоматизированной классификации аналогом может выступать количество вхождений определённых слов в документе.

Классификация, ориентированная на спрос (или индексирование по потребностям) предполагает, что предполагаемый интерес пользователей влияет на то, как документы классифицируются. Классификатор задаётся вопросом: «По каким признакам этот объект должен быть найден?» и «Каким группам поисковых запросов этот документ будет релевантен?»[2].

Ориентированная на спрос классификация может быть построена под конкретную аудиторию или категорию пользователей. Например, библиотека или база данных по феминистским исследованиям будет иначе классифицировать материалы, чем историческая библиотека. Иногда данный подход называют политикой классификации: он отражает цели организации, проводящей классификацию, а не обязательно основывается на реальных пользовательских данных; только при учёте экспериментальных данных об использовании такой подход трактуется как ориентированный на пользователя.

Классификация документов и предметное индексирование

Различие между классификацией документов и присвоением предметных рубрик критиковалось Фредериком Уилфридом Ланкастером (Frederick Wilfrid Lancaster). По его мнению, такие терминологические различия бессмысленны и лишь создают путаницу[3].

Некоторые исследователи считают, что различие формально, так как классификационная система может быть превращена в тезаурус, и наоборот[4][4]; также Broughton, 2008[5]; Riesthuis & Bliedung, 1991[6].

В таком контексте присвоение документу предметных рубрик — например, включение термина из контролируемого словаря — эквивалентно его отнесению к соответствующему классу: все документы с одной рубрикой принадлежат одному и тому же классу. Таким образом, индексирование документа и помещение его в класс документов с тем же тегом функционально совпадают.

Автоматическая классификация документов

Существует три основных типа задач автоматической классификации документов:

  1. Классификация с обучением — используются внешние механизмы, предоставляющие корректную информацию для разметки документов (например, обратная связь и разметка со стороны экспертов).
    • Обратная связь человека: коллаборативное участие людей для разметки документов и их категорий.
    • Прямая разметка: классификация основывается на документах, достоверно принадлежащих той или иной категории.
  2. Классификация без учителя (кластеризация документов) — предполагается, что разбиение на классы проводится без использования внешней информации, только по естественным связям между документами.
    • Классификация по естественным связям: формирование групп на основе схожести и других признаков содержимого.
  3. Полуавтоматическая классификация — часть документов размечается извне, а другая классифицируется алгоритмически (или смешанным способом)[7].
    • Частичная разметка: часть документов размечает человек, а прочие классифицируются автоматически.
    • Гибридные методы: сочетание надзорных и ненадзорных подходов, в том числе разметки экспертом и кластеризации по содержанию.

Для решения этих задач разработан ряд программных пакетов с различными лицензионными моделями[8][9][10].

Техники

Среди методик автоматической классификации документов встречаются:

  • Искусственные нейронные сети;
  • Концептуальный майнинг (Concept mining);
  • Деревья решений (ID3, C4.5);
  • Алгоритм максимизации ожидания (EM);
  • Онлайновое обучение нейросетей;
  • Скрытое семантическое индексирование;
  • Множественное обучение по примерам (Multiple-instance learning);
  • Наивный байесовский классификатор;
  • Подходы на базе обработки естественного языка;
  • Классификатор на основе грубых множеств;
  • Классификатор на основе размытых множеств;
  • Метод опорных векторов (SVM);
  • Алгоритмы k-ближайших соседей;
  • tf-idf.

Применения

Методы классификации применяются в следующих задачах:

  • Фильтрация спама: процесс отделения нежелательных электронных писем от легитимных.
  • Маршрутизация почты: автоматическое направление письма, отправленного на общий адрес, на конкретный ящик или адрес по его тематике[11].
  • Определение языка: автоматическое распознавание языка текста.
  • Типологическая классификация текстов: автоматическое определение жанра или типа текста[12].
  • Оценка читабельности: автоматическое определение удобочитаемости текста, подбор материалов для разных возрастных групп или типов читателей, либо как часть системы упрощения текста.
  • Анализ тональности: определение отношения автора или общей полярности документа к затронутой теме.
  • Классификация по медицинским аспектам в социальных сетях: автоматическая категоризация записей, связанных со здоровьем, в системах мониторинга общественного здоровья[13].
  • Ранжирование публикаций: ручный отбор релевантных статей для составления литературных баз данных, например, в биологии на этапе подготовки к ручной аннотации[14].

Современные методы

Современные подходы к классификации документов (по состоянию на 2025—2026 годы) отошли от простых методов поиска ключевых слов и перешли к глубокому пониманию контекста и структуры. Основной фокус сместился на агентные системы и мультимодальность. Вместо жёстких алгоритмов классификации теперь используются ИИ-агенты, которые работают как «цифровые сотрудники». Классификация документов с помощью ИИ — это автоматическое определение типа, категории и содержания документа без участия человека[15]. Новейшие модели (поколения 2025—2026 гг.) анализируют не только текст, но и визуальный макет документа (Layout)[16]:

  • Обработка сканов и рукописей: Современные системы (например, Energent.ai) одинаково эффективно работают с текстовыми слоями, PDF-сканами и сложными визуальными формами.
  • Геометрия документа: Взаимное расположение таблиц, логотипов и печатей становится важным признаком для классификации, что критично для паспортов или чеков.

Традиционное дообучение (Fine-Tuning) заменяется подходом Retrieval-Augmented Generation (RAG):

  • Динамическая классификация: Вместо того, чтобы переучивать нейросеть под новые типы документов, система ищет похожие примеры в корпоративной базе знаний и классифицирует новый объект на их основе.
  • Экономия ресурсов: Этот метод позволяет снизить затраты на обучение на 60-80 %, используя существующие векторные базы данных вместо дорогого обновления параметров модели.

Примечания

  1. The subject headings manual : [англ.]. — Вашингтон, округ Колумбия : Library of Congress, Policy and Standards Division, 2008. — P. Sheet H 180: "Assign headings only for topics that comprise at least 20% of the work.".
  2. “Organizing Information: Principles of Data Base and Retrieval Systems. Dagobert Soergel”. The Library Quarterly [англ.]. 57 (1): 100—102. 1987-01. DOI:10.1086/601838. Проверьте дату в |date= (справка на английском)
  3. “Indexing and Abstracting in Theory and Practice. F. W. Lancaster”. The Library Quarterly [англ.]. 70 (4): 503—504. 2000-10. DOI:10.1086/603224. Проверьте дату в |date= (справка на английском)
  4. 1 2 Jean Aitchison (1986-03-01). “A Classification as a Source for a Thesaurus: The Bibliographic Classification of H. E. Bliss as a Source of Thesaurus Terms and Structure”. Journal of Documentation [англ.]. 42 (3): 160—181. DOI:10.1108/eb026791.
  5. Vanda Broughton (2007-12-20). “A Faceted Classification as the Basis of a Faceted Terminology: Conversion of a Classified Structure to Thesaurus Format in the Bliss Bibliographic Classification, 2nd Edition”. Axiomathes [англ.]. 18 (2): 193—210. DOI:10.1007/s10516-007-9027-7.
  6. “Tools for knowledge organization and the human interface”. Learned Publishing [англ.]. 4 (1): 38—39. 1991-01. DOI:10.1002/leap/40008. Проверьте дату в |date= (справка на английском)
  7. Rafael Geraldeli Rossi; Alneu de Andrade Lopes; Solange Oliveira Rezende (2016-03). “Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts”. Information Processing & Management [англ.]. 52 (2): 217—257. DOI:10.1016/j.ipm.2015.07.004. Проверьте дату в |date= (справка на английском)
  8. Ding-Yi Chen. On Interactive Document Classification (Thesis) [англ.]. University of Queensland Library.
  9. Magnetocaloric Effect in an Antidot : The Effect of the Aharonov-Bohm Flux and Antidot Radius (англ.). dx.doi.org (11 октября 2018). Дата обращения: 18 апреля 2024. Архивировано 18 апреля 2024 года.
  10. Solve Classification Problems (англ.). bisok.com. Дата обращения: 18 апреля 2024. Архивировано 7 декабря 2023 года.
  11. Stephan Busemann; Sven Schmeier; Roman G. Arens (2000). “Message classification in the call center”. Proceedings of the sixth conference on Applied natural language processing [англ.]. Morristown, NJ, USA: Association for Computational Linguistics. DOI:10.3115/974147.974169.
  12. Marina Santin; Rosso Rosso (2008). “Testing a Genre-Enabled Application: A Preliminary Assessment”. Electronic Workshops in Computing [англ.]. BCS Learning & Development. DOI:10.14236/ewic/fdia2008.7.
  13. From social media to public health surveillance: Word embedding based clustering method for twitter classification (англ.). IEEE Xplore. Дата обращения: 18 апреля 2024. Архивировано 25 ноября 2023 года.
  14. Martin Krallinger; Florian Leitner; Carlos Rodriguez-Penagos; Alfonso Valencia (2008). “Overview of the protein-protein interaction annotation extraction task of BioCreative II”. Genome Biology [англ.]. 9 (Suppl 2): S4. DOI:10.1186/gb-2008-9-s2-s4. Архивировано из оригинала 16 апреля 2024. Дата обращения 2024-04-18. Используется устаревший параметр |url-status= (справка)
  15. ИИ в классификации и маршрутизации документов: полный гид. 1seller. Дата обращения: 7 апреля 2026.
  16. Лучшее AI-моделирование данных из документов 2026. Energent.ai. Дата обращения: 7 апреля 2026.