Классификация документов
Классификация документов, также известная как категоризация документов, — задача, стоящая в библиотековедении, информационной науке и информатике. Её суть состоит в отнесении документа к одному или нескольким классам либо категориям. Классификация может проводиться как вручную (то есть человеком), так и алгоритмически. Ментальная (рукописная) классификация относится преимущественно к сфере библиотековедения, в то время как автоматизированная — к информационной науке и информатике. Тем не менее, эти задачи пересекаются, поэтому по проблеме классификации документов ведутся междисциплинарные исследования.
Классификации могут подвергаться тексты, изображения, музыкальные произведения и другие типы документов. Каждый вид документов обладает специфическими трудностями классификации. Если не указано иное, под классификацией документов обычно подразумевается классификация текстов.
Документы могут классифицироваться по тематике или по другим признакам (тип документа, автор, год издания и др.). В данной статье рассматривается только тематическая классификация. Принято выделять два основных подхода: ориентированный на содержание и ориентированный на спрос.
Содержательная и ориентированная на спрос классификация
Содержательная классификация заключается в том, что вес, придаваемый определённым темам в документе, определяет его принадлежность к тому или иному классу. Например, при библиотечной классификации действует правило, согласно которому тема, по которой книга классифицируется в определённый класс, должна быть раскрыта по меньшей мере на 20 % её содержания[1]. В автоматизированной классификации аналогом может выступать количество вхождений определённых слов в документе.
Классификация, ориентированная на спрос (или индексирование по потребностям) предполагает, что предполагаемый интерес пользователей влияет на то, как документы классифицируются. Классификатор задаётся вопросом: «По каким признакам этот объект должен быть найден?» и «Каким группам поисковых запросов этот документ будет релевантен?»[2]
Ориентированная на спрос классификация может быть построена под конкретную аудиторию или категорию пользователей. Например, библиотека или база данных по феминистским исследованиям будет иначе классифицировать материалы, чем историческая библиотека. Иногда данный подход называют политикой классификации: он отражает цели организации, проводящей классификацию, а не обязательно основывается на реальных пользовательских данных; только при учёте экспериментальных данных об использовании такой подход трактуется как ориентированный на пользователя.
Классификация документов и предметное индексирование
Различие между классификацией документов и присвоением предметных рубрик критиковалось Фредериком Уилфридом Ланкастером (Frederick Wilfrid Lancaster). По его мнению, такие терминологические различия бессмысленны и лишь создают путаницу[3].
Некоторые исследователи считают, что различие формально, так как классификационная система может быть превращена в тезаурус, и наоборот[4][4]; также Broughton, 2008[5]; Riesthuis & Bliedung, 1991[6].
В таком контексте присвоение документу предметных рубрик — например, включение термина из контролируемого словаря — эквивалентно его отнесению к соответствующему классу: все документы с одной рубрикой принадлежат одному и тому же классу. Таким образом, индексирование документа и помещение его в класс документов с тем же тегом функционально совпадают.
Автоматическая классификация документов
Существует три основных типа задач автоматической классификации документов:
- Классификация с обучением — используются внешние механизмы, предоставляющие корректную информацию для разметки документов (например, обратная связь и разметка со стороны экспертов).
- Обратная связь человека: коллаборативное участие людей для разметки документов и их категорий.
- Прямая разметка: классификация основывается на документах, достоверно принадлежащих той или иной категории.
- Классификация без учителя (кластеризация документов) — предполагается, что разбиение на классы проводится без использования внешней информации, только по естественным связям между документами.
- Классификация по естественным связям: формирование групп на основе схожести и других признаков содержимого.
- Полуавтоматическая классификация — часть документов размечается извне, а другая классифицируется алгоритмически (или смешанным способом)[7].
- Частичная разметка: часть документов размечает человек, а прочие классифицируются автоматически.
- Гибридные методы: сочетание надзорных и ненадзорных подходов, в том числе разметки экспертом и кластеризации по содержанию.
Для решения этих задач разработан ряд программных пакетов с различными лицензионными моделями[8].[9][10]
Среди методик автоматической классификации документов встречаются:
- Искусственные нейронные сети
- Концептуальный майнинг (Concept mining)
- Деревья решений (ID3, C4.5)
- Алгоритм максимизации ожидания (EM)
- Онлайновое обучение нейросетей
- Скрытое семантическое индексирование
- Множественное обучение по примерам (Multiple-instance learning)
- Наивный байесовский классификатор
- Подходы на базе обработки естественного языка
- Классификатор на основе грубых множеств
- Классификатор на основе размытых множеств
- Метод опорных векторов (SVM)
- Алгоритмы k-ближайших соседей
- tf-idf
Применения
Методы классификации применяются в следующих задачах:
- Фильтрация спама: процесс отделения нежелательных электронных писем от легитимных.
- Маршрутизация почты: автоматическое направление письма, отправленного на общий адрес, на конкретный ящик или адрес по его тематике[11].
- Определение языка: автоматическое распознавание языка текста.
- Типологическая классификация текстов: автоматическое определение жанра или типа текста[12].
- Оценка читабельности: автоматическое определение удобочитаемости текста, подбор материалов для разных возрастных групп или типов читателей, либо как часть системы упрощения текста.
- Анализ тональности: определение отношения автора или общей полярности документа к затронутой теме.
- Классификация по медицинским аспектам в социальных сетях: автоматическая категоризация записей, связанных со здоровьем, в системах мониторинга общественного здоровья[13].
- Ранжирование публикаций: ручный отбор релевантных статей для составления литературных баз данных, например, в биологии на этапе подготовки к ручной аннотации[14].


