Латентное размещение Дирихле

Латентное размещение Дирихле
Латентное размещение Дирихле
Названо в честь	Распределение Дирихле
Изучается в	статистика
Дата основания / создания / возникновения	2000 и 2003
Краткое имя/название	LDA
Вдохновлено	TF-IDF и Latent semantic indexing[d]

Латентное размещение Дирихле
Латентное размещение Дирихле
Названо в честь	Распределение Дирихле
Изучается в	статистика
Дата основания / создания / возникновения	2000 и 2003
Краткое имя/название	LDA
Вдохновлено	TF-IDF и Latent semantic indexing[d]

Латентное размещение Дирихле (LDA, от англ. Latent Dirichlet allocation) — применяемая в машинном обучении и информационном поиске порождающая модель, позволяющая объяснять результаты наблюдений с помощью неявных групп, благодаря чему возможно выявление причин сходства некоторых частей данных. Например, если наблюдениями являются слова, собранные в документы, утверждается, что каждый документ представляет собой смесь небольшого количества тем и что появление каждого слова связано с одной из тем документа. LDA является одним из методов тематического моделирования и впервые был представлен в качестве графовой модели для обнаружения тематик Дэвидом Блеем, Эндрю Ыном и Майклом Джорданом в 2003 году^[2].

В LDA каждый документ может рассматриваться как набор различных тематик. Подобный подход схож с вероятностным латентно-семантическим анализом (pLSA) с той разницей, что в LDA предполагается, что распределение тематик имеет в качестве априори распределения Дирихле. На практике в результате получается более корректный набор тематик.

К примеру, модель может иметь тематики классифицируемые как «относящиеся к кошкам» и «относящиеся к собакам», тематика обладает вероятностями генерировать различные слова, такие как «мяу», «молоко» или «котёнок», которые можно было бы классифицировать как «относящиеся к кошкам», а слова, не обладающие особой значимостью (к примеру, служебные слова), будут обладать примерно равной вероятностью в различных тематиках.

topicmodels и lda реализации LDA для R.
LDA, exampleLDA — реализация LDA и пример для MATLAB.
код, демо — реализация LDA и пример с анализом текста в python

[2]

[1]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов Извлечение коллокаций Стемминг Лемматизация Распознавание именованных сущностей Разрешение кореферентности Анализ тональности текста Извлечение концептов Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии Извлечение информации Идентификация языка Определение регистра
Реферирование	Извлечение предложений Генерация реферата Упрощение текста
Машинный перевод	Автоматизированный Гибридный Интерлингвальный На основе правил На основе примеров На основе словаря На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений Конкордансер Предиктивный ввод текста Система проверки грамматики Система проверки правописания Угадывание синтаксиса
Интерфейс на естественном языке	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Латентное размещение Дирихле

Примечания

Ссылки