Gensim

Gensim — это открытая библиотека для обучения без учителя, предназначенная для тематического моделирования, индексации документов, поиска по сходству и других задач обработки естественного языка, основанная на современных статистических методах машинного обучения.

Gensim реализована на Питоне и Cython для повышения производительности. Библиотека спроектирована для работы с большими коллекциями текстов посредством потоковой обработки данных и инкрементальных онлайн-алгоритмов, что отличает её от большинства других пакетов машинного обучения, ориентированных только на обработку в оперативной памяти.

Что важно знать
Gensim
Тип Информационный поиск
Автор Радим Ржегурек
Разработчик RARE Technologies Ltd.
Написана на Python, Cython
Операционные системы Linux, Windows, macOS
Первый выпуск 2009
Последняя версия
Репозиторий github.com/RaRe-Technolo…
Лицензия LGPL
Сайт radimrehurek.com/gensim/

Возможности

Gensim включает потоковые и параллелизированные реализации алгоритмов fastText[2], word2vec и doc2vec[3], а также латентно-семантический анализ (LSA, LSI, SVD), неотрицательная матричная факторизация (NMF), латентное размещение Дирихле (LDA), tf-idf и случайные проекции[4].

Ряд оригинальных онлайн-алгоритмов Gensim также был представлен в диссертации Радима Ржегурека «Scalability of Semantic Analysis in Natural Language Processing» (2011)[5].

Использование

Библиотека Gensim по состоянию на 2018 год применяется и цитируется более чем в 1400 коммерческих и академических проектах[6], охватывающих широкий спектр областей — от медицины и анализа страховых претензий до патентного поиска[7]. Программное обеспечение освещалось в новостных публикациях, подкастах и интервью.[8][9][10]

Свободная и коммерческая поддержка

Открытый исходный код Gensim разрабатывается и размещается на GitHub[11], а поддержка сообщества осуществляется через Google Groups[12] и Gitter[13].

Gensim также коммерчески поддерживается компанией rare-technologies.com, которая предлагает программу менторства для студентов и исследовательские стажировки по проекту Gensim через свой Инкубатор[14].

Примечания

Ссылки