Gensim
Gensim — это открытая библиотека для обучения без учителя, предназначенная для тематического моделирования, индексации документов, поиска по сходству и других задач обработки естественного языка, основанная на современных статистических методах машинного обучения.
Gensim реализована на Питоне и Cython для повышения производительности. Библиотека спроектирована для работы с большими коллекциями текстов посредством потоковой обработки данных и инкрементальных онлайн-алгоритмов, что отличает её от большинства других пакетов машинного обучения, ориентированных только на обработку в оперативной памяти.
Что важно знать
| Gensim | |
|---|---|
| Тип | Информационный поиск |
| Автор | Радим Ржегурек |
| Разработчик | RARE Technologies Ltd. |
| Написана на | Python, Cython |
| Операционные системы | Linux, Windows, macOS |
| Первый выпуск | 2009 |
| Последняя версия |
|
| Репозиторий | github.com/RaRe-Technolo… |
| Лицензия | LGPL |
| Сайт | radimrehurek.com/gensim/ |
Возможности
Gensim включает потоковые и параллелизированные реализации алгоритмов fastText[2], word2vec и doc2vec[3], а также латентно-семантический анализ (LSA, LSI, SVD), неотрицательная матричная факторизация (NMF), латентное размещение Дирихле (LDA), tf-idf и случайные проекции[4].
Ряд оригинальных онлайн-алгоритмов Gensim также был представлен в диссертации Радима Ржегурека «Scalability of Semantic Analysis in Natural Language Processing» (2011)[5].
Использование
Библиотека Gensim по состоянию на 2018 год применяется и цитируется более чем в 1400 коммерческих и академических проектах[6], охватывающих широкий спектр областей — от медицины и анализа страховых претензий до патентного поиска[7]. Программное обеспечение освещалось в новостных публикациях, подкастах и интервью.[8][9][10]
Свободная и коммерческая поддержка
Открытый исходный код Gensim разрабатывается и размещается на GitHub[11], а поддержка сообщества осуществляется через Google Groups[12] и Gitter[13].
Gensim также коммерчески поддерживается компанией rare-technologies.com, которая предлагает программу менторства для студентов и исследовательские стажировки по проекту Gensim через свой Инкубатор[14].


