RapidMiner
RapidMiner — платформа для data science, предназначенная для анализа совокупного воздействия данных организации. В сентябре 2022 года компания была приобретена Altair Engineering[1], а в марте 2025 года Altair Engineering была куплена компанией Siemens примерно за 10 миллиардов долларов США[2].
Общие сведения
| RapidMiner | |
|---|---|
| Тип | data science, машинное обучение, прогнозная аналитика |
| Разработчик | RapidMiner |
| Написана на | Java |
| Операционная система | кроссплатформенное ПО |
| Первый выпуск | 2006 |
| Аппаратная платформа | Java Virtual Machine |
| Последняя версия | 10.1 (31 января 2023) |
| Лицензия | Professional и Enterprise — проприетарные; Free Edition (ограничение 10 000 строк и 1 логический процессор) доступна под AGPL |
| Сайт | rapidminer.com |
История
RapidMiner, ранее известная как YALE (Yet Another Learning Environment), была создана Ральфом Клинкенбергом, Инго Мерсва и Саймоном Фишером в 2001 году в отделе искусственного интеллекта Технического университета Дортмунда[3]. С 2006 года развитие программы осуществлялось компанией Rapid-I, основанной Инго Мерсва и Ральфом Клинкенбергом в том же году[4]. В 2013 году компания Rapid-I сменила название на RapidMiner[5].
Описание
RapidMiner использует модель клиент-сервер, при этом сервер может быть развёрнут как на стороне клиента, так и в публичных или частных облачных инфраструктурах.
Программа предоставляет процедуры data mining и машинного обучения, включая загрузку и трансформацию данных (ETL), предобработку и визуализацию данных, прогнозную аналитику и статистическое моделирование, оценку и внедрение моделей. RapidMiner написан на языке программирования Java. В программе реализован графический интерфейс для конструирования и выполнения аналитических процессов, которые называются «Процессами» («Processes») и состоят из последовательности «Операторов» («Operators»). Каждый оператор выполняет отдельную задачу внутри процесса, а его результат подаётся на вход следующему оператору. Помимо графического интерфейса, движок RapidMiner может вызываться из других приложений или использоваться через API, а отдельные функции доступны из командной строки. Система поддерживает различные алгоритмы обучения и модели, которые могут быть расширены с помощью скриптов на R и Python[6].
В RapidMiner доступны плагины из RapidMiner Marketplace — платформы для разработчиков, на которой можно создавать алгоритмы анализа данных и публиковать их для сообщества[7].
Бесплатная версия RapidMiner Studio Free Edition (с ограничением до одного логического процессора и 10 000 строк данных) доступна под лицензией AGPL[8].
Использование
Согласно ряду обзоров, RapidMiner предоставляет широкие возможности для полной автоматизации построения моделей. В ежегодном опросе 2018 года среди пользователей программного обеспечения для анализа данных, проведённом KDnuggets, RapidMiner отмечен как одно из самых популярных решений, причём многие респонденты указали его как основной используемый инструмент[9]. RapidMiner имеет миллионы загрузок и более 400 000 пользователей по всему миру, среди которых — такие компании, как BMW, Intel, Cisco, GE и Samsung, являющиеся платными клиентами. Компания заявляет о лидерстве на рынке платформ для data science, конкурируя с решениями SAS и IBM[10].
Разработка
Около 50 разработчиков по всему миру принимали участие в создании открытой версии RapidMiner, при этом большинство из них являлись сотрудниками компании RapidMiner[11]. Компания, разрабатывающая RapidMiner, привлекла 16 миллионов долларов инвестиций на раунде C при участии венчурных фондов Nokia Growth Partners, Ascent Venture Partners, Longworth Venture Partners, Earlybird Venture Capital и Open-Ocean. Партнёр Open-Ocean Микаэль «Monty» Видениус также известен как один из основателей MySQL[12].
Компоненты
Платформа RapidMiner для работы с данными включает следующие основные компоненты:[13] RapidMiner Studio, RapidMiner AI Hub и RapidMiner Go, которые могут быть развёрнуты как часть AI Hub. Доступны обучающие материалы, разъясняющие взаимосвязи между компонентами платформы и рекомендации по использованию для разных групп пользователей и сценариев.