DeepSeek
DeepSeek (кит. 杭州深度求索人工智能基础技术研究有限公司) — китайская компания в области искусственного интеллекта, специализирующаяся на разработке больших языковых моделей (LLM). Штаб-квартира расположена в Ханчжоу (провинция Чжэцзян, Китай). DeepSeek принадлежит и финансируется хедж-фондом High-Flyer, основана в июле 2023 года Лянем Вэньфэном — сооснователем и CEO High-Flyer, который также занимает пост генерального директора DeepSeek[2]. Компания разрабатывает линейку языковых моделей DeepSeek, а также чат-бот с тем же названием.
DeepSeek стала заметным игроком на глобальном рынке ИИ благодаря собственным архитектурам (включая Mixture of Experts, MLA) и низким затратам на обучение моделей[3][4]. Основная продукция — большие языковые и мультимодальные модели DeepSeek (серии V2, V3, R1 и др.), используемые в чат-ботах, инженерных и научных задачах.
Что важно знать
| DeepSeek | |
|---|---|
| кит. 杭州深度求索人工智能基础技术研究有限公司 | |
| Тип | частная компания |
| Основание | 2023 |
| Основатели | Лян Вэньфэн |
| Расположение | Ханчжоу, Чжэцзян, Китай |
| Ключевые фигуры | Лян Вэньфэн — генеральный директор |
| Отрасль |
Информационные технологии Искусственный интеллект |
| Владелец | High-Flyer |
| Число сотрудников | 160 (2025)[1] |
| Материнская компания | High-Flyer |
| Сайт | deepseek.com |
История
В феврале 2016 года Лян Вэньфэн совместно с партнёрами основал хедж-фонд High-Flyer с акцентом на применение искусственного интеллекта в торговых алгоритмах[5]. С 2016 года структура начала использовать обучаемые модели на GPU для торговых операций. К 2021 году High-Flyer полностью перешёл на алгоритмы с поддержкой ИИ[6]. В 2019 году компания создала первый вычислительный кластер Fire-Flyer (1 100 GPU), в 2021 году — Fire-Flyer 2 (5 000 GPU), активно использовавшийся для обучения моделей до 2025 года[7].
В апреле 2023 года High-Flyer объявил о запуске исследовательской лаборатории AGI, фокусирующейся на инструментах общего искусственного интеллекта вне финансового сектора[8]. 17 июля 2023 года лаборатория была выделена в самостоятельную компанию DeepSeek, инвестором и владельцем которой стал High-Flyer[6][9].
В ноябре 2023 года DeepSeek выпустила первые модели — DeepSeek Coder и DeepSeek-LLM; в январе 2024 года — DeepSeek-MoE; далее последовали серии DeepSeek-Math, V2, V2.5, затем V3, V3.1, а также Reasoning-модель DeepSeek-R1 (2024—2025)[10].
В январе 2025 года состоялся запуск чат-бота на основе DeepSeek-R1 для платформ iOS и Android. К 27 января приложение обогнало ChatGPT по количеству скачиваний в американском App Store[11].
Позднее модели DeepSeek стали объектом экспортных и регуляторных ограничений со стороны властей США[12].
1 декабря 2025 года DeepSeek выпустил две новые модели: DeepSeek-V3.2 и DeepSeek-V3.2-Speciale. Разработчики отмечают новую методику обучения, сочетающая надёжные протоколы с масштабными вычислениями и усовершенствованный механизм внимания, который позволяет эффективно обрабатывать большие объёмы текста, не теряя в качестве работы[13].
Деятельность и продукция
DeepSeek занимается разработкой открытых больших языковых моделей (open weight, MIT License), фреймворков и инфраструктуры для ИИ, а также исследований в области генеративного искусственного интеллекта. Фирма ориентируется прежде всего на научные и исследовательские применения LLM, а не на массовую монетизацию[14].
- DeepSeek-LLM — семейство крупных языковых моделей (7B-67B параметров), архитектурно близких к Llama 2.
- DeepSeek-MoE — серия моделей с применением архитектуры mixture of experts (MoE).
- DeepSeek-Math — специализированные математические модели (Base, Instruct, RL).
- DeepSeek-Coder — AI-модели для генерации кода и программирования.
- DeepSeek V2/V2.5 — модели с поддержкой MLA (multi-head latent attention), расширенным контекстом до 128K и MoE.
- DeepSeek V3/V3.1 — усовершенствованные модели с multi-token prediction и гибридной архитектурой (thinking/non-thinking modes), 671—800+ млрд параметров.
- DeepSeek-R1 — reasoning-модель (логико-математические способности), под лицензией MIT.
- DeepSeek VL2, Prover, Distill и др.
Сравнительные тесты показывают, что DeepSeek-R1 и V3 по качеству решений сопоставимы с GPT-4, GPT-4o и Claude 3.5 Sonnet, превосходя Llama 3.1 и Qwen 2.5.
Модели распространяются в формате с открытыми весами; права модификации ограничены по сравнению с классическим открытым ПО[15].
- научные исследования, анализ данных;
- генерация кода и помощь программистам;
- автоматизация математических, логических и инженерных задач;
- разработка чат-ботов и пользовательских приложений.
Корпоративное управление
Генеральный директор и сооснователь — Лян Вэньфэн. По состоянию на май 2024 года через две структуры-оболочки Ляну принадлежит 84 % уставного капитала DeepSeek[16].
Компания принадлежит и финансируется High-Flyer, ключевые решения принимаются Ляном Вэньфэном.
Финансовые показатели
| Основная версия | Дата релиза | Статус | Ключевые варианты | Примечания |
|---|---|---|---|---|
| DeepSeek Coder | 2 ноября 2023 | прекращена | Base, Instruct | Архитектура аналогична Llama |
| DeepSeek-LLM | 29 ноября 2023 | прекращена | Base; Chat (SFT) | Смежно с Coder |
| DeepSeek-MoE | 9 января 2024 | прекращена | Base; Chat | Первая MoE-модель (mixture of experts) |
| DeepSeek-Math | апрель 2024 | прекращена | Base; Instruct; RL | Модели для математики, GRPO PPO |
| DeepSeek V2 | май 2024 | прекращена | V2, V2-Chat, V2-Lite, V2.5, Coder-V2 и др. | MLA, MoE, KV-кэширование |
| DeepSeek V3 | декабрь 2024 | активна | V3-Base, V3-Chat | Multi-token prediction, обновлена март 2025 |
| DeepSeek-Prover-V2 | май 2025 | активна | Prover-V2-671B, Prover-V2-7B | |
| DeepSeek VL2 | 13 декабря 2024 | активна | — | |
| DeepSeek R1 | ноябрь 2024 — май 2025 | активна | R1-Lite-Preview, R1, R1-Zero, R1-0528, Distill и др. | |
| DeepSeek V3.1 | 21 августа 2025 | активна | V3.1-Base, V3.1-Chat | Гибридная архитектура (режимы «мышление»/«без мышления») |


