DeepSeek

DeepSeek (кит. 杭州深度求索人工智能基础技术研究有限公司) — китайская компания в области искусственного интеллекта, специализирующаяся на разработке больших языковых моделей (LLM). Штаб-квартира расположена в Ханчжоу (провинция Чжэцзян, Китай). DeepSeek принадлежит и финансируется хедж-фондом High-Flyer, основана в июле 2023 года Лянем Вэньфэном — сооснователем и CEO High-Flyer, который также занимает пост генерального директора DeepSeek[2]. Компания разрабатывает линейку языковых моделей DeepSeek, а также чат-бот с тем же названием.

DeepSeek стала заметным игроком на глобальном рынке ИИ благодаря собственным архитектурам (включая Mixture of Experts, MLA) и низким затратам на обучение моделей[3][4]. Основная продукция — большие языковые и мультимодальные модели DeepSeek (серии V2, V3, R1 и др.), используемые в чат-ботах, инженерных и научных задачах.

Что важно знать
DeepSeek
кит. 杭州深度求索人工智能基础技术研究有限公司
Тип частная компания
Основание 2023
Основатели Лян Вэньфэн
Расположение Ханчжоу, Чжэцзян, Китай
Ключевые фигуры Лян Вэньфэн — генеральный директор
Отрасль Информационные технологии
Искусственный интеллект
Владелец High-Flyer
Число сотрудников 160 (2025)[1]
Материнская компания High-Flyer
Сайт deepseek.com

История

Основание и ранние годы

В феврале 2016 года Лян Вэньфэн совместно с партнёрами основал хедж-фонд High-Flyer с акцентом на применение искусственного интеллекта в торговых алгоритмах[5]. С 2016 года структура начала использовать обучаемые модели на GPU для торговых операций. К 2021 году High-Flyer полностью перешёл на алгоритмы с поддержкой ИИ[6]. В 2019 году компания создала первый вычислительный кластер Fire-Flyer (1 100 GPU), в 2021 году — Fire-Flyer 2 (5 000 GPU), активно использовавшийся для обучения моделей до 2025 года[7].

В апреле 2023 года High-Flyer объявил о запуске исследовательской лаборатории AGI, фокусирующейся на инструментах общего искусственного интеллекта вне финансового сектора[8]. 17 июля 2023 года лаборатория была выделена в самостоятельную компанию DeepSeek, инвестором и владельцем которой стал High-Flyer[6][9].

В ноябре 2023 года DeepSeek выпустила первые модели — DeepSeek Coder и DeepSeek-LLM; в январе 2024 года — DeepSeek-MoE; далее последовали серии DeepSeek-Math, V2, V2.5, затем V3, V3.1, а также Reasoning-модель DeepSeek-R1 (2024—2025)[10].

В январе 2025 года состоялся запуск чат-бота на основе DeepSeek-R1 для платформ iOS и Android. К 27 января приложение обогнало ChatGPT по количеству скачиваний в американском App Store[11].

Позднее модели DeepSeek стали объектом экспортных и регуляторных ограничений со стороны властей США[12].

1 декабря 2025 года DeepSeek выпустил две новые модели: DeepSeek-V3.2 и DeepSeek-V3.2-Speciale. Разработчики отмечают новую методику обучения, сочетающая надёжные протоколы с масштабными вычислениями и усовершенствованный механизм внимания, который позволяет эффективно обрабатывать большие объёмы текста, не теряя в качестве работы[13].

Деятельность и продукция

DeepSeek занимается разработкой открытых больших языковых моделей (open weight, MIT License), фреймворков и инфраструктуры для ИИ, а также исследований в области генеративного искусственного интеллекта. Фирма ориентируется прежде всего на научные и исследовательские применения LLM, а не на массовую монетизацию[14].

Основные модели

  • DeepSeek-LLM — семейство крупных языковых моделей (7B-67B параметров), архитектурно близких к Llama 2.
  • DeepSeek-MoE — серия моделей с применением архитектуры mixture of experts (MoE).
  • DeepSeek-Math — специализированные математические модели (Base, Instruct, RL).
  • DeepSeek-Coder — AI-модели для генерации кода и программирования.
  • DeepSeek V2/V2.5 — модели с поддержкой MLA (multi-head latent attention), расширенным контекстом до 128K и MoE.
  • DeepSeek V3/V3.1 — усовершенствованные модели с multi-token prediction и гибридной архитектурой (thinking/non-thinking modes), 671—800+ млрд параметров.
  • DeepSeek-R1 — reasoning-модель (логико-математические способности), под лицензией MIT.
  • DeepSeek VL2, Prover, Distill и др.

Сравнительные тесты показывают, что DeepSeek-R1 и V3 по качеству решений сопоставимы с GPT-4, GPT-4o и Claude 3.5 Sonnet, превосходя Llama 3.1 и Qwen 2.5.

Модели распространяются в формате с открытыми весами; права модификации ограничены по сравнению с классическим открытым ПО[15].

Области применения

  • научные исследования, анализ данных;
  • генерация кода и помощь программистам;
  • автоматизация математических, логических и инженерных задач;
  • разработка чат-ботов и пользовательских приложений.

Корпоративное управление

Генеральный директор и сооснователь — Лян Вэньфэн. По состоянию на май 2024 года через две структуры-оболочки Ляну принадлежит 84 % уставного капитала DeepSeek[16].

Компания принадлежит и финансируется High-Flyer, ключевые решения принимаются Ляном Вэньфэном.

Финансовые показатели

Крупные версии моделей DeepSeek (SFT — супервизированное дообучение)
Основная версия Дата релиза Статус Ключевые варианты Примечания
DeepSeek Coder 2 ноября 2023 прекращена Base, Instruct Архитектура аналогична Llama
DeepSeek-LLM 29 ноября 2023 прекращена Base; Chat (SFT) Смежно с Coder
DeepSeek-MoE 9 января 2024 прекращена Base; Chat Первая MoE-модель (mixture of experts)
DeepSeek-Math апрель 2024 прекращена Base; Instruct; RL Модели для математики, GRPO PPO
DeepSeek V2 май 2024 прекращена V2, V2-Chat, V2-Lite, V2.5, Coder-V2 и др. MLA, MoE, KV-кэширование
DeepSeek V3 декабрь 2024 активна V3-Base, V3-Chat Multi-token prediction, обновлена март 2025
DeepSeek-Prover-V2 май 2025 активна Prover-V2-671B, Prover-V2-7B
DeepSeek VL2 13 декабря 2024 активна
DeepSeek R1 ноябрь 2024 — май 2025 активна R1-Lite-Preview, R1, R1-Zero, R1-0528, Distill и др.
DeepSeek V3.1 21 августа 2025 активна V3.1-Base, V3.1-Chat Гибридная архитектура (режимы «мышление»/«без мышления»)

Примечания