DeepSeek (языковая модель)

DeepSeek — семейство языковых моделей с открытым исходным кодом, разрабатываемое одноимённой китайской лабораторией искусственного интеллекта. Новейшие версии большой языковой модели с чат-ботом — DeepSeek-V3 и «думающая» DeepSeek-R1 для решения логических задач — демонстрируют равные или лучшие показатели в обработке естественных языков, математических задачах и программировании по сравнению с разработками конкурентов (GPT-4о или Open AI-o1 соответственно, а также аналогичные модели от других западных компаний)[1][2][3][4].

При этом, по утверждению DeepSeek, их модели требуют на порядок меньше ресурсов для обучения и поддержания работы, а также не ограничивают доступ для пользователей из России и любых других стран мира[2][5]. Кроме того, стоимость использования моделей в среднем на 96 % ниже, чем у западных конкурентов[6][7].

Выход на рынок модели DeepSeek-R1 20 января 2025 года вызвал масштабный обвал рыночных котировок технологических компаний США (как работающих в сфере искусственного интеллекта, так и производителей вычислительного оборудования), а также спровоцировал дискуссию об обоснованности многомиллиардных вложений в западную ИИ-инфраструктуру, завышенных требованиях к оборудованию и его стоимости[8][9].

Что важно знать
DeepSeek
Тип большая языковая модель
Разработчик DeepSeek
Языки интерфейса многоязычный, в том числе русский
Первый выпуск

2 ноября 2023 (DeepSeek Coder)

29 ноября 2023 (DeepSeek LLM)
Аппаратные платформы браузер, интерфейс программирования приложений, IOS и Android
Последняя версия (январь 2025 года)
Состояние функционирует
Лицензия Открытая
Сайт deepseek.com

История развития

DeepSeek был выделен в самостоятельный стартап из ИИ-направления китайского хедж-фонда High-Flyer, основанного в 2015 году китайским миллиардером и энтузиастом в сфере ИИ Ляном Вэньфаном.

В июле 2024 года он заявлял об ограниченности современных генеративных моделей, а задачей новой компании обозначал достижение общего искусственного интеллекта (AGI)[10].

В ноябре 2024 года глава компании ещё раз подтвердил свою приверженность идее создания продуктов с открытым исходным кодом и отсутствии планов по какому-либо дальнейшему расширению платных услуг DeepSeek[11].

11 марта 2026 года на платформе для разработчиков OpenRouter появилась анонимная ИИ‑модель Hunter Alpha, которую эксперты заподозрили в связи с китайским стартапом DeepSeek. Согласно её профилю, модель обладает одним триллионом параметров и контекстным окном до одного миллиона токенов, а в тестах назвала себя китайской моделью, обученной преимущественно на китайском язык. Ни DeepSeek, ни OpenRouter официально не подтвердили принадлежность Hunter Alpha, хотя к 15 марта она обработала более 160 млрд токенов[12].

Условия распространения продуктов DeepSeek

В отличие от ведущих западных компаний в области искусственного интеллекта (OpenAI, Meta или Anthropic) все языковые модели DeepSeek с самого начала распространялись под свободной лицензией MIT. Комментируя успех DeepSeek V3 и DeepSeek R-1 в январе 2025 года главный специалист Meta по искусственному интеллекту Ян Лекун заявил, что «в сфере ИИ модели с открытым исходным кодом доказали своё превосходство над проприетарными решениями»[13].

Релизы

С ноября 2023 года DeepSeek представила 3 генерации больших языковых моделей.

DeepSeek Coder и DeepSeek LLM

Первая нейросеть от DeepSeek Coder была представлена 2 ноября 2023 года. 29 ноября вышла первая универсальная большая языковая модель DeepSeek LLM с 67 млрд параметров, которая на тот момент превосходила возможности LLama 2 и приближалась к GPT-4[14], однако, по некоторым данным, имела проблемы с масштабируемостью и вычислительной эффективностью[14]. Тогда же был впервые представлен интеллектуальный чат-бот, работающий на основе DeepSeek LLM.

Всего было разработано 8 вариантов первой модели: четыре стандартных предобученных (Base) и четыре прошедших тонкую настройку набором инструкций (Instruct). Все они опирались на трансформерную архитектуру, использующую механизм «внимания», схожую с той что используют модели Llama.

  • Предобучение проходило на 1,8 трлн токенов (в науке о данных 1 млн токенов приблизительно равняется 750 тыс. слов)[15].
  • Long-context pretraining (LCP, с англ. — обучение работе с длинными контекстными последовательностями) базовых моделей проходило на 200 млрд токенов, что позволило нарастить максимальную длину обрабатываемого сетью контекста с 4 до 16 тыс. токенов.
  • Тонкая настройка Instruct моделей проходила на основе наборов инструкций объёмом 2 млрд токенов[16].

DeepSeek-V2

В мае 2024 года DeepSeek выпустила вторую версию языковой модели в четырёх вариантах: стандартная (V2), уменьшенная (V2-Lite), а также стандартный чат-бот (V2-Chat) и его уменьшенная версия (V2-Chat-Lite).

Количество параметров в старших моделях возросло до 236 млрд; предобучение проводилось на 8,1 трлн токенов, а максимальная длина контекста возросла до 128 тыс. токенов.

Модель претерпела значительные архитектурные изменения по сравнению с первой версией: в ней применён инновационный метод машинного обучения на основе низкоранговой аппроксимации Multi-head Learning Attention (MLA, с англ. — «Обучение со множественным вниманием»)[17], позволивший многократно уменьшить стоимость и время обучения модели[17][18]. Кроме того компания разработала и внедрила в модель доработанный принцип Mixture of Experts (MoE, с англ. — «смесь экспертов»): при таком подходе модель состоит из большого числа подсетей, каждая из которых отвечает за свою специализированную область знаний и подключается к поиску ответа только по необходимости[18][19].

Комбинация MLA и MoE позволила установить стоимость обработки миллиона токенов в 2 юаня, в то время как у ChatGPT она равнялась 2,5 долларам за аналогичный объём информации[20]. При этом DeepSeek-V2 демонстрировала конкурентоспособное качество работы: лаборатории искусственного интеллекта при университете Ватерлоо поместила на 7 место в рейтинге лучших больших языковых моделей[21].

DeepSeek-V3

В декабре 2024 года в открытый доступ вышла третья генерация модели в двух вариантах: стандартная (V3-Base) и чат-бота (V3), содержащая 671 млрд параметров и проходившая обучение на 14,8 трлн токенов. Нейросеть, построенная на апробированной в DeepSeek-V2 архитектуре, способна анализировать и пересказывать тексты, выделяя главное, делать переводы, а также решать математические задачи и писать программы[2] на одном уровне с наиболее продвинутыми моделями от OpenAI, Meta или Anthropic: так DeepSeek-V3 превосходит в тестах Llama 3.1 Qwen 2.5[1] и соответствует уровню GPT-4о и Claude 3.5 Sonnet[2][3].

Представленное DeepSeek бесплатное приложение — чат-бот «DeepSeek — AI Assistant» — к концу января 2025 стало самым скачиваемым в мире, а также обошло ChatGPT в рейтинге самых высокооценённых бесплатных приложений в США[22]. Кроме того DeepSeek не поддерживает политику санкций и никак не ограничивает доступ к своей модели, предоставляя равные возможности для пользователей из всех стран мира — в том числе России[2].

При этом, по утверждению разработчиков модели, время её обучения составило всего лишь 55 дней на массиве из около 2000 урезанных для соблюдения требований экспортного контроля видеокарт Nvidia; таким образом стоимость обучения составила всего 5,5 млн долларов, как минимум на порядок раз ниже, чем Llama или GPT-4o[7][23].

В марте 2025 года DeepSeek выпустила обновление V3, получившее название V3-0324[24]. Сообщалось, что обновлённая версия продемонстрировав рекордные результаты в математике и программировании[25].

Особенности модели

Таких показателей эффективности удалось добиться благодаря особенностям архитектуры DeepSeek:

  • Метод Multi-token Prediction (MTP), позволяющий анализировать разные части предложения одновременно и предсказывать несколько слов одновременно, что повышает скорость работы модели и точность её ответов.
  • Технология Mixture of Experts (MoE), которая внедряет в модель «экспертные» подсети, использующиеся для поиска нужного ответа на вопросы по специальным областям знаний. В DeepSeek-V3 встроено 256 таких нейросетей, из которых восемь активны постоянно, а остальные подключаются по необходимости для решения определённого вида задач.
  • Внедрение подходы Multi-head Latent Attention (MLA) к настройке механизма внимания на основе низкоранговой аппроксимации привело к существенному уменьшению размеров и скорости работы структуры хранения пар «значение-ключ» (KV-cache), отвечающей за быстрый доступ к ранее вычисленной информации[26].

DeepSeek-R1

20 января 2025 года DeepSeek представил свою думающую модель DeepSeek R1 для решения логических и математических задач с производительностью в математических тестах AIME и MATH на уровне флагманского решения Open AI-o1[4]. Отличительная особенность этой модели заключается в пошаговой генерации ответов, повторяющей процесс мышления у человека[27][28][29]. При её разработке компания использовала новый, более эффективный подход к моделированию вознаграждения при обучении с подкреплением[30].

Падение рынков в январе 2025 года

Появление модели, которая требует многократно меньших затрат для обучения и использования, привела к обрушению котировок технологических компаний 28 января 2025 года. Так главный мировой поставщик оборудования для обучения нейросетей Nvidia потерял свыше 600 млрд долларов или почти 18 % капитализации, что стало крупнейшим обвалом в истории фондового рынка[31].

Существенные потери понесли практически все связанные с сектором ИИ компании — Nebius Аркадия Воложа (-4 %) Broadcom (-17,3 %), AMD (-8 %), Palantir (-7 %), Microsoft (-3 %), а также основные поставщики электроэнергии для дата-центров Constellation Energy (-21 %) и Vistra (-29 %). Индекс NASDAQ просел на 3,5 %, а S&P на 1,8 %. Суммарно же американские биржи потеряли более 1 трлн долларов[31], а стоимость криптовалют снизилась на 7 %[32].

Обвинение в краже технологий

29 января 2025 года стало известно, что Microsoft и принадлежащая ей OpenAI начали расследование против DeepSeek. Компании утверждают, что китайский стартап несанкционированно обучал свои модели на данных, сгенерированных нейросетями OpenAI[33]. По версии американской корпорации, DeepSeek не является независимой разработкой, а создана методом дистилляции разработанных и запатентованных OpenAI моделей[34].

Санкции США как катализатор инноваций

Известно, что для обучения моделей DeepSeek использовал закупленные ещё в 2021 году — то есть до введения США ограничений на поставки чипов в Китай — видеокарты Nvidia A100. По различным оценкам, в распоряжении стартапа DeepSeek находится около 10 тыс. штук таких видеокарт[7] (некоторые западные эксперты считают, что компания аккумулировала еще около 40 тыс. урезанных для соблюдения экспортных рестрикций видеокарт Nvidia H800[35][36]), в несколько раз меньше, чем у OpenAI или Llama (каждая компания имеет около 300 тыс. видеокарт)[37][20]. Таким образом, вероятно, ограниченные вычислительные мощности лишь подтолкнули DeepSeek к поиску перечисленных выше инновационных архитектурных решений, которые компенсировали этот недостаток[38].

Критика

Дарио Амодей, создатель компании Anthropic, разрабатывающей большую серию языковых моделей Claude AI, считает, что китайские разработчики скорее громко заявили о себе, нежели добились выдающихся результатов. По мнению Амодея, DeepSeek создал модель, близкую к американским моделям 7-10 месячной давности, потратив на это меньше средств, но в рамках обычного тренда снижения затрат; плюс китайский стартап имел доступ к серьезным ресурсам. Амодей отметил, что DeepSeek показал хорошие результаты, но не стоит называть это революцией, так как снижение затрат соответствует обычному тренду, и общие затраты DeepSeek сопоставимы с расходами американских ИИ-лабораторий, Кроме того, DeepSeek-V3 более инновационна, чем нашумевший DeepSeek-R1[39].

23 июня 2025 года агентство Reuters со ссылкой на анонимного представителя Госдепартамента США сообщило, что китайская компания DeepSeek, разрабатывающая чат-боты, сотрудничает с военными и разведывательными структурами КНР. По данным источника, DeepSeek упоминался в более чем 150 отчетах о закупках для Народно-освободительной армии Китая и оборонных предприятий[40].

11 августа 2025 года от российских пользователей DeepSeek начали поступать жалобы на массовые сбои в китайской нейросети: более 60 % жаловались на работу сайта, еще 21 % — мобильного приложения[41].

Примечания