DeepSeek (языковая модель)
DeepSeek — семейство языковых моделей с открытым исходным кодом, разрабатываемое одноимённой китайской лабораторией искусственного интеллекта. Новейшие версии большой языковой модели с чат-ботом — DeepSeek-V3 и «думающая» DeepSeek-R1 для решения логических задач — демонстрируют равные или лучшие показатели в обработке естественных языков, математических задачах и программировании по сравнению с разработками конкурентов (GPT-4о или Open AI-o1 соответственно, а также аналогичные модели от других западных компаний)[1][2][3][4].
При этом, по утверждению DeepSeek, их модели требуют на порядок меньше ресурсов для обучения и поддержания работы, а также не ограничивают доступ для пользователей из России и любых других стран мира[2][5]. Кроме того, стоимость использования моделей в среднем на 96 % ниже, чем у западных конкурентов[6][7].
Выход на рынок модели DeepSeek-R1 20 января 2025 года вызвал масштабный обвал рыночных котировок технологических компаний США (как работающих в сфере искусственного интеллекта, так и производителей вычислительного оборудования), а также спровоцировал дискуссию об обоснованности многомиллиардных вложений в западную ИИ-инфраструктуру, завышенных требованиях к оборудованию и его стоимости[8][9].
Что важно знать
| DeepSeek | |
|---|---|
| Тип | большая языковая модель |
| Разработчик | DeepSeek |
| Языки интерфейса | многоязычный, в том числе русский |
| Первый выпуск |
2 ноября 2023 (DeepSeek Coder) |
| Аппаратные платформы | браузер, интерфейс программирования приложений, IOS и Android |
| Последняя версия | (январь 2025 года) |
| Состояние | функционирует |
| Лицензия | Открытая |
| Сайт | deepseek.com |
История развития
DeepSeek был выделен в самостоятельный стартап из ИИ-направления китайского хедж-фонда High-Flyer, основанного в 2015 году китайским миллиардером и энтузиастом в сфере ИИ Ляном Вэньфаном.
В июле 2024 года он заявлял об ограниченности современных генеративных моделей, а задачей новой компании обозначал достижение общего искусственного интеллекта (AGI)[10].
В ноябре 2024 года глава компании ещё раз подтвердил свою приверженность идее создания продуктов с открытым исходным кодом и отсутствии планов по какому-либо дальнейшему расширению платных услуг DeepSeek[11].
11 марта 2026 года на платформе для разработчиков OpenRouter появилась анонимная ИИ‑модель Hunter Alpha, которую эксперты заподозрили в связи с китайским стартапом DeepSeek. Согласно её профилю, модель обладает одним триллионом параметров и контекстным окном до одного миллиона токенов, а в тестах назвала себя китайской моделью, обученной преимущественно на китайском язык. Ни DeepSeek, ни OpenRouter официально не подтвердили принадлежность Hunter Alpha, хотя к 15 марта она обработала более 160 млрд токенов[12].
В отличие от ведущих западных компаний в области искусственного интеллекта (OpenAI, Meta или Anthropic) все языковые модели DeepSeek с самого начала распространялись под свободной лицензией MIT. Комментируя успех DeepSeek V3 и DeepSeek R-1 в январе 2025 года главный специалист Meta по искусственному интеллекту Ян Лекун заявил, что «в сфере ИИ модели с открытым исходным кодом доказали своё превосходство над проприетарными решениями»[13].
Релизы
С ноября 2023 года DeepSeek представила 3 генерации больших языковых моделей.
Первая нейросеть от DeepSeek Coder была представлена 2 ноября 2023 года. 29 ноября вышла первая универсальная большая языковая модель DeepSeek LLM с 67 млрд параметров, которая на тот момент превосходила возможности LLama 2 и приближалась к GPT-4[14], однако, по некоторым данным, имела проблемы с масштабируемостью и вычислительной эффективностью[14]. Тогда же был впервые представлен интеллектуальный чат-бот, работающий на основе DeepSeek LLM.
Всего было разработано 8 вариантов первой модели: четыре стандартных предобученных (Base) и четыре прошедших тонкую настройку набором инструкций (Instruct). Все они опирались на трансформерную архитектуру, использующую механизм «внимания», схожую с той что используют модели Llama.
- Предобучение проходило на 1,8 трлн токенов (в науке о данных 1 млн токенов приблизительно равняется 750 тыс. слов)[15].
- Long-context pretraining (LCP, с англ. — обучение работе с длинными контекстными последовательностями) базовых моделей проходило на 200 млрд токенов, что позволило нарастить максимальную длину обрабатываемого сетью контекста с 4 до 16 тыс. токенов.
- Тонкая настройка Instruct моделей проходила на основе наборов инструкций объёмом 2 млрд токенов[16].
В мае 2024 года DeepSeek выпустила вторую версию языковой модели в четырёх вариантах: стандартная (V2), уменьшенная (V2-Lite), а также стандартный чат-бот (V2-Chat) и его уменьшенная версия (V2-Chat-Lite).
Количество параметров в старших моделях возросло до 236 млрд; предобучение проводилось на 8,1 трлн токенов, а максимальная длина контекста возросла до 128 тыс. токенов.
Модель претерпела значительные архитектурные изменения по сравнению с первой версией: в ней применён инновационный метод машинного обучения на основе низкоранговой аппроксимации Multi-head Learning Attention (MLA, с англ. — «Обучение со множественным вниманием»)[17], позволивший многократно уменьшить стоимость и время обучения модели[17][18]. Кроме того компания разработала и внедрила в модель доработанный принцип Mixture of Experts (MoE, с англ. — «смесь экспертов»): при таком подходе модель состоит из большого числа подсетей, каждая из которых отвечает за свою специализированную область знаний и подключается к поиску ответа только по необходимости[18][19].
Комбинация MLA и MoE позволила установить стоимость обработки миллиона токенов в 2 юаня, в то время как у ChatGPT она равнялась 2,5 долларам за аналогичный объём информации[20]. При этом DeepSeek-V2 демонстрировала конкурентоспособное качество работы: лаборатории искусственного интеллекта при университете Ватерлоо поместила на 7 место в рейтинге лучших больших языковых моделей[21].
В декабре 2024 года в открытый доступ вышла третья генерация модели в двух вариантах: стандартная (V3-Base) и чат-бота (V3), содержащая 671 млрд параметров и проходившая обучение на 14,8 трлн токенов. Нейросеть, построенная на апробированной в DeepSeek-V2 архитектуре, способна анализировать и пересказывать тексты, выделяя главное, делать переводы, а также решать математические задачи и писать программы[2] на одном уровне с наиболее продвинутыми моделями от OpenAI, Meta или Anthropic: так DeepSeek-V3 превосходит в тестах Llama 3.1 Qwen 2.5[1] и соответствует уровню GPT-4о и Claude 3.5 Sonnet[2][3].
Представленное DeepSeek бесплатное приложение — чат-бот «DeepSeek — AI Assistant» — к концу января 2025 стало самым скачиваемым в мире, а также обошло ChatGPT в рейтинге самых высокооценённых бесплатных приложений в США[22]. Кроме того DeepSeek не поддерживает политику санкций и никак не ограничивает доступ к своей модели, предоставляя равные возможности для пользователей из всех стран мира — в том числе России[2].
При этом, по утверждению разработчиков модели, время её обучения составило всего лишь 55 дней на массиве из около 2000 урезанных для соблюдения требований экспортного контроля видеокарт Nvidia; таким образом стоимость обучения составила всего 5,5 млн долларов, как минимум на порядок раз ниже, чем Llama или GPT-4o[7][23].
В марте 2025 года DeepSeek выпустила обновление V3, получившее название V3-0324[24]. Сообщалось, что обновлённая версия продемонстрировав рекордные результаты в математике и программировании[25].
Таких показателей эффективности удалось добиться благодаря особенностям архитектуры DeepSeek:
- Метод Multi-token Prediction (MTP), позволяющий анализировать разные части предложения одновременно и предсказывать несколько слов одновременно, что повышает скорость работы модели и точность её ответов.
- Технология Mixture of Experts (MoE), которая внедряет в модель «экспертные» подсети, использующиеся для поиска нужного ответа на вопросы по специальным областям знаний. В DeepSeek-V3 встроено 256 таких нейросетей, из которых восемь активны постоянно, а остальные подключаются по необходимости для решения определённого вида задач.
- Внедрение подходы Multi-head Latent Attention (MLA) к настройке механизма внимания на основе низкоранговой аппроксимации привело к существенному уменьшению размеров и скорости работы структуры хранения пар «значение-ключ» (KV-cache), отвечающей за быстрый доступ к ранее вычисленной информации[26].
20 января 2025 года DeepSeek представил свою думающую модель DeepSeek R1 для решения логических и математических задач с производительностью в математических тестах AIME и MATH на уровне флагманского решения Open AI-o1[4]. Отличительная особенность этой модели заключается в пошаговой генерации ответов, повторяющей процесс мышления у человека[27][28][29]. При её разработке компания использовала новый, более эффективный подход к моделированию вознаграждения при обучении с подкреплением[30].
Появление модели, которая требует многократно меньших затрат для обучения и использования, привела к обрушению котировок технологических компаний 28 января 2025 года. Так главный мировой поставщик оборудования для обучения нейросетей Nvidia потерял свыше 600 млрд долларов или почти 18 % капитализации, что стало крупнейшим обвалом в истории фондового рынка[31].
Существенные потери понесли практически все связанные с сектором ИИ компании — Nebius Аркадия Воложа (-4 %) Broadcom (-17,3 %), AMD (-8 %), Palantir (-7 %), Microsoft (-3 %), а также основные поставщики электроэнергии для дата-центров Constellation Energy (-21 %) и Vistra (-29 %). Индекс NASDAQ просел на 3,5 %, а S&P на 1,8 %. Суммарно же американские биржи потеряли более 1 трлн долларов[31], а стоимость криптовалют снизилась на 7 %[32].
Обвинение в краже технологий
29 января 2025 года стало известно, что Microsoft и принадлежащая ей OpenAI начали расследование против DeepSeek. Компании утверждают, что китайский стартап несанкционированно обучал свои модели на данных, сгенерированных нейросетями OpenAI[33]. По версии американской корпорации, DeepSeek не является независимой разработкой, а создана методом дистилляции разработанных и запатентованных OpenAI моделей[34].
Известно, что для обучения моделей DeepSeek использовал закупленные ещё в 2021 году — то есть до введения США ограничений на поставки чипов в Китай — видеокарты Nvidia A100. По различным оценкам, в распоряжении стартапа DeepSeek находится около 10 тыс. штук таких видеокарт[7] (некоторые западные эксперты считают, что компания аккумулировала еще около 40 тыс. урезанных для соблюдения экспортных рестрикций видеокарт Nvidia H800[35][36]), в несколько раз меньше, чем у OpenAI или Llama (каждая компания имеет около 300 тыс. видеокарт)[37][20]. Таким образом, вероятно, ограниченные вычислительные мощности лишь подтолкнули DeepSeek к поиску перечисленных выше инновационных архитектурных решений, которые компенсировали этот недостаток[38].
Критика
Дарио Амодей, создатель компании Anthropic, разрабатывающей большую серию языковых моделей Claude AI, считает, что китайские разработчики скорее громко заявили о себе, нежели добились выдающихся результатов. По мнению Амодея, DeepSeek создал модель, близкую к американским моделям 7-10 месячной давности, потратив на это меньше средств, но в рамках обычного тренда снижения затрат; плюс китайский стартап имел доступ к серьезным ресурсам. Амодей отметил, что DeepSeek показал хорошие результаты, но не стоит называть это революцией, так как снижение затрат соответствует обычному тренду, и общие затраты DeepSeek сопоставимы с расходами американских ИИ-лабораторий, Кроме того, DeepSeek-V3 более инновационна, чем нашумевший DeepSeek-R1[39].
23 июня 2025 года агентство Reuters со ссылкой на анонимного представителя Госдепартамента США сообщило, что китайская компания DeepSeek, разрабатывающая чат-боты, сотрудничает с военными и разведывательными структурами КНР. По данным источника, DeepSeek упоминался в более чем 150 отчетах о закупках для Народно-освободительной армии Китая и оборонных предприятий[40].
11 августа 2025 года от российских пользователей DeepSeek начали поступать жалобы на массовые сбои в китайской нейросети: более 60 % жаловались на работу сайта, еще 21 % — мобильного приложения[41].


