·
USD EUR
Deepseek R3: китайская лаборатория выпустила модель за $6 млн, бьющую GPT-5 на математике
🧠 Большие модели

Deepseek R3: китайская лаборатория выпустила модель за $6 млн, бьющую GPT-5 на математике

Deepseek опубликовала технический отчёт о R3: модель обучена за $6 млн на кластере из 2000 H100, обходит GPT-5 на MATH и AIME, весь код открыт. Западные лаборатории в шоке.

Китайская AI-лаборатория Deepseek снова взорвала отрасль. R3 — их новая reasoning-модель — обучена за $6 миллионов при использовании всего 2000 чипов H100. И при этом превосходит GPT-5 на ключевых математических бенчмарках.

Как им это удалось

Deepseek опубликовала подробный технический отчёт, раскрывая почти все детали:

  1. MLA (Multi-head Latent Attention) — собственная модификация архитектуры трансформера, сокращающая потребление памяти в 5–8 раз
  2. MoE с 256 экспертами при активации только 8 на каждый токен — 671B параметров всего, но только 37B активных
  3. FP8 обучение — тренировка в 8-битной точности без значительной деградации качества
  4. Synthetic reasoning data — 90% обучающих данных по математике сгенерировано самой моделью через самоигру

Бенчмарки

ТестGPT-5Deepseek R3
MATH (олимпиадная математика)85.1%91.7%
AIME 202574.3%86.2%
HumanEval (код)98.1%95.8%
MMLU95.3%92.1%

Реакция отрасли

Выход R3 вызвал острую дискуссию об экспортных ограничениях США на чипы. Если китайские лаборатории могут достигать фронтир-качества на «разрешённых» чипах, вся архитектура контроля экспорта оказывается под вопросом.

Акции NVIDIA упали на 3,2% в день публикации отчёта.

Комментарии (201)

Войдите, чтобы оставить комментарий

Комментариев пока нет. Будьте первым!

Другие новости

Все новости
Sora 2.0: OpenAI выпускает видеогенератор с физической симуляцией реального мира
🎨 Генерация изображений
Sora 2.0: OpenAI выпускает видеогенератор с физической симуляцией реального мира
Обновлённая Sora 2.0 генерирует видео до 4K 60fps длительностью до 10 минут с корректным поведением физических объектов, водных поверхностей и источников света.
1 дн назад
31.5K 1.8K 1 мин
NVIDIA Blackwell Ultra GB300: 20 петафлопс в одном чипе для нового поколения AI-суперкомпьютеров
🤖 Роботы и железо
NVIDIA Blackwell Ultra GB300: 20 петафлопс в одном чипе для нового поколения AI-суперкомпьютеров
NVIDIA официально объявила о новом флагмане — GB300, превосходящем предыдущее поколение по производительности инференса в 4 раза при том же энергопотреблении.
2 дн назад
18.7K 720 1 мин
ЕС AI Act вступает в силу: что теперь нельзя делать с искусственным интеллектом в Европе
⚖️ Регуляция и право
ЕС AI Act вступает в силу: что теперь нельзя делать с искусственным интеллектом в Европе
С 1 мая 2026 года вступила в силу финальная часть европейского регулирования ИИ. Разбираем, какие системы теперь запрещены, кому придётся проходить аудит и какие штрафы грозят нарушителям.
3 дн назад
19.3K 445 1 мин
Google DeepMind AlphaFold 3 предсказывает структуры всех молекул жизни
🔬 Исследования
Google DeepMind AlphaFold 3 предсказывает структуры всех молекул жизни
AlphaFold 3 расширяет возможности предшественника: теперь система предсказывает не только белки, но и нуклеиновые кислоты, малые молекулы и их взаимодействия — критически важно для разработки лекарств.
3 дн назад
14.2K 630 1 мин
Microsoft Copilot получает «агентный режим»: AI сам открывает программы, пишет код и отправляет письма
🛠️ Инструменты
Microsoft Copilot получает «агентный режим»: AI сам открывает программы, пишет код и отправляет письма
Microsoft развернула обновление Copilot с автономным агентным режимом для корпоративных клиентов Microsoft 365. Теперь AI выполняет многошаговые задачи без участия пользователя.
4 дн назад
16.4K 580 1 мин
Антропик получил $5 млрд: оценка компании достигла $75 млрд
💼 Бизнес и инвестиции
Антропик получил $5 млрд: оценка компании достигла $75 млрд
Anthropic закрыла очередной раунд финансирования: $5 млрд от консорциума инвесторов во главе с Amazon. Компания оценивается в $75 млрд — третья по стоимости в мире среди AI-стартапов.
5 дн назад
12.9K 380 1 мин