Deepseek опубликовала технический отчёт о R3: модель обучена за $6 млн на кластере из 2000 H100, обходит GPT-5 на MATH и AIME, весь код открыт. Западные лаборатории в шоке.
Китайская AI-лаборатория Deepseek снова взорвала отрасль. R3 — их новая reasoning-модель — обучена за $6 миллионов при использовании всего 2000 чипов H100. И при этом превосходит GPT-5 на ключевых математических бенчмарках.
Как им это удалось
Deepseek опубликовала подробный технический отчёт, раскрывая почти все детали:
- MLA (Multi-head Latent Attention) — собственная модификация архитектуры трансформера, сокращающая потребление памяти в 5–8 раз
- MoE с 256 экспертами при активации только 8 на каждый токен — 671B параметров всего, но только 37B активных
- FP8 обучение — тренировка в 8-битной точности без значительной деградации качества
- Synthetic reasoning data — 90% обучающих данных по математике сгенерировано самой моделью через самоигру
Бенчмарки
| Тест | GPT-5 | Deepseek R3 |
|---|---|---|
| MATH (олимпиадная математика) | 85.1% | 91.7% |
| AIME 2025 | 74.3% | 86.2% |
| HumanEval (код) | 98.1% | 95.8% |
| MMLU | 95.3% | 92.1% |
Реакция отрасли
Выход R3 вызвал острую дискуссию об экспортных ограничениях США на чипы. Если китайские лаборатории могут достигать фронтир-качества на «разрешённых» чипах, вся архитектура контроля экспорта оказывается под вопросом.
Акции NVIDIA упали на 3,2% в день публикации отчёта.
Комментарии (201)
Комментариев пока нет. Будьте первым!