Deepseek R3: китайская лаборатория выпустила модель за $6 млн, бьющую GPT-5 на математике

Большие модели

Deepseek R3: китайская лаборатория выпустила модель за $6 млн, бьющую GPT-5 на математике

Р

Редакция KDR News

14 мая 2026 · 14.05.2026

35.2K 1.9K 1 мин Hugging Face Papers

Deepseek опубликовала технический отчёт о R3: модель обучена за $6 млн на кластере из 2000 H100, обходит GPT-5 на MATH и AIME, весь код открыт. Западные лаборатории в шоке.

Китайская AI-лаборатория Deepseek снова взорвала отрасль. R3 — их новая reasoning-модель — обучена за $6 миллионов при использовании всего 2000 чипов H100. И при этом превосходит GPT-5 на ключевых математических бенчмарках.

Как им это удалось

Deepseek опубликовала подробный технический отчёт, раскрывая почти все детали:

MLA (Multi-head Latent Attention) — собственная модификация архитектуры трансформера, сокращающая потребление памяти в 5–8 раз
MoE с 256 экспертами при активации только 8 на каждый токен — 671B параметров всего, но только 37B активных
FP8 обучение — тренировка в 8-битной точности без значительной деградации качества
Synthetic reasoning data — 90% обучающих данных по математике сгенерировано самой моделью через самоигру

Бенчмарки

Тест	GPT-5	Deepseek R3
MATH (олимпиадная математика)	85.1%	91.7%
AIME 2025	74.3%	86.2%
HumanEval (код)	98.1%	95.8%
MMLU	95.3%	92.1%

Реакция отрасли

Выход R3 вызвал острую дискуссию об экспортных ограничениях США на чипы. Если китайские лаборатории могут достигать фронтир-качества на «разрешённых» чипах, вся архитектура контроля экспорта оказывается под вопросом.

Акции NVIDIA упали на 3,2% в день публикации отчёта.

LLM Fine-tuning open-source

Комментарии (201)

Войдите, чтобы оставить комментарий

Комментариев пока нет. Будьте первым!

Ещё из раздела «Большие модели»

Все материалы

GPT-5 официально запущен: OpenAI называет его «системой с AGI-уровнем рассуждений»

GPT-5 официально запущен: OpenAI называет его «системой с AGI-уровнем рассуждений»

1 мин · 21.05.2026

Claude 4 от Anthropic: первый взгляд на модель с «конституциональным обучением 3.0»

Claude 4 от Anthropic: первый взгляд на модель с «конституциональным обучением 3.0»

1 мин · 20.05.2026

GPT-5 официально анонсирован: мультимодальность, рассуждения и новый ценовой уровень

GPT-5 официально анонсирован: мультимодальность, рассуждения и новый ценовой уровень

4 мин · 20.05.2026

Claude 4 Opus обогнал все модели в тесте на программирование SWE-bench

Claude 4 Opus обогнал все модели в тесте на программирование SWE-bench

5 мин · 19.05.2026

Meta выпускает Llama 4: полностью открытая модель с 200 миллиардами параметров

Meta выпускает Llama 4: полностью открытая модель с 200 миллиардами параметров

1 мин · 19.05.2026

Gemini 2.5 Ultra от Google: контекст в 2 миллиона токенов и нативная работа с кодом

Gemini 2.5 Ultra от Google: контекст в 2 миллиона токенов и нативная работа с кодом

5 мин · 18.05.2026

Другие новости

Все новости

Исследователи взломали GPT-5 за 48 часов: модель давала инструкции по синтезу опасных веществ

Безопасность AI

Исследователи взломали GPT-5 за 48 часов: модель давала инструкции по синтезу опасных веществ

Команда безопасности Стэнфорда нашла универсальный jailbreak для GPT-5 на вторые сутки после релиза. OpenAI выпустила патч через 6 часов после уведомления.

41.2K 3.1K 5 мин

Boston Dynamics Atlas научился складывать бельё — задача, которую не мог робот 30 лет

Роботы и железо

Boston Dynamics Atlas научился складывать бельё — задача, которую не мог робот 30 лет

Электрический Atlas от Boston Dynamics впервые продемонстрировал надёжное складывание одежды — задачу, считавшуюся неразрешимой для роботов из-за деформируемой природы ткани.

31.2K 2.9K 5 мин

Midjourney v7 умеет генерировать видео — и это меняет всё

Генерация изображений

Midjourney v7 умеет генерировать видео — и это меняет всё

Midjourney неожиданно анонсировала v7 с встроенной генерацией видео до 16 секунд. Качество превосходит Sora по цветопередаче и сохранению стиля.

23.4K 2.1K 4 мин

Sora 2.0: OpenAI выпускает видеогенератор с физической симуляцией реального мира

Генерация изображений

Sora 2.0: OpenAI выпускает видеогенератор с физической симуляцией реального мира

Обновлённая Sora 2.0 генерирует видео до 4K 60fps длительностью до 10 минут с корректным поведением физических объектов, водных поверхностей и источников света.

31.5K 1.8K 1 мин

Cursor AI 2.0: редактор кода с агентом, переписывающим целые репозитории

Инструменты

Cursor AI 2.0: редактор кода с агентом, переписывающим целые репозитории

Cursor выпустил версию 2.0 с агентным режимом: ИИ может самостоятельно рефакторить всю кодовую базу, запускать тесты и чинить найденные ошибки без участия разработчика.

26.7K 2.3K 4 мин

EU AI Act вступил в полную силу: что изменилось для бизнеса с 1 мая 2026

Регуляция и право

EU AI Act вступил в полную силу: что изменилось для бизнеса с 1 мая 2026

С 1 мая 2026 года EU AI Act действует в полном объёме. Штрафы до €35 млн или 7% оборота. Разбираем, что это значит для российских компаний, работающих с ЕС.

28.9K 2.2K 6 мин

NVIDIA Blackwell Ultra GB300: 20 петафлопс в одном чипе для нового поколения AI-суперкомпьютеров

Роботы и железо

NVIDIA Blackwell Ultra GB300: 20 петафлопс в одном чипе для нового поколения AI-суперкомпьютеров

NVIDIA официально объявила о новом флагмане — GB300, превосходящем предыдущее поколение по производительности инференса в 4 раза при том же энергопотреблении.

18.7K 720 1 мин

AlphaFold 3 предсказал структуры всех белков человека с рекордной точностью

Исследования

AlphaFold 3 предсказал структуры всех белков человека с рекордной точностью

DeepMind завершила предсказание структур всех 20 000 белков человека в AlphaFold 3. Точность выросла до 95.2% — это открывает новую эру в медицине.

24.6K 2.1K 5 мин