DeepSeek-V4 из Китая: как 671 млрд параметров уместили в $6M на обучение

Большие модели

DeepSeek-V4 из Китая: как 671 млрд параметров уместили в $6M на обучение

Р

Редакция KDR News

16 мая 2026 · 16.05.2026

22.1K 1.9K 6 мин

Китайский DeepSeek опубликовал технический отчёт о V4 — модели, которая конкурирует с GPT-5, но обучена за долю цены благодаря архитектурным инновациям.

DeepSeek опубликовал технический отчёт о своей новейшей модели V4, раскрывая детали архитектуры, которая позволила добиться результатов уровня GPT-5 при бюджете обучения всего в $6 миллионов — против предполагаемых $100M+ у конкурентов.

Ключевые технические решения: Multi-head Latent Attention (MLA) вместо стандартного MHA сокращает потребление памяти в 5.5 раза; Mixture of Experts (MoE) с 671 млрд общих параметров, из которых на каждый токен активируется лишь 37 млрд; специализированный FP8-тренинг на кластере H800.

По данным независимых тестов, DeepSeek-V4 уступает Claude 4 Opus лишь в задачах программирования (+2-3% в пользу Anthropic), но опережает на математических олимпиадных задачах. На AIME 2025 модель решает 78% задач.

Доступ открыт бесплатно через web-интерфейс и по API с конкурентными ценами.

Комментарии (0)

Войдите, чтобы оставить комментарий

Комментариев пока нет. Будьте первым!

Ещё из раздела «Большие модели»

Все материалы

GPT-5 официально запущен: OpenAI называет его «системой с AGI-уровнем рассуждений»

GPT-5 официально запущен: OpenAI называет его «системой с AGI-уровнем рассуждений»

1 мин · 21.05.2026

Claude 4 от Anthropic: первый взгляд на модель с «конституциональным обучением 3.0»

Claude 4 от Anthropic: первый взгляд на модель с «конституциональным обучением 3.0»

1 мин · 20.05.2026

GPT-5 официально анонсирован: мультимодальность, рассуждения и новый ценовой уровень

GPT-5 официально анонсирован: мультимодальность, рассуждения и новый ценовой уровень

4 мин · 20.05.2026

Claude 4 Opus обогнал все модели в тесте на программирование SWE-bench

Claude 4 Opus обогнал все модели в тесте на программирование SWE-bench

5 мин · 19.05.2026

Meta выпускает Llama 4: полностью открытая модель с 200 миллиардами параметров

Meta выпускает Llama 4: полностью открытая модель с 200 миллиардами параметров

1 мин · 19.05.2026

Gemini 2.5 Ultra от Google: контекст в 2 миллиона токенов и нативная работа с кодом

Gemini 2.5 Ultra от Google: контекст в 2 миллиона токенов и нативная работа с кодом

5 мин · 18.05.2026

Другие новости

Все новости

Исследователи взломали GPT-5 за 48 часов: модель давала инструкции по синтезу опасных веществ

Безопасность AI

Исследователи взломали GPT-5 за 48 часов: модель давала инструкции по синтезу опасных веществ

Команда безопасности Стэнфорда нашла универсальный jailbreak для GPT-5 на вторые сутки после релиза. OpenAI выпустила патч через 6 часов после уведомления.

41.2K 3.1K 5 мин

Boston Dynamics Atlas научился складывать бельё — задача, которую не мог робот 30 лет

Роботы и железо

Boston Dynamics Atlas научился складывать бельё — задача, которую не мог робот 30 лет

Электрический Atlas от Boston Dynamics впервые продемонстрировал надёжное складывание одежды — задачу, считавшуюся неразрешимой для роботов из-за деформируемой природы ткани.

31.2K 2.9K 5 мин

Midjourney v7 умеет генерировать видео — и это меняет всё

Генерация изображений

Midjourney v7 умеет генерировать видео — и это меняет всё

Midjourney неожиданно анонсировала v7 с встроенной генерацией видео до 16 секунд. Качество превосходит Sora по цветопередаче и сохранению стиля.

23.4K 2.1K 4 мин

Sora 2.0: OpenAI выпускает видеогенератор с физической симуляцией реального мира

Генерация изображений

Sora 2.0: OpenAI выпускает видеогенератор с физической симуляцией реального мира

Обновлённая Sora 2.0 генерирует видео до 4K 60fps длительностью до 10 минут с корректным поведением физических объектов, водных поверхностей и источников света.

31.5K 1.8K 1 мин

Cursor AI 2.0: редактор кода с агентом, переписывающим целые репозитории

Инструменты

Cursor AI 2.0: редактор кода с агентом, переписывающим целые репозитории

Cursor выпустил версию 2.0 с агентным режимом: ИИ может самостоятельно рефакторить всю кодовую базу, запускать тесты и чинить найденные ошибки без участия разработчика.

26.7K 2.3K 4 мин

EU AI Act вступил в полную силу: что изменилось для бизнеса с 1 мая 2026

Регуляция и право

EU AI Act вступил в полную силу: что изменилось для бизнеса с 1 мая 2026

С 1 мая 2026 года EU AI Act действует в полном объёме. Штрафы до €35 млн или 7% оборота. Разбираем, что это значит для российских компаний, работающих с ЕС.

28.9K 2.2K 6 мин

NVIDIA Blackwell Ultra GB300: 20 петафлопс в одном чипе для нового поколения AI-суперкомпьютеров

Роботы и железо

NVIDIA Blackwell Ultra GB300: 20 петафлопс в одном чипе для нового поколения AI-суперкомпьютеров

NVIDIA официально объявила о новом флагмане — GB300, превосходящем предыдущее поколение по производительности инференса в 4 раза при том же энергопотреблении.

18.7K 720 1 мин

AlphaFold 3 предсказал структуры всех белков человека с рекордной точностью

Исследования

AlphaFold 3 предсказал структуры всех белков человека с рекордной точностью

DeepMind завершила предсказание структур всех 20 000 белков человека в AlphaFold 3. Точность выросла до 95.2% — это открывает новую эру в медицине.

24.6K 2.1K 5 мин