·
USD EUR
DeepSeek-V4 из Китая: как 671 млрд параметров уместили в $6M на обучение
Большие модели

DeepSeek-V4 из Китая: как 671 млрд параметров уместили в $6M на обучение

Китайский DeepSeek опубликовал технический отчёт о V4 — модели, которая конкурирует с GPT-5, но обучена за долю цены благодаря архитектурным инновациям.

DeepSeek опубликовал технический отчёт о своей новейшей модели V4, раскрывая детали архитектуры, которая позволила добиться результатов уровня GPT-5 при бюджете обучения всего в $6 миллионов — против предполагаемых $100M+ у конкурентов.

Ключевые технические решения: Multi-head Latent Attention (MLA) вместо стандартного MHA сокращает потребление памяти в 5.5 раза; Mixture of Experts (MoE) с 671 млрд общих параметров, из которых на каждый токен активируется лишь 37 млрд; специализированный FP8-тренинг на кластере H800.

По данным независимых тестов, DeepSeek-V4 уступает Claude 4 Opus лишь в задачах программирования (+2-3% в пользу Anthropic), но опережает на математических олимпиадных задачах. На AIME 2025 модель решает 78% задач.

Доступ открыт бесплатно через web-интерфейс и по API с конкурентными ценами.

Комментарии (0)

Войдите, чтобы оставить комментарий

Комментариев пока нет. Будьте первым!

Другие новости

Все новости
Исследователи взломали GPT-5 за 48 часов: модель давала инструкции по синтезу опасных веществ
Безопасность AI
Исследователи взломали GPT-5 за 48 часов: модель давала инструкции по синтезу опасных веществ
Команда безопасности Стэнфорда нашла универсальный jailbreak для GPT-5 на вторые сутки после релиза. OpenAI выпустила патч через 6 часов после уведомления.
1 дн назад
41.2K 3.1K 5 мин
Boston Dynamics Atlas научился складывать бельё — задача, которую не мог робот 30 лет
Роботы и железо
Boston Dynamics Atlas научился складывать бельё — задача, которую не мог робот 30 лет
Электрический Atlas от Boston Dynamics впервые продемонстрировал надёжное складывание одежды — задачу, считавшуюся неразрешимой для роботов из-за деформируемой природы ткани.
1 дн назад
31.2K 2.9K 5 мин
Sora 2.0: OpenAI выпускает видеогенератор с физической симуляцией реального мира
Генерация изображений
Sora 2.0: OpenAI выпускает видеогенератор с физической симуляцией реального мира
Обновлённая Sora 2.0 генерирует видео до 4K 60fps длительностью до 10 минут с корректным поведением физических объектов, водных поверхностей и источников света.
1 дн назад
31.5K 1.8K 1 мин
NVIDIA Blackwell Ultra GB300: 20 петафлопс в одном чипе для нового поколения AI-суперкомпьютеров
Роботы и железо
NVIDIA Blackwell Ultra GB300: 20 петафлопс в одном чипе для нового поколения AI-суперкомпьютеров
NVIDIA официально объявила о новом флагмане — GB300, превосходящем предыдущее поколение по производительности инференса в 4 раза при том же энергопотреблении.
2 дн назад
18.7K 720 1 мин