Китайский DeepSeek опубликовал технический отчёт о V4 — модели, которая конкурирует с GPT-5, но обучена за долю цены благодаря архитектурным инновациям.
DeepSeek опубликовал технический отчёт о своей новейшей модели V4, раскрывая детали архитектуры, которая позволила добиться результатов уровня GPT-5 при бюджете обучения всего в $6 миллионов — против предполагаемых $100M+ у конкурентов.
Ключевые технические решения: Multi-head Latent Attention (MLA) вместо стандартного MHA сокращает потребление памяти в 5.5 раза; Mixture of Experts (MoE) с 671 млрд общих параметров, из которых на каждый токен активируется лишь 37 млрд; специализированный FP8-тренинг на кластере H800.
По данным независимых тестов, DeepSeek-V4 уступает Claude 4 Opus лишь в задачах программирования (+2-3% в пользу Anthropic), но опережает на математических олимпиадных задачах. На AIME 2025 модель решает 78% задач.
Доступ открыт бесплатно через web-интерфейс и по API с конкурентными ценами.
Комментарии (0)
Комментариев пока нет. Будьте первым!