·
USD EUR
Claude 4 Opus обогнал все модели в тесте на программирование SWE-bench
Большие модели

Claude 4 Opus обогнал все модели в тесте на программирование SWE-bench

Anthropic выпустила Claude 4 Opus, установившую рекорд на SWE-bench Verified — 72.5% успешно решённых задач из реальных GitHub-issues.

Anthropic анонсировала Claude 4 Opus — свою самую мощную модель на сегодняшний день. На бенчмарке SWE-bench Verified, где модели решают реальные баги из открытых репозиториев, Claude 4 Opus набрала 72.5%, установив новый рекорд.

Предыдущий лидер, DeepSeek-V3, показывал 68.3%. GPT-5, по независимым оценкам, достигает около 70%. Claude 4 Opus впервые вырывается в однозначное лидерство по этому критически важному для разработчиков показателю.

Anthropic особо подчёркивает улучшения в понимании больших кодовых баз: модель теперь эффективнее работает с контекстом в 200K токенов и лучше отслеживает зависимости между модулями. Агентные сценарии — написание кода, запуск тестов, отладка — стали заметно стабильнее.

Модель доступна через API и в Claude.ai с сегодняшнего дня.

Комментарии (0)

Войдите, чтобы оставить комментарий

Комментариев пока нет. Будьте первым!

Другие новости

Все новости
Исследователи взломали GPT-5 за 48 часов: модель давала инструкции по синтезу опасных веществ
Безопасность AI
Исследователи взломали GPT-5 за 48 часов: модель давала инструкции по синтезу опасных веществ
Команда безопасности Стэнфорда нашла универсальный jailbreak для GPT-5 на вторые сутки после релиза. OpenAI выпустила патч через 6 часов после уведомления.
1 дн назад
41.2K 3.1K 5 мин
Boston Dynamics Atlas научился складывать бельё — задача, которую не мог робот 30 лет
Роботы и железо
Boston Dynamics Atlas научился складывать бельё — задача, которую не мог робот 30 лет
Электрический Atlas от Boston Dynamics впервые продемонстрировал надёжное складывание одежды — задачу, считавшуюся неразрешимой для роботов из-за деформируемой природы ткани.
1 дн назад
31.2K 2.9K 5 мин
Sora 2.0: OpenAI выпускает видеогенератор с физической симуляцией реального мира
Генерация изображений
Sora 2.0: OpenAI выпускает видеогенератор с физической симуляцией реального мира
Обновлённая Sora 2.0 генерирует видео до 4K 60fps длительностью до 10 минут с корректным поведением физических объектов, водных поверхностей и источников света.
1 дн назад
31.5K 1.8K 1 мин
NVIDIA Blackwell Ultra GB300: 20 петафлопс в одном чипе для нового поколения AI-суперкомпьютеров
Роботы и железо
NVIDIA Blackwell Ultra GB300: 20 петафлопс в одном чипе для нового поколения AI-суперкомпьютеров
NVIDIA официально объявила о новом флагмане — GB300, превосходящем предыдущее поколение по производительности инференса в 4 раза при том же энергопотреблении.
2 дн назад
18.7K 720 1 мин