Anthropic выпустила Claude 4 Opus, установившую рекорд на SWE-bench Verified — 72.5% успешно решённых задач из реальных GitHub-issues.
Anthropic анонсировала Claude 4 Opus — свою самую мощную модель на сегодняшний день. На бенчмарке SWE-bench Verified, где модели решают реальные баги из открытых репозиториев, Claude 4 Opus набрала 72.5%, установив новый рекорд.
Предыдущий лидер, DeepSeek-V3, показывал 68.3%. GPT-5, по независимым оценкам, достигает около 70%. Claude 4 Opus впервые вырывается в однозначное лидерство по этому критически важному для разработчиков показателю.
Anthropic особо подчёркивает улучшения в понимании больших кодовых баз: модель теперь эффективнее работает с контекстом в 200K токенов и лучше отслеживает зависимости между модулями. Агентные сценарии — написание кода, запуск тестов, отладка — стали заметно стабильнее.
Модель доступна через API и в Claude.ai с сегодняшнего дня.
Комментарии (0)
Комментариев пока нет. Будьте первым!