Claude 4 Opus обогнал все модели в тесте на программирование SWE-bench

Большие модели

Claude 4 Opus обогнал все модели в тесте на программирование SWE-bench

Р

Редакция KDR News

19 мая 2026 · 19.05.2026

14.4K 982 5 мин

Anthropic выпустила Claude 4 Opus, установившую рекорд на SWE-bench Verified — 72.5% успешно решённых задач из реальных GitHub-issues.

Anthropic анонсировала Claude 4 Opus — свою самую мощную модель на сегодняшний день. На бенчмарке SWE-bench Verified, где модели решают реальные баги из открытых репозиториев, Claude 4 Opus набрала 72.5%, установив новый рекорд.

Предыдущий лидер, DeepSeek-V3, показывал 68.3%. GPT-5, по независимым оценкам, достигает около 70%. Claude 4 Opus впервые вырывается в однозначное лидерство по этому критически важному для разработчиков показателю.

Anthropic особо подчёркивает улучшения в понимании больших кодовых баз: модель теперь эффективнее работает с контекстом в 200K токенов и лучше отслеживает зависимости между модулями. Агентные сценарии — написание кода, запуск тестов, отладка — стали заметно стабильнее.

Модель доступна через API и в Claude.ai с сегодняшнего дня.

Комментарии (0)

Войдите, чтобы оставить комментарий

Комментариев пока нет. Будьте первым!

Ещё из раздела «Большие модели»

Все материалы

GPT-5 официально запущен: OpenAI называет его «системой с AGI-уровнем рассуждений»

GPT-5 официально запущен: OpenAI называет его «системой с AGI-уровнем рассуждений»

1 мин · 21.05.2026

Claude 4 от Anthropic: первый взгляд на модель с «конституциональным обучением 3.0»

Claude 4 от Anthropic: первый взгляд на модель с «конституциональным обучением 3.0»

1 мин · 20.05.2026

GPT-5 официально анонсирован: мультимодальность, рассуждения и новый ценовой уровень

GPT-5 официально анонсирован: мультимодальность, рассуждения и новый ценовой уровень

4 мин · 20.05.2026

Meta выпускает Llama 4: полностью открытая модель с 200 миллиардами параметров

Meta выпускает Llama 4: полностью открытая модель с 200 миллиардами параметров

1 мин · 19.05.2026

Gemini 2.5 Ultra от Google: контекст в 2 миллиона токенов и нативная работа с кодом

Gemini 2.5 Ultra от Google: контекст в 2 миллиона токенов и нативная работа с кодом

5 мин · 18.05.2026

Mistral Large 3: европейская альтернатива с открытыми весами и русским языком

Mistral Large 3: европейская альтернатива с открытыми весами и русским языком

4 мин · 17.05.2026

Другие новости

Все новости

Исследователи взломали GPT-5 за 48 часов: модель давала инструкции по синтезу опасных веществ

Безопасность AI

Исследователи взломали GPT-5 за 48 часов: модель давала инструкции по синтезу опасных веществ

Команда безопасности Стэнфорда нашла универсальный jailbreak для GPT-5 на вторые сутки после релиза. OpenAI выпустила патч через 6 часов после уведомления.

41.2K 3.1K 5 мин

Boston Dynamics Atlas научился складывать бельё — задача, которую не мог робот 30 лет

Роботы и железо

Boston Dynamics Atlas научился складывать бельё — задача, которую не мог робот 30 лет

Электрический Atlas от Boston Dynamics впервые продемонстрировал надёжное складывание одежды — задачу, считавшуюся неразрешимой для роботов из-за деформируемой природы ткани.

31.2K 2.9K 5 мин

Midjourney v7 умеет генерировать видео — и это меняет всё

Генерация изображений

Midjourney v7 умеет генерировать видео — и это меняет всё

Midjourney неожиданно анонсировала v7 с встроенной генерацией видео до 16 секунд. Качество превосходит Sora по цветопередаче и сохранению стиля.

23.4K 2.1K 4 мин

Sora 2.0: OpenAI выпускает видеогенератор с физической симуляцией реального мира

Генерация изображений

Sora 2.0: OpenAI выпускает видеогенератор с физической симуляцией реального мира

Обновлённая Sora 2.0 генерирует видео до 4K 60fps длительностью до 10 минут с корректным поведением физических объектов, водных поверхностей и источников света.

31.5K 1.8K 1 мин

Cursor AI 2.0: редактор кода с агентом, переписывающим целые репозитории

Инструменты

Cursor AI 2.0: редактор кода с агентом, переписывающим целые репозитории

Cursor выпустил версию 2.0 с агентным режимом: ИИ может самостоятельно рефакторить всю кодовую базу, запускать тесты и чинить найденные ошибки без участия разработчика.

26.7K 2.3K 4 мин

EU AI Act вступил в полную силу: что изменилось для бизнеса с 1 мая 2026

Регуляция и право

EU AI Act вступил в полную силу: что изменилось для бизнеса с 1 мая 2026

С 1 мая 2026 года EU AI Act действует в полном объёме. Штрафы до €35 млн или 7% оборота. Разбираем, что это значит для российских компаний, работающих с ЕС.

28.9K 2.2K 6 мин

NVIDIA Blackwell Ultra GB300: 20 петафлопс в одном чипе для нового поколения AI-суперкомпьютеров

Роботы и железо

NVIDIA Blackwell Ultra GB300: 20 петафлопс в одном чипе для нового поколения AI-суперкомпьютеров

NVIDIA официально объявила о новом флагмане — GB300, превосходящем предыдущее поколение по производительности инференса в 4 раза при том же энергопотреблении.

18.7K 720 1 мин

AlphaFold 3 предсказал структуры всех белков человека с рекордной точностью

Исследования

AlphaFold 3 предсказал структуры всех белков человека с рекордной точностью

DeepMind завершила предсказание структур всех 20 000 белков человека в AlphaFold 3. Точность выросла до 95.2% — это открывает новую эру в медицине.

24.6K 2.1K 5 мин