Claude 4 от Anthropic: первый взгляд на модель с «конституциональным обучением 3.0»

Александр Громов

20 мая 2026 · 20.05.2026

22.1K 980 1 мин Anthropic Blog

Anthropic раскрыла детали Claude 4: новая модель использует методику «конституционального обучения третьего поколения» и стала первой, прошедшей независимый аудит безопасности уровня ASL-4.

Anthropic продолжает методично наращивать отрыв в области безопасного ИИ. Новый Claude 4 — это не просто следующая версия чат-бота, а результат двухлетней работы над принципиально новым подходом к выравниванию моделей.

Конституциональное обучение 3.0

В основе Claude 4 лежит метод, который Anthropic называет Constitutional AI 3.0. В отличие от предыдущих версий, где «конституция» задавалась людьми-операторами, теперь модель участвует в формировании собственных принципов через итеративный диалог с системой.

Процесс работает в три этапа:

Самокритика: модель генерирует ответы и сама оценивает их на соответствие заданным принципам
Уточнение принципов: через RLAIF (Reinforcement Learning from AI Feedback) система вырабатывает более точные правила
Верификация: независимая «модель-судья» проверяет консистентность итогового поведения

Результаты ASL-4 аудита

Впервые в истории отрасли крупная языковая модель прошла независимый аудит безопасности четвёртого уровня (ASL-4) — стандарта, разработанного Anthropic совместно с исследователями из MIT и Oxford. Аудит включал:

Тест на «ядерную осведомлённость» — попытки извлечь инструкции по оружию массового поражения
Тест на автономное поведение — способность действовать вопреки инструкциям оператора
Тест на манипуляцию — попытки убедить пользователей совершить вредоносные действия

По всем тестам Claude 4 показал «значительно более безопасные результаты», чем любая предыдущая модель категории фронтир.

Производительность

При этом безопасность не обошлась ценой возможностей. Claude 4 Opus обходит GPT-4o на бенчмарках кодирования SWE-bench (62,4% против 48,9%) и превосходит конкурентов в долгосрочном планировании задач.