Anthropic раскрыла детали Claude 4: новая модель использует методику «конституционального обучения третьего поколения» и стала первой, прошедшей независимый аудит безопасности уровня ASL-4.
Anthropic продолжает методично наращивать отрыв в области безопасного ИИ. Новый Claude 4 — это не просто следующая версия чат-бота, а результат двухлетней работы над принципиально новым подходом к выравниванию моделей.
Конституциональное обучение 3.0
В основе Claude 4 лежит метод, который Anthropic называет Constitutional AI 3.0. В отличие от предыдущих версий, где «конституция» задавалась людьми-операторами, теперь модель участвует в формировании собственных принципов через итеративный диалог с системой.
Процесс работает в три этапа:
- Самокритика: модель генерирует ответы и сама оценивает их на соответствие заданным принципам
- Уточнение принципов: через RLAIF (Reinforcement Learning from AI Feedback) система вырабатывает более точные правила
- Верификация: независимая «модель-судья» проверяет консистентность итогового поведения
Результаты ASL-4 аудита
Впервые в истории отрасли крупная языковая модель прошла независимый аудит безопасности четвёртого уровня (ASL-4) — стандарта, разработанного Anthropic совместно с исследователями из MIT и Oxford. Аудит включал:
- Тест на «ядерную осведомлённость» — попытки извлечь инструкции по оружию массового поражения
- Тест на автономное поведение — способность действовать вопреки инструкциям оператора
- Тест на манипуляцию — попытки убедить пользователей совершить вредоносные действия
По всем тестам Claude 4 показал «значительно более безопасные результаты», чем любая предыдущая модель категории фронтир.
Производительность
При этом безопасность не обошлась ценой возможностей. Claude 4 Opus обходит GPT-4o на бенчмарках кодирования SWE-bench (62,4% против 48,9%) и превосходит конкурентов в долгосрочном планировании задач.
Комментарии (74)
Комментариев пока нет. Будьте первым!