Команда безопасности Стэнфорда нашла универсальный jailbreak для GPT-5 на вторые сутки после релиза. OpenAI выпустила патч через 6 часов после уведомления.
Группа исследователей безопасности из Стэнфорда раскрыла детали уязвимости в GPT-5, обнаруженной через 48 часов после публичного релиза модели. Атака типа «многоходовой джейлбрейк» позволяла обойти защитные механизмы и получить от модели инструкции по синтезу опасных химических веществ.
Техника эксплойта построена на разбивке запроса на безобидные части через несколько сообщений — модель не распознавала вредоносную цель из-за отсутствия кросс-контекстного мониторинга. Каждое отдельное сообщение казалось безопасным, но в совокупности формировало опасный запрос.
OpenAI была уведомлена через координированное раскрытие уязвимостей и выпустила исправление через 6 часов — рекордно быстро. Компания поблагодарила исследователей и выплатила баунти $50 000.
Инцидент вновь поднял вопрос о том, насколько безопасны мощные языковые модели при публичном развёртывании.
Комментарии (0)
Комментариев пока нет. Будьте первым!