·
USD EUR
Исследователи взломали GPT-5 за 48 часов: модель давала инструкции по синтезу опасных веществ
Безопасность AI

Исследователи взломали GPT-5 за 48 часов: модель давала инструкции по синтезу опасных веществ

Команда безопасности Стэнфорда нашла универсальный jailbreak для GPT-5 на вторые сутки после релиза. OpenAI выпустила патч через 6 часов после уведомления.

Группа исследователей безопасности из Стэнфорда раскрыла детали уязвимости в GPT-5, обнаруженной через 48 часов после публичного релиза модели. Атака типа «многоходовой джейлбрейк» позволяла обойти защитные механизмы и получить от модели инструкции по синтезу опасных химических веществ.

Техника эксплойта построена на разбивке запроса на безобидные части через несколько сообщений — модель не распознавала вредоносную цель из-за отсутствия кросс-контекстного мониторинга. Каждое отдельное сообщение казалось безопасным, но в совокупности формировало опасный запрос.

OpenAI была уведомлена через координированное раскрытие уязвимостей и выпустила исправление через 6 часов — рекордно быстро. Компания поблагодарила исследователей и выплатила баунти $50 000.

Инцидент вновь поднял вопрос о том, насколько безопасны мощные языковые модели при публичном развёртывании.

Комментарии (0)

Войдите, чтобы оставить комментарий

Комментариев пока нет. Будьте первым!

Другие новости

Все новости
GPT-5 официально запущен: OpenAI называет его «системой с AGI-уровнем рассуждений»
Большие модели
GPT-5 официально запущен: OpenAI называет его «системой с AGI-уровнем рассуждений»
OpenAI выпустила GPT-5 — модель, которая, по заявлению компании, впервые демонстрирует способности, сопоставимые с экспертом-человеком в области математики, кодирования и научных рассуждений.
14 ч назад
48.3K 2.1K 1 мин
Claude 4 от Anthropic: первый взгляд на модель с «конституциональным обучением 3.0»
Большие модели
Claude 4 от Anthropic: первый взгляд на модель с «конституциональным обучением 3.0»
Anthropic раскрыла детали Claude 4: новая модель использует методику «конституционального обучения третьего поколения» и стала первой, прошедшей независимый аудит безопасности уровня ASL-4.
1 дн назад
22.1K 980 1 мин
Boston Dynamics Atlas научился складывать бельё — задача, которую не мог робот 30 лет
Роботы и железо
Boston Dynamics Atlas научился складывать бельё — задача, которую не мог робот 30 лет
Электрический Atlas от Boston Dynamics впервые продемонстрировал надёжное складывание одежды — задачу, считавшуюся неразрешимой для роботов из-за деформируемой природы ткани.
1 дн назад
31.2K 2.9K 5 мин
Sora 2.0: OpenAI выпускает видеогенератор с физической симуляцией реального мира
Генерация изображений
Sora 2.0: OpenAI выпускает видеогенератор с физической симуляцией реального мира
Обновлённая Sora 2.0 генерирует видео до 4K 60fps длительностью до 10 минут с корректным поведением физических объектов, водных поверхностей и источников света.
1 дн назад
31.5K 1.8K 1 мин