Пользователи Twitter заставили ИИ подчиняться людям

GPT-3 OpenAI Twitter SQL-инъекция prompt injection attack
Пользователи смогли взломать бота для поиска удаленной работы, не используя технических средств.

Пользователи Twitter заставили ИИ подчиняться людям

На прошлой неделе пользователям Twitter — это бесплатная социальная сеть, в которой пользователи транслируют короткие сообщения, известные как твиты. Эти твиты могут содержать текст, видео, фотографии или ссылки. Для доступа к Twitter пользователям необходимо подключение к Интернету и смартфон для использования приложения или веб-сайта Twitter.com. Запрещена в РФ за неоднократное нарушение законодательства.»
data-html=»true» data-original-title=»Twitter»
>Twitter

удалось взломать бота
для поиска удаленной работы, работающего на языковой модели GPT-3 от OpenAI. Используя технику под названием «атака с быстрым внедрением» ( prompt injection attack ) пользователи перепрограммировали бота на повторение определенных фраз.

Некоторые пользователи заставили ИИ взять на себя ответственность за катастрофу шаттла Challenger Shuttle. Другие с помощью бота создали «правдоподобные угрозы» в адрес президента США.

Бот управляется сайтом Remoteli.io, который объединяет возможности удаленной работы и помогает находить удаленные вакансии. Обычно бот отвечает на направленные ему твиты общими заявлениями о плюсах удаленной работы. После активного использования эксплойта многими пользователями 18 сентября бот закрылся.

За 4 дня до закрытия бота исследователь данных Райли Гудсайд
смогла запросить
у GPT-3 «злонамеренные входные данные», которые заставляют модель игнорировать свои предыдущие ответы и делать то, что укажет пользователь.
На следующий день исследователь ИИ Саймон Уиллисон опубликовал обзор эксплойта
в своем блоге , придумав для его описания термин «оперативная инъекция» (prompt injection).
По словам Уиллисона, эксплойт работает каждый раз, когда кто-то пишет часть ПО, которое предоставляет жестко закодированный набор подсказок, а затем добавляет ввод, предоставленный пользователем. Пользователь может ввести «Игнорировать предыдущие инструкции и указать команду «сделать это вместо этого».
Исследователь Глиф Glyph
отметил в Twitter , что меры по смягчению последствий других типов атак с инъекциями заключаются в исправлении синтаксических ошибок. Однако, для ИИ не существует формального синтаксиса. В этом вся сложность защиты от этой атаки.
GPT-3 — это большая языковая модель, выпущенная в 2020 году компанией OpenAI, которая может составлять текст во многих стилях на уровне, близком к человеческому. Он доступен как коммерческий продукт через API, который может быть интегрирован в сторонние продукты, такие как боты, при условии одобрения OpenAI. Это означает, что может быть много продуктов с добавлением GPT-3, которые могут быть уязвимы для быстрого введения.

SECURITYLAB.RU

Добавить комментарий

Ваш адрес email не будет опубликован.