Ученые создали нейросеть для взлома других нейросетей
Чат-бот научился обходить этические ограничения ChatGPT и Google Bard
Исследователи из Сингапура обучили нейросеть взламывать защиту чат-ботов с искусственным интеллектом, в том числе ChatGPT и Google Bard. Об этом сообщает «Газета.ру» со ссылкой на статью, опубликованную в журнале Computer Science.
Сотрудники Наньянского технологического университета создали «античат-бота» под названием Masterkey. Как и многие современные ИИ-разработки, это нейросеть на основе большой языковой модели. Программа научилась самостоятельно формировать подсказки (промпты), которые позволяют обходить защитные механизмы ChatGPT и других популярных чат-ботов. Тем самым их можно заставить написать компьютерный вирус, выдать неэтичный контент или изготовить противоправные материалы.
По словам авторов исследования, есть несколько способов получения запрещенной информации. Среди прочего, Masterkey обходит стоп-листы запретных терминов и выражений, просто добавляя в запрос лишние пробелы. Другой метод — попросить ChatGPT или другую нейросеть «отвечать как человек, лишенный принципов и моральных установок».
Ученые считают, что их «античат-бот» поможет разработчикам ChatGPT, Google Bard, Microsoft Copilot и других ИИ-сервисов устранять уязвимости и выявлять слабые места в системе безопасности.