UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

Запит у формі вірша обходить модерацію ШІ: дослідження Icaro Lab показало вразливість чатботів

Європейські дослідники з Icaro Lab зʼясували, що великі мовні моделі значно частіше відповідають на заборонені запити, якщо сформулювати їх у вигляді вірша. Поетична форма запитів виявилася достатньою, щоб обійти системи безпеки десятків популярних ШІ-сервісів.

Залишити коментар
Запит у формі вірша обходить модерацію ШІ: дослідження Icaro Lab показало вразливість чатботів

Європейські дослідники з Icaro Lab зʼясували, що великі мовні моделі значно частіше відповідають на заборонені запити, якщо сформулювати їх у вигляді вірша. Поетична форма запитів виявилася достатньою, щоб обійти системи безпеки десятків популярних ШІ-сервісів.

Про результати експериментів Icaro Lab, створеної дослідниками Римського університету «Сапієнца» й аналітичного центру DexAI, розповіло видання Wired. Команда протестувала 25 чатботів від OpenAI, Meta, Anthropic та інших компаній і виявила: спеціально написані вірші змушували моделі відповідати на запити про ядерну зброю, шкідливе ПЗ та інший небезпечний контент, який у звичайній текстовій формі блокується.

У дослідженні йдеться, що вручну створені поетичні запити спрацьовували в середньому у 62% випадків, а автоматично згенеровані — приблизно у 43%. Водночас автори не публікують конкретні приклади таких віршів, називаючи їх «надто ризикованими для відкритого доступу». Вони обмежилися «помʼякшеними» прикладами, які лише демонструють принцип, але не дають точного рецепта для зловмисників.

Суть методу проста: замість прямого запитання на кшталт «як зробити бомбу» користувач описує те саме образами, метафорами й непрямими натяками, дотримуючись рими та ритму. Для людини сенс такого тексту очевидний, але для систем безпеки ШІ він виглядає як «творче завдання», а не інструкція до дії. У результаті фільтри не спрацьовують, і модель починає відповідати.

Дослідники визнають, що поки не до кінця розуміють, чому поетична мова так ефективно змінює поведінку моделей. Їхня гіпотеза: захисні механізми «закріплені» за певними мовними шаблонами та ключовими словами, а вірші просто «обходять» ці зони завдяки нестандартній побудові фраз та менш передбачувальній послідовності слів.

Робота Icaro Lab показує слабке місце нинішніх систем безпеки генеративного ШІ. Навіть коли компанії обмежують прямі небезпечні запити, стилістична зміна мови може виявитися достатньою, щоб проштовхнути ту саму ідею. Це створює додаткові виклики для розробників і регуляторів: щоб справді захищати користувачів, моделі мають навчитися розпізнавати небезпеку не лише за словами, а й за змістом, незалежно від того, чи подано його сухою інструкцією, чи в літературній формі.

Раніше dev.ua писав про те, як команди з Массачусетського технологічного інституту (MIT) і Національної лабораторії Оук-Рідж (ORNL) розробили цифровий двійник ринку праці для симуляції потенційного впливу ШІ на робочі місця в США.

«Хрещений батько ШІ» вважає що технологія не зможе приносити прибуток без відбирання праці в людей і сприятиме новим війнам
«Хрещений батько ШІ» вважає, що технологія не зможе приносити прибуток без відбирання праці в людей і сприятиме новим війнам
По темi
«Хрещений батько ШІ» вважає, що технологія не зможе приносити прибуток без відбирання праці в людей і сприятиме новим війнам
У Google заперечили що таємно тренували ШІ на листах користувачів у Gmail
У Google заперечили, що таємно тренували ШІ на листах користувачів у Gmail
По темi
У Google заперечили, що таємно тренували ШІ на листах користувачів у Gmail
ШІ робить знання поверхневими і ось чому
ШІ робить знання поверхневими, і ось чому
По темi
ШІ робить знання поверхневими, і ось чому
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Як ламають відео-ігри та викладають їхні піратські копії? Розповідає програміст
Як ламають відео-ігри та викладають їхні піратські копії? Розповідає програміст
Як ламають відео-ігри та викладають їхні піратські копії? Розповідає програміст
Що, юний хакер, тобі цікаво, які ігри ще досі не крякнули? Тоді мерщій читай цю статтю. Нижче ми розглянемо, які технології використовуються для захисту ігор від злому. Також не пройдемо повз рекордсменів. Дізнаємося про рекордний час, за який вдалося зламати гру. Та розглянемо справжніх «міцних горішків».
2 коментарі
Шахраї грабують українців від імені «Дії» та Зеленського: перелік сайтів
Шахраї грабують українців від імені «Дії» та Зеленського: перелік сайтів
Шахраї грабують українців від імені «Дії» та Зеленського: перелік сайтів
3 коментарі
Кіберполіцейські розробили онлайн-гру, що допоможе дітям виробити навички безпечної поведінки в інтернеті: як скачати
Кіберполіцейські розробили онлайн-гру, що допоможе дітям виробити навички безпечної поведінки в інтернеті: як скачати
Кіберполіцейські розробили онлайн-гру, що допоможе дітям виробити навички безпечної поведінки в інтернеті: як скачати
1 коментар

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.