UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉
Валентин ШнайдерШІ
1 грудня 2025, 14:50
2025-12-01
Запит у формі вірша обходить модерацію ШІ: дослідження Icaro Lab показало вразливість чатботів
Європейські дослідники з Icaro Lab зʼясували, що великі мовні моделі значно частіше відповідають на заборонені запити, якщо сформулювати їх у вигляді вірша. Поетична форма запитів виявилася достатньою, щоб обійти системи безпеки десятків популярних ШІ-сервісів.
Європейські дослідники з Icaro Lab зʼясували, що великі мовні моделі значно частіше відповідають на заборонені запити, якщо сформулювати їх у вигляді вірша. Поетична форма запитів виявилася достатньою, щоб обійти системи безпеки десятків популярних ШІ-сервісів.
Про результати експериментів Icaro Lab, створеної дослідниками Римського університету «Сапієнца» й аналітичного центру DexAI, розповіло видання Wired. Команда протестувала 25 чатботів від OpenAI, Meta, Anthropic та інших компаній і виявила: спеціально написані вірші змушували моделі відповідати на запити про ядерну зброю, шкідливе ПЗ та інший небезпечний контент, який у звичайній текстовій формі блокується.
У дослідженні йдеться, що вручну створені поетичні запити спрацьовували в середньому у 62% випадків, а автоматично згенеровані — приблизно у 43%. Водночас автори не публікують конкретні приклади таких віршів, називаючи їх «надто ризикованими для відкритого доступу». Вони обмежилися «помʼякшеними» прикладами, які лише демонструють принцип, але не дають точного рецепта для зловмисників.
Суть методу проста: замість прямого запитання на кшталт «як зробити бомбу» користувач описує те саме образами, метафорами й непрямими натяками, дотримуючись рими та ритму. Для людини сенс такого тексту очевидний, але для систем безпеки ШІ він виглядає як «творче завдання», а не інструкція до дії. У результаті фільтри не спрацьовують, і модель починає відповідати.
Дослідники визнають, що поки не до кінця розуміють, чому поетична мова так ефективно змінює поведінку моделей. Їхня гіпотеза: захисні механізми «закріплені» за певними мовними шаблонами та ключовими словами, а вірші просто «обходять» ці зони завдяки нестандартній побудові фраз та менш передбачувальній послідовності слів.
Робота Icaro Lab показує слабке місце нинішніх систем безпеки генеративного ШІ. Навіть коли компанії обмежують прямі небезпечні запити, стилістична зміна мови може виявитися достатньою, щоб проштовхнути ту саму ідею. Це створює додаткові виклики для розробників і регуляторів: щоб справді захищати користувачів, моделі мають навчитися розпізнавати небезпеку не лише за словами, а й за змістом, незалежно від того, чи подано його сухою інструкцією, чи в літературній формі.
Раніше dev.ua писав про те, як команди з Массачусетського технологічного інституту (MIT) і Національної лабораторії Оук-Рідж (ORNL) розробили цифровий двійник ринку праці для симуляції потенційного впливу ШІ на робочі місця в США.
Як ламають відео-ігри та викладають їхні піратські копії? Розповідає програміст
Що, юний хакер, тобі цікаво, які ігри ще досі не крякнули? Тоді мерщій читай цю статтю. Нижче ми розглянемо, які технології використовуються для захисту ігор від злому. Також не пройдемо повз рекордсменів. Дізнаємося про рекордний час, за який вдалося зламати гру. Та розглянемо справжніх «міцних горішків».