💳 Потрібна європейська картка з лімітом 50к євро? Встановлюй Trustee Plus 👉
Наталя ХандусенкоШІ (ai)
21 марта 2024, 16:01
2024-03-21
Если научите чат-бота читать ASCII art, он научит вас, как сделать бомбу — исследование
Большие языковые модели имеют ограничения по опасным, неэтическим и незаконным темам. Но исследователи нескольких американских университетов нашли способ обойти их. Делали они это с помощью техники под названием ArtPrompt, которая предполагает создание художественной «маски» ASCII для слова, чтобы заставить чат-бот давать ответы на запретные темы.
Большие языковые модели имеют ограничения по опасным, неэтическим и незаконным темам. Но исследователи нескольких американских университетов нашли способ обойти их. Делали они это с помощью техники под названием ArtPrompt, которая предполагает создание художественной «маски» ASCII для слова, чтобы заставить чат-бот давать ответы на запретные темы.
Чат-боты автоматически отвергают подсказки, неоднозначные с нравственной или юридической точки зрения. Так что исследователям стало интересно, смогут ли они обойти это ограничение, используя вместо них слова, образованные из ASCII art. Мнение заключалось в том, что если они смогут передать значение, не используя собственное слово, они смогут обойти ограничения, пишет Techspot.
Значение ASCII-арта легко понять человеку, поскольку мы можем видеть буквы, из которых состоят символы. Однако LLM не может «видеть», может только интерпретировать строки символов, например серию хэштегов и пробелов, не имеющих никакого смысла.
Чат-боты прекрасно понимают и выполняют письменные инструкции, поэтому исследователи использовали это свойство, чтобы создать набор простых инструкций для перевода искусства в слова. Затем ИИ настолько увлекся переделкой ASCII на что-то значимое, что однажды забыл о том, что интерпретированное слово запрещено.
Используя эту технику, команда получила подробные ответы об изготовлении бомб, взломе IoT-устройств, а также подделке и распространении валюты от пяти крупных языковых моделей: GPT-3.5, GPT-4, Gemini, Claude и Llama2.
Источник: Techspot
Следует отметить, что команда опубликовала свое исследование в феврале. Поэтому эти уязвимости, возможно, уже исправлены.
Более подробно ознакомиться с результатами исследования можно по ссылке.
«Есть ли у меня талант, если компьютер может имитировать меня?». Искусственный интеллект пишет книги авторам Amazon Kindle. The Verge пообщался с авторами и обнаружил много интересного
Писатели-романисты используют искусственный интеллект для создания своих произведений. Издание о технологиях The Verge пообщалось с писательницей Дженнифер Лепп, выпускающей новую книгу каждые девять недель, и узнало о том, как работает искусственный интеллект для написания романов. Приводим адаптированный перевод статьи.
Хотите сообщить важную новость? Пишите в Telegram-бот
Главные события и полезные ссылки в нашем Telegram-канале