Наталя Хандусенко ШІ (ai) 21 марта 2024, 16:01

Если научите чат-бота читать ASCII art, он научит вас, как сделать бомбу — исследование

Большие языковые модели имеют ограничения по опасным, неэтическим и незаконным темам. Но исследователи нескольких американских университетов нашли способ обойти их. Делали они это с помощью техники под названием ArtPrompt, которая предполагает создание художественной «маски» ASCII для слова, чтобы заставить чат-бот давать ответы на запретные темы.

Оставить комментарий

Если научите чат-бота читать ASCII art, он научит вас, как сделать бомбу — исследование

Большие языковые модели имеют ограничения по опасным, неэтическим и незаконным темам. Но исследователи нескольких американских университетов нашли способ обойти их. Делали они это с помощью техники под названием ArtPrompt, которая предполагает создание художественной «маски» ASCII для слова, чтобы заставить чат-бот давать ответы на запретные темы.

Чат-боты автоматически отвергают подсказки, неоднозначные с нравственной или юридической точки зрения. Так что исследователям стало интересно, смогут ли они обойти это ограничение, используя вместо них слова, образованные из ASCII art. Мнение заключалось в том, что если они смогут передать значение, не используя собственное слово, они смогут обойти ограничения, пишет Techspot.

Значение ASCII-арта легко понять человеку, поскольку мы можем видеть буквы, из которых состоят символы. Однако LLM не может «видеть», может только интерпретировать строки символов, например серию хэштегов и пробелов, не имеющих никакого смысла.

Чат-боты прекрасно понимают и выполняют письменные инструкции, поэтому исследователи использовали это свойство, чтобы создать набор простых инструкций для перевода искусства в слова. Затем ИИ настолько увлекся переделкой ASCII на что-то значимое, что однажды забыл о том, что интерпретированное слово запрещено.

Используя эту технику, команда получила подробные ответы об изготовлении бомб, взломе IoT-устройств, а также подделке и распространении валюты от пяти крупных языковых моделей: GPT-3.5, GPT-4, Gemini, Claude и Llama2.

Следует отметить, что команда опубликовала свое исследование в феврале. Поэтому эти уязвимости, возможно, уже исправлены.

Более подробно ознакомиться с результатами исследования можно по ссылке.

Читайте главные IT-новости страны в нашем Telegram

Развитие ИИ больше всего затронет IT-индустрию — до 73% задач будут автоматизированы или существенно изменятся. исследование

Кем работают, какими технологиями владеют и сколько зарабатывают женщины в IT: исследование

Оставить комментарий

Текст: Наталя Хандусенко Теги: штучний інтелект, ascii art, gpt-3.5, gpt-4, gemini, claude, llama2

Нашли ошибку в тексте — выделите её и нажмите Ctrl+Enter. Нашли ошибку в тексте — выделите её и нажмите кнопку «Сообщить об ошибке».

Розміщення реклами

Размещение рекламы

Искусственный интеллект DALL-E научился дорисовывать картины. Как это выглядит

Искусственный интеллект начал озвучивать фильмы на MEGOGO

3 комментария

Искусственный интеллект научился реставрировать старые фотографии, превращая их в качественные изображения: видео

2 комментария

«Есть ли у меня талант, если компьютер может имитировать меня?». Искусственный интеллект пишет книги авторам Amazon Kindle. The Verge пообщался с авторами и обнаружил много интересного

Писатели-романисты используют искусственный интеллект для создания своих произведений. Издание о технологиях The Verge пообщалось с писательницей Дженнифер Лепп, выпускающей новую книгу каждые девять недель, и узнало о том, как работает искусственный интеллект для написания романов. Приводим адаптированный перевод статьи.

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Комментариев пока нет.

Войдите, чтобы оставить комментарий