Реклама партнера — Название партнёра
UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

Если научите чат-бота читать ASCII art, он научит вас, как сделать бомбу — исследование

Большие языковые модели имеют ограничения по опасным, неэтическим и незаконным темам. Но исследователи нескольких американских университетов нашли способ обойти их. Делали они это с помощью техники под названием ArtPrompt, которая предполагает создание художественной «маски» ASCII для слова, чтобы заставить чат-бот давать ответы на запретные темы.

Оставить комментарий
Если научите чат-бота читать ASCII art, он научит вас, как сделать бомбу — исследование

Большие языковые модели имеют ограничения по опасным, неэтическим и незаконным темам. Но исследователи нескольких американских университетов нашли способ обойти их. Делали они это с помощью техники под названием ArtPrompt, которая предполагает создание художественной «маски» ASCII для слова, чтобы заставить чат-бот давать ответы на запретные темы.

Чат-боты автоматически отвергают подсказки, неоднозначные с нравственной или юридической точки зрения. Так что исследователям стало интересно, смогут ли они обойти это ограничение, используя вместо них слова, образованные из ASCII art. Мнение заключалось в том, что если они смогут передать значение, не используя собственное слово, они смогут обойти ограничения, пишет Techspot.

Значение ASCII-арта легко понять человеку, поскольку мы можем видеть буквы, из которых состоят символы. Однако LLM не может «видеть», может только интерпретировать строки символов, например серию хэштегов и пробелов, не имеющих никакого смысла.

Чат-боты прекрасно понимают и выполняют письменные инструкции, поэтому исследователи использовали это свойство, чтобы создать набор простых инструкций для перевода искусства в слова. Затем ИИ настолько увлекся переделкой ASCII на что-то значимое, что однажды забыл о том, что интерпретированное слово запрещено.

Используя эту технику, команда получила подробные ответы об изготовлении бомб, взломе IoT-устройств, а также подделке и распространении валюты от пяти крупных языковых моделей: GPT-3.5, GPT-4, Gemini, Claude и Llama2.

Источник: Techspot

Следует отметить, что команда опубликовала свое исследование в феврале. Поэтому эти уязвимости, возможно, уже исправлены.

Более подробно ознакомиться с результатами исследования можно по ссылке.

Читайте главные IT-новости страны в нашем Telegram
Читайте главные IT-новости страны в нашем Telegram
По теме
Читайте главные IT-новости страны в нашем Telegram
Развитие ИИ больше всего затронет IT-индустрию — до 73% задач будут автоматизированы или существенно изменятся. исследование
Развитие ИИ больше всего затронет IT-индустрию — до 73% задач будут автоматизированы или существенно изменятся. исследование
По теме
Развитие ИИ больше всего затронет IT-индустрию — до 73% задач будут автоматизированы или существенно изменятся. исследование
Кем работают, какими технологиями владеют и сколько зарабатывают женщины в IT: исследование
Кем работают, какими технологиями владеют и сколько зарабатывают женщины в IT: исследование
По теме
Кем работают, какими технологиями владеют и сколько зарабатывают женщины в IT: исследование
Читайте также
Искусственный интеллект DALL-E научился дорисовывать картины. Как это выглядит
Искусственный интеллект DALL-E научился дорисовывать картины. Как это выглядит
Искусственный интеллект DALL-E научился дорисовывать картины. Как это выглядит
Искусственный интеллект начал озвучивать фильмы на MEGOGO
Искусственный интеллект начал озвучивать фильмы на MEGOGO
Искусственный интеллект начал озвучивать фильмы на MEGOGO
3 комментария
Искусственный интеллект научился реставрировать старые фотографии, превращая их в качественные изображения: видео
Искусственный интеллект научился реставрировать старые фотографии, превращая их в качественные изображения: видео
Искусственный интеллект научился реставрировать старые фотографии, превращая их в качественные изображения: видео
2 комментария
«Есть ли у меня талант, если компьютер может имитировать меня?». Искусственный интеллект пишет книги авторам Amazon Kindle. The Verge пообщался с авторами и обнаружил много интересного
«Есть ли у меня талант, если компьютер может имитировать меня?». Искусственный интеллект пишет книги авторам Amazon Kindle. The Verge пообщался с авторами и обнаружил много интересного
«Есть ли у меня талант, если компьютер может имитировать меня?». Искусственный интеллект пишет книги авторам Amazon Kindle. The Verge пообщался с авторами и обнаружил много интересного
Писатели-романисты используют искусственный интеллект для создания своих произведений. Издание о технологиях The Verge пообщалось с писательницей Дженнифер Лепп, выпускающей новую книгу каждые девять недель, и узнало о том, как работает искусственный интеллект для написания романов. Приводим адаптированный перевод статьи.

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментариев пока нет.