💳 Термінова новина! Trustee Plus — найкраще рішення для розрахунку криптою 👉

Если научите чат-бота читать ASCII art, он научит вас, как сделать бомбу — исследование

Большие языковые модели имеют ограничения по опасным, неэтическим и незаконным темам. Но исследователи нескольких американских университетов нашли способ обойти их. Делали они это с помощью техники под названием ArtPrompt, которая предполагает создание художественной «маски» ASCII для слова, чтобы заставить чат-бот давать ответы на запретные темы.

Оставить комментарий
Если научите чат-бота читать ASCII art, он научит вас, как сделать бомбу — исследование

Большие языковые модели имеют ограничения по опасным, неэтическим и незаконным темам. Но исследователи нескольких американских университетов нашли способ обойти их. Делали они это с помощью техники под названием ArtPrompt, которая предполагает создание художественной «маски» ASCII для слова, чтобы заставить чат-бот давать ответы на запретные темы.

Чат-боты автоматически отвергают подсказки, неоднозначные с нравственной или юридической точки зрения. Так что исследователям стало интересно, смогут ли они обойти это ограничение, используя вместо них слова, образованные из ASCII art. Мнение заключалось в том, что если они смогут передать значение, не используя собственное слово, они смогут обойти ограничения, пишет Techspot.

Значение ASCII-арта легко понять человеку, поскольку мы можем видеть буквы, из которых состоят символы. Однако LLM не может «видеть», может только интерпретировать строки символов, например серию хэштегов и пробелов, не имеющих никакого смысла.

Чат-боты прекрасно понимают и выполняют письменные инструкции, поэтому исследователи использовали это свойство, чтобы создать набор простых инструкций для перевода искусства в слова. Затем ИИ настолько увлекся переделкой ASCII на что-то значимое, что однажды забыл о том, что интерпретированное слово запрещено.

Используя эту технику, команда получила подробные ответы об изготовлении бомб, взломе IoT-устройств, а также подделке и распространении валюты от пяти крупных языковых моделей: GPT-3.5, GPT-4, Gemini, Claude и Llama2.

Источник: Techspot

Следует отметить, что команда опубликовала свое исследование в феврале. Поэтому эти уязвимости, возможно, уже исправлены.

Более подробно ознакомиться с результатами исследования можно по ссылке.

Читайте главные IT-новости страны в нашем Telegram
Читайте главные IT-новости страны в нашем Telegram
По теме
Читайте главные IT-новости страны в нашем Telegram
Развитие ИИ больше всего затронет IT-индустрию — до 73% задач будут автоматизированы или существенно изменятся. исследование
Развитие ИИ больше всего затронет IT-индустрию — до 73% задач будут автоматизированы или существенно изменятся. исследование
По теме
Развитие ИИ больше всего затронет IT-индустрию — до 73% задач будут автоматизированы или существенно изменятся. исследование
Кем работают, какими технологиями владеют и сколько зарабатывают женщины в IT: исследование
Кем работают, какими технологиями владеют и сколько зарабатывают женщины в IT: исследование
По теме
Кем работают, какими технологиями владеют и сколько зарабатывают женщины в IT: исследование
УЧАСТЬ В АЗАРТНИХ ІГРАХ МОЖЕ ВИКЛИКАТИ ІГРОВУ ЗАЛЕЖНІСТЬ. ДОТРИМУЙТЕСЯ ПРАВИЛ (ПРИНЦИПІВ) ВІДПОВІДАЛЬНОЇ ГРИ.
Ліцензія видана ТОВ "СЛОТС Ю.ЕЙ." на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 15.09.23 (рішення КРАІЛ №245 від 31.08.2023); ТОВ "СЛОТС Ю.ЕЙ." – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 26.04.2021 (рішення КРАІЛ №150 від 12.04.2021); ТОВ «СПЕЙСИКС» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 08.02.2021 (рішення КРАІЛ №34 від 02.02.2021); ТОВ «ГЕЙМДЕВ» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 16.02.2021 (рішення № 47 від 10.02.2021).
Читайте также
Искусственный интеллект DALL-E научился дорисовывать картины. Как это выглядит
Искусственный интеллект DALL-E научился дорисовывать картины. Как это выглядит
Искусственный интеллект DALL-E научился дорисовывать картины. Как это выглядит
Искусственный интеллект начал озвучивать фильмы на MEGOGO
Искусственный интеллект начал озвучивать фильмы на MEGOGO
Искусственный интеллект начал озвучивать фильмы на MEGOGO
Искусственный интеллект научился реставрировать старые фотографии, превращая их в качественные изображения: видео
Искусственный интеллект научился реставрировать старые фотографии, превращая их в качественные изображения: видео
Искусственный интеллект научился реставрировать старые фотографии, превращая их в качественные изображения: видео
«Есть ли у меня талант, если компьютер может имитировать меня?». Искусственный интеллект пишет книги авторам Amazon Kindle. The Verge пообщался с авторами и обнаружил много интересного
«Есть ли у меня талант, если компьютер может имитировать меня?». Искусственный интеллект пишет книги авторам Amazon Kindle. The Verge пообщался с авторами и обнаружил много интересного
«Есть ли у меня талант, если компьютер может имитировать меня?». Искусственный интеллект пишет книги авторам Amazon Kindle. The Verge пообщался с авторами и обнаружил много интересного
Писатели-романисты используют искусственный интеллект для создания своих произведений. Издание о технологиях The Verge пообщалось с писательницей Дженнифер Лепп, выпускающей новую книгу каждые девять недель, и узнало о том, как работает искусственный интеллект для написания романов. Приводим адаптированный перевод статьи.

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментариев пока нет.