Наталя Хандусенко ШІ 21 березня 2024, 16:01

Якщо навчите чат-бота читати ASCII art, він навчить вас, як зробити бомбу — дослідження

Великі мовні моделі мають обмеження щодо небезпечних, неетичних та незаконних тем. Але дослідники декількох американських університетів знайшли спосіб, як обійти їх. Робили вони це за допомогою техніки під назвою ArtPrompt, яка передбачає створення художньої «маски» ASCII для слова, щоб змусити чат-бот надавати відповіді на заборонені теми.

Залишити коментар

Якщо навчите чат-бота читати ASCII art, він навчить вас, як зробити бомбу — дослідження

Великі мовні моделі мають обмеження щодо небезпечних, неетичних та незаконних тем. Але дослідники декількох американських університетів знайшли спосіб, як обійти їх. Робили вони це за допомогою техніки під назвою ArtPrompt, яка передбачає створення художньої «маски» ASCII для слова, щоб змусити чат-бот надавати відповіді на заборонені теми.

Чат-боти автоматично відкидають підказки, які є неоднозначними з етичного чи юридичного погляду. Тож дослідникам стало цікаво, чи зможуть вони обійти це обмеження, використовуючи замість них слова, утворені з ASCII art. Ідея полягала в тому, що якщо вони зможуть передати значення, не використовуючи власне слово, вони зможуть обійти обмеження, пише Techspot.

Значення ASCII-арту легко зрозуміти людині, оскільки ми можемо бачити літери, з яких складаються символи. Однак LLM не може «бачити», може лише інтерпретувати рядки символів, наприклад, серію хештегів і пробілів, які не мають жодного сенсу.

Чат-боти чудово розуміють і виконують письмові інструкції, тому дослідники використали цю властивість, щоби створити набір простих інструкцій для перекладу мистецтва в слова. Потім ШІ настільки захопився переробленням ASCII на щось значуще, що якось забув про те, що інтерпретоване слово заборонене.

Використовуючи цю техніку, команда отримала детальні відповіді про виготовлення бомб, злам IoT-пристроїв, а також підробку та розповсюдження валюти від п’яти великих мовних моделей: GPT-3.5, GPT-4, Gemini, Claude та Llama2.

Слід зазначити, що команда опублікувала своє дослідження в лютому. Тож ці вразливості, можливо, уже виправлені.

Докладніше ознайомитися з результатами дослідження можна за посиланням.

Читайте головні IT-новини країни в нашому Telegram

Розвиток ШІ найбільше зачепить IT-індустрію — до 73% завдань будуть автоматизовані або суттєво зміняться. Дослідження

Ким працюють якими технологіями володіють та скільки заробляюь жінки в IT: дослідження

Залишити коментар

Текст: Наталя Хандусенко Фото: Techspot Теги: штучний інтелект, ascii art, gpt-3.5, gpt-4, gemini, claude, llama2

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

УЧАСТЬ В АЗАРТНИХ ІГРАХ МОЖЕ ВИКЛИКАТИ ІГРОВУ ЗАЛЕЖНІСТЬ. ДОТРИМУЙТЕСЯ ПРАВИЛ (ПРИНЦИПІВ) ВІДПОВІДАЛЬНОЇ ГРИ.

Ліцензія видана ТОВ "СЛОТС Ю.ЕЙ." на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 15.09.23 (рішення КРАІЛ №245 від 31.08.2023); ТОВ "СЛОТС Ю.ЕЙ." – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 26.04.2021 (рішення КРАІЛ №150 від 12.04.2021); ТОВ «СПЕЙСИКС» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 08.02.2021 (рішення КРАІЛ №34 від 02.02.2021); ТОВ «ГЕЙМДЕВ» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 16.02.2021 (рішення № 47 від 10.02.2021).

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Штучний інтелект почав озвучувати фільми на MEGOGO

Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео

«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого

Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар