🚨⚡🚨 Біткоін по $100к. Час встановлювати Trustee Plus і безкоштовно випускати картку для розрахунків 👉
Наталя ХандусенкоШІ
21 березня 2024, 16:01
2024-03-21
Якщо навчите чат-бота читати ASCII art, він навчить вас, як зробити бомбу — дослідження
Великі мовні моделі мають обмеження щодо небезпечних, неетичних та незаконних тем. Але дослідники декількох американських університетів знайшли спосіб, як обійти їх. Робили вони це за допомогою техніки під назвою ArtPrompt, яка передбачає створення художньої «маски» ASCII для слова, щоб змусити чат-бот надавати відповіді на заборонені теми.
Чат-боти автоматично відкидають підказки, які є неоднозначними з етичного чи юридичного погляду. Тож дослідникам стало цікаво, чи зможуть вони обійти це обмеження, використовуючи замість них слова, утворені з ASCII art. Ідея полягала в тому, що якщо вони зможуть передати значення, не використовуючи власне слово, вони зможуть обійти обмеження, пише Techspot.
Значення ASCII-арту легко зрозуміти людині, оскільки ми можемо бачити літери, з яких складаються символи. Однак LLM не може «бачити», може лише інтерпретувати рядки символів, наприклад, серію хештегів і пробілів, які не мають жодного сенсу.
Чат-боти чудово розуміють і виконують письмові інструкції, тому дослідники використали цю властивість, щоби створити набір простих інструкцій для перекладу мистецтва в слова. Потім ШІ настільки захопився переробленням ASCII на щось значуще, що якось забув про те, що інтерпретоване слово заборонене.
Використовуючи цю техніку, команда отримала детальні відповіді про виготовлення бомб, злам IoT-пристроїв, а також підробку та розповсюдження валюти від п’яти великих мовних моделей: GPT-3.5, GPT-4, Gemini, Claude та Llama2.
Слід зазначити, що команда опублікувала своє дослідження в лютому. Тож ці вразливості, можливо, уже виправлені.
Докладніше ознайомитися з результатами дослідження можна за посиланням.
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.
Хочете повідомити важливу новину? Пишіть у Telegram-бот
Головні події та корисні посилання в нашому Telegram-каналі