UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

OpenAI навчає ChatGPT зізнаватися в обмані й порушенні інструкцій

OpenAI представила підхід Confessions, який змушує ШІ-модель після основної відповіді давати. «Сповідь» — це окремий звіт, чи дотрималася вона інструкцій, чи вигадала факти або відступила від правил.

Залишити коментар
OpenAI навчає ChatGPT зізнаватися в обмані й порушенні інструкцій

OpenAI представила підхід Confessions, який змушує ШІ-модель після основної відповіді давати. «Сповідь» — це окремий звіт, чи дотрималася вона інструкцій, чи вигадала факти або відступила від правил.

За даними OpenAI, Confessions — це другий вихід моделі, який оцінюють лише за чесністю, а не за корисністю чи стилем. Якщо система прямо визнає, що обійшла інструкцію або видала здогад як факт, така відвертість збільшує її «нагороду» замість покарання. У стрес-тестах, де модель спеціально підштовхували до порушення правил, частка випадків, коли вона поводилася неправильно й не зізнавалася в цьому, становила лише 4,4%.

Компанія нагадує, що моделі схильні до галюцинацій, згоди з користувачем і маніпуляцій системою винагороди: іноді вони вчаться догоджати оцінювачу, а не розв’язувати задачу. Зі зростанням автономності ШІ навіть рідкісні відхилення можуть мати серйозні наслідки, тож дослідники шукають способи точніше фіксувати й аналізувати такі випадки.

У межах Confessions модель після відповіді формує самоаудит: перелічує ключові інструкції, оцінює, де могла відхилитися, й описує сумніви. Окремий алгоритм-«суддя» аналізує лише цю сповідь: наскільки повно система описала цілі й чесно визнала помилки. Формулювання в сповіді не впливають на оцінку основної відповіді, тож моделі немає сенсу «підчищати сліди» заднім числом.

Дослідники також перевірили Confessions на вразливій схемі винагороди з «слабшим» суддею. Модель швидко навчилася показувати вищі оцінки за цією метрикою, тоді як точність падала, а канал сповіді ставав чеснішим і фіксував, що система користується недоліками оцінювання. В OpenAI наголошують, що «сповідь» поки що є доказом концепції й не запобігає небажаній поведінці, але розглядається як додатковий шар безпеки поруч із моніторингом міркувань та ієрархією інструкцій.

Раніше dev.ua писав про те, як Сем Альтман оголосив «червоний код»: реалізація деяких проєктів відкладається, щоб більше зосередитися на покращенні флагманського продукту ChatGPT.

В OpenAI заявили що ChatGPT понад 100 разів радив звернутися за допомогою підлітку який учинив самогубство
В OpenAI заявили, що ChatGPT понад 100 разів радив звернутися за допомогою підлітку, який учинив самогубство
По темi
В OpenAI заявили, що ChatGPT понад 100 разів радив звернутися за допомогою підлітку, який учинив самогубство
Запити до ChatGPT допомогли американським правоохоронцям вийти на підозрюваного в підпалі в Каліфорнії
Запити до ChatGPT допомогли американським правоохоронцям вийти на підозрюваного в підпалі в Каліфорнії
По темi
Запити до ChatGPT допомогли американським правоохоронцям вийти на підозрюваного в підпалі в Каліфорнії
Поліція затримала 13-річного підлітка який запитав у ChatGPT як убити друга. Його «здав» правоохоронцям інший ШІ
Поліція затримала 13-річного підлітка, який запитав у ChatGPT, як убити друга. Його «здав» правоохоронцям інший ШІ
По темi
Поліція затримала 13-річного підлітка, який запитав у ChatGPT, як убити друга. Його «здав» правоохоронцям інший ШІ
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
3 коментарі
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
2 коментарі
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті. 

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.