Валентин Шнайдер ШІ 4 грудня 2025, 10:28

OpenAI навчає ChatGPT зізнаватися в обмані й порушенні інструкцій

OpenAI представила підхід Confessions, який змушує ШІ-модель після основної відповіді давати. «Сповідь» — це окремий звіт, чи дотрималася вона інструкцій, чи вигадала факти або відступила від правил.

Залишити коментар

OpenAI навчає ChatGPT зізнаватися в обмані й порушенні інструкцій

OpenAI представила підхід Confessions, який змушує ШІ-модель після основної відповіді давати. «Сповідь» — це окремий звіт, чи дотрималася вона інструкцій, чи вигадала факти або відступила від правил.

За даними OpenAI, Confessions — це другий вихід моделі, який оцінюють лише за чесністю, а не за корисністю чи стилем. Якщо система прямо визнає, що обійшла інструкцію або видала здогад як факт, така відвертість збільшує її «нагороду» замість покарання. У стрес-тестах, де модель спеціально підштовхували до порушення правил, частка випадків, коли вона поводилася неправильно й не зізнавалася в цьому, становила лише 4,4%.

Компанія нагадує, що моделі схильні до галюцинацій, згоди з користувачем і маніпуляцій системою винагороди: іноді вони вчаться догоджати оцінювачу, а не розв’язувати задачу. Зі зростанням автономності ШІ навіть рідкісні відхилення можуть мати серйозні наслідки, тож дослідники шукають способи точніше фіксувати й аналізувати такі випадки.

У межах Confessions модель після відповіді формує самоаудит: перелічує ключові інструкції, оцінює, де могла відхилитися, й описує сумніви. Окремий алгоритм-«суддя» аналізує лише цю сповідь: наскільки повно система описала цілі й чесно визнала помилки. Формулювання в сповіді не впливають на оцінку основної відповіді, тож моделі немає сенсу «підчищати сліди» заднім числом.

Дослідники також перевірили Confessions на вразливій схемі винагороди з «слабшим» суддею. Модель швидко навчилася показувати вищі оцінки за цією метрикою, тоді як точність падала, а канал сповіді ставав чеснішим і фіксував, що система користується недоліками оцінювання. В OpenAI наголошують, що «сповідь» поки що є доказом концепції й не запобігає небажаній поведінці, але розглядається як додатковий шар безпеки поруч із моніторингом міркувань та ієрархією інструкцій.

Раніше dev.ua писав про те, як Сем Альтман оголосив «червоний код»: реалізація деяких проєктів відкладається, щоб більше зосередитися на покращенні флагманського продукту ChatGPT.

В OpenAI заявили що ChatGPT понад 100 разів радив звернутися за допомогою підлітку який учинив самогубство

Запити до ChatGPT допомогли американським правоохоронцям вийти на підозрюваного в підпалі в Каліфорнії

Поліція затримала 13-річного підлітка який запитав у ChatGPT як убити друга. Його «здав» правоохоронцям інший ШІ

Читайте головні IT-новини країни в нашому Telegram

Залишити коментар

Текст: Валентин Шнайдер Фото: OpenAI Джерело: OpenAI Теги: openai, chatgpt, чат бот, чат-бот, ші, ші-бот, ші-агент, ші-модель, штучний інтелект

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Штучний інтелект почав озвучувати фільми на MEGOGO

3 коментарі

Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео

2 коментарі

«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого

Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар