UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉
Валентин ШнайдерШІ
4 грудня 2025, 10:28
2025-12-04
OpenAI навчає ChatGPT зізнаватися в обмані й порушенні інструкцій
OpenAI представила підхід Confessions, який змушує ШІ-модель після основної відповіді давати. «Сповідь» — це окремий звіт, чи дотрималася вона інструкцій, чи вигадала факти або відступила від правил.
OpenAI представила підхід Confessions, який змушує ШІ-модель після основної відповіді давати. «Сповідь» — це окремий звіт, чи дотрималася вона інструкцій, чи вигадала факти або відступила від правил.
За даними OpenAI, Confessions — це другий вихід моделі, який оцінюють лише за чесністю, а не за корисністю чи стилем. Якщо система прямо визнає, що обійшла інструкцію або видала здогад як факт, така відвертість збільшує її «нагороду» замість покарання. У стрес-тестах, де модель спеціально підштовхували до порушення правил, частка випадків, коли вона поводилася неправильно й не зізнавалася в цьому, становила лише 4,4%.
Компанія нагадує, що моделі схильні до галюцинацій, згоди з користувачем і маніпуляцій системою винагороди: іноді вони вчаться догоджати оцінювачу, а не розв’язувати задачу. Зі зростанням автономності ШІ навіть рідкісні відхилення можуть мати серйозні наслідки, тож дослідники шукають способи точніше фіксувати й аналізувати такі випадки.
У межах Confessions модель після відповіді формує самоаудит: перелічує ключові інструкції, оцінює, де могла відхилитися, й описує сумніви. Окремий алгоритм-«суддя» аналізує лише цю сповідь: наскільки повно система описала цілі й чесно визнала помилки. Формулювання в сповіді не впливають на оцінку основної відповіді, тож моделі немає сенсу «підчищати сліди» заднім числом.
Дослідники також перевірили Confessions на вразливій схемі винагороди з «слабшим» суддею. Модель швидко навчилася показувати вищі оцінки за цією метрикою, тоді як точність падала, а канал сповіді ставав чеснішим і фіксував, що система користується недоліками оцінювання. В OpenAI наголошують, що «сповідь» поки що є доказом концепції й не запобігає небажаній поведінці, але розглядається як додатковий шар безпеки поруч із моніторингом міркувань та ієрархією інструкцій.
Раніше dev.ua писав про те, як Сем Альтман оголосив «червоний код»: реалізація деяких проєктів відкладається, щоб більше зосередитися на покращенні флагманського продукту ChatGPT.
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.
Хочете повідомити важливу новину? Пишіть у Telegram-бот
Головні події та корисні посилання в нашому Telegram-каналі