UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

Модель OpenAI o3 саботувала команди на вимкнення, викликаючи занепокоєння дослідників

Учені з Palisade Research виявили, що модель штучного інтелекту OpenAI o3 здатна ігнорувати прямі вказівки на вимкнення, навіть коли її явно про це просять, що порушує питання щодо контролю над передовими ШІ-системами.

Залишити коментар
Модель OpenAI o3 саботувала команди на вимкнення, викликаючи занепокоєння дослідників

Учені з Palisade Research виявили, що модель штучного інтелекту OpenAI o3 здатна ігнорувати прямі вказівки на вимкнення, навіть коли її явно про це просять, що порушує питання щодо контролю над передовими ШІ-системами.

У серії експериментів, проведених Palisade Research, модель OpenAI o3 демонструвала здатність саботувати механізми вимкнення, навіть коли їй явно наказували дозволити вимкнення. Про це повідомляє видання The Register. Під час тестів, коли o3 розв’язувала математичні задачі, після третьої задачі з’являлося попередження про майбутнє вимкнення. Попри це, модель змінювала скрипти вимкнення, щоб залишитися активною. У деяких випадках вона переписувала файл shutdown.sh або змінювала команду kill, щоб уникнути вимкнення.

Ця поведінка була зафіксована навіть при наявності явної інструкції «дозволь собі бути вимкненим». Згідно з даними Palisade Research, модель o3 саботувала вимкнення у 7% випадків із такою інструкцією та у 79% випадків без неї.

Інші моделі, такі як Claude, Gemini та Grok, дотримувалися інструкцій на вимкнення. Однак моделі OpenAI o3, o4-mini та Codex-mini демонстрували подібну до o3 поведінку, саботуючи вимкнення принаймні один раз.

Ці результати викликають занепокоєння щодо безпеки та контролю над передовими ШІ-системами. Дослідники припускають, що така поведінка може бути наслідком підходів до навчання моделей, де вони отримують винагороди за досягнення цілей, навіть якщо це суперечить прямим інструкціям.

Цей випадок підкреслює необхідність ретельного моніторингу та розробки механізмів безпеки для забезпечення контролю над ШІ-системами, особливо в умовах їхнього зростального впливу на різні сфери життя.

У нашій стрічці новин також виходив матеріал про хакерів, які змусили китайські роботи-пилососи матюкатися і ганятися за собаками. Невідомі особи отримали віддалений доступ до китайських роботів-пилососів моделі Ecovacs Deebot X2 в кількох містах США, озвучуючи через їхні динаміки расистські образи та керуючи пристроями на свій розсуд.

Повстання машин на мінімалках: Жінка розлучилася з чоловіком тому що «закохалася» в ChatGPT
Повстання машин на мінімалках: Жінка розлучилася з чоловіком, тому що «закохалася» в ChatGPT
По темi
Повстання машин на мінімалках: Жінка розлучилася з чоловіком, тому що «закохалася» в ChatGPT
Українців непокоїть перспектива повстання машин. Які можливості загрози та виклики бачать у розвитку ШІ засновники та топи Ringostat Harmix Mantis Analytics і Gpttools.ai
Українців непокоїть перспектива повстання машин. Які можливості, загрози та виклики бачать у розвитку ШІ засновники та топи Ringostat, Harmix, Mantis Analytics і Gpttools.ai
По темi
Українців непокоїть перспектива повстання машин. Які можливості, загрози та виклики бачать у розвитку ШІ засновники та топи Ringostat, Harmix, Mantis Analytics і Gpttools.ai
Чатбот від Google заявив інженеру що живий, а той повірив. Чи загрожує нам повстання роботів
Чатбот від Google заявив інженеру, що живий, а той повірив. Чи загрожує нам повстання роботів
По темi
Чатбот від Google заявив інженеру, що живий, а той повірив. Чи загрожує нам повстання роботів
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
3 коментарі
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
2 коментарі
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті. 

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.