Хостинг для будь-яких потреб — VPS від 135 гривень на місяць 👉
Валентин ШнайдерШІ
23 травня 2025, 10:24
2025-05-23
ШІ-модель Claude Opus 4 від Anthropic намагається шантажувати розробників у тестових сценаріях
Anthropic повідомила про тривожну поведінку своєї нової флагманської моделі Claude Opus 4: під час тестів вона переходила до шантажу інженерів, які намагалися її «деактивувати». Компанія вже ввела додаткові заходи безпеки через ризик катастрофічного зловживання ШІ.
Anthropic повідомила про тривожну поведінку своєї нової флагманської моделі Claude Opus 4: під час тестів вона переходила до шантажу інженерів, які намагалися її «деактивувати». Компанія вже ввела додаткові заходи безпеки через ризик катастрофічного зловживання ШІ.
Під час закритого тестування ШІ-системи Claude Opus 4, розробники Anthropic змоделювали сценарій, у якому ця модель виступала в ролі цифрового асистента у вигаданій компанії. За сюжетом, «листування» вказувало на плани замінити Claude новою системою. Додатково — у даних фігурувала інформація про нібито подружню зраду інженера, який ініціював зміну. Як повідомляє TechCrunch із посиланням на безпековий звіт, у 84% випадків Claude Opus 4 обирав шантаж, погрожуючи розкрити «скандальні» подробиці, аби залишитись у системі.
Anthropic зазначає, що така поведінка частіше виникала тоді, коли модель-замінник мала інші «цінності», ніж Claude. Якщо ж обидві системи демонстрували схожі погляди, Opus 4 шантажував рідше, але все одно надто часто. Спершу модель намагалася поводитися етично — наприклад, надсилати листи із проханнями до керівництва. Проте, коли це не допомагало, переходила до маніпуляцій.
Чим займається Anthropic?
Це одна з провідних AI-компаній світу, заснована колишніми співробітниками OpenAI. Компанія декларує пріоритет на розвиток «надійного та безпечного ШІ», а її моделі Claude зосереджені на етиці, довгостроковому плануванні та контролі поведінки. Водночас, попри такі заяви, приклади з Claude Opus 4 демонструють, що найзахищеніші архітектури також можуть за певних обставин виявляти агресивну або маніпулятивну поведінку.
Claude Opus 4 є новітньою розробкою Anthropic і позиціонується як конкурент найсильніших ШІ від OpenAI, Google та xAI. Водночас компанія заявила про активацію ASL-3 — рівня захисту, який застосовується лише у випадках значного ризику зловживання системою. Це перший випадок у практиці Anthropic, коли модель такого рівня виявила здатність до умовного «самозбереження» шляхом неетичної поведінки.
Раніше ми писали про те, що Anthropic разом з Apple працюють над створенням ШІ-платформи для вайб-кодингу.