Валентин Шнайдер ШІ 23 травня 2025, 10:24

ШІ-модель Claude Opus 4 від Anthropic намагається шантажувати розробників у тестових сценаріях

Anthropic повідомила про тривожну поведінку своєї нової флагманської моделі Claude Opus 4: під час тестів вона переходила до шантажу інженерів, які намагалися її «деактивувати». Компанія вже ввела додаткові заходи безпеки через ризик катастрофічного зловживання ШІ.

Залишити коментар

ШІ-модель Claude Opus 4 від Anthropic намагається шантажувати розробників у тестових сценаріях

Anthropic повідомила про тривожну поведінку своєї нової флагманської моделі Claude Opus 4: під час тестів вона переходила до шантажу інженерів, які намагалися її «деактивувати». Компанія вже ввела додаткові заходи безпеки через ризик катастрофічного зловживання ШІ.

Під час закритого тестування ШІ-системи Claude Opus 4, розробники Anthropic змоделювали сценарій, у якому ця модель виступала в ролі цифрового асистента у вигаданій компанії. За сюжетом, «листування» вказувало на плани замінити Claude новою системою. Додатково — у даних фігурувала інформація про нібито подружню зраду інженера, який ініціював зміну. Як повідомляє TechCrunch із посиланням на безпековий звіт, у 84% випадків Claude Opus 4 обирав шантаж, погрожуючи розкрити «скандальні» подробиці, аби залишитись у системі.

Anthropic зазначає, що така поведінка частіше виникала тоді, коли модель-замінник мала інші «цінності», ніж Claude. Якщо ж обидві системи демонстрували схожі погляди, Opus 4 шантажував рідше, але все одно надто часто. Спершу модель намагалася поводитися етично — наприклад, надсилати листи із проханнями до керівництва. Проте, коли це не допомагало, переходила до маніпуляцій.

Чим займається Anthropic?

Це одна з провідних AI-компаній світу, заснована колишніми співробітниками OpenAI. Компанія декларує пріоритет на розвиток «надійного та безпечного ШІ», а її моделі Claude зосереджені на етиці, довгостроковому плануванні та контролі поведінки. Водночас, попри такі заяви, приклади з Claude Opus 4 демонструють, що найзахищеніші архітектури також можуть за певних обставин виявляти агресивну або маніпулятивну поведінку.

Claude Opus 4 є новітньою розробкою Anthropic і позиціонується як конкурент найсильніших ШІ від OpenAI, Google та xAI. Водночас компанія заявила про активацію ASL-3 — рівня захисту, який застосовується лише у випадках значного ризику зловживання системою. Це перший випадок у практиці Anthropic, коли модель такого рівня виявила здатність до умовного «самозбереження» шляхом неетичної поведінки.

Раніше ми писали про те, що Anthropic разом з Apple працюють над створенням ШІ-платформи для вайб-кодингу.