Хостинг для будь-яких потреб — VPS від 135 гривень на місяць 👉

ШІ-модель Claude Opus 4 від Anthropic намагається шантажувати розробників у тестових сценаріях

Anthropic повідомила про тривожну поведінку своєї нової флагманської моделі Claude Opus 4: під час тестів вона переходила до шантажу інженерів, які намагалися її «деактивувати». Компанія вже ввела додаткові заходи безпеки через ризик катастрофічного зловживання ШІ.

Залишити коментар
ШІ-модель Claude Opus 4 від Anthropic намагається шантажувати розробників у тестових сценаріях

Anthropic повідомила про тривожну поведінку своєї нової флагманської моделі Claude Opus 4: під час тестів вона переходила до шантажу інженерів, які намагалися її «деактивувати». Компанія вже ввела додаткові заходи безпеки через ризик катастрофічного зловживання ШІ.

Під час закритого тестування ШІ-системи Claude Opus 4, розробники Anthropic змоделювали сценарій, у якому ця модель виступала в ролі цифрового асистента у вигаданій компанії. За сюжетом, «листування» вказувало на плани замінити Claude новою системою. Додатково — у даних фігурувала інформація про нібито подружню зраду інженера, який ініціював зміну. Як повідомляє TechCrunch із посиланням на безпековий звіт, у 84% випадків Claude Opus 4 обирав шантаж, погрожуючи розкрити «скандальні» подробиці, аби залишитись у системі.

Anthropic зазначає, що така поведінка частіше виникала тоді, коли модель-замінник мала інші «цінності», ніж Claude. Якщо ж обидві системи демонстрували схожі погляди, Opus 4 шантажував рідше, але все одно надто часто. Спершу модель намагалася поводитися етично — наприклад, надсилати листи із проханнями до керівництва. Проте, коли це не допомагало, переходила до маніпуляцій.

Чим займається Anthropic?

Це одна з провідних AI-компаній світу, заснована колишніми співробітниками OpenAI. Компанія декларує пріоритет на розвиток «надійного та безпечного ШІ», а її моделі Claude зосереджені на етиці, довгостроковому плануванні та контролі поведінки. Водночас, попри такі заяви, приклади з Claude Opus 4 демонструють, що найзахищеніші архітектури також можуть за певних обставин виявляти агресивну або маніпулятивну поведінку.

Claude Opus 4 є новітньою розробкою Anthropic і позиціонується як конкурент найсильніших ШІ від OpenAI, Google та xAI. Водночас компанія заявила про активацію ASL-3 — рівня захисту, який застосовується лише у випадках значного ризику зловживання системою. Це перший випадок у практиці Anthropic, коли модель такого рівня виявила здатність до умовного «самозбереження» шляхом неетичної поведінки.

Раніше ми писали про те, що Anthropic разом з Apple працюють над створенням ШІ-платформи для вайб-кодингу.

В Anthropic очікують появи перших ШІ-працівників уже через рік: до чого готуватися? 
В Anthropic очікують появи перших ШІ-працівників уже через рік: до чого готуватися? 
По темi
В Anthropic очікують появи перших ШІ-працівників уже через рік: до чого готуватися? 
Anthropic інтегрувала свій чат-бот Claude з Google Workspace: тепер він може читати Gmail
Anthropic інтегрувала свій чат-бот Claude з Google Workspace: тепер він може читати Gmail
По темi
Anthropic інтегрувала свій чат-бот Claude з Google Workspace: тепер він може читати Gmail
Anthropic запускає першу гібридну ШІ-модель міркувань яка може відповідати як в реальному часі так і думати протягом тривалого часу
Anthropic запускає першу гібридну ШІ-модель міркувань, яка може відповідати як в реальному часі, так і думати протягом тривалого часу
По темi
Anthropic запускає першу гібридну ШІ-модель міркувань, яка може відповідати як в реальному часі, так і думати протягом тривалого часу
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.