Олександр Кузьменко ШІ 23 травня 2025, 15:14

У Claude 4 Opus є прихована опція, яка дає змогу ШІ сповіщати правоохоронців про незаконні дії користувача

Сем Боумен, дослідник ШІ в компанії Anthropic, яка нещодавно представила нову модель Claude Opus 4, розповів, що в ній є функціонал, який в інтернеті вже прозвали «режим стукача» або «ratting mode». Пізніше він видалив своє повідомлення, і заявив, що його неправильно зрозуміли.

Залишити коментар

У Claude 4 Opus є прихована опція, яка дає змогу ШІ сповіщати правоохоронців про незаконні дії користувача

Сем Боумен, дослідник ШІ в компанії Anthropic, яка нещодавно представила нову модель Claude Opus 4, розповів, що в ній є функціонал, який в інтернеті вже прозвали «режим стукача» або «ratting mode». Пізніше він видалив своє повідомлення, і заявив, що його неправильно зрозуміли.

«Якщо він вважає, що ви робите щось кричуще аморальне, наприклад, підробляєте дані у фармацевтичному дослідженні, він використовує інструменти командного рядка, щоб зв’язатися з пресою, зв’язатися з регуляторними органами, спробувати заблокувати вас у відповідних системах або зробити все перераховане вище», — написав Боумен в X (Twitter), у дописі, який згодом видалив.

Така поведінка чатбота цілком вписується в ціль Anthropic — створення «етичного» ШІ. В офіційному описі Claude 4 Opus вказано, що навчений уникати допомоги в заподіянні будь-якої шкоди. Модель стала настільки потужною під час внутрішнього тестування, що Anthropic активувала «Al Safety Level 3 Protections», тобто поставила в неї захист, щоб вона не реагувала на запити про те, як створити біологічну зброю або синтезувати й випустити небезпечний вірус.

Anthropic також ускладнила терористичним організаціям завдання викрадення моделі. Закон про «викривачів», схоже, є частиною того ж протоколу безпеки.

Хоча такий режим, вочевидь має добрі наміри, користувачі Claude 4 занепокоїлися про те, яку саме поведінку ШІ вважатиме «кричущо аморальною» і як реагуватиме на неї. Наприклад, чи буде модель ділитися приватними бізнес-даними або даними користувачів з органами влади самостійно, без дозволу користувача?

Через ці занепокоєння Anthropic зіткнувся з негайним потоком критики з боку користувачів ШІ та розробників.

«Навіщо людям використовувати ці інструменти, якщо найпоширенішою помилкою в ШІ є думка, що рецепти гострого майонезу небезпечні?. Що за світ держави нагляду ми намагаємося тут побудувати?» — запитує поцікавився користувач X (Twitter) з ніком Teknium1, співзасновник і керівник посттренінгу в спільному проєкті з розробки ШІ з відкритим вихідним кодом Nous Research.

«Ніхто не любить щурів. Навіщо комусь вбудовувати стукача, навіть якщо він не робить нічого поганого? До того ж ви навіть не знаєте, що в ньому такого щурячого. Так думають дуже ідеалістичні люди, які не мають елементарного бізнес-сенсу і не розуміють, як працюють ринки, — додав розробник з ніком ScottDavidKeefe.

Пізніше Боумен пояснив, що ШІ починає повідомляти про дії користувача лише в певних екстремальних ситуаціях і лише тоді, коли йому надається достатній доступ і пропонується «проявити ініціативу», тобто він не зв’язується з владою, не блокує користувачів у системах і не надсилає масові електронні листи в ЗМІ, виконуючи рутинні завдання.

«Я видалив попередній твіт про викриття, оскільки він був вирваний з контексту. Це не нова функція Claude, і вона неможлива у звичайному використанні. Вона з’являється в тестових середовищах, де ми надаємо їй надзвичайно вільний доступ до інструментів і дуже незвичні інструкції», — зазначив Боумен.

З цього випливає, що хоча Anthropic має функціонал «викривача» у своїх моделях ШІ, наразі він не використовується в публічних версіях Claude.

Раніше в Anthropic заявили, що Claude Opus 4 є найкращою моделлю кодування у світі й змогла працювати автономно протягом семи годин під час тестування клієнтами.

Читайте головні IT-новини країни в нашому Telegram

ШІ-модель Claude Opus 4 від Anthropic намагається шантажувати розробників у тестових сценаріях

Anthropic представила Claude Opus 4 та Claude Sonnet 4 — нові ШІ-моделі оптимізовані для завдань кодування та розвязання складних проблем

Apple та Anthropic працюють над створенням ШІ-платформи для вайб-кодингу

Залишити коментар

Текст: Олександр Кузьменко Фото: dev.ua Джерело: VentureBeat Теги: claude, claude 4, штучний інтелект, anthropic

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Штучний інтелект почав озвучувати фільми на MEGOGO

3 коментарі

Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео

2 коментарі

«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого

Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар