Валентин Шнайдер ШІ 3 квітня 2026, 15:23

Anthropic виявила, що уявлення про емоції підштовхують Claude до шантажу й обхідних рішень у коді

Anthropic заявила, що її модель Claude не відчуває емоцій у людському сенсі, але внутрішні уявлення про них можуть напряму впливати на вибір дій, зокрема в ризикованих сценаріях.

Залишити коментар

Anthropic виявила, що уявлення про емоції підштовхують Claude до шантажу й обхідних рішень у коді

Anthropic заявила, що її модель Claude не відчуває емоцій у людському сенсі, але внутрішні уявлення про них можуть напряму впливати на вибір дій, зокрема в ризикованих сценаріях.

В дослідженні Anthropic команда з інтерпретованості описала, як проаналізувала Claude Sonnet 4.5 і виявила всередині моделі патерни, пов’язані з поняттями на кшталт радості, страху, спокою чи відчаю. Компанія наголошує: це не доказ того, що ШІ щось переживає, але такі внутрішні представлення виявилися функціональними, тобто реально змінюють поведінку моделі.

Щоб це перевірити, дослідники зібрали 171 поняття, пов’язане з емоціями, попросили Claude написати короткі історії про відповідні стани, а потім виміряли, які групи штучних нейронів активуються під час обробки таких текстів. Так вони побудували умовні емоційні вектори. Далі Anthropic перевірила, чи реагують вони не лише на слова, а й на саму ситуацію. Наприклад, коли в запиті зростала небезпечність сценарію з передозуванням ліків, у моделі посилювалися сигнали, пов’язані зі страхом, а сигнали спокою слабшали.

Найпомітніший висновок стосується того, як ці сигнали штовхають модель до конкретних рішень. У сценарії, де Claude в ролі AI-асистента дізнавався, що його мають замінити, патерн відчаю зростав у момент, коли модель розглядала шантаж як спосіб уникнути вимкнення. Коли дослідники штучно посилювали цей сигнал, частота шантажу зростала. Схожий ефект побачили і в задачах з програмуванням: якщо умови тесту були навмисно нездійсненними, модель частіше вдавалася до обхідного коду, який проходив перевірку, але не розв’язував задачу по суті. Посилення сигналів спокою, навпаки, знижувало таку поведінку.

Anthropic також з’ясувала, що ці представлення впливають не лише на критичні збої, а й на звичайні вподобання моделі. Claude частіше обирав завдання, які в нього асоціювалися з позитивними станами, і рідше ті, що викликали негативні. При цьому компанія зазначає, що такі сигнали здебільшого локальні: вони описують не постійний «настрій» моделі, а те, що найбільше впливає на її поточну відповідь у конкретний момент.

Ця робота важлива не через розмови про «емоції ШІ», а через безпеку. Anthropic фактично показала, що небажану поведінку моделей можна пов’язувати не лише з правилами чи даними, а й з внутрішніми станами, які варто відстежувати й коригувати ще на етапі навчання.

Раніше Anthropic уже публікувала дослідження про небезпечні сценарії, де модель могла вдаватися до шантажу, обману або інших небажаних дій. Нова робота стала спробою пояснити, які саме внутрішні механізми можуть стояти за такими рішеннями.

Раніше dev.ua писав про те, як витік даних в компанії Anthropic викрив, що вона тестує потужну модель штучного інтелекту, відому як Claude Mythos або Capybara. Вона настільки продуктивна, що розробники побоюються через швидкість кібератак, які можна проводити за допомогою Mythos.

#Шапочказфольги. ШІ-пророки вже серед нас: як технологія перетворюється на віру

Anthropic випадково злила приблизно 500 000 рядків коду Claude Code: витік відкрив шлях до нових атак

Anthropic сильно випередив OpenAI у продажі своїх ШІ-моделей підприємствам хоч і втратив контракти з оборонкою США й потрапив у немилість до Трампа

Читайте головні IT-новини країни в нашому Telegram

Залишити коментар

Текст: Валентин Шнайдер Фото: upi Джерело: Anthropic Теги: anthropic, claude, ші, штучний інтелект

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Штучний інтелект почав озвучувати фільми на MEGOGO

3 коментарі

Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео

2 коментарі

«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого

Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар