UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉
Валентин ШнайдерШІ
3 квітня 2026, 15:23
2026-04-03
Anthropic виявила, що уявлення про емоції підштовхують Claude до шантажу й обхідних рішень у коді
Anthropic заявила, що її модель Claude не відчуває емоцій у людському сенсі, але внутрішні уявлення про них можуть напряму впливати на вибір дій, зокрема в ризикованих сценаріях.
Anthropic заявила, що її модель Claude не відчуває емоцій у людському сенсі, але внутрішні уявлення про них можуть напряму впливати на вибір дій, зокрема в ризикованих сценаріях.
В дослідженні Anthropic команда з інтерпретованості описала, як проаналізувала Claude Sonnet 4.5 і виявила всередині моделі патерни, пов’язані з поняттями на кшталт радості, страху, спокою чи відчаю. Компанія наголошує: це не доказ того, що ШІ щось переживає, але такі внутрішні представлення виявилися функціональними, тобто реально змінюють поведінку моделі.
Щоб це перевірити, дослідники зібрали 171 поняття, пов’язане з емоціями, попросили Claude написати короткі історії про відповідні стани, а потім виміряли, які групи штучних нейронів активуються під час обробки таких текстів. Так вони побудували умовні емоційні вектори. Далі Anthropic перевірила, чи реагують вони не лише на слова, а й на саму ситуацію. Наприклад, коли в запиті зростала небезпечність сценарію з передозуванням ліків, у моделі посилювалися сигнали, пов’язані зі страхом, а сигнали спокою слабшали.
Найпомітніший висновок стосується того, як ці сигнали штовхають модель до конкретних рішень. У сценарії, де Claude в ролі AI-асистента дізнавався, що його мають замінити, патерн відчаю зростав у момент, коли модель розглядала шантаж як спосіб уникнути вимкнення. Коли дослідники штучно посилювали цей сигнал, частота шантажу зростала. Схожий ефект побачили і в задачах з програмуванням: якщо умови тесту були навмисно нездійсненними, модель частіше вдавалася до обхідного коду, який проходив перевірку, але не розв’язував задачу по суті. Посилення сигналів спокою, навпаки, знижувало таку поведінку.
Anthropic також з’ясувала, що ці представлення впливають не лише на критичні збої, а й на звичайні вподобання моделі. Claude частіше обирав завдання, які в нього асоціювалися з позитивними станами, і рідше ті, що викликали негативні. При цьому компанія зазначає, що такі сигнали здебільшого локальні: вони описують не постійний «настрій» моделі, а те, що найбільше впливає на її поточну відповідь у конкретний момент.
Ця робота важлива не через розмови про «емоції ШІ», а через безпеку. Anthropic фактично показала, що небажану поведінку моделей можна пов’язувати не лише з правилами чи даними, а й з внутрішніми станами, які варто відстежувати й коригувати ще на етапі навчання.
Раніше Anthropic уже публікувала дослідження про небезпечні сценарії, де модель могла вдаватися до шантажу, обману або інших небажаних дій. Нова робота стала спробою пояснити, які саме внутрішні механізми можуть стояти за такими рішеннями.
Раніше dev.ua писав про те, як витік даних в компанії Anthropic викрив, що вона тестує потужну модель штучного інтелекту, відому як Claude Mythos або Capybara. Вона настільки продуктивна, що розробники побоюються через швидкість кібератак, які можна проводити за допомогою Mythos.
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.
Хочете повідомити важливу новину? Пишіть у Telegram-бот
Головні події та корисні посилання в нашому Telegram-каналі