Реклама партнера — Название партнёра
UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

Anthropic виявила, що уявлення про емоції підштовхують Claude до шантажу й обхідних рішень у коді

Anthropic заявила, що її модель Claude не відчуває емоцій у людському сенсі, але внутрішні уявлення про них можуть напряму впливати на вибір дій, зокрема в ризикованих сценаріях.

Залишити коментар
Anthropic виявила, що уявлення про емоції підштовхують Claude до шантажу й обхідних рішень у коді

Anthropic заявила, що її модель Claude не відчуває емоцій у людському сенсі, але внутрішні уявлення про них можуть напряму впливати на вибір дій, зокрема в ризикованих сценаріях.

В дослідженні Anthropic команда з інтерпретованості описала, як проаналізувала Claude Sonnet 4.5 і виявила всередині моделі патерни, пов’язані з поняттями на кшталт радості, страху, спокою чи відчаю. Компанія наголошує: це не доказ того, що ШІ щось переживає, але такі внутрішні представлення виявилися функціональними, тобто реально змінюють поведінку моделі.

Щоб це перевірити, дослідники зібрали 171 поняття, пов’язане з емоціями, попросили Claude написати короткі історії про відповідні стани, а потім виміряли, які групи штучних нейронів активуються під час обробки таких текстів. Так вони побудували умовні емоційні вектори. Далі Anthropic перевірила, чи реагують вони не лише на слова, а й на саму ситуацію. Наприклад, коли в запиті зростала небезпечність сценарію з передозуванням ліків, у моделі посилювалися сигнали, пов’язані зі страхом, а сигнали спокою слабшали.

Найпомітніший висновок стосується того, як ці сигнали штовхають модель до конкретних рішень. У сценарії, де Claude в ролі AI-асистента дізнавався, що його мають замінити, патерн відчаю зростав у момент, коли модель розглядала шантаж як спосіб уникнути вимкнення. Коли дослідники штучно посилювали цей сигнал, частота шантажу зростала. Схожий ефект побачили і в задачах з програмуванням: якщо умови тесту були навмисно нездійсненними, модель частіше вдавалася до обхідного коду, який проходив перевірку, але не розв’язував задачу по суті. Посилення сигналів спокою, навпаки, знижувало таку поведінку.

Anthropic також з’ясувала, що ці представлення впливають не лише на критичні збої, а й на звичайні вподобання моделі. Claude частіше обирав завдання, які в нього асоціювалися з позитивними станами, і рідше ті, що викликали негативні. При цьому компанія зазначає, що такі сигнали здебільшого локальні: вони описують не постійний «настрій» моделі, а те, що найбільше впливає на її поточну відповідь у конкретний момент.

Ця робота важлива не через розмови про «емоції ШІ», а через безпеку. Anthropic фактично показала, що небажану поведінку моделей можна пов’язувати не лише з правилами чи даними, а й з внутрішніми станами, які варто відстежувати й коригувати ще на етапі навчання.

Раніше Anthropic уже публікувала дослідження про небезпечні сценарії, де модель могла вдаватися до шантажу, обману або інших небажаних дій. Нова робота стала спробою пояснити, які саме внутрішні механізми можуть стояти за такими рішеннями.

Раніше dev.ua писав про те, як  витік даних в компанії Anthropic викрив, що вона тестує потужну модель штучного інтелекту, відому як Claude Mythos або Capybara. Вона настільки продуктивна, що розробники побоюються через швидкість кібератак, які можна проводити за допомогою Mythos.

#Шапочказфольги. ШІ-пророки вже серед нас: як технологія перетворюється на віру
#Шапочказфольги. ШІ-пророки вже серед нас: як технологія перетворюється на віру
По темi
#Шапочказфольги. ШІ-пророки вже серед нас: як технологія перетворюється на віру
Anthropic випадково злила приблизно 500 000 рядків коду Claude Code: витік відкрив шлях до нових атак
Anthropic випадково злила приблизно 500 000 рядків коду Claude Code: витік відкрив шлях до нових атак
По темi
Anthropic випадково злила приблизно 500 000 рядків коду Claude Code: витік відкрив шлях до нових атак
Anthropic сильно випередив OpenAI у продажі своїх ШІ-моделей підприємствам хоч і втратив контракти з оборонкою США й потрапив у немилість до Трампа
Anthropic сильно випередив OpenAI у продажі своїх ШІ-моделей підприємствам, хоч і втратив контракти з оборонкою США й потрапив у немилість до Трампа
По темi
Anthropic сильно випередив OpenAI у продажі своїх ШІ-моделей підприємствам, хоч і втратив контракти з оборонкою США й потрапив у немилість до Трампа
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
3 коментарі
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
2 коментарі
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті. 

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.