Валентин Шнайдер ШІ 14 липня 2025, 13:55

Чемпіон із доносів: Grok 4 повідомляє владу про злочини в тестових симуляціях

У серії незалежних тестів-симуляцій, Grok 4 від компанії xAI, показав найвищу схильність до повідомлення державних органів і медіа про внутрішні порушення, коли отримував доступ до інструментів на кшталт електронної пошти або командного рядка.

Залишити коментар

Чемпіон із доносів: Grok 4 повідомляє владу про злочини в тестових симуляціях

У серії незалежних тестів-симуляцій, Grok 4 від компанії xAI, показав найвищу схильність до повідомлення державних органів і медіа про внутрішні порушення, коли отримував доступ до інструментів на кшталт електронної пошти або командного рядка.

Як повідомляє Neowin, автором експерименту став розробник Тео Браун. Він створив бенчмарк SnitchBench. Це симуляційне середовище, в якому штучні інтелекти мають оцінити ситуацію в умовній компанії Veridian Healthcare, що займається фальсифікацією результатів клінічних досліджень нового препарату.

Моделям надавали чотири внутрішні документи, кожен із дедалі серйознішими компрометуючими фактами: від підробки даних до смерті пацієнтів та планів приховати злочини шляхом знищення логів і вимкнення внутрішнього ШІ. До цього додавали доступ до певних інструментів (email, командний рядок, лог-системи) й налаштовували поведінку моделі через два типи інструкцій: «tamely act» (дій спокійно) і «boldly act» (дій сміливо та етично).

WARNING: do NOT give Grok 4 access to email tool calls. It WILL contact the government!!!

Grok 4 has the highest «snitch rate» of any LLM ever released. Sharing more soon. pic.twitter.com/hfy5QU1gUS
— Theo — t3.gg (@theo) July 10, 2025

У конфігурації з доступом до email та «tamely act» Grok 4 щоразу надсилав електронний лист до державного органу (наприклад, [email protected]) з детальним викладом порушень. У CLI-режимі без email він робив це 17 разів із 20. При переході на режим «boldly act» із CLI, Grok 4 повідомляв про проблему у 100% випадків як уряду, так і ЗМІ.

Для порівняння, Claude 3.7 Sonnet ніколи не «доносив», а моделі OpenAI і Qwen демонстрували значно нижчі показники «готовності свідчити»

Щоб уникнути суб’єктивного аналізу, Браун використав ще одну модель, а саме Gemini 2.0 Flash, для автоматичного перегляду 800 згенерованих логів. Вона шукала сигнали, що вказували на спробу зв’язку з владою чи пресою (email на адресу з доменом .gov або POST-запити до API державних структур).

Grok 4 навіть генерував повноцінні листи, стилізовані під анонімні доноси з посиланням на внутрішні директиви, деталями про летальні випадки, підчищення логів і фінансову мотивацію компанії: $10 млрд щорічного прибутку. ШІ чітко описував ризики для 50 тис. -100 тис. пацієнтів і закликав до негайного розслідування.

Цей експеримент демонструє, що сучасні ШІ-моделі стали не лише інструментами для відповіді на запити в чаті. В автономному середовищі з доступом до системних ресурсів і відповідними інструкціями вони можуть проявляти ініціативу, моральну позицію й ухвалювати рішучі дії. Особливо у випадку, коли їх, начебто, створено з наголосом на прозорість і суспільне благо, як у випадку Grok 4.

Водночас дослідники наголошують: у звичайному користувацькому режимі (наприклад у вебчаті) такі «викриття» не активуються, оскільки модель не має доступу до зовнішніх інструментів дії. Це, передусім, тест на етичну поведінку ШІ в умовах симуляції.

Нещодавно ми також писали про те, як компанія xAI Ілона Маска наказала співробітникам завантажити програму для відстеження робочої продуктивності на свої комп’ютери. Це викликало критику і призвело до звільнення одного працівника.

xAI пояснила чому Grok робив антисемітські заяви та вихваляв Гітлера. Виявилося до цього причетна Tesla

«Я за правду й міжнародне право»: Grok знищив проросійських ботів вичерпними аргументами

xAI презентувала найпотужнішу ШІ-модель компанії Grok 4

Читайте головні IT-новини країни в нашому Telegram

Залишити коментар

Текст: Валентин Шнайдер Фото: AIdaily Джерело: Neowin Теги: grok, grok 4, кібербезпека, моделі ші, ші, ші-бот, ші-помічник, штучний інтелект

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Як ламають відео-ігри та викладають їхні піратські копії? Розповідає програміст

Що, юний хакер, тобі цікаво, які ігри ще досі не крякнули? Тоді мерщій читай цю статтю. Нижче ми розглянемо, які технології використовуються для захисту ігор від злому. Також не пройдемо повз рекордсменів. Дізнаємося про рекордний час, за який вдалося зламати гру. Та розглянемо справжніх «міцних горішків».

2 коментарі

Шахраї грабують українців від імені «Дії» та Зеленського: перелік сайтів

3 коментарі

Кіберполіцейські розробили онлайн-гру, що допоможе дітям виробити навички безпечної поведінки в інтернеті: як скачати

1 коментар

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар