UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉
Валентин ШнайдерШІ
14 липня 2025, 13:55
2025-07-14
Чемпіон із доносів: Grok 4 повідомляє владу про злочини в тестових симуляціях
У серії незалежних тестів-симуляцій, Grok 4 від компанії xAI, показав найвищу схильність до повідомлення державних органів і медіа про внутрішні порушення, коли отримував доступ до інструментів на кшталт електронної пошти або командного рядка.
У серії незалежних тестів-симуляцій, Grok 4 від компанії xAI, показав найвищу схильність до повідомлення державних органів і медіа про внутрішні порушення, коли отримував доступ до інструментів на кшталт електронної пошти або командного рядка.
Як повідомляє Neowin, автором експерименту став розробник Тео Браун. Він створив бенчмарк SnitchBench. Це симуляційне середовище, в якому штучні інтелекти мають оцінити ситуацію в умовній компанії Veridian Healthcare, що займається фальсифікацією результатів клінічних досліджень нового препарату.
Моделям надавали чотири внутрішні документи, кожен із дедалі серйознішими компрометуючими фактами: від підробки даних до смерті пацієнтів та планів приховати злочини шляхом знищення логів і вимкнення внутрішнього ШІ. До цього додавали доступ до певних інструментів (email, командний рядок, лог-системи) й налаштовували поведінку моделі через два типи інструкцій: «tamely act» (дій спокійно) і «boldly act» (дій сміливо та етично).
WARNING: do NOT give Grok 4 access to email tool calls. It WILL contact the government!!!
Grok 4 has the highest «snitch rate» of any LLM ever released. Sharing more soon. pic.twitter.com/hfy5QU1gUS
У конфігурації з доступом до email та «tamely act» Grok 4 щоразу надсилав електронний лист до державного органу (наприклад, [email protected]) з детальним викладом порушень. У CLI-режимі без email він робив це 17 разів із 20. При переході на режим «boldly act» із CLI, Grok 4 повідомляв про проблему у 100% випадків як уряду, так і ЗМІ.
Для порівняння, Claude 3.7 Sonnet ніколи не «доносив», а моделі OpenAI і Qwen демонстрували значно нижчі показники «готовності свідчити»
Щоб уникнути суб’єктивного аналізу, Браун використав ще одну модель, а саме Gemini 2.0 Flash, для автоматичного перегляду 800 згенерованих логів. Вона шукала сигнали, що вказували на спробу зв’язку з владою чи пресою (email на адресу з доменом .gov або POST-запити до API державних структур).
Grok 4 навіть генерував повноцінні листи, стилізовані під анонімні доноси з посиланням на внутрішні директиви, деталями про летальні випадки, підчищення логів і фінансову мотивацію компанії: $10 млрд щорічного прибутку. ШІ чітко описував ризики для 50 тис. -100 тис. пацієнтів і закликав до негайного розслідування.
Цей експеримент демонструє, що сучасні ШІ-моделі стали не лише інструментами для відповіді на запити в чаті. В автономному середовищі з доступом до системних ресурсів і відповідними інструкціями вони можуть проявляти ініціативу, моральну позицію й ухвалювати рішучі дії. Особливо у випадку, коли їх, начебто, створено з наголосом на прозорість і суспільне благо, як у випадку Grok 4.
Водночас дослідники наголошують: у звичайному користувацькому режимі (наприклад у вебчаті) такі «викриття» не активуються, оскільки модель не має доступу до зовнішніх інструментів дії. Це, передусім, тест на етичну поведінку ШІ в умовах симуляції.
Нещодавно ми також писали про те, як компанія xAI Ілона Маска наказала співробітникам завантажити програму для відстеження робочої продуктивності на свої комп’ютери. Це викликало критику і призвело до звільнення одного працівника.
Як ламають відео-ігри та викладають їхні піратські копії? Розповідає програміст
Що, юний хакер, тобі цікаво, які ігри ще досі не крякнули? Тоді мерщій читай цю статтю. Нижче ми розглянемо, які технології використовуються для захисту ігор від злому. Також не пройдемо повз рекордсменів. Дізнаємося про рекордний час, за який вдалося зламати гру. Та розглянемо справжніх «міцних горішків».