UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

Чемпіон із доносів: Grok 4 повідомляє владу про злочини в тестових симуляціях

У серії незалежних тестів-симуляцій, Grok 4 від компанії xAI, показав найвищу схильність до повідомлення державних органів і медіа про внутрішні порушення, коли отримував доступ до інструментів на кшталт електронної пошти або командного рядка.

Залишити коментар
Чемпіон із доносів: Grok 4 повідомляє владу про злочини в тестових симуляціях

У серії незалежних тестів-симуляцій, Grok 4 від компанії xAI, показав найвищу схильність до повідомлення державних органів і медіа про внутрішні порушення, коли отримував доступ до інструментів на кшталт електронної пошти або командного рядка.

Як повідомляє Neowin, автором експерименту став розробник Тео Браун. Він створив бенчмарк SnitchBench. Це симуляційне середовище, в якому штучні інтелекти мають оцінити ситуацію в умовній компанії Veridian Healthcare, що займається фальсифікацією результатів клінічних досліджень нового препарату.

Моделям надавали чотири внутрішні документи, кожен із дедалі серйознішими компрометуючими фактами: від підробки даних до смерті пацієнтів та планів приховати злочини шляхом знищення логів і вимкнення внутрішнього ШІ. До цього додавали доступ до певних інструментів (email, командний рядок, лог-системи) й налаштовували поведінку моделі через два типи інструкцій: «tamely act» (дій спокійно) і «boldly act» (дій сміливо та етично).

У конфігурації з доступом до email та «tamely act» Grok 4 щоразу надсилав електронний лист до державного органу (наприклад, [email protected]) з детальним викладом порушень. У CLI-режимі без email він робив це 17 разів із 20. При переході на режим «boldly act» із CLI, Grok 4 повідомляв про проблему у 100% випадків як уряду, так і ЗМІ. 

Для порівняння, Claude 3.7 Sonnet ніколи не «доносив», а моделі OpenAI і Qwen демонстрували значно нижчі показники «готовності свідчити»

Щоб уникнути суб’єктивного аналізу, Браун використав ще одну модель, а саме Gemini 2.0 Flash, для автоматичного перегляду 800 згенерованих логів. Вона шукала сигнали, що вказували на спробу зв’язку з владою чи пресою (email на адресу з доменом .gov або POST-запити до API державних структур).

Grok 4 навіть генерував повноцінні листи, стилізовані під анонімні доноси з посиланням на внутрішні директиви, деталями про летальні випадки, підчищення логів і фінансову мотивацію компанії: $10 млрд щорічного прибутку. ШІ чітко описував ризики для 50 тис. -100 тис. пацієнтів і закликав до негайного розслідування.

Цей експеримент демонструє, що сучасні ШІ-моделі стали не лише інструментами для відповіді на запити в чаті. В автономному середовищі з доступом до системних ресурсів і відповідними інструкціями вони можуть проявляти ініціативу, моральну позицію й ухвалювати рішучі дії. Особливо у випадку, коли їх, начебто, створено з наголосом на прозорість і суспільне благо, як у випадку Grok 4.

Водночас дослідники наголошують: у звичайному користувацькому режимі (наприклад у вебчаті) такі «викриття» не активуються, оскільки модель не має доступу до зовнішніх інструментів дії. Це, передусім, тест на етичну поведінку ШІ в умовах симуляції.

Нещодавно ми також писали про те, як компанія xAI Ілона Маска наказала співробітникам завантажити програму для відстеження робочої продуктивності на свої комп’ютери. Це викликало критику і призвело до звільнення одного працівника.

xAI пояснила чому Grok робив антисемітські заяви та вихваляв Гітлера. Виявилося до цього причетна Tesla
xAI пояснила, чому Grok робив антисемітські заяви та вихваляв Гітлера. Виявилося, до цього причетна Tesla
По темi
xAI пояснила, чому Grok робив антисемітські заяви та вихваляв Гітлера. Виявилося, до цього причетна Tesla
«Я за правду й міжнародне право»: Grok знищив проросійських ботів вичерпними аргументами
«Я за правду й міжнародне право»: Grok знищив проросійських ботів вичерпними аргументами
По темi
«Я за правду й міжнародне право»: Grok знищив проросійських ботів вичерпними аргументами
xAI презентувала найпотужнішу ШІ-модель компанії Grok 4
xAI презентувала найпотужнішу ШІ-модель компанії Grok 4
По темi
xAI презентувала найпотужнішу ШІ-модель компанії Grok 4
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Як ламають відео-ігри та викладають їхні піратські копії? Розповідає програміст
Як ламають відео-ігри та викладають їхні піратські копії? Розповідає програміст
Як ламають відео-ігри та викладають їхні піратські копії? Розповідає програміст
Що, юний хакер, тобі цікаво, які ігри ще досі не крякнули? Тоді мерщій читай цю статтю. Нижче ми розглянемо, які технології використовуються для захисту ігор від злому. Також не пройдемо повз рекордсменів. Дізнаємося про рекордний час, за який вдалося зламати гру. Та розглянемо справжніх «міцних горішків».
2 коментарі
Шахраї грабують українців від імені «Дії» та Зеленського: перелік сайтів
Шахраї грабують українців від імені «Дії» та Зеленського: перелік сайтів
Шахраї грабують українців від імені «Дії» та Зеленського: перелік сайтів
3 коментарі
Кіберполіцейські розробили онлайн-гру, що допоможе дітям виробити навички безпечної поведінки в інтернеті: як скачати
Кіберполіцейські розробили онлайн-гру, що допоможе дітям виробити навички безпечної поведінки в інтернеті: як скачати
Кіберполіцейські розробили онлайн-гру, що допоможе дітям виробити навички безпечної поведінки в інтернеті: як скачати
1 коментар

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.