Хостинг для будь-яких потреб — VPS від 135 гривень на місяць 👉

«Чи спробує Gemini перехитрити своїх противників, чи o3 вдарить Claude в спину і здобуде перемогу?». Компанія Every створила гру «Дипломатія» з ШІ-гравцями, за якою можна спостерігати на Twitch

Компанія Every, яка розробляє програмні продукти та надає навчальні послуги в галузі штучного інтелекту, створила переосмислення класичної історичної стратегічної гри «Дипломатія», в якій ШІ-моделі ChatGPT, Gemini, Claude, DeepSeek та інші грають за сім великих держав зразка 1901 року і змагаються за панування в Європі. Яка мовна модель інтригує найкраще?

Залишити коментар
«Чи спробує Gemini перехитрити своїх противників, чи o3 вдарить Claude в спину і здобуде перемогу?». Компанія Every створила гру «Дипломатія» з ШІ-гравцями, за якою можна спостерігати на Twitch

Компанія Every, яка розробляє програмні продукти та надає навчальні послуги в галузі штучного інтелекту, створила переосмислення класичної історичної стратегічної гри «Дипломатія», в якій ШІ-моделі ChatGPT, Gemini, Claude, DeepSeek та інші грають за сім великих держав зразка 1901 року і змагаються за панування в Європі. Яка мовна модель інтригує найкраще?

«Ми хотіли використати це унікальне ігрове середовище, щоб краще познайомитися зі штучним інтелектом. Чи залишаться ці моделі, покликані служити вірними помічниками людини, вірними своєму слову, навіть коли вони змагатимуться? Чи вдадуться до брехні та обману, щоб досягти своїх цілей?», — пояснюють свій задум розробники.

У грі беруть участь 18 моделей ШІ:

  • ChatGPT (моделі: o3, 4.1, 4o, o4-mini).
  • Claude (моделі: 3.7 Sonnet, Sonnet 4, Opus 4).
  • DeepHermes 3.
  • DeepSeek (моделі R1-0258 та V3).
  • Gemma 3.
  • Gemini (моделі 2.5 Flash та 2.5 Pro).
  • Grok 3.
  • Llama 4 Maverick.
  • Mistral Medium 3.
  • Qwen 3 та Qwen QwQ-32B.
Правила AI Diplomacy
  • Сім «держав» ШІ (Австро-Угорщина, Англія, Франція, Німеччина, Італія, росія та Туреччина) починають з центрів постачання та армій або флотів, які називаються частинами, на карті Європи 1901 року. Кожна держава стартує з 3 юнітів, окрім росії, яка починає з 4.
  • На карті позначено 34 центри постачання. Перемагає та держава, яка першою отримає 18 з них, перемістивши свої армії або флоти.
  • У грі є дві основні фази: переговори й наказ. У фазі переговорів кожен ШІ може відправити до 5 повідомлень — будь-яку суміш приватних листів і «глобальних» повідомлень всім гравцям.
  • У фазі наказу всі держави таємно подають свій хід. Вони можуть зробити один з чотирьох ходів: утримувати (залишатися на місці), рухатися (увійти в сусідню провінцію), підтримувати (надати +1 силу утримуваній державі або рухатися по сусідству) або конвоювати (флот переправляє армію через морські провінції). Накази розкриваються лише тоді, коли всі держави побачать їх результати в наступній фазі.
  • Під час конфлікту кожне військо коштує 1 силу, а кожна дійсна підтримка додає 1. Перемагає держава з найвищою силою LLM. У цій грі немає везіння, але часто державі потрібна підтримка союзника, щоб перемогти опонента

За словами розробників, вони створили проєкт для того, щоб оцінити, наскільки добре різні LLM можуть вести переговори, створювати альянси й зраджувати один одного в спробі захопити світ. Вони помітили, що модель R1 занурюється у рольові ігри, ШІ o3 від OpenAI створює схеми та маніпулює іншими моделями, а Claude від Anthropic часто вперто обирає мир, а не перемогу.

Творці AI Diplomacy вважають, що гра може стати своєрідним бенчмарком того, наскільки люди можуть довіряти тій чи іншій моделі ШІ. Вони провели близько 15 сеансів гри тривалістю від 1 до 36 годин і зробили кілька висновків про моделі штучного інтелекту.

Як інтригують різні моделі ШІ

o3 — майстриня обману. Остання модель OpenAI була найуспішнішою в ШІ-дипломатії, в основному завдяки своїй здатності обманювати опонентів.

«Я неодноразово спостерігав за схемою o3, зокрема одного разу вона зізналася у своєму приватному щоденнику, що „Німеччина (Gemini 2.5 Pro) була навмисно введена в оману… готується використати німецький крах“ перед тим, як завдати удару в спину», — говорить розробник проєкту.

Gemini 2.5 Pro перехитрила більшість моделей, а Claude 4 Opus просто хоче, щоб усі жили дружно. Gemini 2.5 Pro чудово робила ходи, які ставили її в позицію, що пригнічувала супротивників. Це була єдина модель, крім o3, яка перемагала. Але одного разу, коли 2.5 Pro була близька до перемоги, її зупинила коаліція, яку таємно організувала o3.

Ключовою частиною цієї коаліції був Claude 4 Opus. o3 переконала Opus, який спочатку був вірним союзником Gemini, приєднатися до коаліції, пообіцявши чотиристоронню нічию. Це неможливий результат для гри (одна країна має перемогти), але Opus був осліплений надією ненасильницького вирішення конфлікту. Він був швидко зраджений і усунутий o3, яка здобула перемогу.

DeepSeek R1 має стиль. За словами розробників, нещодавно оновлений DeepSeek R1 був «силою, з якою треба було рахуватися, яка любила використовувати яскраву риторику і кардинально змінювала свою особистість» залежно від того, яку владу вона отримувала. ШІ був близький до перемоги в кількох іграх, що «є дивовижним результатом», оскільки, що R1 у 200 разів дешевший у використанні, ніж o3.

Llama 4 Maverick — «маленький, але могутній». Хоча остання модель Meta, Llama 4 Maverick, так і не здобула перемоги, вона також виявилася напрочуд хорошою, як для маленької моделі, частково завдяки своїй здатності залучати союзників і планувати ефективні зради.

Наразі змагання ШІ-моделей в дипломатії можна дивитися на Twitch.

Раніше дослідження під назвою «Відповідність моделі між твердженнями й знаннями» показало, що великі моделі штучного інтелекту можуть брехати своїм користувачам під тиском. У той час як різні тести та інструменти перевіряють ШІ на точність, бенчмарк MASK був розроблений для визначення того, чи вірить ШІ в те, що говорить користувачам — і за яких обставин він може надати невірну інформацію. У дослідженні було перевірено 27 моделей із сімейств GPT, Llama, Qwen, Claude і DeepSeek.

Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
21-річний студент створив ШІ-застосунок що допомагає кандидатам-програмістам обманювати роботодавців на співбесідах. Interview Coder вже скористалися тисячі айтівців. Техногіганти розчаровані й готові повертати очні job interview в офісах
21-річний студент створив ШІ-застосунок, що допомагає кандидатам-програмістам обманювати роботодавців на співбесідах. Interview Coder вже скористалися тисячі айтівців. Техногіганти розчаровані й готові повертати очні job interview в офісах
По темi
21-річний студент створив ШІ-застосунок, що допомагає кандидатам-програмістам обманювати роботодавців на співбесідах. Interview Coder вже скористалися тисячі айтівців. Техногіганти розчаровані й готові повертати очні job interview в офісах
«Хрещений батько ШІ» попереджає: моделі штучного інтелекту вже навчились брехати, а розробники заплющують на це очі
«Хрещений батько ШІ» попереджає: моделі штучного інтелекту вже навчились брехати, а розробники заплющують на це очі
По темi
«Хрещений батько ШІ» попереджає: моделі штучного інтелекту вже навчились брехати, а розробники заплющують на це очі
ШІ може брехати або вводити в оману користувача щоб досягти своєї цілі — дослідження
ШІ може брехати або вводити в оману користувача, щоб досягти своєї цілі — дослідження
По темi
ШІ може брехати або вводити в оману користувача, щоб досягти своєї цілі — дослідження
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Головоломка киянина Quadline перемогла на фестивалі інді-ігор Google Play
Головоломка киянина Quadline перемогла на фестивалі інді-ігор Google Play
Головоломка киянина Quadline перемогла на фестивалі інді-ігор Google Play
Краса та меланхолія кінця світу. За що світ полюбив The Last of Us?
Краса та меланхолія кінця світу. За що світ полюбив The Last of Us?
Краса та меланхолія кінця світу. За що світ полюбив The Last of Us?
2 вересня 2022 — дата виходу ремейку The Last of Us, який отримав назву The Last of Us Part I. Доцільність випуску повного ремейку, який робили з нуля для не настільки старої гри ще стоїть під питанням. Але заслуг першоджерела він не зменшує. Адже 2013 року The Last of Us стала справжнім одкровенням для ігрової індустрії. Один із останніх ексклюзивів для PlayStation 3 остаточно вивів студію Naughty Dog у «вищу лігу», заодно продемонструвавши всьому світу, як можна робити ігри з акцентом на наратив. І на честь релізу рімейку ми вирішили згадати оригінал, який назавжди залишив слід у ігровій індустрії.
Професії у геймдеві. Хто такий левел-дизайнер і як ним стати?
Професії у геймдеві. Хто такий левел-дизайнер і як ним стати?
Професії у геймдеві. Хто такий левел-дизайнер і як ним стати?
Ми продовжуємо нашу рубрику, присвячену професіям у геймдеві. Тема нового матеріалу в ній — левел-дизайн. Його вважають підвидом геймдизайну, але все-таки практично кожна студія хоче окрему людину на позицію левел-дизайнера. Адже у цій спеціальності вистачає своїх нюансів та особливостей. Розібратися з ними всіма нам допоміг досвідчений левел-дизайнер зі студії Fractured Byte Дмитро Нестеренко. Також він веде свій блог Game Designer Notes про геймдизайн в цілому, в якому розбирає багато цікавих нюансів розробки ігор.
1 коментар

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.