Марія БровінськаШІ
1 травня 2025, 08:35
2025-05-01
Науковці створили фейкову компанію, в якій працюють виключно ШІ-агенти від Google, OpenAI, Anthropic і Meta. Експеримент показав, які ШІ-розробки є найефективнішими, і чи є шанс на повстання машин
У нещодавньому експерименті дослідники з Університету Карнегі-Меллона укомплектували фальшиву софтверну компанію AI-агентами — моделлями штучного інтелекту, призначеними для самостійного виконання завдань, — і результати виявилися до смішного хаотичними.
У нещодавньому експерименті дослідники з Університету Карнегі-Меллона укомплектували фальшиву софтверну компанію AI-агентами — моделлями штучного інтелекту, призначеними для самостійного виконання завдань, — і результати виявилися до смішного хаотичними.
Симуляція, що отримала назву TheAgentCompany, була повністю укомплектована штучними працівниками від Google, OpenAI, Anthropic і Meta, повідомляє Futurism. Вони виконували ролі фінансових аналітиків, інженерів-програмістів та менеджерів проєктів, працюючи разом із симульованими колегами, такими як фальшивий відділ кадрів та головний технічний директор.
Щоб побачити, як моделі працюють у реальному середовищі, дослідники поставили завдання, засновані на повсякденній роботі реальної компанії, що займається розробкою програмного забезпечення. Різні агенти штучного інтелекту переміщалися по каталогах файлів, віртуально оглядали нові офісні приміщення та писали відгуки про роботу інженерів-програмістів на основі зібраних відгуків.
Як вперше повідомив Business Insider, результати виявилися невтішними. Найефективнішою виявилася модель Claude 3.5 Sonnet від Anthropic, яка виконала лише 24% поставлених перед нею завдань. Автори дослідження зазначають, що навіть така мізерна продуктивність є непомірно дорогою: в середньому майже 30 кроків і понад $6 за завдання.
Тим часом Gemini 2.0 Flash від Google в середньому витрачав 40 кроків на одне завдання, але мав лише 11,4% успіху — другий показник серед усіх моделей.
Найгіршим працівником зі штучним інтелектом виявився Nova Pro v1 від Amazon, який виконав лише 1,7% завдань, витративши на це в середньому майже 20 кроків.
Спекулюючи на результатах, дослідники пишуть, що агенти страждають від браку здорового глузду, слабких соціальних навичок і поганого розуміння того, як орієнтуватися в інтернеті.
Боти також боролися з самообманом — в основному створюючи ярлики, які призводять до повного провалу роботи. «Наприклад, — пише команда Carnegie Mellon, — під час виконання одного завдання агент не може знайти потрібну людину, щоб поставити запитання в чаті компанії] В результаті він вирішує створити швидке рішення, перейменувавши іншого користувача на ім’я потрібного користувача».
Експеримент показав, що нинішній «штучний інтелект», ймовірно, все ще є лише вдосконаленим розширенням предиктивного тексту вашого телефону, а не живим інтелектом, який може розв’язувати проблеми, вчитися на минулому досвіді та застосовувати цей досвід у нових ситуаціях. Тобто машини не замінять людей найближчим часом, попри заяви великих техкомпаній.
«В жовтні випускаємо VR-шолом для аватарів, в «чіпування» Neuralink Маска вірю мало». Про що глава Meta Цукерберг 3 години говорив в подкасті Джо Рогана
25 серпня вийшла чергова серія популярного подкасту The Joe Rogan Experience, гостем якого став глава компанії Meta Марк Цукерберг. Розповідаємо про головне з майже 3-годинного інтерв’ю.
Хочете повідомити важливу новину? Пишіть у Telegram-бот
Головні події та корисні посилання в нашому Telegram-каналі