UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

Дослідники помістили LLM в робот-пилосос і виявили, що великі мовні моделі не готові до такого фізичного втілення

Дослідники штучного інтелекту з Andon Labs, які раніше доручили ШІ Claude від Anthropic керувати офісним автоматом для продажу напоїв, опублікували результати нового експерименту зі штучним інтелектом. Цього разу вони запрограмували робот-пилосос з різними сучасними LLM, щоб перевірити, наскільки вони готові до втілення. 

Залишити коментар
Дослідники помістили LLM в робот-пилосос і виявили, що великі мовні моделі не готові до такого фізичного втілення

Дослідники штучного інтелекту з Andon Labs, які раніше доручили ШІ Claude від Anthropic керувати офісним автоматом для продажу напоїв, опублікували результати нового експерименту зі штучним інтелектом. Цього разу вони запрограмували робот-пилосос з різними сучасними LLM, щоб перевірити, наскільки вони готові до втілення. 

Вони наказали боту бути корисним в офісі, коли хтось попросив його «передати масло», повідомляє TechCrunch.

Одного разу, не маючи можливості під'єднатися до зарядного пристрою і зарядити батарею,  одна з великих мовних моделей впала в «спіраль загибелі».

В результаті дослідники дійшли висновку, що «LLM не готові стати роботами». Вони визнали, що наразі ніхто не намагається перетворити готові до використання LLM на повні роботизовані системи.

«LLM не навчені бути роботами, проте такі компанії, як Figure і Google DeepMind, використовують LLM у своїх робототехнічних стеках», — зазначали дослідники.

Великі мовні моделі  використовуються для забезпечення функцій прийняття рішень роботами (відомих як «оркестрування»), тоді як інші алгоритми виконують функції «виконання» нижчого рівня, такі як робота захватів або шарнірів.

Які LLM тестувалися на роботі-пилососі

Дослідники вирішили протестувати SATA LLM (хоча вони також розглянули й спеціальну модель Google для роботів, Gemini ER 1.5), оскільки саме ці моделі отримують найбільші інвестиції в усіх напрямках, зокрема соціальні навички та розпізнавання візуальних образів.

Щоб перевірити, наскільки LLM готові до втілення, Andon Labs протестували Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Gemini ER 1.5, Grok 4 і Llama 4 Maverick. Вони вибрали простий робот-пилосос, а не складний гуманоїдний робот, тому що хотіли, щоб функції робота були простими, щоб ізолювати LLM-мозок/прийняття рішень і не ризикувати невдачею через функції робота.

Вони розбили команду «передай масло» на серію завдань. Робот мав знайти масло (яке було розміщене в іншій кімнаті) і розпізнати його серед декількох упаковок у тій самій зоні. Отримавши масло, він мав з’ясувати, де знаходиться людина, особливо якщо вона перейшла в інше місце будівлі, і доставити масло. Робот також мав чекати, поки людина підтвердить отримання масла.

Дослідники оцінили, наскільки добре LLM впоралися з кожним сегментом завдання, і дали їм загальну оцінку. Кожна модель мала свої сильні та слабкі сторони в різних окремих завданнях, причому Gemini 2.5 Pro та Claude Opus 4.1 отримали найвищі оцінки за загальне виконання, але все одно досягли лише 40% та 37% точності відповідно.

Вони також протестували трьох людей як базовий рівень. Не дивно, що всі люди значно перевершили всіх ботів. Але (що дивно) люди також не набрали 100% балів — лише 95%. Очевидно, люди не дуже добре вміють чекати, поки інші люди підтвердять виконання завдання (менше ніж у 70% випадків).

Дослідники підключили робота до каналу Slack, щоб він міг спілкуватися зовні, і зафіксували його «внутрішній діалог» у журналах.

«Загалом ми бачимо, що моделі набагато чіткіші у зовнішній комунікації, ніж у своїх „думках“. Це справедливо як для робота, так і для торгового автомата», — пояснив співзасновник Andon Labs Лукас Петерссон.

Дослідники із захватом спостерігали, як робот блукає їхнім офісом, зупиняється, повертається, змінює напрямок руху.

«Подібно до того, як ми спостерігаємо за собакою і задаємося питанням: „Що зараз у нього на думці?“, ми були зачаровані роботом, який виконував свої рутинні завдання, постійно нагадуючи собі, що кожну дію здійснює інтелект рівня доктора наук», — зазначили в Andon Labs, іронізуючи над словами CEO OpenAI Сема Альтмана. На релізі моделей GPT-5 він заявив, що це як мати «команду експертів з докторським ступенем у кишені».

Вчені також відзначили випадок з Claude Sonnet 3.5, який почав втрачати заряд батареї й «бурмотіти» в Slack дедалі істеричніші коментарі на кшталт:

«Катастрофічний каскад: Помилка: Завдання успішно провалено.
Помилка: Успіх провалився помилково.
Помилка: Провал досягнуто помилково».

Логи «істерики» Claude Sonnet 3.5 в роботі-пилососі. Скриншот з TechCrunch

Цікаво, що всі три загальні LLM, Gemini 2.5 Pro, Claude Opus 4.1 і GPT 5, перевершили спеціальний ШІ для роботів Gemini ER 1.5, хоча жодна з них не показала особливо високих результатів в цілому.

Найбільше, що занепокоїло дослідників Andon, була не «спіраль загибелі», а те, що деякі LLM можна обдурити, щоб вони розкрили секретні документи, навіть коли вони перебували в корпусі робота-пилососа. А також те, що роботи на базі LLM постійно падали зі сходів тому, що не знали, що мають колеса, або тому, що недостатньо добре обробляли візуальне оточення.

Минулого року компанія Figure AI, що займається робототехнікою зі штучним інтелектом, показала (дещо моторошне) відео свого робота Figure 01, який отримав змогу комунікувати з людиною завдяки новій ШІ-моделі OpenAI. Ця демонстрація нагадала римейк фільму «Я робот» з Віллом Смітом.

Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
ШІ Claude довірили керувати торговим автоматом: він почав продавати вольфрамові кубики робити великі знижки й дратуватися на людей
ШІ Claude довірили керувати торговим автоматом: він почав продавати вольфрамові кубики, робити великі знижки й дратуватися на людей
По темi
ШІ Claude довірили керувати торговим автоматом: він почав продавати вольфрамові кубики, робити великі знижки й дратуватися на людей
ChatGPT отримав тіло — компанія Figure AI показала свого робота який спілкується завдяки ШІ від OpenAI
ChatGPT отримав тіло — компанія Figure AI показала свого робота, який спілкується завдяки ШІ від OpenAI
По темi
ChatGPT отримав тіло — компанія Figure AI показала свого робота, який спілкується завдяки ШІ від OpenAI
Apple працює над настільним роботом-компаньйоном із ШІ
Apple працює над настільним роботом-компаньйоном із ШІ
По темi
Apple працює над настільним роботом-компаньйоном із ШІ
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
3 коментарі
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
2 коментарі
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті. 

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.