UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

Google представила Gemini Robotics 1.5 і Robotics-ER 1.5: ШІ навчає роботів думати, планувати й шукати інформацію

Техногігант презентував Gemini Robotics-ER 1.5 і Robotics 1.5, що працюють як «мозок і руки»: ER 1.5 будує поетапний план, викликає інструменти (зокрема пошук) і передає кроки, а VLA-модель сприймає відео/зображення й переводить інструкції у моторні команди.

Залишити коментар
Google представила Gemini Robotics 1.5 і Robotics-ER 1.5: ШІ навчає роботів думати, планувати й шукати інформацію

Техногігант презентував Gemini Robotics-ER 1.5 і Robotics 1.5, що працюють як «мозок і руки»: ER 1.5 будує поетапний план, викликає інструменти (зокрема пошук) і передає кроки, а VLA-модель сприймає відео/зображення й переводить інструкції у моторні команди.

Компанія Google детально описала оновлення у блозі. Йдеться про дві взаємодоповнювальні моделі для робототехніки: Gemini Robotics 1.5 (VLA-модель «бачення-мова-дія») та Gemini Robotics-ER 1.5 (VLM-модель втіленого міркування). Перша перетворює візуальні дані й інструкції на моторні команди робота, «думаючи перед дією» й показуючи процес міркування.

Друга виступає «високорівневим мозком»: планує місії, робить логічні висновки у фізичному середовищі, нативно викликає цифрові інструменти (зокрема Google Search) і розкладає складні завдання на покрокові інструкції.

Що вміють нові моделі. Robotics-ER 1.5 досягає SOTA-результатів на 15 академічних бенчмарках просторового розуміння й втіленого міркування. У практиці це означає, що агент спершу шукає правила (наприклад, локальні норми сортування сміття), співвідносить їх із тим, що «бачить» камера, і лише потім віддає послідовність кроків для виконання. Robotics 1.5 опрацьовує кожен крок: від «поклади papercup у recyclе-контейнер» до конкретної траєкторії маніпулятора, при цьому здатна пояснити, чому обрала саме такі дії («свідоме» планування, сегментація довгих місій на короткі підзадачі).

Навчання між платформами. Важливий прорив — трансфер навичок між різними «тілами»: рухи, засвоєні на ALOHA 2, відпрацьовуються і на гуманоїді Apptronik Apollo, і на дворукій Franka без спеціальної «підгонки» моделі під кожний робот. Це пришвидшує онбординг нових апаратних платформ і скорочує час до корисних застосувань.

Команда робить акцент на відповідальному впровадженні: від високорівневого семантичного «думай-про-безпеку-перед-дією» та узгодження з політиками безпеки Gemini — до низькорівневих підсистем уникання зіткнень на борту робота. Оновлено еталон ASIMOV для оцінки семантичної безпеки: розширено «рідкісні» кейси, типи питань і відеомодальності; на ньому Robotics-ER 1.5 показує SOTA завдяки покращеному «мисленню».

Відсьогодні Gemini Robotics-ER 1.5 доступна розробникам через Gemini API у Google AI Studio. Gemini Robotics 1.5 поки що працює з обраними партнерами; компанія обіцяє розширення програми.

Лінійка Robotics спирається на базові мультимодальні моделі Gemini, які Google з початку року впроваджує в «фізичні» сценарії. На попередніх етапах компанія демонструвала, як агенти розуміють інструкції, сюжет відео й просторові взаємозв’язки; версія 1.5 додає прозоре покрокове міркування, планування місій, виклик інструментів і переносність навичок між різними роботами — те, чого бракувало системам, що просто «реагують на команду». Для індустрії це означає швидше створення універсальних роботів-асистентів: від логістики й виробництва до сервісу, побуту та R&D-лабораторій.

Раніше dev.ua писав про те, як Google офіційно привів свого розмовного ШІ Gemini на телевізори з Google TV: спершу підтримку отримали моделі TCL серії QM9K, але далі протягом року підтримку розширять.

Google інтегрувала Gemini у Chrome: браузер отримав 10 нових ШІ-функцій
Google інтегрувала Gemini у Chrome: браузер отримав 10 нових ШІ-функцій
По темi
Google інтегрувала Gemini у Chrome: браузер отримав 10 нових ШІ-функцій
Gemini може розшифровувати аудіо та відео в текст зокрема й безплатна версія. Експерт порадив як цим користуватися
Gemini може розшифровувати аудіо та відео в текст, зокрема й безплатна версія. Експерт порадив, як цим користуватися
По темi
Gemini може розшифровувати аудіо та відео в текст, зокрема й безплатна версія. Експерт порадив, як цим користуватися
Google покращила генерування зображень в Gemini завдяки ШІ-моделі nano-banana
Google покращила генерування зображень в Gemini завдяки ШІ-моделі nano-banana
По темi
Google покращила генерування зображень в Gemini завдяки ШІ-моделі nano-banana
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Читайте також
Німеччина передасть Україні 14 наземних безпілотників THeMIS. Що це за машини та як вони працюють
Німеччина передасть Україні 14 наземних безпілотників THeMIS. Що це за машини та як вони працюють
Німеччина передасть Україні 14 наземних безпілотників THeMIS. Що це за машини та як вони працюють
Німеччина передасть Україні 14 наземних безпілотників THeMIS. Імовірно, 7 таких транспортних засобів прибудуть до України до кінця цього року, вони призначені для евакуації поранених. Інші очікуються у 2023 році — їх будуть використовувати для очищення доріг. Нагадуємо, що це за зброя і що вона вміє.
6 коментарів
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Головоломка киянина Quadline перемогла на фестивалі інді-ігор Google Play
Головоломка киянина Quadline перемогла на фестивалі інді-ігор Google Play
Головоломка киянина Quadline перемогла на фестивалі інді-ігор Google Play
Харківська художниця намалювала новий дудл для Google на День Незалежності України
Харківська художниця намалювала новий дудл для Google на День Незалежності України
Харківська художниця намалювала новий дудл для Google на День Незалежності України

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.