Марія Бровінська ШІ (ai) 15 мая 2024, 07:54

ИИ-поиск, ИИ-видеомейкер, качественный ИИ-ассистент, с которым не будет грустно, и кастомные чат-боты. 14 новых анонсов от Google, которые доказывают, что искусственный интеллект действительно захватывает мир

14 мая вечером состоялась конференция Google I/O, исполненная анонсов в сфере искусственного интеллекта. Мероприятие было посвящено моделям искусственного интеллекта Gemini от Google, а также способам их интеграции в такие приложения, как Workspace и Chrome.

Рассказываем, что представил технологический гигант и как новые наработки облегчат работу пользователей сервисов Google.

Оставить комментарий

ИИ-поиск, ИИ-видеомейкер, качественный ИИ-ассистент, с которым не будет грустно, и кастомные чат-боты. 14 новых анонсов от Google, которые доказывают, что искусственный интеллект действительно захватывает мир

14 мая вечером состоялась конференция Google I/O, исполненная анонсов в сфере искусственного интеллекта. Мероприятие было посвящено моделям искусственного интеллекта Gemini от Google, а также способам их интеграции в такие приложения, как Workspace и Chrome.

Рассказываем, что представил технологический гигант и как новые наработки облегчат работу пользователей сервисов Google.

Содержание

Поиск по видео с Google Lens

Google Lens уже позволяет искать что-либо на основе изображений, но теперь Google делает еще один шаг вперед, добавляя возможность поиска с помощью видео. Это означает, что вы можете снять на видео то, что хотите найти, задать вопросы во время видео, и искусственный интеллект Google попытается найти ответы из Интернета.

Google предполагает, что вы можете использовать его, чтобы спросить о проблеме, возникшей с вашим автомобилем, или получить больше информации о продукте, который вы видите.

And you’ll also be able to ask questions with video, right in Search. Coming soon. #GoogleIO pic.twitter.com/zFVu8yOWI1
— Google (@Google) May 14, 2024

Видео по сути является мультимодальным вводом, а мультимодальный поиск сейчас очень важен для Google. В случае с неподвижными изображениями объектив должен догадаться, что вы спрашиваете фотографию, или предложить вам уточнить ваш вопрос после того, как он обработает ваше изображение. В случае с видео вы можете просто навести камеру на свой автомобиль и спросить: «Почему эта штука свисает с днища?», и Google получит все необходимое, чтобы понять и ответить на ваш вопрос. Вся эта обработка является сложной и дорогостоящей, но она также соответствует остальной работе Google с искусственным интеллектом.

Если вы ищете видео, вы все равно получите относительно обычные результаты поиска Google, говорит Лиз Рид, руководитель отдела поиска Google. Смысл состоит в том, чтобы получить результат быстрее и чтобы проще сказать Google, что вы ищете. Объектив является ключевой частью будущего Поиска Google, именно благодаря его связи с инициативами Google в области искусственного интеллекта.

Инспектор фотогалереи Ask Photos

Генеральный директор Google Сундар Пича продемонстрировал возможности поиска в галерее Ask Photos. По словам Пичаи, Ask Photos появится этим летом и сделает сервис гораздо умнее, когда дело доходит до понимания того, что именно вы ищете, используя искусственный интеллект. Демонстрируя сервис, он спросил приложение: «Какой номер моего автомобиля?». Google Photos оказался достаточно разумным, чтобы определить, о каком автомобиле идет речь — на основе местонахождения, того, сколько раз он появлялся на фотографиях за последние годы, и других данных — и предоставил фактический номер в текстовом ответе вместе с подтверждающим его изображением. .»

Ask Photos также может помочь вам глубже изучить ваши воспоминания», — сказал Пичаи, попросив приложение «показать мне, как его дочь Лючия прогрессировала в плавании». Gemini собрал широкую сеть фотографий, суммирующих многолетние уроки плавания ребенка.

Пичаи сказал, что Ask Photos появится у Google Photos этим летом — «с большим количеством возможностей в будущем». Чтобы проиллюстрировать, сколь важным стал этот сервис для миллионов людей, генеральный директор Google сказал, что с момента запуска «почти 9 лет назад» в Photos ежедневно загружается 6 млрд фотографий и видео. Это очень много воспоминаний на серверах Google.

Ускоритель ИИ Gemini 1.5 Flash и обновленный Gemini 1.5 Pro

У Google появилась еще одна модель искусственного интеллекта: Gemini 1.5 Flash. Она обещает быть такой же мощной, как Pro и другие модели Gemini, но гораздо более быстрой.

Это должно дать разработчикам больше выбора моделей, которые они могут использовать для создания новых приложений, но поскольку она еще не доступна потребителям, обычные пользователи чат-ботов Gemini пока не могут воспользоваться ее возможностями быстрого ответа в чате. Вместо этого нужно будет использовать Google AI Studio, чтобы получить доступ к ним.

Gemini 1.5 Flash подойдет для «узких, высокочастотных задач с низкой задержкой», тогда как модель Gemini 1.5 Pro, которая также в скором времени будет доступна в Google AI Studio, больше подходит для деятельности, не зависящей от скорых ответов.

Проще говоря, Gemini 1.5 Flash может являться лучшим вариантом для ответов клиентам в реальном времени или быстрой генерации изображений, тогда как Gemini 1.5 Pro может читать и обобщать научные работы. Обе модели мультимодальны, то есть могут обрабатывать текст, изображения и видео.

Первоначально существовало лишь три версии: Gemini Pro, меньшая Gemini Nano, предназначенная преимущественно для устройств, и Gemini Ultra, которая, по словам компании, является самой мощной моделью, которую она имеет. Джош Вудворд (Josh Woodward), вице-президент Google Labs, сказал журналистам на брифинге перед Google I/O, что хотя Google выпустила большую модель Gemini Ultra в виде предварительного просмотра, «мы видим, что разработчики действительно заинтересованы в моделях класса Pro и в этом размере флэш-памяти».

Gemini 1.5 Flash теперь будет доступен для публичного предварительного просмотра. И Gemini 1.5 Flash, и Gemini 1.5 Pro будут иметь контекстное окно — сколько информации использует модель в любой момент времени — до 1 млн токенов (так называемых слов), что больше 128 000 токенов для GPT-4. Частный предварительный просмотр будет доступен только через список ожидания с экспериментальным контекстным окном на 2 млн для обеих моделей.

Вместе с тем, Gemini 1.5 Pro в скором времени появится в AI Studio, и Google заявляет, что обновил модель, которой лишь несколько месяцев, чтобы улучшить ее возможности перевода, рассуждений и кодирования. Теперь она также будет доступна в Google Workspace, что позволит пользователям использовать ИИ-модель для обобщения электронных писем из Gmail или анализа PDF-файлов. Платные подписчики Gemini Advanced, версии чат-бота Google, использующей Gemini Ultra, могут получить доступ к Gemini 1.5 Pro на 35 языках, чтобы переводить или выписывать подсказки на этих языках.

Обе модели будут доступны через Google AI Studio и Gemini API более чем в 200 странах, включая Европейский Союз, Великобританию и Швейцарию.

Gemini присоединяет пользователей к рабочему пространству

Google вводит свою последнюю языковую модель Gemini 1.5 Pro на боковой панели для Документов, Таблиц, Слайдов, Диска и Gmail. Когда в следующем месяце она станет доступна для платных подписчиков, она превратится в универсального помощника в Workspace, который сможет получать информацию из любого контента из вашего Диска, независимо от того, где вы находитесь.

Он также сможет делать некоторые вещи за вас, например, писать электронные письма, которые будут включать информацию из просматриваемого вами документа или напоминать вам позже о необходимости ответить на письмо, которое вы просматриваете. Некоторые ранние тестеры уже имеют доступ к этим функциям, но Google заявляет, что в следующем месяце они будут доступны всем платным подписчикам Gemini.

Gemini Life

Новый продукт под названием Gemini Live — это голосовой ассистент, позволяющий вам легко общаться с моделью, прерывая ее, когда она заговорится, или возвращаясь к предыдущим частям разговора.

Для пользователей Gemini Advanced Gemini Live позволит вести двусторонний разговор с чат-ботом, использовать возможности умного ассистента и функции зрения — во многом сродни тому, над чем работает OpenAI для ChatGPT.

Google заявляет, что Gemini Live будет адаптироваться к речевым шаблонам пользователей и будет предлагать более лаконичные, разговорные ответы, чем длинные текстовые ответы, которые он обычно генерирует. Функция будет предлагать 10 голосовых вариантов и компания заявляет, что сможет использовать камеры смартфонов для просмотра и интерпретации видео в реальном времени.

ИИ-ассистент, заменяющий Siri и Alexa

Project Astra от Google — это мультимодальный ИИ-ассистент, который, как надеются в компании, станет универсальным виртуальным помощником, способным смотреть и понимать то, что он видит через камеру вашего устройства, запоминать, где находятся ваши вещи, и делать что-то за вас. На нем работают многие из самых впечатляющих демонстраций с I/O этого года, и компания стремится, чтобы он стал настоящим агентом искусственного интеллекта, который будет не только разговаривать с пользователем, но и делать что-то от имени пользователя.

«Я уже давно вынашивал эту идею в голове», — говорит Демис Хассабис, руководитель Google DeepMind и лидер усилий Google в сфере ИИ.

Хассабис думал об искусственном интеллекте и работал над ним десятилетиями, но четыре или пять лет назад что-то действительно выкристаллизовалось. Однажды он понял: «У нас будет универсальный помощник. Он мультимодальный, он всегда с тобой. Называйте его коммуникатором «Звездный путь», голосом от Нее, называйте как угодно. «Это тот помощник, — продолжает Хассабис, — который просто полезен. Вы привыкаете к тому, что он всегда рядом, когда вам это нужно».

На Google I/O, ежегодной конференции компании для разработчиков Хассабис показал очень раннюю версию того, что, как он надеется, станет этим универсальным помощником. И это мультимодальный ассистент с искусственным интеллектом, который видит мир в реальном времени, знает, какие вещи и где вы их оставили, а также может ответить на вопросы или помочь вам сделать почти что угодно. В невероятно поразительном демонстрационном видео, которое, как уверяет Хассабис, не является подделкой или фальсификацией, пользователь Astra в лондонском офисе Google просит систему идентифицировать часть тела спикера, найти его пропавшие очки, просмотреть код и т. д. Всё это работает практически в режиме реального времени и в очень разговорной манере.

Astra мультимодальная по своей конструкции и позволяет разговаривать, печатать, рисовать, фотографировать и общаться в чате с ней.

По словам Хассабиса, в будущем история искусственного интеллекта будет не столько о самих моделях, сколько о том, что они могут сделать для вас. И эта история об агентах: ботов, которые не просто разговаривают с вами, но и выполняют задания от вашего имени.

«Наша история с агентами длиннее нашей обобщенной работы с моделями», — говорит он, указывая на игровую систему AlphaGo, созданную почти десять лет назад. Некоторые из этих агентов, по его мнению, будут сверхпростыми инструментами для выполнения задач, в то время как другие будут больше похожи на сотрудников и компаньонов.

По словам Хассабиса, Astra гораздо ближе к тому, как должен работать настоящий ассистент с искусственным интеллектом в реальном времени, чем предыдущие продукты. Когда Gemini 1.5 Pro, последняя версия основной большой языковой модели Google, была готова, Хассабис говорит, что знал, что лежащая в ее основе технология достаточно хороша для того, чтобы что-то вроде Astra начало хорошо работать. Но модель — это только часть продукта.

«У нас были ее компоненты еще полгода назад, — говорит он, — но одной из проблем была скорость и задержка. Без этого юзабилити не было бы полноценным», — отметил он.

Итак, в течение шести месяцев ускорение работы системы являлось одной из важнейших задач команды. Это означало не только усовершенствование модели, но и оптимизацию остальной инфраструктуры, чтобы она работала хорошо и в масштабе. К счастью, Хассабис со смехом говорит: «Это то, что Google делает очень хорошо!»

Veo — открытие в создании видео и конкурент Sora

Google также представил Veo — сервис, который может создавать высококачественное видео с разрешением 1080p из текста, изображений и видеоподсказок.

Veo имеет «продвинутое понимание природного языка», что позволяет модели понимать кинематографические термины, такие как «таймлапс» или «аэрофотосъемка ландшафта». Пользователи могут управлять желаемым результатом, используя текстовые, графические или видеоподсказки, и Google утверждает, что полученные видео являются «последовательными и согласованными», изображая более реалистичные движения людей, животных и объектов в кадре.

Генеральный директор Google DeepMind Демис Хассабис (Demis Hassabis) заявил, что результаты видео можно улучшить с помощью дополнительных подсказок и Google изучает дополнительные функции, которые позволят Veo создавать раскадровки и более длинные сцены.

Как и в случае со многими подобными предыдущими версиями моделей ИИ, большинству людей, надеющихся испытать Veo самостоятельно, придется подождать некоторое время.

Google приглашает избранных режиссеров и создателей экспериментировать с моделью, чтобы определить, как она может лучше поддерживать творческих людей, и будет опираться на это сотрудничество, чтобы обеспечить «право голоса создателей» в разработке технологий искусственного интеллекта Google.

Некоторые функции Veo также будут доступны для «избранных создателей в ближайшие недели» в частном предварительном просмотре в VideoFX. остальным придется записаться в письмо ожидания.

Кастомные чат-боты в Gemini

Google добавляет множество новых функций к своему искусственному интеллекту Gemini, и одной из самых мощных является опция персонализации под названием Gems, которая позволяет пользователям создавать собственные версии ассистента Gemini с разными характерами.

Gems позволяет создавать итерации чат-ботов, которые могут помогать пользователям в выполнении определенных задач и сохранять определенные характеристики, вроде создания собственного бота в Character.AI — сервисе, позволяющем общаться с виртуальными версиями популярных персонажей и знаменитостей или даже с фальшивым психиатром.

Google говорит, что вы можете сделать Gemini своим товарищем по спортзалу, су-шефом, партнером по кодированию, руководством по написанию креативных текстов или кем-либо, о ком вы только можете мечтать. Gems похож на GPT Store от OpenAI, который позволяет создавать кастомизированные чат-боты ChatGPT.

Вы можете настроить gem, сказав Gemini, что делать и как реагировать. К примеру, вы можете попросить его быть вашим тренером по бегу, предоставить вам ежедневный график пробежек, а также звучать бодро и мотивировать. Затем, в один клик, Gemini создаст вам драгоценный камень, который вы описали. Функция Gems будет доступна в скором времени для подписчиков Gemini Advanced.

Google запускает приложение для создания чат-ботов под названием Gems. Как и GPT от OpenAI, Gems позволяет пользователям давать Gemini инструкции, чтобы настроить его реакцию и специализацию.

Если вы нуждаетесь в йоге bestie или calculus tutor, в течение нескольких месяцев вы можете быть эффективным для Gemini, долгосрочное время, когда вы имеете конкретные способы, которые вы interact with gemini again и again. We’re calling these Gems. #GoogleIO pic.twitter.com/YQOHsUbMWE
— Google (@Google) May 14, 2024

Эта функция станет доступна очень скоро для подписчиков Gemini Advanced.

Circle to Search на Android или шпаргалка для учащихся

Это приложение теперь может помочь учащимся научиться решать математические задачи со словами благодаря новой модели LearnLM от Google.

Вот пример такой задачи: автомобилю нужно 8 секунд, чтобы разогнаться с 0 метров в секунду до 24 метров в секунду. Вычислите ускорение автомобиля. Вокруг задачи нарисован круг. В углу стоит металлически синий андроид-бот со звездой Близнецов над ним.

Google расширяет функцию Android Circle to Search — функцию, которая позволяет буквально обвести что-то на экране телефона Android, чтобы найти это в Google — новой возможностью генерировать инструкции по решению школьных заданий по математике и физике.

Пользуясь телефоном или планшетом на Android, учащиеся теперь могут использовать функцию «Обводы для поиска», чтобы получить помощь искусственного интеллекта в решении математических задач со словами из домашнего задания. Функция поможет распаковать задачу и перечислить, что нужно сделать учащемуся, чтобы получить правильный ответ. По словам Google, она не будет выполнять домашнее задание за вас, а поможет подойти к проблеме.

Circle to Search для математической задачи дает вам пошаговые инструкции, не выдавая окончательного ответа. В течение года Circle to Search также получит возможность решать сложные математические уравнения, включающие формулы, диаграммы, графики и т. д. Для реализации новых возможностей Circle to Search Google использует LearnLM, свою новую модель искусственного интеллекта, специально настроенную для обучения.

Функция Circle to Search впервые появилась на смартфонах Samsung серии Galaxy S24 в январе, а затем на Pixel 8 и 8 Pro позже того же месяца. Это одна из самых ярких новых функций Android, и хотя пользователи iOS пока не могут обводить свои домашние задания по математике, чтобы получить помощь, все возможно.

Поисковая система Google получит ИИ-апдейт

На этой неделе Google запустит «Обзоры искусственного интеллекта» — ранее известные как «Поиск, генерирующий опыт» — для всех жителей США. Теперь «специализированная» модель Gemini будет разрабатывать и наполнять страницы результатов обобщенными ответами из Интернета (подобно тому, что вы видите в таких поисковых инструментах с искусственным интеллектом, как Perplexity или Arc Search).

ИИ будет обнаруживать мошенничество на Android

Google заявляет, что благодаря встроенному в устройство Gemini Nano AI телефоны Android смогут помочь пользователям избежать мошеннических звонков, отслеживая красные флажки, такие как распространенные шаблоны разговоров мошенников, а затем выводя предупреждения в реальном времени, как показано на рисунке выше. Компания обещает предоставить более подробную информацию об этой функции позже в этом году.

ИИ для Android станет умнее

В скором времени Gemini позволит пользователям задавать вопросы о видео на экране, а сам будет отвечать на них на основе автоматических подписей. Для пользователей платной версии Gemini Advanced он также может распознавать файлы PDF и предлагать информацию.

Эти и другие мультимодальные обновления для Gemini на Android появятся в течение нескольких месяцев.

ИИ-ассистент для Google Chrome

Gemini Nano, облегченную версию Gemini, добавят в десктопный браузер Chrome.

Встроенный ассистент будет использовать искусственный интеллект устройства, чтобы помочь вам создавать текст для постов в социальных сетях, обзоры продуктов и т. п. непосредственно в Google Chrome.

Усовершенствованная система утермарок SynthID AI

Google расширяет возможности SynthID — компания заявляет, что будет встраивать водяные знаки в контент, созданный с помощью нового видеогенератора Veo, и теперь он также может обнаруживать видео, созданные с помощью искусственного интеллекта.