Марія Бровінська ШІ 15 травня 2024, 07:54

ШІ-пошук, ШІ-відеомейкер, якісний ШІ-асистент, з яким не буде сумно, та кастомні чат-боти. 14 нових анонсів від Google, які доводять, що штучний інтелект справді захоплює світ

14 травня увечері відбулася конференція Google I/O, сповнена анонсів у сфері штучного інтелекту. Захід був присвячений моделям штучного інтелекту Gemini від Google, а також способам їхньої інтеграції в такі додатки, як Workspace і Chrome.

Розповідаємо, що представив технологічний гігант та як нові напрацювання полегшать роботу користувачів сервісів Google.

Залишити коментар

ШІ-пошук, ШІ-відеомейкер, якісний ШІ-асистент, з яким не буде сумно, та кастомні чат-боти. 14 нових анонсів від Google, які доводять, що штучний інтелект справді захоплює світ

14 травня увечері відбулася конференція Google I/O, сповнена анонсів у сфері штучного інтелекту. Захід був присвячений моделям штучного інтелекту Gemini від Google, а також способам їхньої інтеграції в такі додатки, як Workspace і Chrome.

Розповідаємо, що представив технологічний гігант та як нові напрацювання полегшать роботу користувачів сервісів Google.

Зміст

Пошук по відео з Google Lens

Google Lens вже дає змогу шукати щось на основі зображень, але тепер Google робить ще один крок вперед, додаючи можливість пошуку за допомогою відео. Це означає, що ви можете зняти на відео те, що хочете знайти, поставити запитання під час відео, і штучний інтелект Google спробує знайти відповідні відповіді з Інтернету.

Google припускає, що ви можете використовувати його, щоб запитати про проблему, яка виникла з вашим автомобілем, або отримати більше інформації про продукт, який ви бачите.

And you’ll also be able to ask questions with video, right in Search. Coming soon. #GoogleIO pic.twitter.com/zFVu8yOWI1
— Google (@Google) May 14, 2024

Відео за своєю суттю є мультимодальним введенням, а мультимодальний пошук зараз дуже важливий для Google. У випадку з нерухомими зображеннями об'єктив повинен здогадатися, що ви запитуєте про фотографію, або запропонувати вам уточнити ваше запитання після того, як він обробить ваше зображення. У випадку з відео ви можете просто навести камеру на свій автомобіль і запитати: «Чому ця штука звисає з днища?», і Google отримає все необхідне, щоб зрозуміти і відповісти на ваше запитання. Уся ця обробка є складною і дорогою, але вона також відповідає решті роботи Google зі штучним інтелектом.

Якщо ви шукаєте за допомогою відео, ви все одно отримаєте відносно звичайні результати пошуку Google, каже Ліз Рід, керівник відділу пошуку Google. Сенс полягає в тому, щоб отримати результат швидше і щоб було простіше сказати Google, що ви шукаєте. Об'єктив є ключовою частиною майбутнього Пошуку Google, саме через його зв’язок з ініціативами Google у сфері штучного інтелекту.

Інспектор фотогалереї Ask Photos

Генеральний директор Google Сундар Пічаї продемонстрував можливості пошуку в галереї Ask Photos. За словами Пічаї Ask Photos з’явиться цього літа і зробить сервіс набагато розумнішим, коли справа доходить до розуміння того, що саме ви шукаєте, використовуючи штучний інтелект. Демонструючи сервіс, він запитав додаток: «Який номер мого автомобіля?». Google Photos виявився достатньо розумним, щоб визначити, про який автомобіль йдеться — на основі місцезнаходження, того, скільки разів він з’являвся на фотографіях за останні роки, та інших даних — і надав фактичний номер у текстовій відповіді разом із зображенням, що його підтверджує».

Ask Photos також може допомогти вам глибше дослідити ваші спогади», — сказав Пічаї, попросивши додаток «показати мені, як його донька Лючія прогресувала у плаванні». Gemini зібрав широку мережу фотографій, які підсумовували багаторічні уроки плавання дитини.

Пічаї сказав, що Ask Photos з’явиться в Google Photos цього літа — «з більшою кількістю можливостей у майбутньому». Щоби проілюструвати, наскільки важливим став цей сервіс для мільйонів людей, генеральний директор Google сказав, що з моменту запуску «майже 9 років тому» в Photos щодня завантажується 6 млрд фотографій і відео. Це дуже багато спогадів на серверах Google.

Пришвидшувач ШІ Gemini 1.5 Flash та оновлений Gemini 1.5 Pro

У Google з’явилася ще одна модель штучного інтелекту: Gemini 1.5 Flash. Вона обіцяє бути такою ж потужною, як Pro та інші моделі Gemini, але набагато швидшою.

Це має дати розробникам більше вибору моделей, які вони можуть використовувати для створення нових додатків, але оскільки вона ще не доступна для споживачів, звичайні користувачі чат-ботів Gemini поки що не можуть скористатися її можливостями швидкої відповіді в чаті. Замість цього потрібно буде використовувати Google AI Studio, щоб отримати доступ до них.

Gemini 1.5 Flash підійде для «вузьких, високочастотних завдань з низькою затримкою», тоді як модель Gemini 1.5 Pro, яка також незабаром буде доступна в Google AI Studio, більше підходить для діяльності, яка не залежить від швидких відповідей.

Простіше кажучи, Gemini 1.5 Flash може бути кращим варіантом для відповідей клієнтам у реальному часі або швидкої генерації зображень, тоді як Gemini 1.5 Pro може читати і узагальнювати наукові роботи. Обидві моделі є мультимодальними, тобто можуть обробляти текст, зображення та відео.

Спочатку існувало лише три версії: Gemini Pro, менша Gemini Nano, призначена переважно для пристроїв, і Gemini Ultra, яка, за словами компанії, є найпотужнішою моделлю, яку вона має. Джош Вудворд (Josh Woodward), віце-президент Google Labs, сказав журналістам на брифінгу перед Google I/O, що хоча Google випустила більшу модель Gemini Ultra у вигляді попереднього перегляду, «ми бачимо, що розробники дійсно зацікавлені в моделях класу Pro і в цьому розмірі флеш-пам’яті».

Gemini 1.5 Flash тепер буде доступний для публічного попереднього перегляду. І Gemini 1.5 Flash, і Gemini 1.5 Pro матимуть контекстне вікно — скільки інформації використовує модель в будь-який момент часу — до 1 млн токенів (так званих слів), що більше, ніж 128 000 токенів для GPT-4. Приватний попередній перегляд буде доступний лише через список очікування, з експериментальним контекстним вікном на 2 млн для обох моделей.

Разом з тим, Gemini 1.5 Pro незабаром з’явиться в AI Studio, і Google заявляє, що оновив модель, якій лише кілька місяців, щоб поліпшити її можливості перекладу, міркувань і кодування. Тепер вона також буде доступна в Google Workspace, що дозволить користувачам використовувати ШІ-модель для узагальнення електронних листів з Gmail або аналізу PDF-файлів. Платні підписники Gemini Advanced, версії чат-бота Google, яка використовує Gemini Ultra, можуть отримати доступ до Gemini 1.5 Pro 35 мовами, щоб перекладати або виписувати підказки цими мовами.

Обидві моделі будуть доступні через Google AI Studio та Gemini API у понад 200 країнах, включаючи Європейський Союз, Великобританію та Швейцарію.

Gemini приєднує користувачів до робочого простору

Google впроваджує свою останню мовну модель Gemini 1.5 Pro на бічній панелі для Документів, Таблиць, Слайдів, Диску і Gmail. Коли наступного місяця вона стане доступною для платних підписників, вона перетвориться на універсального помічника в Workspace, який зможе отримувати інформацію з будь-якого контенту з вашого Диска, незалежно від того, де ви перебуваєте.

Він також зможе робити деякі речі за вас, наприклад, писати електронні листи, які включатимуть інформацію з документа, який ви зараз переглядаєте, або нагадувати вам пізніше про необхідність відповісти на лист, який ви переглядаєте. Деякі ранні тестери вже мають доступ до цих функцій, але Google заявляє, що наступного місяця вони будуть доступні всім платним передплатникам Gemini.

Gemini Life

Новий продукт під назвою Gemini Live — це голосовий асистент, який дозволяє вам легко спілкуватися з моделлю, перериваючи її, коли вона заговориться, або повертаючись до попередніх частин розмови.

Для користувачів Gemini Advanced Gemini Live дозволить вести двосторонню розмову з чат-ботом, використовувати можливості розумного асистента і функції зору — багато в чому схоже на те, над чим працює OpenAI для ChatGPT.

Google заявляє, що Gemini Live буде адаптуватися до мовленнєвих шаблонів користувачів і пропонуватиме більш лаконічні, розмовні відповіді, ніж довгі текстові відповіді, які він зазвичай генерує. Функція пропонуватиме 10 голосових варіантів, і компанія заявляє, що зможе використовувати камери смартфонів для перегляду та інтерпретації відео в реальному часі.

ШІ-асистент, що замінить Siri та Alexa

Project Astra від Google — це мультимодальний ШІ-асистент, який, як сподіваються в компанії, стане універсальним віртуальним помічником, здатним дивитися і розуміти те, що він бачить через камеру вашого пристрою, запам’ятовувати, де розміщені ваші речі, і робити щось за вас. На ньому працюють багато з найбільш вражаючих демонстрацій з I/O цього року, і компанія прагне, щоб він став справжнім агентом штучного інтелекту, який не лише розмовлятиме з юзером, але й робитиме щось від імені користувача.

«Я вже давно виношував цю ідею в голові», — каже Деміс Хассабіс, керівник Google DeepMind і лідер зусиль Google у сфері ШІ.

Хассабіс думав про штучний інтелект і працював над ним десятиліттями, але чотири чи п’ять років тому щось дійсно викристалізувалося. Одного дня він зрозумів: «У нас буде універсальний помічник. Він мультимодальний, він завжди з тобою». Називайте його комунікатором «Зоряний шлях», голосом від Неї, називайте як завгодно. «Це той помічник, — продовжує Хассабіс, — який просто корисний. Ви звикаєте до того, що він завжди поруч, коли вам це потрібно».

На Google I/O, щорічній конференції компанії для розробників, Хассабіс показав дуже ранню версію того, що, як він сподівається, стане цим універсальним помічником. І це мультимодальний асистент зі штучним інтелектом, який бачить світ у реальному часі, знає, які речі і де ви їх залишили, а також може відповісти на запитання або допомогти вам зробити майже будь-що. У неймовірно вражаючому демонстраційному відео, яке, як запевняє Хассабіс, не є підробкою чи фальсифікацією, користувач Astra в лондонському офісі Google просить систему ідентифікувати частину тіла спікера, знайти його зниклі окуляри, переглянути код тощо. Все це працює практично в режимі реального часу і в дуже розмовній манері.

Astra є мультимодальною за своєю конструкцією і дозволяє розмовляти, друкувати, малювати, фотографувати та спілкуватися в чаті з нею.

За словами Хассабіса, в майбутньому історія штучного інтелекту буде не стільки про самі моделі, скільки про те, що вони можуть зробити для вас. І ця історія — про агентів: ботів, які не просто розмовляють з вами, але й виконують завдання від вашого імені.

«Наша історія з агентами довша, ніж наша узагальнена робота з моделями», — каже він, вказуючи на ігрову систему AlphaGo, створену майже десять років тому. Деякі з цих агентів, на його думку, будуть надпростими інструментами для виконання завдань, в той час як інші будуть більше схожі на співробітників і компаньйонів.

За словами Хассабіса, Astra набагато ближча до того, як має працювати справжній асистент зі штучним інтелектом у реальному часі, ніж попередні продукти. Коли Gemini 1.5 Pro, остання версія основної великої мовної моделі Google, була готова, Хассабіс каже, що знав, що технологія, яка лежить в її основі, достатньо хороша для того, щоб щось на кшталт Astra почало добре працювати. Але модель — це лише частина продукту.

«У нас були її компоненти ще півроку тому, — каже він, — але однією з проблем була швидкість і затримка. Без цього юзабіліті не було б повноцінним», — зазначив він.

Отже, протягом шести місяців прискорення роботи системи було одним з найважливіших завдань команди. Це означало не лише вдосконалення моделі, а й оптимізацію решти інфраструктури, щоб вона працювала добре і в масштабі. На щастя, Хассабіс зі сміхом каже: «Це те, що Google робить дуже добре!»

Veo — відкриття у створенні відео та конкурент Sora

Google також представив Veo — сервіс, що може створювати «високоякісне» відео з роздільною здатністю 1080p з тексту, зображень та відеопідказок.

Veo має «просунуте розуміння природної мови», що дозволяє моделі розуміти кінематографічні терміни, такі як «таймлапс» або «аерофотозйомка ландшафту». Користувачі можуть керувати бажаним результатом, використовуючи текстові, графічні або відеопідказки, і Google стверджує, що отримані відео є «більш послідовними та узгодженими», зображуючи більш реалістичні рухи людей, тварин та об'єктів у кадрі.

Генеральний директор Google DeepMind Деміс Хассабіс (Demis Hassabis) заявив, що результати відео можна покращити за допомогою додаткових підказок і що Google вивчає додаткові функції, які дозволять Veo створювати розкадровки та довші сцени.

Як і у випадку з багатьма подібними попередніми версіями моделей ШІ, більшості людей, які сподіваються випробувати Veo самостійно, доведеться почекати деякий час.

Google запрошує обраних режисерів і творців експериментувати з моделлю, щоб визначити, як вона може найкраще підтримувати творчих людей, і спиратиметься на цю співпрацю, щоб забезпечити «право голосу творців» у розробці технологій штучного інтелекту Google.

Деякі функції Veo також будуть доступні для «обраних творців протягом найближчих тижнів» у приватному попередньому перегляді в VideoFX. решті доведеться записатися в лист очікування.

Кастомні чат-боти у Gemini

Google додає безліч нових функцій до свого штучного інтелекту Gemini, і однією з найпотужніших є опція персоналізації під назвою «Gems», яка дозволяє користувачам створювати власні версії асистента Gemini з різними характерами.

Gems дозволяє створювати ітерації чат-ботів, які можуть допомагати юзерам у виконанні певних завдань і зберігати певні характеристики, на кшталт створення власного бота в Character.AI — сервісі, який дозволяє спілкуватися з віртуальними версіями популярних персонажів і знаменитостей або навіть з фальшивим психіатром.

Google каже, що ви можете зробити Gemini своїм товаришем по спортзалу, су-шефом, партнером по кодуванню, посібником з написання креативних текстів або будь-ким, про кого ви тільки можете мріяти. Gems схожий на GPT Store від OpenAI, який дозволяє створювати кастомізованих чат-ботів ChatGPT.

Ви можете налаштувати gem, сказавши Gemini, що робити і як реагувати. Наприклад, ви можете попросити його бути вашим тренером з бігу, надати вам щоденний графік пробіжок, а також звучати бадьоро і мотивувати. Потім, в один клік, Gemini створить для вас дорогоцінний камінь, який ви описали. Функція Gems буде доступна «незабаром» для передплатників Gemini Advanced.

Google запускає програму для створення чат-ботів під назвою Gems. Як і GPTs від OpenAI, Gems дозволяє користувачам давати Gemini інструкції, щоб налаштувати його реакцію та спеціалізацію.

Whether you need a yoga bestie or calculus tutor, in the coming months you’ll be able to customize Gemini, saving time when you have specific ways you interact with Gemini again and again. We’re calling these Gems. #GoogleIO pic.twitter.com/YQOHsUbMWE
— Google (@Google) May 14, 2024

Ця функція стане доступною дуже скоро для підписників Gemini Advanced.

Circle to Search на Android або шпаргалка для учнів

Цей застосунок тепер може допомогти учням навчитися розв’язувати математичні задачі зі словами завдяки новій моделі LearnLM від Google.

Ось приклад такої задачі: автомобілю потрібно 8 секунд, щоб розігнатися з 0 метрів за секунду до 24 метрів за секунду. Обчисліть прискорення автомобіля. Навколо задачі намальоване коло. У кутку стоїть металево-синій андроїд-бот із зіркою Близнюків над ним.

Google розширює функцію Android Circle to Search — функцію, яка дозволяє буквально обвести щось на екрані телефону Android, щоб знайти це в Google — новою можливістю генерувати інструкції з розв’язання шкільних завдань з математики та фізики.

Користуючись телефоном або планшетом на Android, учні тепер можуть використовувати функцію «Обведи для пошуку», щоб отримати допомогу штучного інтелекту в розв’язанні математичних задач зі словами з домашнього завдання. Функція допоможе розпакувати задачу і перерахувати, що потрібно зробити учневі, щоб отримати правильну відповідь. За словами Google, вона не виконуватиме домашнє завдання за вас, а лише допоможе підійти до проблеми.

Circle to Search для математичної задачі дає вам покрокові інструкції, не видаючи остаточної відповіді. Протягом року Circle to Search також отримає можливість розв’язувати складні математичні рівняння, які включають формули, діаграми, графіки тощо. Для реалізації нових можливостей Circle to Search Google використовує LearnLM, свою нову модель штучного інтелекту, спеціально налаштовану для навчання.

Функція Circle to Search вперше з’явилася на смартфонах Samsung серії Galaxy S24 у січні, а потім на Pixel 8 і 8 Pro пізніше того ж місяця. Це одна з найяскравіших нових функцій Android, і хоча користувачі iOS поки що не можуть обводити свої домашні завдання з математики, щоб отримати допомогу, все можливо.

Пошукова система Google отримає ШІ-апдейт

Цього тижня Google запустить «Огляди штучного інтелекту» — раніше відомі як «Пошук, що генерує досвід» — для всіх жителів США. Тепер «спеціалізована» модель Gemini розроблятиме і наповнюватиме сторінки результатів узагальненими відповідями з Інтернету (подібно до того, що ви бачите в таких пошукових інструментах зі штучним інтелектом, як Perplexity або Arc Search).

ШІ виявлятиме шахрайство на Android

Google заявляє, що завдяки вбудованому в пристрій Gemini Nano AI телефони Android зможуть допомогти користувачам уникнути шахрайських дзвінків, відстежуючи червоні прапорці, такі як поширені шаблони розмов шахраїв, а потім виводячи попередження в реальному часі, як показано на малюнку вище. Компанія обіцяє надати більш детальну інформацію про цю функцію пізніше цього року.

ШІ для Android стане розумнішим

Незабаром Gemini дозволить користувачам ставити запитання про відео на екрані, а сам відповідатиме на них на основі автоматичних підписів. Для користувачів платної версії Gemini Advanced він також може розпізнавати PDF-файли і пропонувати інформацію.

Ці та інші мультимодальні оновлення для Gemini на Android з’являться протягом наступних кількох місяців.

ШІ-асистент для Google Chrome

Gemini Nano, полегшену версію Gemini, додадуть до десктопного браузера Chrome.

Вбудований асистент використовуватиме штучний інтелект пристрою, щоб допомогти вам створювати текст для постів у соціальних мережах, оглядів продуктів тощо безпосередньо в Google Chrome.

Удосконалена система вотермарок SynthID AI

Google розширює можливості SynthID — компанія заявляє, що вбудовуватиме водяні знаки в контент, створений за допомогою нового відеогенератора Veo, і що тепер він також може виявляти відео, створені за допомогою штучного інтелекту.