💳 Trustee Plus — твоя персональна картка європейського банку: 3 хвилини і 10 євро 👉
Олександр КузьменкоШІ
6 грудня 2023, 19:17
2023-12-06
Google запускає ШІ-модель Gemini, яка має перемогти GPT-4 від OpenAI. Її називають майбутнім продуктів компанії
За словами генерального директора Google Сундара Пічаї, це початок нової ери штучного інтелекту в Google — ери Gemini. Вона поступово інтегруватиметься у всі продукти Google: від чатбота Bard до пошукової системи та браузера Chrome.
Gemini — це новітня велика мовна модель Google, яку Пічаї вперше показав на конференції для розробників I/O у червні, а тепер вона доступна широкому загалу. За словами Пічаї та генерального директора Google DeepMind Деміса Гассабіса, це величезний стрибок уперед у моделі штучного інтелекту, який зрештою вплине практично на всі продукти Google.
«Одна з найсильніших сторін цього моменту полягає в тому, що ви можете працювати над однією базовою технологією, робити її кращою, і це негайно поширюється на всі наші продукти», — сказав Пічаї.
Gemini має три версії:
Gemini Nano призначена для автономної роботи на пристроях Android;
Gemini Pro, яка незабаром стане основою для багатьох сервісів Google AI, і вже сьогодні є основою для чат-бота Bard;
Gemini Ultra — найпотужніша LLM Google, в основному призначена для центрів обробки даних та корпоративних додатків.
Наразі Google запускає Gemini кількома способами: Bard тепер працює на Gemini Pro, а користувачі Pixel 8 Pro отримають кілька нових функцій завдяки Gemini Nano. Повідомляється, що Gemini Ultra з’явиться лише наступного року.
Розробники та корпоративні клієнти зможуть отримати доступ до Gemini Pro через Google Generative AI Studio або Vertex AI в Google Cloud, починаючи з 13 грудня. Наразі Gemini доступний лише англійською мовою, інші мови, очевидно, з’являться незабаром.
За словами Пічаї, з часом модель буде інтегрована в пошукову систему Google, її рекламні продукти, браузер Chrome та інші. Це «майбутнє Google», і воно вже близько.
Gemini проти GPT-4
У Google говорять, що провели «дуже ретельний аналіз» обох моделей — Gemini та GPT-4, які змагалися у 32 тестах. Це були як широкі узагальнені тести, такі як тест на розуміння багатозадачної мови, так і тести які порівнювали здатність двох моделей генерувати код на Python. «Я думаю, що ми значно випереджаємо у 30 з 32 тестів. Десь більше, десь менше», — говорить Деміс Гассабіс.
У цих тестах (які насправді здебільшого дуже близькі) найочевиднішою перевагою Gemini є його здатність розуміти та взаємодіяти з відео та аудіо. Це значною мірою зумовлено дизайном: мультимодальність була частиною плану Gemini від самого початку.
Google не тренував окремі моделі для зображень і голосу, в той час, як OpenAI створила DALL-E і Whisper, натомість компанія будувала одну мультисенсорну модель з самого початку. «Нас завжди цікавили дуже, дуже загальні системи», — заявив Гассабіс.
Наразі найпростіші моделі Gemini дозволяють вводити та виводити текст, але більш потужні моделі, такі як Gemini Ultra, можуть працювати з зображеннями, відео та аудіо. З часом, за словами очільника DeepMind, у Gemini з’явиться більше «органів чуття», вони стануть більш обізнаними, більш точними та приземленими в цьому процесі.
«Ці моделі просто краще розуміють навколишній світ», стверджує Гассабіс. За його словами, ці моделі все ще «галюцинують», у них все ще є упередження та інші проблеми. Але що більше вони дізнаються, то краще вони стануть.
Ставка на програмування та інші покращення
Тести тестами, але зрештою, справжнім випробуванням можливостей Gemini стануть звичайні користувачі, які захочуть використовувати його для мозкового штурму ідей, пошуку інформації, написання коду і багато чого іншого.
Google, схоже, вважає, що саме програмування є основою перевагою Gemini — вона використовує нову систему генерації коду під назвою AlphaCode 2, яка, за її словами, працює краще, ніж 85% учасників змагань з кодування, порівняно з 50% для оригінальної AlphaCode. Втім, Пічаї каже, що користувачі помітять покращення практично в усьому, чого торкається модель.
Повідомляється, що Gemini була навчена на власних тензорних процесорах Google і є швидшою і дешевшою у використанні, ніж попередні моделі Google, такі як PaLM. Разом з новою моделлю Google також запускає нову версію своєї системи TPU — TPU v5p — обчислювальної системи, призначеної для використання в центрах обробки даних для навчання і запуску великомасштабних моделей.
Заходи безпеки
У Google кажуть, що доклали чимало зусиль, щоб забезпечити безпеку та відповідальність Gemini, як за допомогою внутрішнього, так і зовнішнього тестування та редизайну. Пічаї зазначає, що гарантування безпеки та надійності даних особливо важливо для продуктів, призначених для підприємств, а саме там заробляє більшість генеративних ШІ.
Утім, Гассабіс визнає, що одним із ризиків запуску найсучаснішої системи ШІ є те, що вона матиме проблеми та вектори атак, які ніхто не міг передбачити. Саме тому Google не поспішає випускати Gemini Ultra — Гассабіс порівнює це з контрольованою бета-версією, з «безпечнішою зоною експериментів» для найпотужнішої моделі Google.
Протягом багатьох років Пічаї та інші керівники Google поетично описували потенціал штучного інтелекту. Сам Пічаї неодноразово говорив, що ШІ буде більш трансформаційним для людства, ніж вогонь чи електрика.
У першому поколінні модель Gemini, можливо, не змінить світ. У кращому випадку вона може просто допомогти Google наздогнати OpenAI в гонитві за створенням великого генеративного ШІ. Але Пічаї, Гассабіс і всі інші в Google, схоже, вважають, що це початок чогось справді грандіозного.