Олександр Кузьменко ШІ 26 серпня 2025, 18:10

Google покращила генерування зображень в Gemini завдяки ШІ-моделі nano-banana

Google підтвердила, що таємнича ШІ-модель nano-banana, яка вразила користувачів сайту LMArena, це її розробка. Вона лягла в основу оновлення чатбота Gemini для генерації та обробки зображення і надає точний контроль над редагуванням фотографій.

Залишити коментар

Google покращила генерування зображень в Gemini завдяки ШІ-моделі nano-banana

Google підтвердила, що таємнича ШІ-модель nano-banana, яка вразила користувачів сайту LMArena, це її розробка. Вона лягла в основу оновлення чатбота Gemini для генерації та обробки зображення і надає точний контроль над редагуванням фотографій.

Оновлення під назвою Gemini 2.5 Flash Image буде доступне з вівторка для всіх користувачів додатка Gemini, а також для розробників через Gemini API, Google AI Studio та платформи Vertex AI, відзначає TechCrunch.

Нова модель штучного інтелекту Gemini призначена для більш точного редагування зображень на основі запитів користувачів природною мовою, зберігаючи при цьому цілісність облич, тварин та інших деталей, що зазвичай погано виходить у ШІ. Наприклад, якщо попросити у чатботів ChatGPT або Grok змінити колір сорочки людини на фотографії, у відповідь вони можуть видати змінене обличчя чи фон.

«Повторно використовуйте тих самих персонажів, змінюючи їхнє вбрання, пози, освітлення чи сцену. Або переосмисліть себе — через десятиліття, в інших місцях або на роботі своєї дитячої мрії», — описують нові можливості Gemini в Google.

Нові функції Gemini також дозволяють завантажувати до трьох фотографій для того, щоб ШІ об'єднав їх в одну. За допомогою промптів користувачі можуть вказати, які об'єкти, елементи, кольори чи текстури з референсів потрібно використовувати на фінальному зображенні.

Зображення створене Gemini 2.5 Flash Image за підказкою «чоловік обіймає свою собаку»

Апдейт також покращує можливості редагування зображення. Нові інструменти дозволяються змінювати фон, відновлювати вицвілі зображення та змінювати вбрання. Користувачі можуть ініціювати ці зміни за допомогою підказок звичайною мовою.

«Ми дійсно просуваємо вперед якість візуалізації, а також здатність моделі виконувати інструкції. Це оновлення значно покращує процес редагування, а результати роботи моделей можна використовувати для будь-яких цілей», — сказала Ніколь Бріхтова, керівник відділу візуальних моделей генерації в Google DeepMind.

За її словами, розробники створили цю модель, орієнтуючись на реальні кейси користувачів, наприклад, щоб допомогти їм візуалізувати свої домашні та садові проєкти.

Хоча новий генератор зображень на основі штучного інтелекту Gemini полегшує користувачам створення та редагування реалістичних зображень, компанія має запобіжні заходи, що обмежують можливості користувачів. Минулого року Google втрапила в скандал, коли користувачі почали скаржитися, що Gemini генерує історично неправдоподібні зображення; компанія навіть була змушена просити вибачення.

«Ми використовуємо широку фільтрацію та маркування даних, щоб мінімізувати шкідливий вміст у наборах даних і зменшити ймовірність шкідливих результатів. Ми також проводимо об'єднання та оцінку безпеки контенту, включаючи безпеку дітей, та його репрезентативності», — відзначили в Google в описі свіжого оновлення.

В компанії попередили, що наразі Gemini має всі найновіші функції конфіденційності та безпеки, зокрема SynthID, який вбудовує невидимий цифровий водяний знак безпосередньо в зображення, що дозволяє ідентифікувати його як створене штучним інтелектом.

«Ми хочемо надати користувачам творчий контроль, щоб вони могли отримувати від моделей те, що хочуть. Але це не означає, що все дозволено», — сказала Бріхтова.

Крім того, в умовах надання послуг генеративного ШІ Google забороняє користувачам створювати «інтимні зображення без згоди».