🚀💳 Trustee Plus - більше ніж криптогаманець з європейською платіжною карткою. Спробуй 👉

OpenAI навчила модель GPT-4o генерувати зображення краще, ніж DALL-E 3. Незабаром це оновлення стане доступне для всіх користувачів

CEO OpenAI Сем Альтман представив велике оновлення можливостей генерації зображень у ChatGPT. Тепер ШІ-чатбот може використовувати модель GPT-4o компанії OpenAI для створення та модифікації зображень і фотографій. Які переваги та недоліки має генерація зображень у GPT-4o.

Залишити коментар
OpenAI навчила модель GPT-4o генерувати зображення краще, ніж DALL-E 3. Незабаром це оновлення стане доступне для всіх користувачів

CEO OpenAI Сем Альтман представив велике оновлення можливостей генерації зображень у ChatGPT. Тепер ШІ-чатбот може використовувати модель GPT-4o компанії OpenAI для створення та модифікації зображень і фотографій. Які переваги та недоліки має генерація зображень у GPT-4o.

Як повідомляє TechCrunch, модель GPT-4o вже давно лежить в основі платформи чат-ботів зі штучним інтелектом, але до цього часу модель могла генерувати та редагувати лише текст, а не зображення.

При генерації зображень GPT-4o «думає» трохи довше, ніж модель DALL-E 3, яку вона фактично замінює. Але натомість, може створювати більш точні й детальні зображення, говорять в OpenAI. GPT-4o може редагувати наявні картинки, включно із зображеннями людей або тварин, трансформуючи їх або «домальовуючи» деталі, такі як об'єкти переднього і заднього плану.

Однією з переваг GPT-4o є послідовність у зображенні персонажів та об'єктів, яких вона може переносити у різні версії картинки, згідно промптів користувача. В OpenAI також підкреслюють точність передачі тексту на зображеннях, які генерує GPT-4o.

«Оскільки GPT-4o тепер має вбудовану функцію генерації зображень, ви можете вдосконалювати зображення за допомогою природної розмови. GPT-4o може спиратися на зображення і текст у контексті чату, забезпечуючи узгодженість у всьому. Наприклад, якщо ви створюєте персонажа для відеогри, зовнішній вигляд персонажа залишається послідовним протягом декількох ітерацій, оскільки ви вдосконалюєте його та експериментуєте», — говорять в OpenAI.

Зображення: OpenAI

У компанії відзначають, що GPT-4o може аналізувати й навчатися на основі завантажених користувачем зображень, легко інтегруючи їхні деталі у свій контекст для створення зображень. У блозі OpenAI продемонстрували це на прикладі фото кицьки, яке користувач за допомогою GPT-4o доповнив деталями й додав відеоігровий інтерфейс.

Також відзначається здатність GPT-4o генерувати реалістичні зображення:

Водночас у компанії перерахували відомі розробникам недоліки генерації зображень у GPT-4o:

  • GPT-4o іноді може обрізати довші зображення, наприклад, плакати, особливо внизу.
  • Як й інші моделі ШІ, генерація зображень може «галюцинувати» (наприклад, при створенні мапи світу), особливо в коротких промптах із мінімумом подробиць.
  • При створенні зображень, які спираються на базу знань, GPT-4o може бути складно точно відобразити понад 10–20 різних концепцій одночасно, наприклад, повну періодичну таблицю Менделєєва.
  • Модель іноді має проблеми з рендерингом мов, які не використовують латиницю. Тоді символи можуть бути неточними або «галюцинаційними», особливо при високій складності запиту.
  • GPT-4o має проблеми з усуненням помилок у згенерованому тексті — водночас можуть змінюватися й інші частини зображення.
  • Модель має труднощі, коли її просять відобразити детальну інформацію дуже маленького розміру і проблеми при побудові графіків.
Зображення: OpenAI

«Наша модель неідеальна. Наразі ми усвідомлюємо численні обмеження, які будемо намагатися усунути шляхом вдосконалення моделі після першого запуску», — говорять в OpenAI.

За словами Альтмана, нативна генерація зображень GPT-4o вже доступна в ChatGPT і Sora, продукті OpenAI для створення відео зі штучним інтелектом, для передплатників Pro-підписки за $200 на місяць. Проте в OpenAI повідомили, що незабаром ця функція буде доступна користувачам ChatGPT з підпискою Plus, а також безплатно. 

Щоб забезпечити нову функцію обробки зображень, в OpenAI розповіли, що навчив GPT-4o на «загальнодоступних даних», а також на власних даних, отриманих у результаті партнерства з такими компаніями, як Shutterstock. Творці контенту, які не хочуть, щоб OpenAI використовувала їхні зображення, можуть подати заявку на видалення, через спеціальну форму.

Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Злі клони ChatGPT працюють на кіберзлочинців. Як влаштовані WormGPT FraudGPT та інші загрози
Злі клони ChatGPT працюють на кіберзлочинців. Як влаштовані WormGPT, FraudGPT та інші загрози
По темi
Злі клони ChatGPT працюють на кіберзлочинців. Як влаштовані WormGPT, FraudGPT та інші загрози
CEO OpenAI Сем Альтман розкрив плани компанії щодо ШІ-моделей GPT-4.5 і GPT-5 друга буде безплатною для всіх користувачів
CEO OpenAI Сем Альтман розкрив плани компанії щодо ШІ-моделей GPT-4.5 і GPT-5, друга буде безплатною для всіх користувачів
По темi
CEO OpenAI Сем Альтман розкрив плани компанії щодо ШІ-моделей GPT-4.5 і GPT-5, друга буде безплатною для всіх користувачів
ШІ-експерт протестував безоплатну функцію редагування зображення за текстовим описом Google DeepMind. Ось його висновки
ШІ-експерт протестував безоплатну функцію редагування зображення за текстовим описом Google DeepMind. Ось його висновки
По темi
ШІ-експерт протестував безоплатну функцію редагування зображення за текстовим описом Google DeepMind. Ось його висновки
Підключай Megogo зі знижками за акційними тарифами.

від 99 гривень на місяць

Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
1 коментар
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті. 

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.