Олександр Кузьменко ШІ 26 березня 2025, 14:05

OpenAI навчила модель GPT-4o генерувати зображення краще, ніж DALL-E 3. Незабаром це оновлення стане доступне для всіх користувачів

CEO OpenAI Сем Альтман представив велике оновлення можливостей генерації зображень у ChatGPT. Тепер ШІ-чатбот може використовувати модель GPT-4o компанії OpenAI для створення та модифікації зображень і фотографій. Які переваги та недоліки має генерація зображень у GPT-4o.

Залишити коментар

OpenAI навчила модель GPT-4o генерувати зображення краще, ніж DALL-E 3. Незабаром це оновлення стане доступне для всіх користувачів

CEO OpenAI Сем Альтман представив велике оновлення можливостей генерації зображень у ChatGPT. Тепер ШІ-чатбот може використовувати модель GPT-4o компанії OpenAI для створення та модифікації зображень і фотографій. Які переваги та недоліки має генерація зображень у GPT-4o.

Як повідомляє TechCrunch, модель GPT-4o вже давно лежить в основі платформи чат-ботів зі штучним інтелектом, але до цього часу модель могла генерувати та редагувати лише текст, а не зображення.

При генерації зображень GPT-4o «думає» трохи довше, ніж модель DALL-E 3, яку вона фактично замінює. Але натомість, може створювати більш точні й детальні зображення, говорять в OpenAI. GPT-4o може редагувати наявні картинки, включно із зображеннями людей або тварин, трансформуючи їх або «домальовуючи» деталі, такі як об'єкти переднього і заднього плану.

Однією з переваг GPT-4o є послідовність у зображенні персонажів та об'єктів, яких вона може переносити у різні версії картинки, згідно промптів користувача. В OpenAI також підкреслюють точність передачі тексту на зображеннях, які генерує GPT-4o.

«Оскільки GPT-4o тепер має вбудовану функцію генерації зображень, ви можете вдосконалювати зображення за допомогою природної розмови. GPT-4o може спиратися на зображення і текст у контексті чату, забезпечуючи узгодженість у всьому. Наприклад, якщо ви створюєте персонажа для відеогри, зовнішній вигляд персонажа залишається послідовним протягом декількох ітерацій, оскільки ви вдосконалюєте його та експериментуєте», — говорять в OpenAI.

У компанії відзначають, що GPT-4o може аналізувати й навчатися на основі завантажених користувачем зображень, легко інтегруючи їхні деталі у свій контекст для створення зображень. У блозі OpenAI продемонстрували це на прикладі фото кицьки, яке користувач за допомогою GPT-4o доповнив деталями й додав відеоігровий інтерфейс.

Також відзначається здатність GPT-4o генерувати реалістичні зображення:

Водночас у компанії перерахували відомі розробникам недоліки генерації зображень у GPT-4o:

GPT-4o іноді може обрізати довші зображення, наприклад, плакати, особливо внизу.
Як й інші моделі ШІ, генерація зображень може «галюцинувати» (наприклад, при створенні мапи світу), особливо в коротких промптах із мінімумом подробиць.
При створенні зображень, які спираються на базу знань, GPT-4o може бути складно точно відобразити понад 10–20 різних концепцій одночасно, наприклад, повну періодичну таблицю Менделєєва.
Модель іноді має проблеми з рендерингом мов, які не використовують латиницю. Тоді символи можуть бути неточними або «галюцинаційними», особливо при високій складності запиту.
GPT-4o має проблеми з усуненням помилок у згенерованому тексті — водночас можуть змінюватися й інші частини зображення.
Модель має труднощі, коли її просять відобразити детальну інформацію дуже маленького розміру і проблеми при побудові графіків.

«Наша модель неідеальна. Наразі ми усвідомлюємо численні обмеження, які будемо намагатися усунути шляхом вдосконалення моделі після першого запуску», — говорять в OpenAI.

За словами Альтмана, нативна генерація зображень GPT-4o вже доступна в ChatGPT і Sora, продукті OpenAI для створення відео зі штучним інтелектом, для передплатників Pro-підписки за $200 на місяць. Проте в OpenAI повідомили, що незабаром ця функція буде доступна користувачам ChatGPT з підпискою Plus, а також безплатно.

Щоб забезпечити нову функцію обробки зображень, в OpenAI розповіли, що навчив GPT-4o на «загальнодоступних даних», а також на власних даних, отриманих у результаті партнерства з такими компаніями, як Shutterstock. Творці контенту, які не хочуть, щоб OpenAI використовувала їхні зображення, можуть подати заявку на видалення, через спеціальну форму.

Читайте головні IT-новини країни в нашому Telegram

Злі клони ChatGPT працюють на кіберзлочинців. Як влаштовані WormGPT FraudGPT та інші загрози

CEO OpenAI Сем Альтман розкрив плани компанії щодо ШІ-моделей GPT-4.5 і GPT-5 друга буде безплатною для всіх користувачів

ШІ-експерт протестував безоплатну функцію редагування зображення за текстовим описом Google DeepMind. Ось його висновки

Залишити коментар

Текст: Олександр Кузьменко Фото: OpenAI Теги: dall-e 3, gpt-4o, openai, штучний інтелект

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Штучний інтелект почав озвучувати фільми на MEGOGO

3 коментарі

Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео

2 коментарі

«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого

Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар