🚀💳 Trustee Plus - більше ніж криптогаманець з європейською платіжною карткою. Спробуй 👉
Олександр КузьменкоШІ
26 березня 2025, 14:05
2025-03-26
OpenAI навчила модель GPT-4o генерувати зображення краще, ніж DALL-E 3. Незабаром це оновлення стане доступне для всіх користувачів
CEO OpenAI Сем Альтман представив велике оновлення можливостей генерації зображень у ChatGPT. Тепер ШІ-чатбот може використовувати модель GPT-4o компанії OpenAI для створення та модифікації зображень і фотографій. Які переваги та недоліки має генерація зображень у GPT-4o.
CEO OpenAI Сем Альтман представив велике оновлення можливостей генерації зображень у ChatGPT. Тепер ШІ-чатбот може використовувати модель GPT-4o компанії OpenAI для створення та модифікації зображень і фотографій. Які переваги та недоліки має генерація зображень у GPT-4o.
Як повідомляє TechCrunch, модель GPT-4o вже давно лежить в основі платформи чат-ботів зі штучним інтелектом, але до цього часу модель могла генерувати та редагувати лише текст, а не зображення.
При генерації зображень GPT-4o «думає» трохи довше, ніж модель DALL-E 3, яку вона фактично замінює. Але натомість, може створювати більш точні й детальні зображення, говорять в OpenAI. GPT-4o може редагувати наявні картинки, включно із зображеннями людей або тварин, трансформуючи їх або «домальовуючи» деталі, такі як об'єкти переднього і заднього плану.
Однією з переваг GPT-4o є послідовність у зображенні персонажів та об'єктів, яких вона може переносити у різні версії картинки, згідно промптів користувача. В OpenAI також підкреслюють точність передачі тексту на зображеннях, які генерує GPT-4o.
«Оскільки GPT-4o тепер має вбудовану функцію генерації зображень, ви можете вдосконалювати зображення за допомогою природної розмови. GPT-4o може спиратися на зображення і текст у контексті чату, забезпечуючи узгодженість у всьому. Наприклад, якщо ви створюєте персонажа для відеогри, зовнішній вигляд персонажа залишається послідовним протягом декількох ітерацій, оскільки ви вдосконалюєте його та експериментуєте», — говорять в OpenAI.
Зображення: OpenAI
У компанії відзначають, що GPT-4o може аналізувати й навчатися на основі завантажених користувачем зображень, легко інтегруючи їхні деталі у свій контекст для створення зображень. У блозі OpenAI продемонстрували це на прикладі фото кицьки, яке користувач за допомогою GPT-4o доповнив деталями й додав відеоігровий інтерфейс.
Також відзначається здатність GPT-4o генерувати реалістичні зображення:
Водночас у компанії перерахували відомі розробникам недоліки генерації зображень у GPT-4o:
GPT-4o іноді може обрізати довші зображення, наприклад, плакати, особливо внизу.
Як й інші моделі ШІ, генерація зображень може «галюцинувати» (наприклад, при створенні мапи світу), особливо в коротких промптах із мінімумом подробиць.
При створенні зображень, які спираються на базу знань, GPT-4o може бути складно точно відобразити понад 10–20 різних концепцій одночасно, наприклад, повну періодичну таблицю Менделєєва.
Модель іноді має проблеми з рендерингом мов, які не використовують латиницю. Тоді символи можуть бути неточними або «галюцинаційними», особливо при високій складності запиту.
GPT-4o має проблеми з усуненням помилок у згенерованому тексті — водночас можуть змінюватися й інші частини зображення.
Модель має труднощі, коли її просять відобразити детальну інформацію дуже маленького розміру і проблеми при побудові графіків.
Зображення: OpenAI
«Наша модель неідеальна. Наразі ми усвідомлюємо численні обмеження, які будемо намагатися усунути шляхом вдосконалення моделі після першого запуску», — говорять в OpenAI.
За словами Альтмана, нативна генерація зображень GPT-4o вже доступна в ChatGPT і Sora, продукті OpenAI для створення відео зі штучним інтелектом, для передплатників Pro-підписки за $200 на місяць. Проте в OpenAI повідомили, що незабаром ця функція буде доступна користувачам ChatGPT з підпискою Plus, а також безплатно.
Щоб забезпечити нову функцію обробки зображень, в OpenAI розповіли, що навчив GPT-4o на «загальнодоступних даних», а також на власних даних, отриманих у результаті партнерства з такими компаніями, як Shutterstock. Творці контенту, які не хочуть, щоб OpenAI використовувала їхні зображення, можуть подати заявку на видалення, через спеціальну форму.
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.
Хочете повідомити важливу новину? Пишіть у Telegram-бот
Головні події та корисні посилання в нашому Telegram-каналі