UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

OpenAI готує GPT-Bidi-1 — голосову модель, яка слухає і говорить одночасно

Код і UI-елементи нової моделі знайшли в застосунку ChatGPT ще 16 червня. Минулого тижня з’явились перші тести. Офіційного анонсу від OpenAI досі не було — але судячи з підготовки, реліз може відбутись у найближчі дні.

Залишити коментар
OpenAI готує GPT-Bidi-1 — голосову модель, яка слухає і говорить одночасно

Код і UI-елементи нової моделі знайшли в застосунку ChatGPT ще 16 червня. Минулого тижня з’явились перші тести. Офіційного анонсу від OpenAI досі не було — але судячи з підготовки, реліз може відбутись у найближчі дні.

Назва Bidi — скорочення від bidirectional. Це принципова відмінність від поточного Advanced Voice Mode на базі GPT-4o: та модель не створювалась спеціально для двостороннього аудіо в реальному часі і працює в режимі черги — спершу слухає, потім відповідає. GPT-Bidi-1 робить і те, і інше одночасно.

https://x.com/testingcatalog/status/2069331697615749530?s=20

Bidi уміє робити кілька справ одночасно:

  • Говорить і слухає одночасно — може продовжувати відповідь, поки ви ще говорите;
  • Обробляє переривання та паузи природно, без заморозки і рестарту;
  • Перемикається між завданнями посеред речення — наприклад, від рахунку в прямому порядку до зворотного без зупинки;
  • Краще утримує контекст тривалої розмови — одне з головних слабких місць поточного voice stack;
  • Підтримує три рівні «інтелекту»: High, Medium, Instant — на вибір у налаштуваннях;
  • Жовтий колір бульбашки голосового режиму замість синього — нова візуальна ідентифікація.

За даними тестів від TestingCatalog, модель видає короткі природні підтвердження — «окей», коротке «угу» — не перебиваючи співрозмовника. Також підтримує переклад у реальному часі, що відкриває цілий клас нових продуктів на базі API.

Це частина ширшої стратегії OpenAI: текстові моделі вже дійшли до покоління GPT-5.5, тоді як голосовий стек відставав. Bidi-1 — спроба закрити цей розрив і зробити голос повноцінним інтерфейсом, а не додатковою функцією. Очікується, що модель з’явиться також у Codex.

Офіційного підтвердження від OpenAI немає. також відомо, що поточний Advanced Voice Mode не був побудований для повноцінного full-duplex аудіо, і Bidi-1 — архітектурний стрибок, а не просто апдейт.

За даними джерел, може відбутись буквально цього тижня. Це і є відповідь на питання «how soon?».

Empero випустила нецензуровану модель Qwythos-9B — і заявила що навчала її на даних закритої Claude Mythos
Empero випустила нецензуровану модель Qwythos-9B — і заявила, що навчала її на даних закритої Claude Mythos
По темi
Empero випустила нецензуровану модель Qwythos-9B — і заявила, що навчала її на даних закритої Claude Mythos
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
3 коментарі
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
2 коментарі
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті. 

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.