OpenAI представила три нові аудіомоделі. Що вони можуть і який бізнес їх вже використовує
Компанія OpenAI представила три аудіомоделі в API — GPT‑Realtime‑2, GPT‑Realtime‑Translate та GPT‑Realtime‑Whisper.
Компанія OpenAI представила три аудіомоделі в API — GPT‑Realtime‑2, GPT‑Realtime‑Translate та GPT‑Realtime‑Whisper.
Компанія OpenAI представила три аудіомоделі в API — GPT‑Realtime‑2, GPT‑Realtime‑Translate та GPT‑Realtime‑Whisper.
«Моделі, які ми запускаємо, переносять аудіо в реальному часі від простого виклику та відповіді до голосових інтерфейсів, які дійсно можуть працювати: слухати, міркувати, перекладати, транскрибувати та вживати інших заходів у процесі розмови», — зазначила компанія у своєму блозі з нагоди представлення моделей.
Водночас GPT‑Realtime‑2 названа першою голосовою моделлю із системою міркування класу GPT‑5, яка може обробляти складні запити та природно вести розмову.
GPT‑Realtime‑Translate є новою моделлю для живого перекладу, яка може перекладати мовлення користувачів з понад 70 мов введення на 13 мов виведення, не відстаючи при цьому від самого мовця.
Своєю чергою GPT‑Realtime‑Whisper містить нові потокові функції перетворення мовлення на текст, і транскрибує мовлення в режимі реального часу під час розмови мовця.
«Оскільки голос стає більш природним способом використання програмного забезпечення, ми бачимо, як розробники будують свої продукти навколо трьох нових моделей голосового штучного інтелекту», — кажуть в OpenAI.
За інформацією компанії, аудіомоделі вже тестуються великим бізнесом — серед клієнтів онлайн-майданчик нерухомості Zillow, онлайн-турагентство Priceline та телекомунікаційна компанія Deutsche Telekom.
Ціна на GPT-Realtime-2 починається від $32 за мільйон токенів аудіо вхідного зв’язку, користування GPT-Realtime-Translate коштує $0,034 за хвилину, а GPT-Realtime-Whisper — $0,017 за хвилину.
Напередодні dev.ua також повідомляв, що OpenAI оновила дефолтну модель ChatGPT: GPT-5.5 Instant галюцинує на 52% рідше і відповідає коротше.



