Наталя Хандусенко ШІ 3 квітня 2026, 07:50

Microsoft випустила три базові ШІ-моделі для генерації тексту, голосу та зображення: компанія заявляє, що їхня перевага — нижча ціна

Microsoft оголосила про випуск трьох базових моделей штучного інтелекту, здатних генерувати текст, голос та зображення. Вони були розроблені командою Microsoft MAI Superintelligence — дослідницькою лабораторією у сфері ШІ під керівництвом CEO Мустафою Сулейманом.

Залишити коментар

Microsoft випустила три базові ШІ-моделі для генерації тексту, голосу та зображення: компанія заявляє, що їхня перевага — нижча ціна

Microsoft оголосила про випуск трьох базових моделей штучного інтелекту, здатних генерувати текст, голос та зображення. Вони були розроблені командою Microsoft MAI Superintelligence — дослідницькою лабораторією у сфері ШІ під керівництвом CEO Мустафою Сулейманом.

Як повідомляє TechCrunch, йдеться про три ШІ-моделі:

MAI-Transcribe-1 перетворює мовлення на текст 25 різними мовами та працює у 2,5 раза швидше за пропозицію Azure Fast від Microsoft;
MAI–Voice-1 — це модель для генерації аудіо. Вона дозволяє користувачам створювати 60 секунд аудіо всього за одну секунду, а також дає можливість створювати персоналізовані голоси;
MAI–Image-2 — це модель для генерації відео.

Модель MAI–Image-2 спочатку була випущена 19 березня на платформі MAI Playground — новому програмному забезпеченні для тестування великих мовних моделей. Тепер усі три моделі виходять на Microsoft Foundry, а моделі для транскрибації та генерації голосу також стали доступними в MAI Playground.

На перенасиченому ринку LLM компанія робить ставку на те, що її моделі будуть дешевшими за розробки Google та OpenAI, зазначає компанія.

Вартість користування MAI-Transcribe-1 починається від $0,36 за годину. MAI–Voice-1 коштує від $22 за 1 мільйон символів, а MAI–Image-2 — від $5 за 1 мільйон токенів за введення тексту та $33 за 1 мільйон токенів за виведення зображень.