UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉
Наталя ХандусенкоШІ
27 березня 2026, 12:11
2026-03-27
Mistral випустила ШІ-модель із відкритим кодом для генерації мовлення: може поміститися на смартгодиннику та смартфоні
Французька ШІ-компанія Mistral випустила нову модель перетворення тексту в мовлення з відкритим кодом. Модель дає змогу бізнесу створювати голосових агентів для продажів і взаємодії з клієнтами, що робить Mistral прямим конкурентом таких гравців, як ElevenLabs, Deepgram та OpenAI.
Французька ШІ-компанія Mistral випустила нову модель перетворення тексту в мовлення з відкритим кодом. Модель дає змогу бізнесу створювати голосових агентів для продажів і взаємодії з клієнтами, що робить Mistral прямим конкурентом таких гравців, як ElevenLabs, Deepgram та OpenAI.
Нова модель під назвою Voxtral TTS підтримує 9 мов: англійську, французьку, німецьку, іспанську, голландську, португальську, італійську, хінді та арабську.
«Наші клієнти давно просили модель для генерації мовлення. Тому ми розробили компактну модель, яка здатна працювати на смартгодинниках, смартфонах, ноутбуках та інших периферійних пристроях. Її вартість становить лише малу частку від будь-яких аналогів на ринку, але при цьому вона забезпечує передову продуктивність», — розповів П'єр Сток, віцепрезидент із наукових операцій Mistral AI, для TechCrunch.
Mistral заявила, що нова модель може адаптувати власний голос із семплом менше п’яти секунд та вловлювати такі характеристики, як ледь помітні акценти, інтонації, логічні наголоси та індивідуальні особливості темпу мовлення.
Модель, побудована на базі Ministral 3B, може легко перемикатися між мовами, зберігаючи унікальні риси голосу, що надзвичайно корисно для дубляжу або синхронного перекладу. Сток підкреслив, що компанія прагнула досягти природного людського звучання, а не механічного «голосу робота».
За даними компанії, модель розроблена для роботи в режимі реального часу. Показник Time-to-First-Audio (TTFA) — час до початку «мовлення» після отримання вхідних даних — становить 90 мс для 10-секундного зразка обсягом 500 символів. Модель також має коефіцієнт реального часу (RTF) 6x, що означає здатність згенерувати 10-секундний аудіо кліп приблизно за 1,6 секунди.
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.
Хочете повідомити важливу новину? Пишіть у Telegram-бот
Головні події та корисні посилання в нашому Telegram-каналі