Олександр Кузьменко Гаряченьке 14 вересня 2023, 08:20

Stability AI випустила новий ШІ-продукт, який може перетворювати текст у пісні або фонове аудіо. Що вміє та скільки коштує Stable Audio

Компанія Stability AI, найбільш відома завдяки створенню візуальних зображень зі штучним інтелектом у сервісі Stable Diffusion, запустила нову платформу. Як можна здогадатися з назви, Stable Audio буде перетворювати текст у звук.

Залишити коментар

Stability AI випустила новий ШІ-продукт, який може перетворювати текст у пісні або фонове аудіо. Що вміє та скільки коштує Stable Audio

Компанія Stability AI, найбільш відома завдяки створенню візуальних зображень зі штучним інтелектом у сервісі Stable Diffusion, запустила нову платформу. Як можна здогадатися з назви, Stable Audio буде перетворювати текст у звук.

Stable Audio використовує модель дифузії — ту саму модель ШІ, яка лежить в основі Stable Diffusion, але навчена на аудіо, а не на зображеннях. Користувачі можуть використовувати її для створення пісень або фонового аудіо для будь-якого проєкту, пише видання The Verge.

Моделі дифузії звуку, як правило, генерують аудіозаписи фіксованої довжини, що є жахливим для музичного виробництва, оскільки пісні мають різну тривалість. Нова платформа Stability AI дозволяє користувачам створювати звуки різної довжини, що вимагає від компанії навчання на музиці та додавання текстових метаданих про час початку та закінчення пісні.

Раніше ШІ, навчений на 30-секундному кліпі, міг генерувати лише 30 секунд звуку і створювати довільні фрагменти пісень. За словами представників Stability AI, доопрацювання моделі тепер дозволяє користувачам Stable Audio мати більше контролю над тривалістю пісні.

«Stable Audio представляє передові дослідження в області генерації звуку, проведені дослідницькою лабораторією Harmonai, що входить до складу Stability AI», — йдеться в заяві компанії.

У Stability AI стверджують, що навчали Stable Audio на «наборі даних, що складається з понад 800 000 аудіофайлів, які містять музику, звукові ефекти та окремі інструменти», а також на текстових метаданих від компанії AudioSparx, що займається ліцензуванням музичних творів.

Цей набір даних містить понад 19 500 годин звуків. Співпрацюючи з ліцензійною компанією, Stability AI заявляє, що має дозвіл на використання матеріалів, захищених авторським правом.

Ціна Stable Audio

Stable Audio матиме три цінові рівні:

безплатна версія, яка дозволяє користувачам створювати до 45 секунд аудіо для 20 треків на місяць;
Professional за $11,99 для 500 треків тривалістю до 90 секунд;
Enterprise, за допомогою якої компанії можуть налаштовувати використання і ціну.

Користувачі безплатної версії не можуть комерційно використовувати аудіо, створене за допомогою Stable Audio.

Як і у випадку з іншими аудіоплатформами зі штучним інтелектом, значна частина потенційних застосувань Stable Audio буде пов’язана зі створенням фонової музики для подкастів або відео, щоб пришвидшити ці робочі процеси.

Торік Stability AI оголосила про свої плани розширити сферу застосування до генерації аудіо, відео та 3D-зображень.