Олександр Кузьменко Cтартап 22 ноября 2023, 15:07

Stability AI показала работу своего продукта Stable Video Diffusion, способного превратить статическую картинку в видео. Он имеет ряд ограничений

Компания Stability AI, известная по ИИ-генератору изображений Stable Diffusion, сообщила, что сгенерированные картинки могут быть не только статическими, но и анимированными. Все благодаря новому продукту Stable Video Diffusion.

Оставить комментарий

Stability AI показала работу своего продукта Stable Video Diffusion, способного превратить статическую картинку в видео. Он имеет ряд ограничений

Компания Stability AI, известная по ИИ-генератору изображений Stable Diffusion, сообщила, что сгенерированные картинки могут быть не только статическими, но и анимированными. Все благодаря новому продукту Stable Video Diffusion.

Компания сообщила, что выпустила Stable Video Diffusion в исследовательскую версию, позволяющую пользователям создавать видео с одного изображения. «Эта самая современная генеративная видеомодель с искусственным интеллектом является значительным шагом на нашем пути к созданию моделей для каждого типа», — утверждает Stability AI.

Новый инструмент был выпущен в виде двух моделей преобразования изображения в видео, каждая из которых способна генерировать от 14 до 25 кадров со скоростью от 3 до 30 кадров в секунду с разрешением 576×1024. Она способна синтезировать несколько видов из одного кадра с точной настройкой на наборах данных по нескольким видам.

«На момент выпуска в своей базовой форме мы обнаружили, что эти модели превосходят ведущие закрытые модели в исследованиях пользовательских предпочтений», — отмечает компания, сравнивая Stable Video Diffusion с другими платформами преобразования текста в видео, такими как Runway и Pika Labs.

Stable Video Diffusion доступен только для исследовательских целей, а не для реального или коммерческого применения. Потенциальные пользователи могут зарегистрироваться, чтобы попасть в список ожидания для доступа к «будущему веб-опыту с интерфейсом [превращения] текста в видео», пишет Stability AI. Инструмент продемонстрирует потенциальные возможности применения в таких областях, как реклама, образование, развлечения и т. д.

Образцы, показанные в видео выше, выглядят относительно качественными и не уступают другим генеративным системам. Однако Stable Video Diffusion имеет некоторые ограничения: генерирует относительно короткое видео (менее 4 секунд), ему не хватает идеального фотореализма, он не может делать движение камеры, кроме медленных панорам, не имеет контроля над текстом, не может генерировать разборчивый текст и не может генерировать людей и лица должным образом.

Инструмент учился на миллионах видео, а затем дорабатывался на меньшем наборе данных, причем Stability AI заявляет, что использовала только видео, общедоступные для исследовательских целей. Это важно, учитывая, что недавно компания Getty Images подала на Stability AI в суд за извлечение ее архивов изображений.

Видео является ключевой целью для генеративного ИИ через его потенциал для упрощения создания контента. Однако это также инструмент с наибольшим потенциалом для злоупотреблений из-за дипфейков, нарушения авторских прав и т. д.

СМИ утверждают, что в отличие от OpenAI с ее ChatGPT, Stability не добилась успеха в коммерциализации своего продукта Stable Diffusion и быстро потеряла деньги. На прошлой неделе вице-президент Stability AI по аудио Эд Ньютон-Рекс подал в отставку из-за использования защищенного авторским правом контента для обучения генеративных моделей ИИ.