Олександр КузьменкоГоряченькое
25 сентября 2023, 17:06
2023-09-25
ChatGPT научился «видеть», «слышать» и «говорить». OpenAI анонсировала новые возможности своего чат-бота
Компания OpenAI объявила о развертывании новых возможностей своего популярного чата с искусственным интеллектом ChatGPT. Они предлагают новые виды взаимодействия с ИИ, и позволят пользователям вести голосовой разговор или показывать чаботу, о чем идет речь.
Компания OpenAI объявила о развертывании новых возможностей своего популярного чата с искусственным интеллектом ChatGPT. Они предлагают новые виды взаимодействия с ИИ, и позволят пользователям вести голосовой разговор или показывать чаботу, о чем идет речь.
Об этом OpenAI рассказала в своем блоге. Обновление с голосом и изображением в ChatGPT появится в течение следующих двух недель для пользователей тарифных планов Plus и Enterprise. Поддержка голоса появится на iOS и Android (ее нужно включить в настройках), а изображения будут доступны на всех платформах.
Голос в ChatGPT
С этим обновлением ChatGPT научится слушать и говорить с пользователем. По словам компании, эта функция позволит говорить с чатом на ходу, попросить его рассказать сказку на ночь для детей или быстро решить незначительный спор вокруг какого-то факта.
Голосовая функция основана на новой модели преобразования текста в речи, которая способна генерировать звучание, подобно человеческому, только из текста и нескольких секунд образца речи.
Мы сотрудничали с профессиональными актерами, чтобы создать каждый голос. Мы также используем Whisper, нашу систему распознавания языка с открытым исходным кодом, чтобы превратить ваши произнесенные слова в текст», — говорится в блоге OpenAI
В блоге есть возможность протестировать несколько вариантов голоса — 2 женских и 3 мужских. Они могут зачитать тестовые образцы истории, рецепта, речи, поэмы или пояснения.
Используйте свой голос для подключения в back-and-forth conversation with ChatGPT. Слово с ним на ходу, необходимость последнего заведения, или жить в дневной table debate.
Чтобы начать пользоваться голосом, нужно перейти в Настройки → Новые функции в мобильном приложении и выбрать голосовую связь. Затем нужно коснуться кнопки наушников, расположенной в верхнем правом углу главного экрана, и выбрать голос по вкусу.
Изображение в ChatGPT
Чат-бот научится не только слушать, но и видеть — пользователь сможет показать ему одно или несколько изображений и задать связанный с ними вопрос или задание.
«Узнайте, почему не включается гриль, изучите содержимое холодильника, чтобы спланировать ужин, или проанализируйте сложный график для получения данных, связанных с работой. Чтобы сосредоточиться на определенной части изображения, вы можете использовать инструмент рисования в нашем мобильном приложении», — описываются возможные применения этой функции
В приведенном компанией примере пользователь поднимает с помощью ИИ сиденье на велосипеде. ChatGPT дает инструкцию, определяет тип крепления сиденья и указывает пользователю, что он имеет соответствующий инструмент в своем наборе.
ChatGPT может быть свежим, hear, and speak. Перемещение из next two weeks, Plus users может быть предложено для голосования чатов с ChatGPT (iOS & Android) и включать изображения в конференции (все платформы). https://t.co/uNZjgbR5Bmpic.twitter.com/paG0hMshXb
Нужно нажать на кнопку «Фото», чтобы сделать снимок или выбрать изображение. На iOS или Android, сначала нужно коснуться кнопки «+».
С ChatGPT можно будет обсудить несколько изображений одновременно или использовать инструмент для рисования, чтобы указать, что именно интересует на изображении.
Обработка изображений поддерживается версиями GPT-3.5 и GPT-4.
Комментарий OpenAI о запуске новых функций
В компании понимают, что голос и изображения могут использоваться для злоупотреблений. В частности, поэтому в OpenAI используют голос только для одной цели — голосового чата. Подчеркивается, что голосовой чат создан с помощью голосовых актеров, с которыми компания непосредственно работала.
«Мы также сотрудничаем с другими подобным образом. Например, Spotify использует возможности этой технологии для пилотного запуска функции голосового перевода, которая помогает подкастерам расширить аудиторию их историй, переводя подкасты на дополнительные языки голосами самих подкастеров», — говорится в блоге
Функция распознавания изображений ChatGPT призвана помочь пользователям в повседневной жизни. «Лучше всего он делает это, когда видит то, что видите вы», — считают в OpenAI. Этот подход основывается на сотрудничестве компании с бесплатным мобильным приложением Be My Eyes, которое помогает слепым и слабовидящим людям.
Компания утверждает, что приняла технические меры, чтобы значительно ограничить способность ChatGPT анализировать и делать прямые заявления о людях, поскольку «ChatGPT не всегда точен», а ИИ должен «уважать конфиденциальность людей».
Джордж Мартин и другие писатели подали в суд на разработчиков ChatGPT. В иске Мартина фигурирует разработчик, «написавший» продолжение его книг с помощью ИИ