Олександр КузьменкоГаряченьке
25 вересня 2023, 17:06
2023-09-25
ChatGPT навчився «бачити», «чути» та «говорити». OpenAI анонсувала нові можливості свого чат-бота
Компанія OpenAI оголосила про розгортання нових можливостей свого популярного чатбота зі штучним інтелектом ChatGPT. Вони пропонують нові види взаємодії із ШІ й дозволять користувачам вести голосову розмову або показувати чат-боту, про що йдеться.
Компанія OpenAI оголосила про розгортання нових можливостей свого популярного чатбота зі штучним інтелектом ChatGPT. Вони пропонують нові види взаємодії із ШІ й дозволять користувачам вести голосову розмову або показувати чат-боту, про що йдеться.
Про це OpenAI розповіла у своєму блозі. Оновлення з голосом і зображенням у ChatGPT з’явиться протягом наступних двох тижнів для користувачів тарифних планів Plus і Enterprise. Підтримка голосу з’явиться на iOS та Android (потрібно ввімкнути в налаштуваннях), а зображення будуть доступні на всіх платформах.
Голос у ChatGPT
З цим оновленням ChatGPT навчиться слухати й говорити з користувачем. За словами компанії, ця функція дасть змогу говорити з чат-ботом на ходу, попросити його розказати казку на ніч для своїх дітлахів або ж вирішити незначну суперечку довкола якогось факту.
Голосова функція заснована на новій моделі перетворення тексту в мовлення, яка здатна генерувати звучання, подібне до людського, лише з тексту та кількох секунд зразка мовлення.
«Ми співпрацювали з професійними акторами, щоб створити кожен голос. Ми також використовуємо Whisper, нашу систему розпізнавання мови з відкритим вихідним кодом, щоби перетворити ваші вимовлені слова в текст», — йдеться в блозі OpenAI
У блозі є можливість протестувати кілька варіантів голосу, 2 жіночих і 3 чоловічих. Вони можуть зачитати тестові зразки історії, рецепту, промови, поеми або пояснення.
Use your voice to engage in a back-and-forth conversation with ChatGPT. Speak with it on the go, request a bedtime story, or settle a dinner table debate.
Щоби почати користуватися голосом, треба перейти в Налаштування → Нові функції в мобільному додатку та обрати голосовий зв’язок. Потім потрібно торкнутися кнопки навушників, розташованої у верхньому правому куті головного екрана, і вибрати голос до вподоби.
Зображення в ChatGPT
Чат-бот навчиться не лише слухати, але й бачити — користувач зможе показати йому одне або кілька зображень і поставити пов’язане з ними запитання чи завдання.
«З’ясуйте, чому не вмикається гриль, вивчіть вміст холодильника, щоб спланувати вечерю, або проаналізуйте складний графік для отримання даних, пов’язаних із роботою. Щоб зосередитися на певній частині зображення, ви можете скористатися інструментом малювання в нашому мобільному додатку», — описуються можливі застосування цієї функції.
У наведеному компанією прикладі користувач піднімає за допомогою ШІ сидіння на своєму велосипеді. ChatGPT надає інструкцію, визначає тип кріплення сидіння та вказує користувачу, що він має відповідний інструмент у своєму наборі.
ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bmpic.twitter.com/paG0hMshXb
Потрібно торкнутися кнопки «фото», щоб зробити знімок або вибрати зображення. На iOS або Android, спочатку потрібно торкнутися кнопки «+».
З ChatGPT можна буде обговорити кілька зображень одночасно або скористатися інструментом для малювання, щоб вказати, що саме цікавить на зображенні.
Обробка зображень підтримується версіями GPT-3.5 і GPT-4.
Коментар OpenAI щодо запуску нових функцій
У компанії розуміють, що голос і зображення можуть використовуватися для зловживань. Зокрема тому в OpenAI використовують голос лише для однієї цілі — голосового чату. Підкреслюється, що голосовий чат був створений за допомогою голосових акторів, із якими компанія безпосередньо працювала.
«Ми також співпрацюємо з іншими подібним чином. Наприклад, Spotify використовує можливості цієї технології для пілотного запуску функції голосового перекладу, яка допомагає подкастерам розширити аудиторію їхніх історій, перекладаючи подкасти додатковими мовами голосами самих подкастерів», — йдеться в блозі
Функція розпізнавання зображень ChatGPT покликана допомогти користувачам у повсякденному житті. «Найкраще він робить це, коли бачить те, що бачите ви», — вважають в OpenAI. Цей підхід ґрунтується на співпраці компанії з безплатним мобільним додатком Be My Eyes, який допомагає сліпим та слабозрячим людям.
Компанія стверджує, що вжила технічних заходів, щоби значно обмежити здатність ChatGPT аналізувати й робити прямі заяви про людей, оскільки «ChatGPT не завжди точний», а ШІ повинен «поважати приватність людей».
Джордж Мартін та інші письменники подали до суду на розробників ChatGPT. У позові Мартіна фігурує розробник, який «написав» продовження його книжок за допомогою ШІ