Марія Бровінська Таке життя 20 листопада 2023, 08:53

У світі закінчуються дані для навчання штучного інтелекту. Дослідники б'ють на сполох. Чи є вихід?

Дослідники попереджають, що до 2026 року нам може не вистачити даних для навчання ШІ. Що тоді?

Коли штучний інтелект (ШІ) досягає піка своєї популярності, дослідники попереджають, що в галузі може закінчитися навчальна інформація — паливо, на якому працюють потужні системи ШІ. Це може сповільнити зростання моделей ШІ, особливо великих мовних моделей, і навіть змінити траєкторію революції ШІ.

Чому якісні дані важливі для АІ

Для навчання потужних, точних і якісних алгоритмів штучного інтелекту нам потрібно багато даних. Наприклад, ChatGPT був навчений на 570 гігабайтах текстових даних, або близько 300 млрд слів.

Аналогічно, алгоритм стабільної дифузії (який лежить в основі багатьох програм для створення зображень зі штучним інтелектом, таких як DALL-E, Lensa і Midjourney) навчався на наборі даних LIAON-5B, що складається з 5,8 мільярда пар зображення-текст. Якщо алгоритм навчається на недостатній кількості даних, він буде давати неточні або неякісні результати, пише The conversation.

Якість даних для навчання також важлива. Низькоякісні дані, такі як пости в соціальних мережах або розмиті фотографії, легко знайти, але їх недостатньо для навчання високоефективних моделей ШІ.

Текст, взятий із соціальних мереж, може бути упередженим або необ'єктивним, або містити дезінформацію чи незаконний контент, який може бути відтворений моделлю.

Наприклад, коли Microsoft спробувала навчити свого штучного інтелекту бота на основі контенту Twitter, він навчився видавати расистські та жінконенависницькі результати.

Ось чому розробники ШІ шукають високоякісний контент, такий як текст з книг, інтернет-статей, наукових робіт, Вікіпедії та певний відфільтрований вебконтент. Щоб зробити Google Assistant більш розмовним, його навчали на 11 000 романтичних романів, узятих із сайту самвидаву Smashwords.

Чи достатньо у нас даних?

Індустрія штучного інтелекту навчає ШІ-системи на все більших наборах даних, тому зараз ми маємо високопродуктивні моделі, такі як ChatGPT або DALL-E 3.

Водночас дослідження показують, що запаси даних в інтернеті зростають набагато повільніше, ніж набори даних, які використовуються для навчання ШІ.

У статті, опублікованій минулого року, група дослідників спрогнозувала, що високоякісні текстові дані закінчаться до 2026 року, якщо поточні тенденції в навчанні ШІ збережуться. Вони також підрахували, що низькоякісні мовні дані будуть вичерпані десь між 2030 і 2050 роками, а низькоякісні дані зображень — між 2030 і 2060 роками.

За даними бухгалтерської та консалтингової групи PwC, до 2030 року ШІ може принести світовій економіці до $15,7 трлн. Але нестача придатних для використання даних може сповільнити його розвиток.

Чи варто хвилюватися?

Хоча вищезазначені пункти можуть занепокоїти деяких фанатів ШІ, ситуація може бути не такою поганою, як здається. Існує багато невідомого про те, як моделі ШІ розвиватимуться в майбутньому, а також кілька способів усунути ризик нестачі даних.

Одна з можливостей полягає в тому, щоб розробники ШІ вдосконалювали алгоритми, щоб вони ефективніше використовували дані, які вже є в них.

Цілком ймовірно, що в найближчі роки вони зможуть навчати високопродуктивні системи ШІ використовуючи менше даних і, можливо, меншу обчислювальну потужність. Це також допоможе зменшити вуглецевий слід ШІ.

Інший варіант — використовувати ШІ для створення синтетичних даних для навчання систем. Іншими словами, розробники можуть просто генерувати дані, які їм потрібні, відповідно до їхньої конкретної моделі ШІ.

Деякі проєкти вже використовують синтетичний контент, який часто отримують із сервісів, що генерують дані, таких як Mostly AI. У майбутньому це стане більш поширеним явищем.

Розробники також шукають контент поза межами вільного онлайн-простору, наприклад, у великих видавництвах та офлайн-репозиторіях — у мільйонах текстів, опублікованих до появи інтернету. Доступні в цифровому форматі, вони можуть стати новим джерелом даних для проєктів зі створення штучного інтелекту.

News Corp, один із найбільших у світі власників новинного контенту (значна частина якого за платною підпискою), нещодавно заявила, що веде переговори з розробниками ШІ щодо укладення угод про надання контенту. Такі угоди змусять AI-компанії платити за навчальні дані — тоді як досі вони здебільшого брали їх з інтернету безплатно.

Творці контенту протестують проти несанкціонованого використання їхнього контенту для навчання ШІ-моделей, а деякі з них подали до суду на такі компанії, як Microsoft, OpenAI та Stability AI. Винагорода за їхню роботу може допомогти відновити певний дисбаланс сил, який існує між творчими людьми та компаніями, що розробляють ШІ.

Штучний інтелект буде допомагати банкам Волл-стріт складати огляди продуктивності працівників на які раніше витрачали сотні годин

Революція проти програмістів чи додатковий інструмент? Як штучний інтелект змінить IT-ринок праці

Читайте головні IT-новини країни в нашому Telegram

Залишити коментар

Текст: Марія Бровінська Теги: штучний інтелект

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

УЧАСТЬ В АЗАРТНИХ ІГРАХ МОЖЕ ВИКЛИКАТИ ІГРОВУ ЗАЛЕЖНІСТЬ. ДОТРИМУЙТЕСЯ ПРАВИЛ (ПРИНЦИПІВ) ВІДПОВІДАЛЬНОЇ ГРИ.

Ліцензія видана ТОВ "СЛОТС Ю.ЕЙ." на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 15.09.23 (рішення КРАІЛ №245 від 31.08.2023); ТОВ "СЛОТС Ю.ЕЙ." – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 26.04.2021 (рішення КРАІЛ №150 від 12.04.2021); ТОВ «СПЕЙСИКС» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 08.02.2021 (рішення КРАІЛ №34 від 02.02.2021); ТОВ «ГЕЙМДЕВ» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 16.02.2021 (рішення № 47 від 10.02.2021).

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Штучний інтелект почав озвучувати фільми на MEGOGO

Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео

«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого

Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар