В мире заканчиваются данные для обучения искусственному интеллекту. Исследователи бьют тревогу. Есть ли выход?
Исследователи предупреждают, что до 2026 году нам может не хватить данных для обучения ИИ. Что тогда?
Исследователи предупреждают, что до 2026 году нам может не хватить данных для обучения ИИ. Что тогда?
Исследователи предупреждают, что до 2026 году нам может не хватить данных для обучения ИИ. Что тогда?
Когда искусственный интеллект (ИИ) достигает пика своей популярности, исследователи предупреждают, что в отрасли может закончиться обучающая информация — топливо, на котором работают мощные системы ИИ. Это может замедлить рост моделей ИИ, особенно больших языковых моделей, а также изменить траекторию революции ИИ.
Для обучения мощных, точных и качественных алгоритмов искусственного интеллекта нам требовалось много данных. К примеру, ChatGPT был обучен на 570 гигабайтах текстовых данных, или около 300 млрд слов.
Аналогично, алгоритм стабильной диффузии (лежащий в основе многих программ для создания изображений с искусственным интеллектом, таких как DALL-E, Lensa и Midjourney) обучался на наборе данных LIAON-5B, состоящем из 5,8 миллиарда пар изображение-текст. Если алгоритм учится на недостаточном количестве данных, то он будет давать неточные или некачественные результаты, пишет The conversation.
Качество данных для обучения также важно. Низкокачественные данные, такие как посты в социальных сетях или размытые фотографии легко найти, но их недостаточно для обучения высокоэффективных моделей ИИ.
Текст, взятый из социальных сетей, может быть пристрастным или необъективным, или содержать дезинформацию или незаконный контент, который может быть воспроизведен моделью.
Например, когда Microsoft попыталась научить своему искусственному интеллекту бота на основе контента Twitter, он научился издавать расистские и женоненавистнические результаты.
Вот почему разработчики ИИ ищут высококачественный контент, такой как текст из книг, интернет-статей, научных работ, Википедии и определенный отфильтрованный веб-контент. Чтобы сделать Google Assistant более разговорным, его обучали на 11 000 романтических романов, взятых с сайта самиздата Smashwords.
Индустрия искусственного интеллекта обучает ИИ-системы на все больших наборах данных, поэтому сейчас у нас есть высокопроизводительные модели, такие как ChatGPT или DALL-E 3.
В то же время, исследования показывают, что запасы данных в интернете растут намного медленнее, чем наборы данных, используемых для обучения ИИ.
В статье, опубликованной в прошлом году, группа исследователей спрогнозировала, что высококачественные текстовые данные закончатся к 2026 году, если текущие тенденции в обучении ИИ сохранятся. Они также подсчитали, что низкокачественные языковые данные будут исчерпаны где-то между 2030 и 2050 годами, а низкокачественные данные изображений — между 2030 и 2060 годами.
По данным бухгалтерской и консалтинговой группы PwC, к 2030 году ИИ может принести мировой экономике до $15,7 трлн. Но недостаток пригодных для использования данных может замедлить его развитие.
Хотя вышеупомянутые пункты могут обеспокоить некоторых фанатов ИИ, ситуация может быть не такой плохой, как кажется. Существует много неизвестного о том, как модели ИИ будут развиваться в будущем, а также несколько способов устранить риск нехватки данных.
Одна из возможностей состоит в том, чтобы разработчики ИИ совершенствовали алгоритмы, чтобы они эффективнее использовали уже имеющиеся в них данные.
По всей вероятности, в ближайшие годы они смогут обучать высокопроизводительные системы ИИ используя меньше данных и, возможно, меньшую вычислительную мощность. Это также поможет уменьшить углеродный след ИИ.
Другой вариант — использовать ИИ для создания синтетических данных для обучения систем. Иными словами, разработчики могут просто генерировать данные, которые им нужны, согласно их конкретной модели ИИ.
Некоторые проекты уже используют синтетический контент, часто получаемый из сервисов, генерирующих данные, таких как Mostly AI. В будущем это станет более распространенным явлением.
Разработчики также ищут контент вне свободного онлайн-пространства, например, в крупных издательствах и офлайн-репозиториях — в миллионах текстов, опубликованных до появления интернета. Доступные в цифровом формате они могут стать новым источником данных для проектов по созданию искусственного интеллекта.
News Corp, один из крупнейших в мире владельцев новостного контента (значительная часть которого находится за платной подпиской), недавно заявила, что ведет переговоры с разработчиками ИИ по заключению соглашений о предоставлении контента. Такие соглашения заставят АИ-компании платить за учебные данные — в то время как до сих пор они в большинстве своем брали их из интернета бесплатно.
Создатели контента протестуют против несанкционированного использования их контента для обучения ИИ-моделей, а некоторые из них подали в суд на такие компании, как Microsoft, OpenAI и Stability AI. Вознаграждение за их работу может помочь восстановить определенный дисбаланс сил, существующий между творческими людьми и компаниями, разрабатывающими ИИ.