Олександр Кузьменко ШІ (ai) 9 мая 2024, 09:47

451 градус по ChatGPT — OpenAI утверждает, что удалила учебный датасет из 100 000 книг, на котором тренировали модель GPT-3

Об этом стало известно по судебному делу по иску Гильдии авторов к OpenAI, где последний обвиняется в незаконном использовании защищенных авторским правом книг для обучения ИИ-моделей.

1 комментарий

451 градус по ChatGPT — OpenAI утверждает, что удалила учебный датасет из 100 000 книг, на котором тренировали модель GPT-3

Об этом стало известно по судебному делу по иску Гильдии авторов к OpenAI, где последний обвиняется в незаконном использовании защищенных авторским правом книг для обучения ИИ-моделей.

Недавно рассекреченные документы в коллективном иске Гильдии авторов против OpenAI показывают, что стартап удалил два огромных набора данных, названные «books1» и «books2», которые использовались для обучения модели искусственного интеллекта GPT-3.

Юристы Гильдии авторов заявили в судебных документах, что эти наборы данных, вероятно, содержали более 100 000 опубликованных книг. Они являлись центральным элементом их обвинений в том, что OpenAI использовала материалы, защищенные авторским правом, для обучения моделей искусственного интеллекта.

В течение нескольких месяцев Гильдия пыталась получить от OpenAI информацию о наборах данных. Компания сначала сопротивлялась, ссылаясь на конфиденциальность, но в конце концов сообщила, что удалила все копии данных, согласно юридическим документам, с которыми ознакомилось издание Business Insider.

Высококачественные обучающие данные являются важной частью мощных моделей искусственного интеллекта. OpenAI и другие компании использовали данные из интернета, в том числе многих книг, для построения этих моделей. Многие компании, создавшие эту информацию, хотят, чтобы им платили за то, что они предоставляют интеллектуальные данные для новых продуктов ИИ.

Дарио Амодей, генеральный директор и соучредитель компании Anthropic, которая известна по ИИ-чатботу Claude, считает, что однажды обучение искусственному интеллекту будет стоить миллиарды долларов, поэтому количество разработчиков моделей ИИ будет оставаться небольшим. Технологические компании не хотят, чтобы их заставляли платить. Этот спор сейчас разрешается в суде с помощью нескольких судебных исков.

В официальном документе 2020 года OpenAI описал наборы данных «books1» и «books2» как «корпуса книг в Интернете» и заявил, что они составляют 16% обучающих данных, которые пошли на создание GPT-3. В документе также указано, что «books1» и «books2» вместе содержат 67 миллиардов токенов данных, что примерно эквивалентно 50 миллиардам слов. Для сравнения, Библия короля Иакова содержит 783137 слов.

В нераспечатанном письме юристов OpenAI, которое обозначено как «строго конфиденциальный — только для адвокатов», говорится, что использование «books1» и «books2» для обучения моделей было прекращено в конце 2021 года, а в середине 2022 года наборы данных были удалены через их неиспользование. Далее в письме говорится, что никакие другие данные, которые использовались для обучения GPT-3, не были удалены, и предлагается адвокатам Гильдии авторов получить доступ к этим другим наборам данных.

Рассекреченные документы также показывают, что два исследователя, создавших «books1» и «books2», больше не работают в OpenAI. Первоначально OpenAI отказывалась разглашать личности этих двух сотрудников.
Впоследствии стартап назвал их имена юристам авторов Гильдии, но публично не разглашал их имен.

OpenAI обратилась в суд с просьбой не разглашать имена этих двух сотрудников, а также информацию о наборах данных. Гильдия авторов выступила против этого, утверждая, что общественность имеет право знать.

Модели, на которых сегодня работают ChatGPT и наш API, не были разработаны с использованием этих наборов данных. Эти наборы данных, созданные бывшими сотрудниками, больше не работающими в OpenAI, последний раз использовались в 2021 году и были удалены из-за неиспользования в 2022 году», — говорится в заявлении OpenAI.

Читайте главные IT-новости страны в нашем Telegram

OpenAI запустила инструмент для распознавания дипфейков созданных DALL-E 3

OpenAI работает над функцией поиска для ChatGPT

Google сдвинься! В скором времени может появиться новая поисковая система на основе ChatGPT

1 комментарий

Текст: Олександр Кузьменко Фото: Wired Джерело: Business Insider Теги: openai, искусственный интеллект

Нашли ошибку в тексте — выделите её и нажмите Ctrl+Enter. Нашли ошибку в тексте — выделите её и нажмите кнопку «Сообщить об ошибке».

Розміщення реклами

Размещение рекламы

Collaba. Искусственный интеллект помог Ивану Дорну найти музыкальные таланты

Террористический хаос, неравенство и автономные киллеры. 7 главных мыслей тайваньского AI-гуру Кай-Фу Ли о развитии эры искусственного интеллекта

В «Киевстар» будут внедрять NLU в IVR и чат боте. Для направления уже ищут PM

Молчаливый копирайтер и дефицит «печенек». Украинский стартап знает, как будет выглядеть реклама в Facebook в будущем

CEO и фаундер Signum.AI Артем Гладких объявил в сентябре об официальном запуске решения по генерации рекламных постов для Facebook на базе одной из самых мощных на сегодня генеративных нейронных сетей — GPT-3. Последняя является детищем компании Open AI, которую запускали при участиии Илона Маска.

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Yurii Tovstoluzhskyi

0

Лудіти сучасності 🤷

Войдите, чтобы оставить комментарий