👁️👁️ 300 000 криптанів встановили собі Trustee Plus - гаманець з криптокарткою. Чого чекаєш ти? 👉

451 градус по ChatGPT — OpenAI утверждает, что удалила учебный датасет из 100 000 книг, на котором тренировали модель GPT-3

Об этом стало известно по судебному делу по иску Гильдии авторов к OpenAI, где последний обвиняется в незаконном использовании защищенных авторским правом книг для обучения ИИ-моделей.

1 комментарий
451 градус по ChatGPT — OpenAI утверждает, что удалила учебный датасет из 100 000 книг, на котором тренировали модель GPT-3

Об этом стало известно по судебному делу по иску Гильдии авторов к OpenAI, где последний обвиняется в незаконном использовании защищенных авторским правом книг для обучения ИИ-моделей.

Недавно рассекреченные документы в коллективном иске Гильдии авторов против OpenAI показывают, что стартап удалил два огромных набора данных, названные «books1» и «books2», которые использовались для обучения модели искусственного интеллекта GPT-3.

Юристы Гильдии авторов заявили в судебных документах, что эти наборы данных, вероятно, содержали более 100 000 опубликованных книг. Они являлись центральным элементом их обвинений в том, что OpenAI использовала материалы, защищенные авторским правом, для обучения моделей искусственного интеллекта.

В течение нескольких месяцев Гильдия пыталась получить от OpenAI информацию о наборах данных. Компания сначала сопротивлялась, ссылаясь на конфиденциальность, но в конце концов сообщила, что удалила все копии данных, согласно юридическим документам, с которыми ознакомилось издание Business Insider.

Высококачественные обучающие данные являются важной частью мощных моделей искусственного интеллекта. OpenAI и другие компании использовали данные из интернета, в том числе многих книг, для построения этих моделей. Многие компании, создавшие эту информацию, хотят, чтобы им платили за то, что они предоставляют интеллектуальные данные для новых продуктов ИИ.

Дарио Амодей, генеральный директор и соучредитель компании Anthropic, которая известна по ИИ-чатботу Claude, считает, что однажды обучение искусственному интеллекту будет стоить миллиарды долларов, поэтому количество разработчиков моделей ИИ будет оставаться небольшим. Технологические компании не хотят, чтобы их заставляли платить. Этот спор сейчас разрешается в суде с помощью нескольких судебных исков.

В официальном документе 2020 года OpenAI описал наборы данных «books1» и «books2» как «корпуса книг в Интернете» и заявил, что они составляют 16% обучающих данных, которые пошли на создание GPT-3. В документе также указано, что «books1» и «books2» вместе содержат 67 миллиардов токенов данных, что примерно эквивалентно 50 миллиардам слов. Для сравнения, Библия короля Иакова содержит 783137 слов.

В нераспечатанном письме юристов OpenAI, которое обозначено как «строго конфиденциальный — только для адвокатов», говорится, что использование «books1» и «books2» для обучения моделей было прекращено в конце 2021 года, а в середине 2022 года наборы данных были удалены через их неиспользование. Далее в письме говорится, что никакие другие данные, которые использовались для обучения GPT-3, не были удалены, и предлагается адвокатам Гильдии авторов получить доступ к этим другим наборам данных.

Рассекреченные документы также показывают, что два исследователя, создавших «books1» и «books2», больше не работают в OpenAI. Первоначально OpenAI отказывалась разглашать личности этих двух сотрудников.
Впоследствии стартап назвал их имена юристам авторов Гильдии, но публично не разглашал их имен.

OpenAI обратилась в суд с просьбой не разглашать имена этих двух сотрудников, а также информацию о наборах данных. Гильдия авторов выступила против этого, утверждая, что общественность имеет право знать.

Модели, на которых сегодня работают ChatGPT и наш API, не были разработаны с использованием этих наборов данных. Эти наборы данных, созданные бывшими сотрудниками, больше не работающими в OpenAI, последний раз использовались в 2021 году и были удалены из-за неиспользования в 2022 году», — говорится в заявлении OpenAI.

Читайте главные IT-новости страны в нашем Telegram
Читайте главные IT-новости страны в нашем Telegram
По теме
Читайте главные IT-новости страны в нашем Telegram
OpenAI запустила инструмент для распознавания дипфейков созданных DALL-E 3
OpenAI запустила инструмент для распознавания дипфейков, созданных DALL-E 3
По теме
OpenAI запустила инструмент для распознавания дипфейков, созданных DALL-E 3
OpenAI работает над функцией поиска для ChatGPT
OpenAI работает над функцией поиска для ChatGPT
По теме
OpenAI работает над функцией поиска для ChatGPT
Google сдвинься! В скором времени может появиться новая поисковая система на основе ChatGPT
Google сдвинься! В скором времени может появиться новая поисковая система на основе ChatGPT
По теме
Google сдвинься! В скором времени может появиться новая поисковая система на основе ChatGPT
УЧАСТЬ В АЗАРТНИХ ІГРАХ МОЖЕ ВИКЛИКАТИ ІГРОВУ ЗАЛЕЖНІСТЬ. ДОТРИМУЙТЕСЯ ПРАВИЛ (ПРИНЦИПІВ) ВІДПОВІДАЛЬНОЇ ГРИ.
Ліцензія видана ТОВ "СЛОТС Ю.ЕЙ." на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 15.09.23 (рішення КРАІЛ №245 від 31.08.2023); ТОВ "СЛОТС Ю.ЕЙ." – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 26.04.2021 (рішення КРАІЛ №150 від 12.04.2021); ТОВ «СПЕЙСИКС» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 08.02.2021 (рішення КРАІЛ №34 від 02.02.2021); ТОВ «ГЕЙМДЕВ» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 16.02.2021 (рішення № 47 від 10.02.2021).
Читайте также
Collaba. Искусственный интеллект помог Ивану Дорну найти музыкальные таланты
Collaba. Искусственный интеллект помог Ивану Дорну найти музыкальные таланты
Collaba. Искусственный интеллект помог Ивану Дорну найти музыкальные таланты
Террористический хаос, неравенство и автономные киллеры. 7 главных мыслей тайваньского AI-гуру Кай-Фу Ли о развитии эры искусственного интеллекта
Террористический хаос, неравенство и автономные киллеры. 7 главных мыслей тайваньского AI-гуру Кай-Фу Ли о развитии эры искусственного интеллекта
Террористический хаос, неравенство и автономные киллеры. 7 главных мыслей тайваньского AI-гуру Кай-Фу Ли о развитии эры искусственного интеллекта
В «Киевстар» будут внедрять NLU в IVR и чат боте. Для направления уже ищут PM
В «Киевстар» будут внедрять NLU в IVR и чат боте. Для направления уже ищут PM
В «Киевстар» будут внедрять NLU в IVR и чат боте. Для направления уже ищут PM
Молчаливый копирайтер и дефицит «печенек». Украинский стартап знает, как будет выглядеть реклама в Facebook в будущем
Молчаливый копирайтер и дефицит «печенек». Украинский стартап знает, как будет выглядеть реклама в Facebook в будущем
Молчаливый копирайтер и дефицит «печенек». Украинский стартап знает, как будет выглядеть реклама в Facebook в будущем
CEO и фаундер Signum.AI Артем Гладких объявил в сентябре об официальном запуске решения по генерации рекламных постов для Facebook на базе одной из самых мощных на сегодня генеративных нейронных сетей — GPT-3. Последняя является детищем компании Open AI, которую запускали при участиии Илона Маска. 

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
0

Лудіти сучасності 🤷