Олександр Кузьменко ШІ 9 травня 2024, 09:47

451 градус за ChatGPT — OpenAI стверджує, що видалила навчальний датасет зі 100 000 книг, на якому тренували модель GPT-3

Про це стало відомо із судової справи за позовом Гільдії авторів до OpenAI, де останню звинувачують в незаконному використанні захищених авторським правом книг для навчання ШІ-моделей.

1 коментар

451 градус за ChatGPT — OpenAI стверджує, що видалила навчальний датасет зі 100 000 книг, на якому тренували модель GPT-3

Про це стало відомо із судової справи за позовом Гільдії авторів до OpenAI, де останню звинувачують в незаконному використанні захищених авторським правом книг для навчання ШІ-моделей.

Нещодавно розсекречені документи в колективному позові Гільдії авторів проти OpenAI показують, що стартап видалив два величезні набори даних, названі «books1» і «books2», які використовувалися для навчання моделі штучного інтелекту GPT-3.

Юристи Гільдії авторів заявили в судових документах, що ці набори даних, ймовірно, містили «понад 100 000 опублікованих книг». Вони були центральним елементом їхніх звинувачень у тому, що OpenAI використовувала матеріали, захищені авторським правом, для навчання моделей штучного інтелекту.

Протягом декількох місяців Гільдія намагалася отримати від OpenAI інформацію про набори даних. Компанія спочатку чинила опір, посилаючись на конфіденційність, але врешті-решт повідомила, що видалила всі копії даних, згідно з юридичними документами, з якими ознайомилося видання Business Insider.

Високоякісні навчальні дані є важливою частиною потужних моделей штучного інтелекту. OpenAI та інші компанії використовували дані з інтернету, в тому числі з багатьох книг, для побудови цих моделей. Багато компаній, які створили цю інформацію, хочуть, щоб їм платили за те, що вони надають інтелектуальні дані для нових продуктів ШІ.

Даріо Амодей, генеральний директор і співзасновник компанії Anthropic, яка відома за ШІ-чатботом Claude, вважає, що одного дня навчання штучного інтелекту буде коштувати мільярди доларів, тому кількість розробників моделей ШІ лишатиметься невеликою. Технологічні компанії не хочуть, щоб їх змушували платити. Ця суперечка зараз вирішується в суді за допомогою декількох судових позовів.

У офіційному документі 2020 року OpenAI описав набори даних «books1» і «books2» як «корпуси книжок в Інтернеті» і заявив, що вони становлять 16% навчальних даних, які пішли на створення GPT-3. У документі також зазначено, що «books1» і «books2» разом містять 67 мільярдів токенів даних, що приблизно еквівалентно 50 мільярдам слів. Для порівняння, Біблія короля Якова містить 783 137 слів.

У нерозпечатаному листі юристів OpenAI, який позначений як «суворо конфіденційний — тільки для адвокатів», йдеться про те, що використання «books1» і «books2» для навчання моделей було припинено наприкінці 2021 року, а в середині 2022 року набори даних були видалені через їхнє невикористання. Далі в листі йдеться про те, що жодні інші дані, які використовувалися для навчання GPT-3, не були видалені, і пропонується адвокатам Гільдії авторів отримати доступ до цих інших наборів даних.

Розсекречені документи також показують, що двоє дослідників, які створили «books1» і «books2», більше не працюють в OpenAI. Спочатку OpenAI відмовлялася розголошувати особи цих двох співробітників.
Згодом стартап назвав їхні імена юристам Гільдії авторів, але публічно не розголошував їхніх імен.

OpenAI звернулась до суду з проханням не розголошувати імена цих двох співробітників, а також інформацію про набори даних. Гільдія авторів виступила проти цього, стверджуючи, що громадськість має право знати.

«Моделі, на яких сьогодні працюють ChatGPT і наш API, не були розроблені з використанням цих наборів даних. Ці набори даних, створені колишніми співробітниками, які більше не працюють в OpenAI, востаннє використовувалися у 2021 році й були видалені через невикористання у 2022 році», — йдеться в заяві OpenAI.

Читайте головні IT-новини країни в нашому Telegram

OpenAI запустила інструмент для розпізнавання дипфейків створених DALL-E 3

OpenAI працює над функцією пошуку для ChatGPT

Google посунься! Незабаром може зявитися нова пошукова система на основі ChatGPT

1 коментар

Текст: Олександр Кузьменко Фото: WIRED Джерело: Business Insider Теги: gpt-3, openai, штучний інтелект

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Штучний інтелект почав озвучувати фільми на MEGOGO

3 коментарі

Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео

2 коментарі

«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого

Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Yurii Tovstoluzhskyi

0

Лудіти сучасності 🤷

Увійдіть, щоб залишити коментар