👁️👁️ 300 000 криптанів встановили собі Trustee Plus - гаманець з криптокарткою. Чого чекаєш ти? 👉

451 градус за ChatGPT — OpenAI стверджує, що видалила навчальний датасет зі 100 000 книг, на якому тренували модель GPT-3

Про це стало відомо із судової справи за позовом Гільдії авторів до OpenAI, де останню звинувачують в незаконному використанні захищених авторським правом книг для навчання ШІ-моделей.

1 коментар
451 градус за ChatGPT — OpenAI стверджує, що видалила навчальний датасет зі 100 000 книг, на якому тренували модель GPT-3

Про це стало відомо із судової справи за позовом Гільдії авторів до OpenAI, де останню звинувачують в незаконному використанні захищених авторським правом книг для навчання ШІ-моделей.

Нещодавно розсекречені документи в колективному позові Гільдії авторів проти OpenAI показують, що стартап видалив два величезні набори даних, названі «books1» і «books2», які використовувалися для навчання моделі штучного інтелекту GPT-3.

Юристи Гільдії авторів заявили в судових документах, що ці набори даних, ймовірно, містили «понад 100 000 опублікованих книг». Вони були центральним елементом їхніх звинувачень у тому, що OpenAI використовувала матеріали, захищені авторським правом, для навчання моделей штучного інтелекту.

Протягом декількох місяців Гільдія намагалася отримати від OpenAI інформацію про набори даних. Компанія спочатку чинила опір, посилаючись на конфіденційність, але врешті-решт повідомила, що видалила всі копії даних, згідно з юридичними документами, з якими ознайомилося видання Business Insider.

Високоякісні навчальні дані є важливою частиною потужних моделей штучного інтелекту. OpenAI та інші компанії використовували дані з інтернету, в тому числі з багатьох книг, для побудови цих моделей. Багато компаній, які створили цю інформацію, хочуть, щоб їм платили за те, що вони надають інтелектуальні дані для нових продуктів ШІ.

Даріо Амодей, генеральний директор і співзасновник компанії Anthropic, яка відома за ШІ-чатботом Claude, вважає, що одного дня навчання штучного інтелекту буде коштувати мільярди доларів, тому кількість розробників моделей ШІ лишатиметься невеликою. Технологічні компанії не хочуть, щоб їх змушували платити. Ця суперечка зараз вирішується в суді за допомогою декількох судових позовів.

У офіційному документі 2020 року OpenAI описав набори даних «books1» і «books2» як «корпуси книжок в Інтернеті» і заявив, що вони становлять 16% навчальних даних, які пішли на створення GPT-3. У документі також зазначено, що «books1» і «books2» разом містять 67 мільярдів токенів даних, що приблизно еквівалентно 50 мільярдам слів. Для порівняння, Біблія короля Якова містить 783 137 слів.

У нерозпечатаному листі юристів OpenAI, який позначений як «суворо конфіденційний — тільки для адвокатів», йдеться про те, що використання «books1» і «books2» для навчання моделей було припинено наприкінці 2021 року, а в середині 2022 року набори даних були видалені через їхнє невикористання. Далі в листі йдеться про те, що жодні інші дані, які використовувалися для навчання GPT-3, не були видалені, і пропонується адвокатам Гільдії авторів отримати доступ до цих інших наборів даних.

Розсекречені документи також показують, що двоє дослідників, які створили «books1» і «books2», більше не працюють в OpenAI. Спочатку OpenAI відмовлялася розголошувати особи цих двох співробітників.
Згодом стартап назвав їхні імена юристам Гільдії авторів, але публічно не розголошував їхніх імен.

OpenAI звернулась до суду з проханням не розголошувати імена цих двох співробітників, а також інформацію про набори даних. Гільдія авторів виступила проти цього, стверджуючи, що громадськість має право знати.

«Моделі, на яких сьогодні працюють ChatGPT і наш API, не були розроблені з використанням цих наборів даних. Ці набори даних, створені колишніми співробітниками, які більше не працюють в OpenAI, востаннє використовувалися у 2021 році й були видалені через невикористання у 2022 році», — йдеться в заяві OpenAI.

Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
OpenAI запустила інструмент для розпізнавання дипфейків створених DALL-E 3
OpenAI запустила інструмент для розпізнавання дипфейків, створених DALL-E 3
По темi
OpenAI запустила інструмент для розпізнавання дипфейків, створених DALL-E 3
OpenAI працює над функцією пошуку для ChatGPT
OpenAI працює над функцією пошуку для ChatGPT
По темi
OpenAI працює над функцією пошуку для ChatGPT
Google посунься! Незабаром може зявитися нова пошукова система на основі ChatGPT
Google посунься! Незабаром може з’явитися нова пошукова система на основі ChatGPT
По темi
Google посунься! Незабаром може з’явитися нова пошукова система на основі ChatGPT
УЧАСТЬ В АЗАРТНИХ ІГРАХ МОЖЕ ВИКЛИКАТИ ІГРОВУ ЗАЛЕЖНІСТЬ. ДОТРИМУЙТЕСЯ ПРАВИЛ (ПРИНЦИПІВ) ВІДПОВІДАЛЬНОЇ ГРИ.
Ліцензія видана ТОВ "СЛОТС Ю.ЕЙ." на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 15.09.23 (рішення КРАІЛ №245 від 31.08.2023); ТОВ "СЛОТС Ю.ЕЙ." – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 26.04.2021 (рішення КРАІЛ №150 від 12.04.2021); ТОВ «СПЕЙСИКС» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 08.02.2021 (рішення КРАІЛ №34 від 02.02.2021); ТОВ «ГЕЙМДЕВ» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 16.02.2021 (рішення № 47 від 10.02.2021).
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті. 

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
0

Лудіти сучасності 🤷