Валентин Шнайдер ШІ 26 червня 2025, 16:32

Anthropic спалила мільйони книжок заради навчання свого ШІ: суд визнав це законним

Американська компанія Anthropic витратила мільйони доларів на масове знищення паперових книжок, щоб оцифрувати їхній вміст і використати для навчання ШІ-моделі Claude. Суд визнав це «чесним використанням» і водночас поставив нову моральну дилему перед індустрією штучного інтелекту.

Залишити коментар

Anthropic спалила мільйони книжок заради навчання свого ШІ: суд визнав це законним

Американська компанія Anthropic витратила мільйони доларів на масове знищення паперових книжок, щоб оцифрувати їхній вміст і використати для навчання ШІ-моделі Claude. Суд визнав це «чесним використанням» і водночас поставив нову моральну дилему перед індустрією штучного інтелекту.

У рішенні федерального суду США, на яке посилається Ars Technica, розкриваються деталі масштабної оцифровки, яку Anthropic проводила на початку 2024 року. Компанія найняла Тома Терві, колишнього керівника проєкту Google Books, із завданням дістати «всі книжки у світі». Придбані вживані книжки масово вирізали з палітурок, сканували та знищували після перетворення на PDF-файли для тренування нейромереж.

На відміну від Google Books, який використовував безконтактне сканування та повертав книжки бібліотекам, Anthropic застосувала дешевший і швидший, але руйнівний метод. Рішення обґрунтували першоджерельною доктриною США: якщо компанія купила книжку, вона має право її знищити. Суддя Вільям Алсап визнав, що перетворення паперових видань у цифровий формат, без розповсюдження файлів, є трансформативним використанням, подібним до «оптимізації простору».

Мета була проста: отримати доступ до якісного, професійно відредагованого тексту для навчання мовних моделей. Високоякісний контент, книжки, статті — дають ШІ змогу генерувати точніші, логічніші відповіді, ніж матеріали з соцмереж. Хоча спочатку компанія використовувала й піратські електронні копії, пізніше вирішила відмовитися від сумнівних практик.

Усе це підкреслює апетити ШІ-індустрії: компанії прагнуть заволодіти мільярдами слів, навіть якщо це вимагає спалити бібліотеки. На цьому тлі контрастує приклад OpenAI, Microsoft та Гарварду, які спільно оцифровують стародруки, не знищуючи оригінали.

Усе більше компаній віддає перевагу «чистим» даним для навчання ШІ. Однак дискусія про моральність, право власності та культурну цінність залишається відкритою. Claude, збудований із мільйонів знищених книжок, уже здатен допомагати писати тексти — зокрема, про те, якою ціною його створено.

Нагадаємо, у нас також виходив матеріал про те, як двоє розробників з США створили стартап Mark, який працює над однойменним продуктом — закладкою зі штучним інтелектом для паперових книг. За задумом, вона може допомагатиме узагальнити й запам’ятати прочитану інформацію, надсилаючи звіти на смартфон.