🚀💳 Trustee Plus - більше ніж криптогаманець з європейською платіжною карткою. Спробуй 👉

Wikipedia випустила спеціальний датасет, щоб від неї відчепилися боти, які збирають інформацію для навчання ШІ

Wikipedia випустила набір структурованих даних, спеціально оптимізований для навчання моделей штучного інтелекту. Таким чином платформа намагається відмовити розробників ШІ від використання ботів для збору інформації, які навантажують її сервери.

Залишити коментар
Wikipedia випустила спеціальний датасет, щоб від неї відчепилися боти, які збирають інформацію для навчання ШІ

Wikipedia випустила набір структурованих даних, спеціально оптимізований для навчання моделей штучного інтелекту. Таким чином платформа намагається відмовити розробників ШІ від використання ботів для збору інформації, які навантажують її сервери.

Фонд Wikimedia оголосив, що уклав партнерство з платформою Kaggle (спільнота data science фахівців, що належить Google), яка розміщує дані про машинне навчання. У рамках співробітництва було опубліковано  бета-версію набору даних «структурованого контенту Вікіпедії англійською та французькою мовами», пише The Verge.

Зазначається, що цей датасет «розроблений з урахуванням робочих процесів машинного навчання», що полегшує розробникам ШІ доступ до даних статей для моделювання, точного налаштування, бенчмаркінгу і т. д. Вміст набору даних має відкриту ліцензію і наразі охоплює резюме досліджень, короткі описи, посилання на зображення, дані інфобоксів і розділи статей (за винятком посилань або не текстових елементів, таких як аудіофайли).

Структуровані JSON-представлення контенту Wikipedia, доступні користувачам Kaggle, повинні стати більш привабливою альтернативою «вилученню або синтаксичному аналізу необробленого тексту статті», вважають у Wikimedia. Це проблема, яка наразі створює навантаження на сервери Wikipedia, оскільки автоматизовані боти зі штучним інтелектом невпинно споживають пропускну здатність платформи.

З січня 2024 року у Wikimedia на 50% збільшилася пропускна здатність каналу, що використовується для завантаження мультимедійного контенту. За даними фонду, до 65% ресурсомісткого трафіку, який вона отримує, припадає на ботів, що збирають дані для ШІ. Це вже спричиняє труднощі для підтримки надійності сайту; IT-команді проєкту доводиться постійно блокувати сканери, перш ніж вони суттєво сповільнять доступ до сторінок для реальних читачів. 

«Наш контент є безплатним, наша інфраструктура — ні», — відзначали у Wikimedia.

Наразі фонд вже має угоди про обмін контентом з Google та Internet Archive, але партнерство з Kaggle має зробити ці дані більш доступними для менших компаній та незалежних дослідників даних.

«Як місце, куди спільнота машинного навчання звертається за інструментами та тестами, Kaggle надзвичайно рада стати хостом для даних Фонду Вікімедіа», — сказала Бренда Флінн (Brenda Flynn), керівник відділу партнерства Kaggle. 

Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Розробник з США «схрестив» «Вікіпедію» із TikTok за допомогою ШІ. Тепер нескінченна стрічка корисних статей WikiTok лікує користувачів від нудьги і залежності від алгоритмів
Розробник з США «схрестив» «Вікіпедію» із TikTok за допомогою ШІ. Тепер нескінченна стрічка корисних статей WikiTok лікує користувачів від нудьги і залежності від алгоритмів
По темi
Розробник з США «схрестив» «Вікіпедію» із TikTok за допомогою ШІ. Тепер нескінченна стрічка корисних статей WikiTok лікує користувачів від нудьги і залежності від алгоритмів
«Наш контент безплатний наша інфраструктура — ні». Вікіпедія бореться з ненажерливими ботами-скреперами які збирають інформацію для навчання ШІ-моделей
«Наш контент безплатний, наша інфраструктура — ні». Вікіпедія бореться з ненажерливими ботами-скреперами, які збирають інформацію для навчання ШІ-моделей
По темi
«Наш контент безплатний, наша інфраструктура — ні». Вікіпедія бореться з ненажерливими ботами-скреперами, які збирають інформацію для навчання ШІ-моделей
ШІ-програма SIDE допомагає верифікувати джерела на Wikipedia та підвищує правдивість статей
ШІ-програма SIDE допомагає верифікувати джерела на Wikipedia та підвищує правдивість статей
По темi
ШІ-програма SIDE допомагає верифікувати джерела на Wikipedia та підвищує правдивість статей
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Що робити, щоб ваші твіти не блокували кремлеботи. Інструкція
Що робити, щоб ваші твіти не блокували кремлеботи. Інструкція
Що робити, щоб ваші твіти не блокували кремлеботи. Інструкція
Соціальна мережа Twitter — один з головних майданчиків для поширення інформації про війну в Україні західній спільноті. Але де правда про війну, там відразу з’являються боти Кремля, які кидають страйки. Розповідаємо що робити, аби ваші твіти не блокували.
1 коментар
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
1 коментар
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.