🚀💳 Trustee Plus - більше ніж криптогаманець з європейською платіжною карткою. Спробуй 👉
Наталя ХандусенкоШІ
2 квітня 2025, 18:10
2025-04-02
«Наш контент безплатний, наша інфраструктура — ні». Вікіпедія бореться з ненажерливими ботами-скреперами, які збирають інформацію для навчання ШІ-моделей
З січня 2024 року у Вікімедіа на 50% збільшилася пропускна здатність каналу, що використовується для завантаження мультимедійного контенту. Але це не тому, що люди почали більше читати статті Вікіпедії, перегляду відео або завантаження файлів з Вікісховища. Ні, сплеск використання стався через пошукових ботів, або автоматизованих програм, які вишукують зображення, відео, статті та інші файли Вікіпедії з відкритою ліцензією для навчання генеративних моделей штучного інтелекту.
З січня 2024 року у Вікімедіа на 50% збільшилася пропускна здатність каналу, що використовується для завантаження мультимедійного контенту. Але це не тому, що люди почали більше читати статті Вікіпедії, перегляду відео або завантаження файлів з Вікісховища. Ні, сплеск використання стався через пошукових ботів, або автоматизованих програм, які вишукують зображення, відео, статті та інші файли Вікіпедії з відкритою ліцензією для навчання генеративних моделей штучного інтелекту.
Таке раптове збільшення трафіку від ботів може сповільнити доступ до сторінок і ресурсів Вікімедіа, особливо під час подій, що викликають великий інтерес, пише Engadget.
Наприклад, коли в грудні помер Джиммі Картер, підвищений інтерес людей до відеозапису його президентських дебатів з Рональдом Рейганом спричинив повільне завантаження сторінок для деяких користувачів. Вікімедіа здатна витримувати сплески трафіку від читачів під час таких подій. Але «кількість трафіку, що генерується ботами-скреперами, є небаченою і створює зростаючі ризики та витрати», — заявили у Вікімедіа.
Люди-читачі схильні шукати конкретні та часто подібні теми. Наприклад, кілька людей шукають одне й те саме, коли щось є популярним. Вікімедіа створює кеш-пам’ять фрагмента вмісту, запитуваного кілька разів, у найближчому до користувача центрі обробки даних, що дає змогу швидше обслуговувати вміст. Але статті та вміст, до якого не було доступу протягом деякого часу, мають обслуговуватися з основного центру обробки даних, що споживає більше ресурсів і, отже, коштує більше грошей для Вікімедіа. Оскільки сканери ШІ мають тенденцію масово читати сторінки, вони отримують доступ до маловідомих сторінок, які мають обслуговуватися з основного центру обробки даних.
Вікімедіа повідомила, що якщо придивитися уважніше, то 65% ресурсоємного трафіку, який вона отримує, припадає на ботів. Це вже спричиняє постійні перебої в роботі команди надійності сайту, якій доводиться постійно блокувати сканери, перш ніж вони суттєво сповільнять доступ до сторінок для реальних читачів.
Справжня проблема, як стверджує Вікімедіа, полягає в тому, що «розширення відбулося значною мірою без достатньої атрибуції, яка є ключовим фактором для залучення нових користувачів».
Вікімедіа, яка покладається на пожертви людей, щоб продовжувати працювати, повинна залучати нових користувачів і змушувати їх піклуватися про свою справу.
«Наш контент є безплатним, наша інфраструктура — ні», — заявили у Вікімедіа. Зараз організація прагне створити стійкі способи доступу розробників і повторних користувачів до свого контенту в наступному фінансовому році. Це необхідно, оскільки вона не бачить жодних ознак того, що трафік, пов’язаний зі штучним інтелектом, найближчим часом сповільниться.
Каліфорнійська Wikimedia Foundation домагається заборони на використання бренду Wikipedia в Україні. Що відбувається?
Каліфорнійська Wikimedia Foundation, Inc., відома за своїм глобальним проєктом «Вікіпедія», намагається заборонити українській громадській організації «Вікіпедія Україна» використовувати торгові марки «Вікіпедія» і Wikipedia у своїй назві, а також в однойменних акаунтах у соцмережах, в домені wikipedia.net.ua, електронній адресі.
Хочете повідомити важливу новину? Пишіть у Telegram-бот
Головні події та корисні посилання в нашому Telegram-каналі