Зомбі-апокаліпсис в інтернеті докотився і до України. Звідки на наші сайти приходять армії ботів і чому вони вже винні нам гроші
Страшну правду відкрила нам каліфорнійська компанія Cloudflare, яка допомагає доставляти та захищати контент по всьому світу, у свіжому звіті за 2024 рік про останні тенденції в інтернеті.
Найбільший генератор бот (тобто нелюдського) трафіку у світі — це США. На цю країну припадає 34,6% таких інтернет-запитів. У п’ятірку країн-лідерів, які «постачають» «мертвий» траф в інтернет, входять також такі країни, як Німеччина (6,8%), Іран (5,2%), Китай (4,1%), Сингапур (3,7%).
Дивний мікс, чи не так? Цікаво дізнатися більше?
Нумо розбиратися, чому так сталося, що саме США — головний «постачальник» ботів і чому це зокрема й погано (і нам також).
По-перше, треба зрозуміти, що не всі боти — обов’язково погані. Якщо писати просто, то вони можуть генерувати не тільки брудний траф для накрутки сайтів із сумнівною репутацією, але ще й бути сервісними функціями різних платформ або ж «павуками» (краулерами) чи агентам проєктів, які тренують штучний інтелект.
Остання категорія ботів у 2024 році стала особливо цікавою. Тож про цей вид ботів здебільшого й буде йти мова.
ШІ-боти прийшли за цифровими зліпками сайтів
От що пише сама Cloudflare у своєму звіті про цей різновид: «ШІ-боти та краулери були в новинах упродовж 2024 року, оскільки вони жадібно споживали вміст для навчання моделей, що постійно розвиваються. Через це почалася суперечка, оскільки не всі боти та краулери дотримуються вказівок власника контенту щодо обмеження активності сканування».
Тепер давайте простими словами про те, що ж відбувається.
Річ у тому, що такі американські компанії як Google, Meta, Apple та інші масово тренують свої ШІ-моделі. Для того, щоб тренувати їх, їм потрібен у великій кількості контент, який згенерований людьми. Де його брати? Правильно — з сайтів, на яких він є у великій кількості. Це може бути, наприклад, новинний сайт, на якому зберігається величезний архів новин та історій про те, що відбувалося з людством за останні десятиріччя. І це насправді — дуже ціна база знань для алгоритмів, які швидко мудрішають.
Власне, дані Cloudflare підтверджують цю теорію.
Найбільша доля бот-трафу (майже 13%) приходиться на дві автономні системи (це таке специфічне стале позначення групи IP-адресів) Amazon. Це може пояснюватися тим, що в хмарах Amazon «крутиться» велика кількість AI-проєктів (як власних, так і сторонніх), які тренують свої моделі. І мабуть, основне навантаження припадає на моделі OpenAI (ChatGPT), тому що ця компанія використовує саме хмару AWS.
Наступна цифра ще більш вражає (ну як для автора цієї колонки). Увага: тільки 6% трафіку з найбільшої автономної системи Amazon, яка показана у цьому дослідженні, припадає на людський трафік. Решта — ботівський траф.
Погодьтеся, це — потужно! Хоча припускаю, що на інших автономних системах Amazon людського трафіку все ж таки більше.
Далі йде Google та Google Cloud зі своїми двома автономними системами. На них припадає більш як 8% світового бот-трафіку. І тільки 3% трафіку Google (одна з його автономних систем) — від живих людей.
У цьому переліку також можна побачити пули IP-адрес Microsoft (4% — люди), Apple, Facebook (7% — люди).
Навіть уявити не можна, яка кількість бот-запитів йде від цих гігантів. Фактично AI-агенти зараз просто виїдають той масив даних, який ми (люди) накопичили — у форумах, статтях, постах, фото і так далі. Мова може йти про мільярди бот-запитів.
А тепер найголовніше: ну й що мені з цього?
Річ у тім, що безконтрольне використання людського контенту для тренування ШІ фактично без згоди авторів — це, як би так сказати, лагідно, не дуже чемно. Бо за виробництво цього контенту хтось заплатив своїм часом або грошима. А як називається така дія, коли ви берете щось в когось безплатно та без його відома? Правильно — це крадіжка!
Власне деякі західні власники контенту вже звернули на це увагу і розпочали боротьбу.
Він навіть анонсував створення спеціального маркетплейса передусім для власників невеликих сайтів, де вони зможуть продавати AI-провайдерам доступ для збирання контенту з їхніх ресурсів.
Cloudflare також зробила кнопку, яка гарантує, що клієнти можуть блокувати всіх ботів ШІ одним клацанням миші.
Власне кажучи, з адресів Cloudflare також йде помітна кількість бот-трафіку. Але принаймі, ця компанія намагається бути чесною з контент-мейкерами.
Торік видання Wired повідомляло, що майже 90% топових американських медіа, такі як The New York Times, вже закрили доступ для ШІ-ботів на своїх сайтах.
Того року ми бачили, як великі контент-платформи намагалися монетизувати доступ до свого контенту для тренування ШІ-моделей. Наприклад, Reddit почав пускати до своїх сторінок тільки агентів Google, оскільки останній уклав з цим майданчиком спеціальну угоду на тренування ботів на контенті Reddit, яка коштує Google $60 млн на рік.
Що відбувається в Україні
Аналізуючи дані Cloudflare, можна побачити, що Україна не є джерелом бот-трафіку для світу. Тільки 0,4% світового нелюдського трафіку йде з нашої країни. Це пов’язано з тим, що великі AI-проєкти не розміщуються на наших потужностях (а значних своїх у нас, схоже, немає).
Єдине більш-менш помітне джерело бот-трафіку в Україні — це автономна система «Київстар», на яку припадає 8% від загального бот-трафу. Інші провайдери мають його в рази менше.
Треба одразу сказати, що трафік, який йде від «Київстар», — переважно людський. Cloudflare показує, що на нього припадає 90%. Решта — боти. В інших великих інтернет-провайдерів частка ботів навіть менша: Vodafone — 8%, lifecell — 6%.
Цікаво, що доволі велика частка бот-трафіку фіксується в автономній системі такого провайдера як «Тріолан» — 17% (з піками в нічні години до 45%).
Також багато бот трафіку в автономній системі кримського інтернет-провайдера Miranda Media, який підпорядкований окупаційній владі. Що це може бути за бот-траф? Важко сказати.
Чи використовують американські гіганти наші сайти для навчання своїх AI-ботів? Напевно, вже точно починають. Наприклад, автономна система Facebook генерує бот-запити й в нашій країні. Це є на мапі. У Google ми також є.
Зрештою, навіть на dev.ua трафік від павуків OpenAI вже починає бути трошки помітним. За листопад він збільшився на 641%, згідно з Similarweb.
Що там у ворогів
Набагато цікавіше розглядати провайдерів Ірану. Пам’ятаєте, Іран потрапив в топ-3 «постачальників» бот-трафу? Так от, найбільше джерело, це національний провайдер IranCell, у якого 59% трафіку — це боти. Можна тільки здогадуватися, чому ця частка така велика. Цілком можливо, іранці також навчають власні AI-моделі, про які ми ще не знаємо. А у рф найбільший розсадник бот-трафу — це автономна система Яндекс (думаю, що одна з них). Там майже 100% ботів. І цікаво, що тренуються вони на росіянах і на сербах.
Висновки
Питання з трафіком від ШІ-агентів — це не десь там, на заході. Воно починає бути помітним і у нас. Адже ці агенти, нешкідливі або ж навпаки небезпечні, точно прийдуть (вже тут) за даними наших сайтів. І скоріш за все, ми віддамо їх задарма, незрозуміло кому.
Боти починають робити статистику вебсайтів незрозумілою, сильно розмивають її. Адже вони дуже часто імітують поведінку людини, щоб їх не помітили.
Власники вебсайтів бачать на графіку Google Analytics випадкові хвилі відвідуваності своїх проєктів. Радіють. Думають, що їхній контент нарешті став кращим. А насправді — це якійсь черговий алгоритм зробив зліпок популярного в країні сайту та пішов собі далі.
Що робити, щоб ваші твіти не блокували кремлеботи. Інструкція
Соціальна мережа Twitter — один з головних майданчиків для поширення інформації про війну в Україні західній спільноті. Але де правда про війну, там відразу з’являються боти Кремля, які кидають страйки. Розповідаємо що робити, аби ваші твіти не блокували.