🚀 Trustee Plus - картка європейського банку і криптогаманець. Встанови додаток 👉

Зомбі-апокаліпсис в інтернеті докотився і до України. Звідки на наші сайти приходять армії ботів і чому вони вже винні нам гроші

Страшну правду відкрила нам каліфорнійська компанія Cloudflare, яка допомагає доставляти та захищати контент по всьому світу, у свіжому звіті за 2024 рік про останні тенденції в інтернеті. 

Залишити коментар
Зомбі-апокаліпсис в інтернеті докотився і до України. Звідки на наші сайти приходять армії ботів і чому вони вже винні нам гроші

Страшну правду відкрила нам каліфорнійська компанія Cloudflare, яка допомагає доставляти та захищати контент по всьому світу, у свіжому звіті за 2024 рік про останні тенденції в інтернеті. 

Найбільший генератор бот (тобто нелюдського) трафіку у світі — це США. На цю країну припадає 34,6% таких інтернет-запитів. У п’ятірку країн-лідерів, які «постачають» «мертвий» траф в інтернет, входять також такі країни, як Німеччина (6,8%), Іран (5,2%), Китай (4,1%), Сингапур (3,7%).

Дивний мікс, чи не так? Цікаво дізнатися більше?

Нумо розбиратися, чому так сталося, що саме США — головний «постачальник» ботів і чому це зокрема й погано (і нам також).

По-перше, треба зрозуміти, що не всі боти — обов’язково погані. Якщо писати просто, то вони можуть генерувати не тільки брудний траф для накрутки сайтів із сумнівною репутацією, але ще й бути сервісними функціями різних платформ або ж «павуками» (краулерами) чи агентам проєктів, які тренують штучний інтелект.

Остання категорія ботів у 2024 році стала особливо цікавою. Тож про цей вид ботів здебільшого й буде йти мова.

ШІ-боти прийшли за цифровими зліпками сайтів

От що пише сама Cloudflare у своєму звіті про цей різновид: «ШІ-боти та краулери були в новинах упродовж 2024 року, оскільки вони жадібно споживали вміст для навчання моделей, що постійно розвиваються. Через це почалася суперечка, оскільки не всі боти та краулери дотримуються вказівок власника контенту щодо обмеження активності сканування».

Тепер давайте простими словами про те, що ж відбувається.

Річ у тому, що такі американські компанії як Google, Meta, Apple та інші масово тренують свої ШІ-моделі. Для того, щоб тренувати їх, їм потрібен у великій кількості контент, який згенерований людьми. Де його брати? Правильно — з сайтів, на яких він є у великій кількості. Це може бути, наприклад, новинний сайт, на якому зберігається величезний архів новин та історій про те, що відбувалося з людством за останні десятиріччя. І це насправді — дуже ціна база знань для алгоритмів, які швидко мудрішають. 

Власне, дані Cloudflare підтверджують цю теорію.

Найбільша доля бот-трафу (майже 13%) приходиться на дві автономні системи (це таке специфічне стале позначення групи IP-адресів) Amazon. Це може пояснюватися тим, що в хмарах Amazon «крутиться» велика кількість AI-проєктів (як власних, так і сторонніх), які тренують свої моделі. І мабуть, основне навантаження припадає на моделі OpenAI (ChatGPT), тому що ця компанія використовує саме хмару AWS.  

Наступна цифра ще більш вражає (ну як для автора цієї колонки). Увага: тільки 6% трафіку з найбільшої автономної системи Amazon, яка показана у цьому дослідженні, припадає на людський трафік. Решта — ботівський траф. 

Трафік однієї з автономних систем Amazon 

Погодьтеся, це — потужно! Хоча припускаю, що на інших автономних системах Amazon людського трафіку все ж таки більше.

Далі йде Google та Google Cloud зі своїми двома автономними системами. На них припадає більш як 8% світового бот-трафіку. І тільки 3% трафіку Google (одна з його автономних систем) — від живих людей. 

У цьому переліку також можна побачити пули IP-адрес Microsoft (4% — люди), Apple, Facebook (7% — люди).

Навіть уявити не можна, яка кількість бот-запитів йде від цих гігантів. Фактично AI-агенти зараз просто виїдають той масив даних, який ми (люди) накопичили — у  форумах, статтях, постах, фото і так далі. Мова може йти про мільярди бот-запитів.

А тепер найголовніше: ну й що мені з цього?

Річ у тім, що безконтрольне використання людського контенту для тренування ШІ фактично без згоди авторів — це, як би так сказати, лагідно, не дуже чемно. Бо за виробництво цього контенту хтось заплатив своїм часом або грошима. А як називається така дія, коли ви берете щось в когось безплатно та без його відома? Правильно — це крадіжка!  

Власне деякі західні власники контенту вже звернули на це увагу і розпочали боротьбу. 

«Якщо ви не компенсуєте творцям так чи інакше, вони припиняють творити, і це деталь, яку потрібно вирішити», — сказав генеральний директор Cloudflare Меттью Прінс в інтерв’ю TechCrunch.

Він навіть анонсував створення спеціального маркетплейса передусім для власників невеликих сайтів, де вони зможуть продавати AI-провайдерам доступ для збирання контенту з їхніх ресурсів.

Cloudflare також зробила кнопку, яка гарантує, що клієнти можуть блокувати всіх ботів ШІ одним клацанням миші.

«Це сталося через розчарування, яке ми чули, коли люди відчували, що їхній контент вкрали», — сказав Прінс.

Власне кажучи, з адресів Cloudflare також йде помітна кількість бот-трафіку. Але принаймі, ця компанія намагається бути чесною з контент-мейкерами. 

Торік видання Wired повідомляло, що майже 90% топових американських медіа, такі як The New York Times, вже закрили доступ для ШІ-ботів на своїх сайтах. 

Того року ми бачили, як великі контент-платформи намагалися монетизувати доступ до свого контенту для тренування ШІ-моделей. Наприклад, Reddit почав пускати до своїх сторінок тільки агентів Google, оскільки останній уклав з цим майданчиком спеціальну угоду на тренування ботів на контенті Reddit, яка коштує Google $60 млн на рік.

Що відбувається в Україні

Аналізуючи дані Cloudflare, можна побачити, що Україна не є джерелом бот-трафіку для світу. Тільки 0,4% світового нелюдського трафіку йде з нашої країни. Це пов’язано з тим, що великі AI-проєкти не розміщуються на наших потужностях (а значних своїх у нас, схоже, немає).

Єдине більш-менш помітне джерело бот-трафіку в Україні — це автономна система «Київстар», на яку припадає 8% від загального бот-трафу. Інші провайдери мають його в рази менше.

Джерела бот-трафіку в Україні

Треба одразу сказати, що трафік, який йде від «Київстар», — переважно людський. Cloudflare показує, що на нього припадає 90%. Решта — боти. В інших великих інтернет-провайдерів частка ботів навіть менша: Vodafone —  8%, lifecell — 6%. 

Цікаво, що доволі велика частка бот-трафіку фіксується в автономній системі такого провайдера як «Тріолан» — 17% (з піками в нічні години до 45%).

Трафік в автономній системі Тріолан

Також багато бот трафіку в автономній системі кримського інтернет-провайдера Miranda Media, який підпорядкований окупаційній владі. Що це може бути за бот-траф? Важко сказати. 

Чи використовують американські гіганти наші сайти для навчання своїх AI-ботів? Напевно, вже точно починають. Наприклад, автономна система Facebook генерує бот-запити й в нашій країні. Це є на мапі. У Google ми також є.

Трафік від ШІ-агентів Facebook в Україні

Зрештою, навіть на dev.ua трафік від павуків OpenAI вже починає  бути трошки помітним. За листопад він збільшився на 641%, згідно з Similarweb.

Що там у ворогів

Набагато цікавіше розглядати провайдерів Ірану. Пам’ятаєте, Іран потрапив в топ-3 «постачальників» бот-трафу? Так от, найбільше джерело, це національний провайдер IranCell, у якого 59% трафіку — це боти. Можна тільки здогадуватися, чому ця частка така велика. Цілком можливо, іранці також навчають власні AI-моделі, про які ми ще не знаємо. А у рф найбільший розсадник бот-трафу — це автономна система Яндекс (думаю, що одна з них). Там майже 100% ботів. І цікаво, що тренуються вони на росіянах і на сербах. 

Куди ходять ШІ-агенти від Яндекс

Висновки

Питання з трафіком від ШІ-агентів — це не десь там, на заході. Воно починає бути помітним і у нас. Адже ці агенти, нешкідливі або ж навпаки небезпечні, точно прийдуть (вже тут) за даними наших сайтів. І скоріш за все, ми віддамо їх задарма, незрозуміло кому.

Боти починають робити статистику вебсайтів незрозумілою, сильно розмивають її. Адже вони дуже часто імітують поведінку людини, щоб їх не помітили. 

Власники вебсайтів бачать на графіку Google Analytics випадкові хвилі відвідуваності своїх проєктів. Радіють. Думають, що їхній контент нарешті став кращим. А насправді — це якійсь черговий алгоритм зробив зліпок популярного в країні сайту та пішов собі далі.

То хоча б гроші заплатив. 

Підключай Megogo зі знижками за акційними тарифами.

від 99 гривень на місяць

Читайте також
Що робити, щоб ваші твіти не блокували кремлеботи. Інструкція
Що робити, щоб ваші твіти не блокували кремлеботи. Інструкція
Що робити, щоб ваші твіти не блокували кремлеботи. Інструкція
Соціальна мережа Twitter — один з головних майданчиків для поширення інформації про війну в Україні західній спільноті. Але де правда про війну, там відразу з’являються боти Кремля, які кидають страйки. Розповідаємо що робити, аби ваші твіти не блокували.
Яка кількість російських ботів воює проти України. Підрахунок експерта
Яка кількість російських ботів воює проти України. Підрахунок експерта
Яка кількість російських ботів воює проти України. Підрахунок експерта
ЗСУ та кіберполіція в пошуку програмістів для створення ботів, а в Франківську потрібні спецілізовані кадри для створення дронів
ЗСУ та кіберполіція в пошуку програмістів для створення ботів, а в Франківську потрібні спецілізовані кадри для створення дронів
ЗСУ та кіберполіція в пошуку програмістів для створення ботів, а в Франківську потрібні спецілізовані кадри для створення дронів
Запрацював бот єВорог від Дія, якому можна повідомити про ворожу техніку та військових
Запрацював бот єВорог від Дія, якому можна повідомити про ворожу техніку та військових
Запрацював бот єВорог від Дія, якому можна повідомити про ворожу техніку та військових

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.