Олександр Кузьменко Гаряченьке 9 серпня 2023, 17:44

OpenAI нишком запустила GPTBot — вебкраулер, який збирає дані сайтів для навчання ШІ. Вебмайстри вже займають оборону

Розробник ChatGPT, компанія OpenAI без зайвого галасу та офіційних анонсів запустила нового бота для сканування контенту вебсайтів, щоб навчити свої великі мовні моделі (LLM). Після того, як про нього стало відомо, власники вебсайтів стали блокувати GPTBot, забороняючи сканування даних на своїх сайтах.

Залишити коментар

OpenAI нишком запустила GPTBot — вебкраулер, який збирає дані сайтів для навчання ШІ. Вебмайстри вже займають оборону

Розробник ChatGPT, компанія OpenAI без зайвого галасу та офіційних анонсів запустила нового бота для сканування контенту вебсайтів, щоб навчити свої великі мовні моделі (LLM). Після того, як про нього стало відомо, власники вебсайтів стали блокувати GPTBot, забороняючи сканування даних на своїх сайтах.

OpenAI сама надає інструкцію, як заборонити GPTBot сканування, якщо цього не хоче власник контенту, пише VentureBeat. Для цього потрібно внести невеликі зміни у файлу robots.txt на сайті. Однак, враховуючи як інтенсивно веб сканується іншими способами, незрозуміло, чи зможе просте блокування GPTBot повністю зупинити потрапляння контенту до даних для навчання великих мовних моделей.

Представник OpenAI підтвердив, що компанія періодично збирає загальнодоступні дані з Інтернету, які можуть бути використані для покращення майбутніх моделей ШІ.

«На нашому вебсайті ми надаємо інструкції про те, як заборонити нашому боту збирати дані. Вебсторінки фільтруються, щоб видалити джерела, які мають пейволи, збирають особисту інформацію (PII) або містять текст, який порушує нашу політику», — наголосили в компанії

Популярний сайт The Verge, вже модифікував свій файл robots.txt, щоб зупинити GPTBot від збору контенту. Кейсі Ньютон (Casey Newton) запитав читачів свого інформаційного бюлетеня Platformer, чи варто йому зупинити OpenAI від збору його контенту. А Ніл Кларк, редактор науково-фантастичного журналу Clarkesworld, заявив у X (Twitter), що він заблокує GPTBot.

Цікаво, що незабаром після того, як стало відомо про запуск GPTBot, OpenAI оголосила про грант у розмірі $395 000 і партнерство з Інститутом журналістики Артура Л. Картера при Нью-Йоркському університеті. Ініціатива має на меті допомогти студентам у розробці відповідальних способів використання штучного інтелекту в новинному бізнесі.