UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉
Олександр КузьменкоГоряченькое
9 августа 2023, 17:44
2023-08-09
OpenAI исподтишка запустила GPTBot — веб-краулер, собирающий данные сайтов для обучения ИИ. Вебмастера уже занимают оборону
Разработчик ChatGPT, компания OpenAI без лишней шумихи и официальных анонсов запустила новый бот для сканирования контента веб-сайтов, чтобы научить свои большие языковые модели (LLM). После того как о нем стало известно, владельцы вебсайтов стали блокировать GPTBot, запрещая сканирование данных на своих сайтах.
Разработчик ChatGPT, компания OpenAI без лишней шумихи и официальных анонсов запустила новый бот для сканирования контента веб-сайтов, чтобы научить свои большие языковые модели (LLM). После того как о нем стало известно, владельцы вебсайтов стали блокировать GPTBot, запрещая сканирование данных на своих сайтах.
OpenAI сама дает инструкцию, как запретить GPTBot сканирование, если этого не хочет владелец контента, пишет VentureBeat. Для этого нужно внести небольшие изменения в файл robots.txt на сайте. Однако, учитывая, как интенсивно веб сканируется другими способами, неясно, сможет ли простая блокировка GPTBot полностью остановить попадание контента в данные для обучения больших языковых моделей.
Представитель OpenAI подтвердил, что компания периодически собирает общедоступные данные из Интернета, которые могут использоваться для улучшения будущих моделей ИИ.
«На нашем сайте мы предоставляем инструкции о том, как запретить нашему боту собирать данные. Вебстраницы фильтруются, чтобы удалить источники, имеющие пейволы, собирающие личную информацию (PII) или содержащие текст, который нарушает нашу политику», — отметили в компании
Популярный сайт The Verge уже модифицировал свой файл robots.txt, чтобы остановить GPTBot от сбора контента. Кейси Ньютон (Casey Newton) спросил у читателей своего информационного бюллетеня Platformer, стоит ли ему остановить OpenAI от сбора его контента. Нил Кларк, редактор научно-фантастического журнала Clarkesworld, заявил в X (Twitter), что он заблокирует GPTBot.
Интересно, что вскоре после того, как стало известно о запуске GPTBot, OpenAI объявила о гранте в $395 000 и партнерстве с Институтом журналистики Артура Л. Картера при Нью-Йоркском университете. Инициатива направлена на помощь студентам в разработке ответственных способов использования искусственного интеллекта в новостном бизнесе.