UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉
Наталя ХандусенкоШІ
7 травня 2026, 13:59
2026-05-07
Коли ШІ «клікає» по вебсайту, він витрачає у 45 разів більше токенів, ніж під час звернення через API
Компанії, які використовують ШІ-агентів для автоматизації процесів, ризикують переплачувати, якщо їхні цифрові помічники просто копіюють те, як людина взаємодіє з екраном. Такого висновку дійшли за результатами дослідження, у межах якого порівняли роботу візуальних та API-агентів.
Компанії, які використовують ШІ-агентів для автоматизації процесів, ризикують переплачувати, якщо їхні цифрові помічники просто копіюють те, як людина взаємодіє з екраном. Такого висновку дійшли за результатами дослідження, у межах якого порівняли роботу візуальних та API-агентів.
Дослідження проводила платформа корпоративних рішень Reflex, повідомляє The Register.
Візуальний агент у цьому контексті — це ШІ-агент, який імітує людську взаємодію, покладаючись на обробку зображень та оптичне розпізнавання символів (OCR) для роботи з додатком. У цьому випадку це модель Claude Sonnet, що керує інтерфейсом вебдодатка через browser-use 0.12 — інструмент для автоматизованого управління браузером.
API-агент тут означає Claude Sonnet, що взаємодіє з вебдодатком через спеціальні інструменти та API. Агент викликає ті самі механізми обробки, що й графічний інтерфейс (UI), і отримує у відповідь структуровані дані, а не скриншот вебсторінки, який потребує аналізу.
«Два агенти працюють із тим самим активним додатком: один керує інтерфейсом через скриншоти та кліки, а інший звертається до HTTP-ендпоїнтів додатка напряму», — пояснив Палаш Авасті, керівник відділу розвитку Reflex. «Та сама модель Claude Sonnet, той самий закріплений набір даних, те саме завдання. Єдина змінна — це інтерфейс».
Перед кожним агентом поставили таке завдання: «Клієнт на прізвище Сміт поскаржився на нещодавнє замовлення. Знайдіть Сміта з найбільшою кількістю замовлень, прийміть усі його відкладені відгуки та позначте останнє замовлення як доставлене».
За словами Авасті, API-агент виконав завдання лише за вісім викликів. Він вивів список відкладених відгуків, прийняв їх і позначив замовлення як доставлене.
Натомість візуальний агент знайшов лише один із чотирьох відгуків, оскільки не зміг прокрутити сторінку до місця, де були приховані інші три відгуки.
Візуальний аналіз та інтерпретація вебсторінки є фундаментально складнішим завданням для ШІ-моделі, ніж взаємодія з API-викликами та інструментами.
Навіть коли промпт було скориговано, щоб допомогти візуальній моделі працювати краще, агенту знадобилося близько 17 хвилин — це значно довше порівняно з API-агентом, який впорався за приблизно 20 секунд. Візуальний агент також використав набагато більше токенів — приблизно у 45 разів.
Компанія зробила цей тест доступним як бенчмарк для тих, хто зацікавлений у відтворенні результатів.
Авасті зазначив, що різниця у вартості між цими двома підходами зумовлена самою архітектурою: візуальним агентам потрібно «бачити», а це дорого — обробка кожного скриншоту потребує тисяч вхідних токенів.
За оцінками Anthropic, обробка зображення розміром 1000×1000 пікселів моделлю Claude Sonnet 4.6 споживає близько 1334 токенів.
Агент зору витратив близько 500 000 вхідних токенів та близько 38 000 вихідних токенів для виконання свого завдання. Агент API використав близько 12 150 вхідних токенів та близько 934 вихідних токенів.
Для Авасті урок полягає в тому, що хоча агенти візуального аналізу можуть бути необхідними для взаємодії з програмами, які ви не контролюєте, агенти, орієнтовані на всередину, повинні орієнтуватися на API.
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.
Хочете повідомити важливу новину? Пишіть у Telegram-бот
Головні події та корисні посилання в нашому Telegram-каналі