Наталя Хандусенко ШІ 20 січня 2026, 15:44

ШІ провалив 97% завдань для фрілансерів, — результати нового дослідження

Дослідники протестували ШІ на фріланс-проєктах у кількох сферах, зокрема розробці ігор та аналізу даних. Результати виявилися невтішними.

Залишити коментар

ШІ провалив 97% завдань для фрілансерів, — результати нового дослідження

Дослідники протестували ШІ на фріланс-проєктах у кількох сферах, зокрема розробці ігор та аналізу даних. Результати виявилися невтішними.

Щоб з’ясувати, чи здатний штучний інтелект виконувати проєкти так само ефективно, як людина, група дослідників дала робочі завдання таким ШІ-моделям, як-от Manus, Grok 4, Sonnet 4.5, GPT-5, ChatGPT agent і Gemini 2.5 Pro, пише ZDNET.

Ці завдання вже раніше успішно виконували реальні фрілансери в таких галузях, як-от розробка ігор, продуктовий дизайн, архітектура, аналіз даних і відеоанімація. Завдання передбачали створити:

інтерактивну панель інструментів для дослідження даних зі Звіту про щастя у світі;
версію гри «Кавун» на тему пивоваріння, де гравці об'єднують падаючі предмети, щоб досягти предмета найвищого рівня;
3D-анімацію для демонстрації характеристик і дизайну нових навушників і зарядного кейса;
2D-анімоване відео, що рекламує пропозиції компанії, що надає безплатні послуги;
розробити архітектурні плани та 3D-модель контейнерного будинку на основі наявного PDF-проєкту;
відформатувати документ, використовуючи надані функції та рівняння, для конференції IEEE.

Перераховані вище завдання охоплювали різні рівні складності, обійшлися у $10 000 й зайняли в реальних виконавців понад 100 годин часу.

Для порівняння можливостей ШІ-автоматизації та реальної праці фрілансерів, дослідники розробили систему оцінювання Remote Labor Index (RLI).

«Хоча ШІ-системи вже проходять багато наявних тестів, ми виявили, що навіть найсучасніші ШІ-агенти показують результати на рівні плінтуса в межах RLI», — повідомили дослідники. «Найкраща модель досягла рівня автоматизації лише у 2,5%. Це доводить, що сучасні системи штучного інтелекту неспроможні виконати переважну більшість проєктів на тому рівні якості, який прийнятний для робіт на замовлення».

Manus показав найкращі результати з показником продуктивності 2,5%. Grok 4 та Sonnet 4.5 поділили показники на 2,1%, GPT-5 був наступним з 1,7%, а агент ChatGPT — на 1,3%. Gemini посів останнє місце з 0,8%.

Один із дослідників, Ден Хендрікс, визнав: хоча сучасні ШІ й розумні, вони досі не надто корисні, враховуючи загальний показник автоматизації менш ніж у 3%.

Пояснюючи причини такого провалу, Хендрікс зазначив, що багато можливостей ШІ залишаються дефіцитними. ШІ не здатні вчитися безпосередньо в процесі роботи, оскільки не мають довготривалої пам’яті. Крім того, зорові навички ШІ обмежені, хоча саме вони були необхідні для виконання багатьох завдань.

Тестування спеціально включало завдання, що вимагали досить високого рівня кваліфікації. Імовірно, з іншими видами робіт і проєктів ШІ впорався б значно легше.

«Хоча абсолютні показники автоматизації наразі низькі, наш аналіз свідчить про те, що моделі стабільно вдосконалюються, а прогрес у виконанні цих складних завдань є цілком вимірним», — зазначають дослідники. «Це створює спільну базу для відстеження траєкторії автоматизації за допомогою ШІ, що дасть змогу зацікавленим сторонам завчасно адаптуватися до її наслідків».

Які сфери українського бізнесу найбільше використовують ШІ та для чого — дослідження

ШІ робить знання поверхневими і ось чому

Меми роблять ШІ дурнішим на 23%: моделі частіше помиляються й гірше тримають контекст

Читайте головні IT-новини країни в нашому Telegram

Ваша пробная версия Premium закончилась

Залишити коментар

Текст: Наталя Хандусенко Фото: Freelance Life Magazine Теги: фрілансери, ші, штучний інтелект, дослідження

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Репост новин змушує нас вважати себе розумнішими, але це не так. З лідерами думок теж працює, показує нове дослідження

Обмін новинними статтями з друзями та підписниками в соціальних мережах спонукає людей думати, що вони знають про теми цих статей більше, ніж вони знають насправді. І це працює з активними користувачами Facebook, що ставить під сумнів обізнаність ваших улюблених лідерів думок. Про це свідчить дослідження вчених з Техаського університету в Остіні. До речі, обов’язково покажіть цю статтю своїм друзям і репостніть у соцмережах.

За десять років айтішниць в Україні стало втричі більше, — дослідження Global Logic

Учені планують відродити тасманійського вовка, використавши гени іншої істоти: коли чекати та до чого тут мамонти

Університет Мельбурна співпрацює з американською біотехнологічною компанією для планування генетичного відновлення популяції тилацина — сумчастого вовка. Останній відомий тасманійський вовк умер у неволі в 1936 році. У зоопарку Тасманії. Зараз учені збираються воскресити вимерлий вид і випустити його в дику природу.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар