Чи можуть чат-боти ШІ переоцінювати власні здібності? Дворічне дослідження показало, що так
Протягом двох років дослідники оцінювали здібність чотирьох LLM визначати свою правоту. Як показало дослідження, поки ШІ не вміло займається самоаналізом.
Протягом двох років дослідники оцінювали здібність чотирьох LLM визначати свою правоту. Як показало дослідження, поки ШІ не вміло займається самоаналізом.
Протягом двох років дослідники оцінювали здібність чотирьох LLM визначати свою правоту. Як показало дослідження, поки ШІ не вміло займається самоаналізом.
Окрім штучного інтелекту у дослідженні також брали участь люди. Їх усіх запитали наскільки впевнено вони почуваються у своїй здатності відповідати на звичайні запитання, передбачати результати ігор НФЛ чи церемоній вручення премії Оскар або грати в гру на розпізнавання зображень на кшталт Pictionary, пише Tech Xplore.
Як люди, так і LLM були надто самовпевненими щодо того, наскільки вони гіпотетично зможуть правильно надати відповіді. Водночас після результатів тільки люди змогли визнати, що переоцінили свої здібності.
«Люди сказали нам, що вони правильно дадуть відповідь на 18 запитань, а в результаті змогли відповісти на 15. Зазвичай оцінка людей згодом була приблизно 16 правильних відповідей. Тож вони все ще були трохи надмірно впевненими, але не настільки як ШІ».
Однією з переваг дослідження було те, що дані збиралися протягом двох років, що означало використання постійно оновлюваних версій моделей LLM, а саме ChatGPT, Gemini, Sonnet та Haiku.
Якщо ШІ запитати про чисельність населення Лондона, він надасть точну відповідь на основі даних в інтернеті. Однак, питаючи про майбутні події, наприклад, хто отримає Оскар, дослідники виявили слабкість чат-ботів у здатності усвідомлювати власні процеси мислення.
Sonnet був менш самовпевненим за інших. ChatGPT-4 показав результати, подібні до результатів людей у завданні з Pictionary: точно ідентифікував 12,5 намальованих від руки зображень з 20. А от Gemini зміг ідентифікувати в середньому лише 0,93 ескізу.
Крім того, Gemini передбачав, що він виконає в середньому 10,03 правильних ескізів, і навіть після того, як він відповів правильно менше ніж на одне з 20 запитань, ШІ оцінив, що він відповів правильно на 14,40, демонструючи відсутність самосвідомості.
«Gemini просто дуже погано грав у Pictionary. Але що ще гірше, він не знав, що погано грає в Pictionary», — зазначають дослідники.
Для звичайних користувачів чат-ботів найважливішим висновком дослідження є те, що варто пам’ятати, що LLM не є правильними за своєю суттю, і що, можливо, було б гарною ідеєю запитати їх, наскільки вони впевнені, коли відповідають на важливі питання.



