Наталя Хандусенко ШІ 23 липня 2025, 11:32

Чи можуть чат-боти ШІ переоцінювати власні здібності? Дворічне дослідження показало, що так

Протягом двох років дослідники оцінювали здібність чотирьох LLM визначати свою правоту. Як показало дослідження, поки ШІ не вміло займається самоаналізом.

Залишити коментар

Чи можуть чат-боти ШІ переоцінювати власні здібності? Дворічне дослідження показало, що так

Протягом двох років дослідники оцінювали здібність чотирьох LLM визначати свою правоту. Як показало дослідження, поки ШІ не вміло займається самоаналізом.

Окрім штучного інтелекту у дослідженні також брали участь люди. Їх усіх запитали наскільки впевнено вони почуваються у своїй здатності відповідати на звичайні запитання, передбачати результати ігор НФЛ чи церемоній вручення премії Оскар або грати в гру на розпізнавання зображень на кшталт Pictionary, пише Tech Xplore.

Як люди, так і LLM були надто самовпевненими щодо того, наскільки вони гіпотетично зможуть правильно надати відповіді. Водночас після результатів тільки люди змогли визнати, що переоцінили свої здібності.

«Люди сказали нам, що вони правильно дадуть відповідь на 18 запитань, а в результаті змогли відповісти на 15. Зазвичай оцінка людей згодом була приблизно 16 правильних відповідей. Тож вони все ще були трохи надмірно впевненими, але не настільки як ШІ».

Однією з переваг дослідження було те, що дані збиралися протягом двох років, що означало використання постійно оновлюваних версій моделей LLM, а саме ChatGPT, Gemini, Sonnet та Haiku.

Якщо ШІ запитати про чисельність населення Лондона, він надасть точну відповідь на основі даних в інтернеті. Однак, питаючи про майбутні події, наприклад, хто отримає Оскар, дослідники виявили слабкість чат-ботів у здатності усвідомлювати власні процеси мислення.

Sonnet був менш самовпевненим за інших. ChatGPT-4 показав результати, подібні до результатів людей у завданні з Pictionary: точно ідентифікував 12,5 намальованих від руки зображень з 20. А от Gemini зміг ідентифікувати в середньому лише 0,93 ескізу.

Крім того, Gemini передбачав, що він виконає в середньому 10,03 правильних ескізів, і навіть після того, як він відповів правильно менше ніж на одне з 20 запитань, ШІ оцінив, що він відповів правильно на 14,40, демонструючи відсутність самосвідомості.

«Gemini просто дуже погано грав у Pictionary. Але що ще гірше, він не знав, що погано грає в Pictionary», — зазначають дослідники.

Для звичайних користувачів чат-ботів найважливішим висновком дослідження є те, що варто пам’ятати, що LLM не є правильними за своєю суттю, і що, можливо, було б гарною ідеєю запитати їх, наскільки вони впевнені, коли відповідають на важливі питання.

Генеративний ШІ не впливає на зарплати та зайнятість — дослідження економістів

Лише 26% українців мають досвід практичного використання ШІ — дослідження. Хто найчастіше користується технологією

Надмірне навчання LLM може призвести до зниження її продуктивності показало нове дослідження

Читайте головні IT-новини країни в нашому Telegram

Залишити коментар

Текст: Наталя Хандусенко Теги: ші, ші-бот, штучний інтелект, дослідження

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Репост новин змушує нас вважати себе розумнішими, але це не так. З лідерами думок теж працює, показує нове дослідження

Обмін новинними статтями з друзями та підписниками в соціальних мережах спонукає людей думати, що вони знають про теми цих статей більше, ніж вони знають насправді. І це працює з активними користувачами Facebook, що ставить під сумнів обізнаність ваших улюблених лідерів думок. Про це свідчить дослідження вчених з Техаського університету в Остіні. До речі, обов’язково покажіть цю статтю своїм друзям і репостніть у соцмережах.

За десять років айтішниць в Україні стало втричі більше, — дослідження Global Logic

Учені планують відродити тасманійського вовка, використавши гени іншої істоти: коли чекати та до чого тут мамонти

Університет Мельбурна співпрацює з американською біотехнологічною компанією для планування генетичного відновлення популяції тилацина — сумчастого вовка. Останній відомий тасманійський вовк умер у неволі в 1936 році. У зоопарку Тасманії. Зараз учені збираються воскресити вимерлий вид і випустити його в дику природу.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар