UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

Чи можуть чат-боти ШІ переоцінювати власні здібності? Дворічне дослідження показало, що так

Протягом двох років дослідники оцінювали здібність чотирьох LLM визначати свою правоту. Як показало дослідження, поки ШІ не вміло займається самоаналізом. 

Залишити коментар
Чи можуть чат-боти ШІ переоцінювати власні здібності? Дворічне дослідження показало, що так

Протягом двох років дослідники оцінювали здібність чотирьох LLM визначати свою правоту. Як показало дослідження, поки ШІ не вміло займається самоаналізом. 

Окрім штучного інтелекту у дослідженні також брали участь люди. Їх усіх запитали наскільки впевнено вони почуваються у своїй здатності відповідати на звичайні запитання, передбачати результати ігор НФЛ чи церемоній вручення премії Оскар або грати в гру на розпізнавання зображень на кшталт Pictionary, пише Tech Xplore.

Як люди, так і LLM були надто самовпевненими щодо того, наскільки вони гіпотетично зможуть правильно надати відповіді. Водночас після результатів тільки люди змогли визнати, що переоцінили свої здібності. 

«Люди сказали нам, що вони правильно дадуть відповідь на 18 запитань, а в результаті змогли відповісти на 15. Зазвичай оцінка людей згодом була приблизно 16 правильних відповідей. Тож вони все ще були трохи надмірно впевненими, але не настільки як ШІ».

Однією з переваг дослідження було те, що дані збиралися протягом двох років, що означало використання постійно оновлюваних версій моделей LLM, а саме ChatGPT, Gemini, Sonnet та Haiku. 

Якщо ШІ запитати про чисельність населення Лондона, він надасть точну відповідь на основі даних в інтернеті. Однак, питаючи про майбутні події, наприклад, хто отримає Оскар, дослідники виявили слабкість чат-ботів у здатності усвідомлювати власні процеси мислення.

Sonnet був менш самовпевненим за інших. ChatGPT-4 показав результати, подібні до результатів людей у завданні з Pictionary: точно ідентифікував 12,5 намальованих від руки зображень з 20. А от Gemini зміг ідентифікувати в середньому лише 0,93 ескізу.

Крім того, Gemini передбачав, що він виконає в середньому 10,03 правильних ескізів, і навіть після того, як він відповів правильно менше ніж на одне з 20 запитань, ШІ оцінив, що він відповів правильно на 14,40, демонструючи відсутність самосвідомості.

«Gemini просто дуже погано грав у Pictionary. Але що ще гірше, він не знав, що погано грає в Pictionary», — зазначають дослідники. 

Для звичайних користувачів чат-ботів найважливішим висновком дослідження є те, що варто пам’ятати, що LLM не є правильними за своєю суттю, і що, можливо, було б гарною ідеєю запитати їх, наскільки вони впевнені, коли відповідають на важливі питання.

Генеративний ШІ не впливає на зарплати та зайнятість — дослідження економістів
Генеративний ШІ не впливає на зарплати та зайнятість — дослідження економістів
По темi
Генеративний ШІ не впливає на зарплати та зайнятість — дослідження економістів
Лише 26% українців мають досвід практичного використання ШІ — дослідження. Хто найчастіше користується технологією
Лише 26% українців мають досвід практичного використання ШІ — дослідження. Хто найчастіше користується технологією
По темi
Лише 26% українців мають досвід практичного використання ШІ — дослідження. Хто найчастіше користується технологією
Надмірне навчання LLM може призвести до зниження її продуктивності показало нове дослідження
Надмірне навчання LLM може призвести до зниження її продуктивності, показало нове дослідження
По темi
Надмірне навчання LLM може призвести до зниження її продуктивності, показало нове дослідження
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Репост новин змушує нас вважати себе розумнішими, але це не так. З лідерами думок теж працює, показує нове дослідження
Репост новин змушує нас вважати себе розумнішими, але це не так. З лідерами думок теж працює, показує нове дослідження
Репост новин змушує нас вважати себе розумнішими, але це не так. З лідерами думок теж працює, показує нове дослідження
Обмін новинними статтями з друзями та підписниками в соціальних мережах спонукає людей думати, що вони знають про теми цих статей більше, ніж вони знають насправді. І це працює з активними користувачами Facebook, що ставить під сумнів обізнаність ваших улюблених лідерів думок. Про це свідчить дослідження вчених з Техаського університету в Остіні. До речі, обов’язково покажіть цю статтю своїм друзям і репостніть у соцмережах.
За десять років айтішниць в Україні стало втричі більше, — дослідження Global Logic
За десять років айтішниць в Україні стало втричі більше, — дослідження Global Logic
За десять років айтішниць в Україні стало втричі більше, — дослідження Global Logic
Учені планують відродити тасманійського вовка, використавши гени іншої істоти: коли чекати та до чого тут мамонти
Учені планують відродити тасманійського вовка, використавши гени іншої істоти: коли чекати та до чого тут мамонти
Учені планують відродити тасманійського вовка, використавши гени іншої істоти: коли чекати та до чого тут мамонти
Університет Мельбурна співпрацює з американською біотехнологічною компанією для планування генетичного відновлення популяції тилацина — сумчастого вовка. Останній відомий тасманійський вовк умер у неволі в 1936 році. У зоопарку Тасманії. Зараз учені збираються воскресити вимерлий вид і випустити його в дику природу.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.