💳 Термінова новина! Trustee Plus — найкраще рішення для розрахунку криптою 👉

Конкуренція загострюється — Claude 3 вперше обійшов GPT-4 в рейтингу можливостей ШІ

Велика мовна модель Claude 3 Opus від Anthropic вперше випередила GPT-4 від OpenAI на Chatbot Arena — популярному краудсорсинговому рейтингу, який використовується дослідниками ШІ для оцінки відносних можливостей мовних моделей ШІ. Що це означає для індустрії штучного інтелекту.

Залишити коментар
Конкуренція загострюється — Claude 3 вперше обійшов GPT-4 в рейтингу можливостей ШІ

Велика мовна модель Claude 3 Opus від Anthropic вперше випередила GPT-4 від OpenAI на Chatbot Arena — популярному краудсорсинговому рейтингу, який використовується дослідниками ШІ для оцінки відносних можливостей мовних моделей ШІ. Що це означає для індустрії штучного інтелекту.

«Король помер. RIP GPT-4», — написав розробник програмного забезпечення Нік Добос в X (Twitter), порівнюючи GPT-4 Turbo і Claude 3 Opus, який поширюється в соціальних мережах. Про це повідомляє Ars Technica.

З моменту включення GPT-4 до Chatbot Arena приблизно 10 травня 2023 року (таблиця лідерів була запущена 3 травня того ж року), варіації GPT-4 незмінно займали верхні рядки рейтингу, тож її поразка на Арені — помітний момент у відносно короткій історії мовних моделей штучного інтелекту. Одна з менших моделей Anthropic, Haiku, також привертає увагу своїми показниками в таблиці лідерів.

«Вперше найкращі доступні моделі — Opus для складних завдань, Haiku за вартістю та ефективністю — від постачальника, який не є OpenAI. Це обнадіює — ми всі виграємо від різноманітності провідних постачальників в цій галузі. Але GPT-4 вже понад рік, і цей рік знадобився для того, щоб хтось інший зміг його наздогнати», — сказав незалежний дослідник ШІ Саймон Віллісон.

Скріншот таблиці лідерів Chatbot Arena, на якому Claude 3 Opus випередив GPT-4 Turbo

Як працює Chatbot Arena

Chatbot Arena управляється Організацією великих модельних систем (LMSYS ORG), дослідницькою організацією, що займається відкритими моделями, яка працює в рамках співпраці між студентами та викладачами Каліфорнійського університету в Берклі, Університету Сан-Дієго та Університету Карнегі-Меллона.

Chatbot Arena представляє користувачеві, який заходить на сайт, поле для введення чату і два вікна, що показують результати роботи двох анонімних великих мовних моделей ШІ. Завдання користувача полягає в тому, щоб оцінити, яка відповідь є кращою на основі будь-яких критеріїв, які користувач вважає найбільш прийнятними. Завдяки тисячам таких суб'єктивних порівнянь Chatbot Arena обчислює «найкращі» моделі в сукупності та заповнює таблицю лідерів, оновлюючи її з часом.

Chatbot Arena важлива для дослідників, оскільки вони часто розчаровуються, намагаючись виміряти ефективність чат-ботів зі штучним інтелектом, чиї результати важко піддаються кількісній оцінці.

Провісники перемоги Claude 3 почали з’являтися ще кілька тижнів тому. «Щойно мав довгу сесію кодування з Claude 3 Opus, і він абсолютно розтрощив GPT-4. Не думаю, що стандартні бенчмарки справедливо оцінюють цю модель», — написав розробник програмного забезпечення для ШІ Антон Бакай 19 березня.

Наразі в рейтингу є чотири різні версії GPT-4, які являють собою інкрементні оновлення LLM, які заморожуються в часі, оскільки кожна з них має унікальний стиль виводу, і деякі розробники, які використовують їх з API OpenAI, потребують узгодженості, щоб їхні програми, побудовані на основі вихідних даних GPT-4, не зламалися.

Проте, навіть з чотирма моделями GPT-4 у списку лідерів, моделі Claude 3 від Anthropic послідовно підіймаються вгору з моменту їхнього випуску на початку цього місяця. Успіх Claude 3 серед асистентів зі штучним інтелектом вже призвів до того, що деякі користувачі великих мовних моделей замінили ChatGPT у своєму повсякденному робочому процесі, що потенційно може поглинути частку ринку ChatGPT.

Схожий за можливостями Gemini Advanced від Google також набирає обертів у сфері ШІ-помічників. Це може змусити OpenAI насторожитися, але в довгостроковій перспективі компанія готує нові моделі. Очікується, що вона випустить новий великий наступник GPT-4 Turbo (під назвою GPT-4.5 або GPT-5) десь цього року, можливо, влітку. Конкуренція на ринку ШІ все більше загострюється, і схоже, що рейтинг лідерів Chatbot Arena в найближчі місяці та роки ставатиме дедалі цікавішим.

Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Топ-10 великих мовних моделей ШІ за рейтингом LMSYS Chatbot Arena: чи вдалося Claude перевершити GPT4
Топ-10 великих мовних моделей ШІ за рейтингом LMSYS Chatbot Arena: чи вдалося Claude перевершити GPT4
По темi
Топ-10 великих мовних моделей ШІ за рейтингом LMSYS Chatbot Arena: чи вдалося Claude перевершити GPT4
«Це Rolls-Royce серед моделей ШІ»: Anthropic представив нову модель штучного інтелекту Claude 3
«Це Rolls-Royce серед моделей ШІ»: Anthropic представив нову модель штучного інтелекту Claude 3
По темi
«Це Rolls-Royce серед моделей ШІ»: Anthropic представив нову модель штучного інтелекту Claude 3
Як створити власного ШІ-помічника без жодного програмування в Copilot або ChatGPT
Як створити власного ШІ-помічника без жодного програмування в Copilot або ChatGPT
По темi
Як створити власного ШІ-помічника без жодного програмування в Copilot або ChatGPT
УЧАСТЬ В АЗАРТНИХ ІГРАХ МОЖЕ ВИКЛИКАТИ ІГРОВУ ЗАЛЕЖНІСТЬ. ДОТРИМУЙТЕСЯ ПРАВИЛ (ПРИНЦИПІВ) ВІДПОВІДАЛЬНОЇ ГРИ.
Ліцензія видана ТОВ "СЛОТС Ю.ЕЙ." на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 15.09.23 (рішення КРАІЛ №245 від 31.08.2023); ТОВ "СЛОТС Ю.ЕЙ." – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 26.04.2021 (рішення КРАІЛ №150 від 12.04.2021); ТОВ «СПЕЙСИКС» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 08.02.2021 (рішення КРАІЛ №34 від 02.02.2021); ТОВ «ГЕЙМДЕВ» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 16.02.2021 (рішення № 47 від 10.02.2021).
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті. 

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.