Олександр Кузьменко ШІ 28 березня 2024, 12:34

Конкуренція загострюється — Claude 3 вперше обійшов GPT-4 в рейтингу можливостей ШІ

Велика мовна модель Claude 3 Opus від Anthropic вперше випередила GPT-4 від OpenAI на Chatbot Arena — популярному краудсорсинговому рейтингу, який використовується дослідниками ШІ для оцінки відносних можливостей мовних моделей ШІ. Що це означає для індустрії штучного інтелекту.

Залишити коментар

Конкуренція загострюється — Claude 3 вперше обійшов GPT-4 в рейтингу можливостей ШІ

Велика мовна модель Claude 3 Opus від Anthropic вперше випередила GPT-4 від OpenAI на Chatbot Arena — популярному краудсорсинговому рейтингу, який використовується дослідниками ШІ для оцінки відносних можливостей мовних моделей ШІ. Що це означає для індустрії штучного інтелекту.

«Король помер. RIP GPT-4», — написав розробник програмного забезпечення Нік Добос в X (Twitter), порівнюючи GPT-4 Turbo і Claude 3 Opus, який поширюється в соціальних мережах. Про це повідомляє Ars Technica.

З моменту включення GPT-4 до Chatbot Arena приблизно 10 травня 2023 року (таблиця лідерів була запущена 3 травня того ж року), варіації GPT-4 незмінно займали верхні рядки рейтингу, тож її поразка на Арені — помітний момент у відносно короткій історії мовних моделей штучного інтелекту. Одна з менших моделей Anthropic, Haiku, також привертає увагу своїми показниками в таблиці лідерів.

«Вперше найкращі доступні моделі — Opus для складних завдань, Haiku за вартістю та ефективністю — від постачальника, який не є OpenAI. Це обнадіює — ми всі виграємо від різноманітності провідних постачальників в цій галузі. Але GPT-4 вже понад рік, і цей рік знадобився для того, щоб хтось інший зміг його наздогнати», — сказав незалежний дослідник ШІ Саймон Віллісон.

Скріншот таблиці лідерів Chatbot Arena, на якому Claude 3 Opus випередив GPT-4 Turbo

Як працює Chatbot Arena

Chatbot Arena управляється Організацією великих модельних систем (LMSYS ORG), дослідницькою організацією, що займається відкритими моделями, яка працює в рамках співпраці між студентами та викладачами Каліфорнійського університету в Берклі, Університету Сан-Дієго та Університету Карнегі-Меллона.

Chatbot Arena представляє користувачеві, який заходить на сайт, поле для введення чату і два вікна, що показують результати роботи двох анонімних великих мовних моделей ШІ. Завдання користувача полягає в тому, щоб оцінити, яка відповідь є кращою на основі будь-яких критеріїв, які користувач вважає найбільш прийнятними. Завдяки тисячам таких суб'єктивних порівнянь Chatbot Arena обчислює «найкращі» моделі в сукупності та заповнює таблицю лідерів, оновлюючи її з часом.

Chatbot Arena важлива для дослідників, оскільки вони часто розчаровуються, намагаючись виміряти ефективність чат-ботів зі штучним інтелектом, чиї результати важко піддаються кількісній оцінці.

Провісники перемоги Claude 3 почали з’являтися ще кілька тижнів тому. «Щойно мав довгу сесію кодування з Claude 3 Opus, і він абсолютно розтрощив GPT-4. Не думаю, що стандартні бенчмарки справедливо оцінюють цю модель», — написав розробник програмного забезпечення для ШІ Антон Бакай 19 березня.

Наразі в рейтингу є чотири різні версії GPT-4, які являють собою інкрементні оновлення LLM, які заморожуються в часі, оскільки кожна з них має унікальний стиль виводу, і деякі розробники, які використовують їх з API OpenAI, потребують узгодженості, щоб їхні програми, побудовані на основі вихідних даних GPT-4, не зламалися.

Проте, навіть з чотирма моделями GPT-4 у списку лідерів, моделі Claude 3 від Anthropic послідовно підіймаються вгору з моменту їхнього випуску на початку цього місяця. Успіх Claude 3 серед асистентів зі штучним інтелектом вже призвів до того, що деякі користувачі великих мовних моделей замінили ChatGPT у своєму повсякденному робочому процесі, що потенційно може поглинути частку ринку ChatGPT.

Схожий за можливостями Gemini Advanced від Google також набирає обертів у сфері ШІ-помічників. Це може змусити OpenAI насторожитися, але в довгостроковій перспективі компанія готує нові моделі. Очікується, що вона випустить новий великий наступник GPT-4 Turbo (під назвою GPT-4.5 або GPT-5) десь цього року, можливо, влітку. Конкуренція на ринку ШІ все більше загострюється, і схоже, що рейтинг лідерів Chatbot Arena в найближчі місяці та роки ставатиме дедалі цікавішим.

Читайте головні IT-новини країни в нашому Telegram

Топ-10 великих мовних моделей ШІ за рейтингом LMSYS Chatbot Arena: чи вдалося Claude перевершити GPT4

«Це Rolls-Royce серед моделей ШІ»: Anthropic представив нову модель штучного інтелекту Claude 3

Як створити власного ШІ-помічника без жодного програмування в Copilot або ChatGPT

Залишити коментар

Текст: Олександр Кузьменко Фото: Counterpoint Research Джерело: Ars Technica Теги: anthropic, chatgpt, claude 3, openai, штучний інтелект

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Штучний інтелект почав озвучувати фільми на MEGOGO

3 коментарі

Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео

2 коментарі

«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого

Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар