🚀💳 Trustee Plus - більше ніж криптогаманець з європейською платіжною карткою. Спробуй 👉
Олександр КузьменкоШІ (ai)
28 марта 2024, 12:34
2024-03-28
Конкуренция обостряется — Claude 3 впервые обошел GPT-4 в рейтинге возможностей ИИ
Большая языковая модель Claude 3 Opus от Anthropic впервые опередила GPT-4 от OpenAI на Chatbot Arena — популярном краудсорсинговом рейтинге, используемом исследователями ИИ для оценки относительных возможностей языковых моделей ИИ. Что это значит для промышленности искусственного интеллекта.
Большая языковая модель Claude 3 Opus от Anthropic впервые опередила GPT-4 от OpenAI на Chatbot Arena — популярном краудсорсинговом рейтинге, используемом исследователями ИИ для оценки относительных возможностей языковых моделей ИИ. Что это значит для промышленности искусственного интеллекта.
«Король умер. RIP GPT-4», — написал разработчик программного обеспечения Ник Добос в X (Twitter), сравнивая GPT-4 Turbo и Claude 3 Opus, распространяющийся в социальных сетях. Об этом сообщает Ars Technica.
С момента включения GPT-4 в Chatbot Arena примерно 10 мая 2023 года (таблица лидеров была запущена 3 мая того же года), вариации GPT-4 неизменно занимали верхние строчки рейтинга, и ее поражение на Арене — заметный момент в относительно короткой истории языковых моделей искусственного интеллекта. Одна из меньших моделей Anthropic, Haiku также привлекает внимание своими показателями в таблице лидеров.
«Впервые лучшие доступные модели — Opus для сложных задач, Haiku по стоимости и эффективности — от поставщика, не являющегося OpenAI. Это обнадеживает — мы все выигрываем от разнообразия ведущих поставщиков в этой области. Но GPT-4 уже больше года, и этот год понадобился для того, чтобы кто-то другой смог его догнать», — сказал независимый исследователь ИИ Саймон Уиллисон.
Скриншот таблицы лидеров Chatbot Arena, на котором Claude 3 Opus опередил GPT-4 Turbo
Как работает Chatbot Arena
Chatbot Arena управляется Организацией крупных модельных систем (LMSYS ORG), исследовательской организацией, занимающейся открытыми моделями, работающей в рамках сотрудничества между студентами и преподавателями Калифорнийского университета в Беркли, Университета Сан-Диего и Университета Карнеги-Меллона.
Chatbot Arena представляет пользователю, входящему на сайт, поле для ввода чата и два окна, показывающих результаты работы двух анонимных больших языковых моделей ИИ. Задача пользователя состоит в том, чтобы оценить, какой ответ является предпочтительным на основе любых критериев, которые пользователь считает наиболее приемлемыми. Благодаря тысячам таких субъективных сравнений, Chatbot Arena вычисляет «лучшие» модели в совокупности и заполняет таблицу лидеров, обновляя ее со временем.
Chatbot Arena важна для исследователей, поскольку они часто разочаровываются, пытаясь измерить эффективность чат-ботов с искусственным интеллектом, результаты которых трудно поддаются количественной оценке.
Предвестники победы Claude 3 начали появляться еще несколько недель назад. «Только что имел длинную сессию кодирования с Claude 3 Opus, и он совершенно разбил GPT-4. Не думаю, что стандартные бенчмарки по праву оценивают эту модель», — написал разработчик программного обеспечения для ИИ Антон Бакай 19 марта.
Сейчас в рейтинге есть четыре разные версии GPT-4, которые представляют собой инкрементные обновления LLM, которые замораживаются во времени, поскольку каждая из них имеет уникальный стиль вывода, и некоторые разработчики, использующие их с API OpenAI, нуждаются в согласовании, чтобы их программы, построенные на основе исходных данных GPT-4, не сломались.
Однако даже с четырьмя моделями GPT-4 в списке лидеров, модели Claude 3 от Anthropic последовательно поднимаются с момента их выпуска в начале этого месяца. Успех Claude 3 среди ассистентов с искусственным интеллектом уже привел к тому, что некоторые пользователи больших языковых моделей заменили ChatGPT в своем повседневном рабочем процессе, что может поглотить долю рынка ChatGPT.
Похожий по возможностям Gemini Advanced от Google также набирает обороты в сфере ИИ-помощников. Это может заставить OpenAI насторожиться, но в долгосрочной перспективе компания готовит новые модели. Ожидается, что она выпустит новый крупный преемник GPT-4 Turbo (под названием GPT-4.5 или GPT-5) в этом году, возможно, летом. Конкуренция на рынке ИИ все больше обостряется, и, похоже, рейтинг лидеров Chatbot Arena в ближайшие месяцы и годы будет становиться все интереснее.
Молчаливый копирайтер и дефицит «печенек». Украинский стартап знает, как будет выглядеть реклама в Facebook в будущем
CEO и фаундер Signum.AI Артем Гладких объявил в сентябре об официальном запуске решения по генерации рекламных постов для Facebook на базе одной из самых мощных на сегодня генеративных нейронных сетей — GPT-3. Последняя является детищем компании Open AI, которую запускали при участиии Илона Маска.
Хотите сообщить важную новость? Пишите в Telegram-бот
Главные события и полезные ссылки в нашем Telegram-канале