Олександр Кузьменко ШІ (ai) 28 марта 2024, 12:34

Конкуренция обостряется — Claude 3 впервые обошел GPT-4 в рейтинге возможностей ИИ

Большая языковая модель Claude 3 Opus от Anthropic впервые опередила GPT-4 от OpenAI на Chatbot Arena — популярном краудсорсинговом рейтинге, используемом исследователями ИИ для оценки относительных возможностей языковых моделей ИИ. Что это значит для промышленности искусственного интеллекта.

Оставить комментарий

Конкуренция обостряется — Claude 3 впервые обошел GPT-4 в рейтинге возможностей ИИ

Большая языковая модель Claude 3 Opus от Anthropic впервые опередила GPT-4 от OpenAI на Chatbot Arena — популярном краудсорсинговом рейтинге, используемом исследователями ИИ для оценки относительных возможностей языковых моделей ИИ. Что это значит для промышленности искусственного интеллекта.

«Король умер. RIP GPT-4», — написал разработчик программного обеспечения Ник Добос в X (Twitter), сравнивая GPT-4 Turbo и Claude 3 Opus, распространяющийся в социальных сетях. Об этом сообщает Ars Technica.

С момента включения GPT-4 в Chatbot Arena примерно 10 мая 2023 года (таблица лидеров была запущена 3 мая того же года), вариации GPT-4 неизменно занимали верхние строчки рейтинга, и ее поражение на Арене — заметный момент в относительно короткой истории языковых моделей искусственного интеллекта. Одна из меньших моделей Anthropic, Haiku также привлекает внимание своими показателями в таблице лидеров.

«Впервые лучшие доступные модели — Opus для сложных задач, Haiku по стоимости и эффективности — от поставщика, не являющегося OpenAI. Это обнадеживает — мы все выигрываем от разнообразия ведущих поставщиков в этой области. Но GPT-4 уже больше года, и этот год понадобился для того, чтобы кто-то другой смог его догнать», — сказал независимый исследователь ИИ Саймон Уиллисон.

Скриншот таблицы лидеров Chatbot Arena, на котором Claude 3 Opus опередил GPT-4 Turbo

Как работает Chatbot Arena

Chatbot Arena управляется Организацией крупных модельных систем (LMSYS ORG), исследовательской организацией, занимающейся открытыми моделями, работающей в рамках сотрудничества между студентами и преподавателями Калифорнийского университета в Беркли, Университета Сан-Диего и Университета Карнеги-Меллона.

Chatbot Arena представляет пользователю, входящему на сайт, поле для ввода чата и два окна, показывающих результаты работы двух анонимных больших языковых моделей ИИ. Задача пользователя состоит в том, чтобы оценить, какой ответ является предпочтительным на основе любых критериев, которые пользователь считает наиболее приемлемыми. Благодаря тысячам таких субъективных сравнений, Chatbot Arena вычисляет «лучшие» модели в совокупности и заполняет таблицу лидеров, обновляя ее со временем.

Chatbot Arena важна для исследователей, поскольку они часто разочаровываются, пытаясь измерить эффективность чат-ботов с искусственным интеллектом, результаты которых трудно поддаются количественной оценке.

Предвестники победы Claude 3 начали появляться еще несколько недель назад. «Только что имел длинную сессию кодирования с Claude 3 Opus, и он совершенно разбил GPT-4. Не думаю, что стандартные бенчмарки по праву оценивают эту модель», — написал разработчик программного обеспечения для ИИ Антон Бакай 19 марта.

Сейчас в рейтинге есть четыре разные версии GPT-4, которые представляют собой инкрементные обновления LLM, которые замораживаются во времени, поскольку каждая из них имеет уникальный стиль вывода, и некоторые разработчики, использующие их с API OpenAI, нуждаются в согласовании, чтобы их программы, построенные на основе исходных данных GPT-4, не сломались.

Однако даже с четырьмя моделями GPT-4 в списке лидеров, модели Claude 3 от Anthropic последовательно поднимаются с момента их выпуска в начале этого месяца. Успех Claude 3 среди ассистентов с искусственным интеллектом уже привел к тому, что некоторые пользователи больших языковых моделей заменили ChatGPT в своем повседневном рабочем процессе, что может поглотить долю рынка ChatGPT.

Похожий по возможностям Gemini Advanced от Google также набирает обороты в сфере ИИ-помощников. Это может заставить OpenAI насторожиться, но в долгосрочной перспективе компания готовит новые модели. Ожидается, что она выпустит новый крупный преемник GPT-4 Turbo (под названием GPT-4.5 или GPT-5) в этом году, возможно, летом. Конкуренция на рынке ИИ все больше обостряется, и, похоже, рейтинг лидеров Chatbot Arena в ближайшие месяцы и годы будет становиться все интереснее.

Читайте главные IT-новости страны в нашем Telegram

Топ-10 крупных языковых моделей ШИ по рейтингу LMSYS Chatbot Arena: удалось ли Claude превзойти GPT4

"Это Rolls-Royce среди моделей ИИ": Anthropic представил новую модель искусственного интеллекта Claude 3

Как создать собственный ШИ-помощник без программирования в Copilot или ChatGPT

Оставить комментарий

Текст: Олександр Кузьменко Фото: Counterpoint Research Джерело: Ars Technica Теги: anthropic, claude 3, lmsys chatbot arena, openai, искусственный интеллект

Нашли ошибку в тексте — выделите её и нажмите Ctrl+Enter. Нашли ошибку в тексте — выделите её и нажмите кнопку «Сообщить об ошибке».

Розміщення реклами

Размещение рекламы

Collaba. Искусственный интеллект помог Ивану Дорну найти музыкальные таланты

Террористический хаос, неравенство и автономные киллеры. 7 главных мыслей тайваньского AI-гуру Кай-Фу Ли о развитии эры искусственного интеллекта

В «Киевстар» будут внедрять NLU в IVR и чат боте. Для направления уже ищут PM

Молчаливый копирайтер и дефицит «печенек». Украинский стартап знает, как будет выглядеть реклама в Facebook в будущем

CEO и фаундер Signum.AI Артем Гладких объявил в сентябре об официальном запуске решения по генерации рекламных постов для Facebook на базе одной из самых мощных на сегодня генеративных нейронных сетей — GPT-3. Последняя является детищем компании Open AI, которую запускали при участиии Илона Маска.

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Комментариев пока нет.

Войдите, чтобы оставить комментарий