💳 Термінова новина! Trustee Plus — найкраще рішення для розрахунку криптою 👉

Конкуренция обостряется — Claude 3 впервые обошел GPT-4 в рейтинге возможностей ИИ

Большая языковая модель Claude 3 Opus от Anthropic впервые опередила GPT-4 от OpenAI на Chatbot Arena — популярном краудсорсинговом рейтинге, используемом исследователями ИИ для оценки относительных возможностей языковых моделей ИИ. Что это значит для промышленности искусственного интеллекта.

Оставить комментарий
Конкуренция обостряется — Claude 3 впервые обошел GPT-4 в рейтинге возможностей ИИ

Большая языковая модель Claude 3 Opus от Anthropic впервые опередила GPT-4 от OpenAI на Chatbot Arena — популярном краудсорсинговом рейтинге, используемом исследователями ИИ для оценки относительных возможностей языковых моделей ИИ. Что это значит для промышленности искусственного интеллекта.

«Король умер. RIP GPT-4», — написал разработчик программного обеспечения Ник Добос в X (Twitter), сравнивая GPT-4 Turbo и Claude 3 Opus, распространяющийся в социальных сетях. Об этом сообщает Ars Technica.

С момента включения GPT-4 в Chatbot Arena примерно 10 мая 2023 года (таблица лидеров была запущена 3 мая того же года), вариации GPT-4 неизменно занимали верхние строчки рейтинга, и ее поражение на Арене — заметный момент в относительно короткой истории языковых моделей искусственного интеллекта. Одна из меньших моделей Anthropic, Haiku также привлекает внимание своими показателями в таблице лидеров.

«Впервые лучшие доступные модели — Opus для сложных задач, Haiku по стоимости и эффективности — от поставщика, не являющегося OpenAI. Это обнадеживает — мы все выигрываем от разнообразия ведущих поставщиков в этой области. Но GPT-4 уже больше года, и этот год понадобился для того, чтобы кто-то другой смог его догнать», — сказал независимый исследователь ИИ Саймон Уиллисон.

Скриншот таблицы лидеров Chatbot Arena, на котором Claude 3 Opus опередил GPT-4 Turbo

Как работает Chatbot Arena

Chatbot Arena управляется Организацией крупных модельных систем (LMSYS ORG), исследовательской организацией, занимающейся открытыми моделями, работающей в рамках сотрудничества между студентами и преподавателями Калифорнийского университета в Беркли, Университета Сан-Диего и Университета Карнеги-Меллона.

Chatbot Arena представляет пользователю, входящему на сайт, поле для ввода чата и два окна, показывающих результаты работы двух анонимных больших языковых моделей ИИ. Задача пользователя состоит в том, чтобы оценить, какой ответ является предпочтительным на основе любых критериев, которые пользователь считает наиболее приемлемыми. Благодаря тысячам таких субъективных сравнений, Chatbot Arena вычисляет «лучшие» модели в совокупности и заполняет таблицу лидеров, обновляя ее со временем.

Chatbot Arena важна для исследователей, поскольку они часто разочаровываются, пытаясь измерить эффективность чат-ботов с искусственным интеллектом, результаты которых трудно поддаются количественной оценке.

Предвестники победы Claude 3 начали появляться еще несколько недель назад. «Только что имел длинную сессию кодирования с Claude 3 Opus, и он совершенно разбил GPT-4. Не думаю, что стандартные бенчмарки по праву оценивают эту модель», — написал разработчик программного обеспечения для ИИ Антон Бакай 19 марта.

Сейчас в рейтинге есть четыре разные версии GPT-4, которые представляют собой инкрементные обновления LLM, которые замораживаются во времени, поскольку каждая из них имеет уникальный стиль вывода, и некоторые разработчики, использующие их с API OpenAI, нуждаются в согласовании, чтобы их программы, построенные на основе исходных данных GPT-4, не сломались.

Однако даже с четырьмя моделями GPT-4 в списке лидеров, модели Claude 3 от Anthropic последовательно поднимаются с момента их выпуска в начале этого месяца. Успех Claude 3 среди ассистентов с искусственным интеллектом уже привел к тому, что некоторые пользователи больших языковых моделей заменили ChatGPT в своем повседневном рабочем процессе, что может поглотить долю рынка ChatGPT.

Похожий по возможностям Gemini Advanced от Google также набирает обороты в сфере ИИ-помощников. Это может заставить OpenAI насторожиться, но в долгосрочной перспективе компания готовит новые модели. Ожидается, что она выпустит новый крупный преемник GPT-4 Turbo (под названием GPT-4.5 или GPT-5) в этом году, возможно, летом. Конкуренция на рынке ИИ все больше обостряется, и, похоже, рейтинг лидеров Chatbot Arena в ближайшие месяцы и годы будет становиться все интереснее.

Читайте главные IT-новости страны в нашем Telegram
Читайте главные IT-новости страны в нашем Telegram
По теме
Читайте главные IT-новости страны в нашем Telegram
Топ-10 крупных языковых моделей ШИ по рейтингу LMSYS Chatbot Arena: удалось ли Claude превзойти GPT4
Топ-10 крупных языковых моделей ШИ по рейтингу LMSYS Chatbot Arena: удалось ли Claude превзойти GPT4
По теме
Топ-10 крупных языковых моделей ШИ по рейтингу LMSYS Chatbot Arena: удалось ли Claude превзойти GPT4
"Это Rolls-Royce среди моделей ИИ": Anthropic представил новую модель искусственного интеллекта Claude 3
«Это Rolls-Royce среди моделей ИИ»: Anthropic представил новую модель искусственного интеллекта Claude 3
По теме
«Это Rolls-Royce среди моделей ИИ»: Anthropic представил новую модель искусственного интеллекта Claude 3
Как создать собственный ШИ-помощник без программирования в Copilot или ChatGPT
Как создать собственный ШИ-помощник без программирования в Copilot или ChatGPT
По теме
Как создать собственный ШИ-помощник без программирования в Copilot или ChatGPT
УЧАСТЬ В АЗАРТНИХ ІГРАХ МОЖЕ ВИКЛИКАТИ ІГРОВУ ЗАЛЕЖНІСТЬ. ДОТРИМУЙТЕСЯ ПРАВИЛ (ПРИНЦИПІВ) ВІДПОВІДАЛЬНОЇ ГРИ.
Ліцензія видана ТОВ "СЛОТС Ю.ЕЙ." на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 15.09.23 (рішення КРАІЛ №245 від 31.08.2023); ТОВ "СЛОТС Ю.ЕЙ." – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 26.04.2021 (рішення КРАІЛ №150 від 12.04.2021); ТОВ «СПЕЙСИКС» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 08.02.2021 (рішення КРАІЛ №34 від 02.02.2021); ТОВ «ГЕЙМДЕВ» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 16.02.2021 (рішення № 47 від 10.02.2021).
Читайте также
Collaba. Искусственный интеллект помог Ивану Дорну найти музыкальные таланты
Collaba. Искусственный интеллект помог Ивану Дорну найти музыкальные таланты
Collaba. Искусственный интеллект помог Ивану Дорну найти музыкальные таланты
Террористический хаос, неравенство и автономные киллеры. 7 главных мыслей тайваньского AI-гуру Кай-Фу Ли о развитии эры искусственного интеллекта
Террористический хаос, неравенство и автономные киллеры. 7 главных мыслей тайваньского AI-гуру Кай-Фу Ли о развитии эры искусственного интеллекта
Террористический хаос, неравенство и автономные киллеры. 7 главных мыслей тайваньского AI-гуру Кай-Фу Ли о развитии эры искусственного интеллекта
В «Киевстар» будут внедрять NLU в IVR и чат боте. Для направления уже ищут PM
В «Киевстар» будут внедрять NLU в IVR и чат боте. Для направления уже ищут PM
В «Киевстар» будут внедрять NLU в IVR и чат боте. Для направления уже ищут PM
Молчаливый копирайтер и дефицит «печенек». Украинский стартап знает, как будет выглядеть реклама в Facebook в будущем
Молчаливый копирайтер и дефицит «печенек». Украинский стартап знает, как будет выглядеть реклама в Facebook в будущем
Молчаливый копирайтер и дефицит «печенек». Украинский стартап знает, как будет выглядеть реклама в Facebook в будущем
CEO и фаундер Signum.AI Артем Гладких объявил в сентябре об официальном запуске решения по генерации рекламных постов для Facebook на базе одной из самых мощных на сегодня генеративных нейронных сетей — GPT-3. Последняя является детищем компании Open AI, которую запускали при участиии Илона Маска. 

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментариев пока нет.