💳 Термінова новина! Trustee Plus — найкраще рішення для розрахунку криптою 👉
Олександр КузьменкоШІ (ai)
28 марта 2024, 12:34
2024-03-28
Конкуренция обостряется — Claude 3 впервые обошел GPT-4 в рейтинге возможностей ИИ
Большая языковая модель Claude 3 Opus от Anthropic впервые опередила GPT-4 от OpenAI на Chatbot Arena — популярном краудсорсинговом рейтинге, используемом исследователями ИИ для оценки относительных возможностей языковых моделей ИИ. Что это значит для промышленности искусственного интеллекта.
«Король умер. RIP GPT-4», — написал разработчик программного обеспечения Ник Добос в X (Twitter), сравнивая GPT-4 Turbo и Claude 3 Opus, распространяющийся в социальных сетях. Об этом сообщает Ars Technica.
С момента включения GPT-4 в Chatbot Arena примерно 10 мая 2023 года (таблица лидеров была запущена 3 мая того же года), вариации GPT-4 неизменно занимали верхние строчки рейтинга, и ее поражение на Арене — заметный момент в относительно короткой истории языковых моделей искусственного интеллекта. Одна из меньших моделей Anthropic, Haiku также привлекает внимание своими показателями в таблице лидеров.
«Впервые лучшие доступные модели — Opus для сложных задач, Haiku по стоимости и эффективности — от поставщика, не являющегося OpenAI. Это обнадеживает — мы все выигрываем от разнообразия ведущих поставщиков в этой области. Но GPT-4 уже больше года, и этот год понадобился для того, чтобы кто-то другой смог его догнать», — сказал независимый исследователь ИИ Саймон Уиллисон.
Как работает Chatbot Arena
Chatbot Arena управляется Организацией крупных модельных систем (LMSYS ORG), исследовательской организацией, занимающейся открытыми моделями, работающей в рамках сотрудничества между студентами и преподавателями Калифорнийского университета в Беркли, Университета Сан-Диего и Университета Карнеги-Меллона.
Chatbot Arena представляет пользователю, входящему на сайт, поле для ввода чата и два окна, показывающих результаты работы двух анонимных больших языковых моделей ИИ. Задача пользователя состоит в том, чтобы оценить, какой ответ является предпочтительным на основе любых критериев, которые пользователь считает наиболее приемлемыми. Благодаря тысячам таких субъективных сравнений, Chatbot Arena вычисляет «лучшие» модели в совокупности и заполняет таблицу лидеров, обновляя ее со временем.
Chatbot Arena важна для исследователей, поскольку они часто разочаровываются, пытаясь измерить эффективность чат-ботов с искусственным интеллектом, результаты которых трудно поддаются количественной оценке.
Предвестники победы Claude 3 начали появляться еще несколько недель назад. «Только что имел длинную сессию кодирования с Claude 3 Opus, и он совершенно разбил GPT-4. Не думаю, что стандартные бенчмарки по праву оценивают эту модель», — написал разработчик программного обеспечения для ИИ Антон Бакай 19 марта.
Сейчас в рейтинге есть четыре разные версии GPT-4, которые представляют собой инкрементные обновления LLM, которые замораживаются во времени, поскольку каждая из них имеет уникальный стиль вывода, и некоторые разработчики, использующие их с API OpenAI, нуждаются в согласовании, чтобы их программы, построенные на основе исходных данных GPT-4, не сломались.
Однако даже с четырьмя моделями GPT-4 в списке лидеров, модели Claude 3 от Anthropic последовательно поднимаются с момента их выпуска в начале этого месяца. Успех Claude 3 среди ассистентов с искусственным интеллектом уже привел к тому, что некоторые пользователи больших языковых моделей заменили ChatGPT в своем повседневном рабочем процессе, что может поглотить долю рынка ChatGPT.
Похожий по возможностям Gemini Advanced от Google также набирает обороты в сфере ИИ-помощников. Это может заставить OpenAI насторожиться, но в долгосрочной перспективе компания готовит новые модели. Ожидается, что она выпустит новый крупный преемник GPT-4 Turbo (под названием GPT-4.5 или GPT-5) в этом году, возможно, летом. Конкуренция на рынке ИИ все больше обостряется, и, похоже, рейтинг лидеров Chatbot Arena в ближайшие месяцы и годы будет становиться все интереснее.
УЧАСТЬ В АЗАРТНИХ ІГРАХ МОЖЕ ВИКЛИКАТИ ІГРОВУ ЗАЛЕЖНІСТЬ. ДОТРИМУЙТЕСЯ ПРАВИЛ (ПРИНЦИПІВ) ВІДПОВІДАЛЬНОЇ ГРИ.
Ліцензія видана ТОВ "СЛОТС Ю.ЕЙ." на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 15.09.23 (рішення КРАІЛ №245 від 31.08.2023); ТОВ "СЛОТС Ю.ЕЙ." – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 26.04.2021 (рішення КРАІЛ №150 від 12.04.2021); ТОВ «СПЕЙСИКС» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 08.02.2021 (рішення КРАІЛ №34 від 02.02.2021); ТОВ «ГЕЙМДЕВ» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 16.02.2021 (рішення № 47 від 10.02.2021).
Молчаливый копирайтер и дефицит «печенек». Украинский стартап знает, как будет выглядеть реклама в Facebook в будущем
CEO и фаундер Signum.AI Артем Гладких объявил в сентябре об официальном запуске решения по генерации рекламных постов для Facebook на базе одной из самых мощных на сегодня генеративных нейронных сетей — GPT-3. Последняя является детищем компании Open AI, которую запускали при участиии Илона Маска.
Хотите сообщить важную новость? Пишите в Telegram-бот
Главные события и полезные ссылки в нашем Telegram-канале