Наталя Хандусенко ШІ 26 березня 2025, 12:28

Google випустила нову ШІ-модель Gemini 2.5 Pro. Компанія стверджує, що вона «найрозумніша» й перевершує в тестах конкурентів

Google представила нове сімейство ШІ-моделей міркувань Gemini 2.5, які зупиняються, щоб «подумати» перед тим, як дати відповіді. Компанія стверджує, що перша версія, Gemini 2.5 Pro Experimental, випереджає OpenAI, Anthropic, xAI та DeepSeek у загальних тестах ШІ, які вимірюють розуміння, математику, кодування та інші можливості.

Залишити коментар

Google випустила нову ШІ-модель Gemini 2.5 Pro. Компанія стверджує, що вона «найрозумніша» й перевершує в тестах конкурентів

Google представила нове сімейство ШІ-моделей міркувань Gemini 2.5, які зупиняються, щоб «подумати» перед тим, як дати відповіді. Компанія стверджує, що перша версія, Gemini 2.5 Pro Experimental, випереджає OpenAI, Anthropic, xAI та DeepSeek у загальних тестах ШІ, які вимірюють розуміння, математику, кодування та інші можливості.

У своєму дописі на X генеральний директор Google DeepMind Деміс Хассабіс назвав Gemini 2.5 Pro «приголомшливою сучасною моделлю, № 1 на LMArena з колосальними +39 балами ELO, зі значними покращеннями в мультимодальних міркуваннях, кодуванні та STEM».

Gemini 2.5 Pro is an awesome state-of-the-art model, no.1 on LMArena by a whopping +39 ELO points, with significant improvements across the board in multimodal reasoning, coding & STEM. You can try it out now in AI Studio https://t.co/lLpF8ToTVJ & @GeminiApp with Gemini Advanced https://t.co/bgjabz8O1u
— Demis Hassabis (@demishassabis) March 25, 2025

Найбільш примітно, що Gemini 2.5 Pro Experimental перевершив OpenAI o3 mini й Anthropic Claude 3.7 Sonnet в Humanity’s Last Exam (HLE), нещодавно створеному тесті, призначеному для боротьби з насиченням або проблемою галузевих тестів, що стають занадто простими для ШІ-моделей, що швидко розвиваються. Тому HLE є відносно складнішим тестом, із яким важко впоратися; Gemini 2.5 набрав 18,8% порівняно з 14% в o3 mini (оцінювалися лише текстові завдання, без зображень) та 8,9% у Claude 3.7 Sonnet, пише ZDNET.

Нова модель, яка вже очолила таблицю лідерів Chatbot Arena, також випередила конкурентів у загальних тестах із науки, математики та кодування, хоча зазвичай із меншим відривом, що є очікуваним з огляду на швидкість, з якою прискорюються нові моделі. Google повідомила, що Gemini 2.5 Pro Experimental демонструє покращення в міркуваннях, мультимодальних та агентних можливостях, навіть за допомогою «підказки в один рядок».

У відео нижче показано, як 2.5 Pro використовує можливості міркування для програмування відеоігри на основі однієї підказки.

Gemini 2.5 Pro доступний із контекстним вікном на один мільйон токенів для користувачів Gemini Advanced через Google AI Studio і додаток Gemini, а також «незабаром з’явиться у Vertex AI». Компанія додала, що опублікує інформацію про ціни протягом наступних кількох тижнів.

Нагадаємо, що Microsoft додала в Copilot інструменти для глибоких досліджень на основі ШІ — Researcher та Analyst.