Alibaba випустила Qwen3, сімейство «гібридних» ШІ-моделей міркувань
Китайська Alibaba представила Qwen3 — сімейство моделей штучного інтелекту. Їхній розмір варіюється від 0,6 млрд до 235 млрд параметрів.
Китайська Alibaba представила Qwen3 — сімейство моделей штучного інтелекту. Їхній розмір варіюється від 0,6 млрд до 235 млрд параметрів.
Китайська Alibaba представила Qwen3 — сімейство моделей штучного інтелекту. Їхній розмір варіюється від 0,6 млрд до 235 млрд параметрів.
Більшість моделей доступні — або незабаром будуть доступні — для завантаження під «відкритою» ліцензією на платформі для розробників ШІ Hugging Face і GitHub, повідомляє TechCrunch.
Згідно з Alibaba, Qwen3 є «гібридними» моделями — вони можуть витрачати час на «міркування» над складними проблемами або швидко відповідати на простіші запити.
Компанія інтегрувала режими «мислення» і «немислення», що дозволить користувачам налаштовувати бюджети для конкретних завдань.
Деякі моделі також використовують комбінацію експертної архітектури (MoE), яка може бути більш обчислювально ефективною для відповідей на запити. MoE розбиває завдання на підзадачі та делегує їх меншим, спеціалізованим «експертним» моделям.
Моделі Qwen3 підтримують 119 мов і були навчені на наборі даних понад 36 трлн токенів. Компанія заявила, що Qwen3 навчався на комбінації підручників, «пар запитань-відповідей», фрагментів коду, даних, згенерованих штучним інтелектом тощо.
Ці вдосконалення, разом з іншими, значно розширили можливості Qwen3 порівняно з його попередником, Qwen2, зазначила Alibaba. Жодна з моделей Qwen3, здається, не перевершує новітні моделі, такі як o3 та o4-mini від OpenAI, але вони, однак є сильними учасниками.
На Codeforces, платформі для змагань з програмування, найбільша модель Qwen3 — Qwen-3-235B-A22B — випередила o3-mini від OpenAI та Gemini 2.5 Pro від Google. Qwen-3-235B-A22B також перевершує o3-mini в останній версії AIME, складному математичному тесті, і BFCL, тесті для оцінки здатності моделі «міркувати» про проблеми. Але Qwen-3-235B-A22B не є загальнодоступною — принаймні поки що.
Друга модель Qwen3, Qwen3-32B, яка є публічною, перевершує модель o1 від OpenAI в декількох тестах, включаючи бенчмарк кодування LiveCodeBench.
На додаток до моделей для завантаження, Qwen3 доступний у хмарних провайдерів, включаючи Fireworks AI й Hyperbolic.