Antropic запустили першу у світі гібридну ШІ-модель із «розмірковуванням». Чому нова Claude 3.7 Sonnet — це 2 в 1 - блог

Нова Claude 3.7 Sonnet — це 2 в 1: класична модель із миттєвими відповідями та модель із розширеним, покроковим «розмірковуванням». Тобто вони не випускали окрему модель, орієнтовану на більш тривалий час «міркування», як OpenAI з o1 чи o3-mini, а додали це до стандартної моделі.

Що однозначно порадує вас, ця нова ШІ-модель Claude доступна навіть у безоплатній версії. Хоча «розмірковування» все ж доступне поки лише в платній версії за $20/місяць.

Claude і раніше був улюбленцем розробників для допомоги в роботі з кодом, а зараз модель стала ще кращою за попередню в кодуванні та інтерфейсній веброзробці. За тестом SWE-bench випереджає всіх на ринку!

Особливий респект Anthropic за те, що вони менше оптимізували модель для математики та інформатики, а замість цього змістили фокус на реальні завдання, які краще відображають те, як компанії насправді використовують LLM. Окремо потішило, що мою типову задачу на логіку ця нова модель у звичайному режимі вирішила правильно з другої спроби, після мого запитання «точно?»: «В 12-поверховому будинку є ліфт. На першому поверсі живе всього 2 людей, від поверху до поверху кількість мешканців збільшується вдвічі. На якому поверсі в цьому будинку частіше інших натискається кнопка виклику ліфта?».

А в режимі «розмірковування» цю задачу на логіку модель вирішила правильно з першого разу! Для порівняння, o3-mini з цим не справляється. Зізнаюся, що після того, як прочитав, що ця ШІ-модель є гібридною, очікував, що можна буде робити будь-який запит (промпт), а система самостійно та автоматично визначатиме, яку модель підключати для вирішення моєї задачі — звичайну чи з «розмірковуванням». Але досі доводиться обирати режим «normal» чи «extended».

З точки зору користувача, це нічим не відрізняється від того, що я перемикаюсь між моделями GPT-4o і o3-mini в ChatGPT. Тобто поки не відчуваю якихось реальних переваг від цієї так званої гібридності ШІ-моделі. Ба більше, Claude фактично презентували цю модель, що вміє в «розмірковування», останніми. Як відповідь на o1 і o3-mini від OpenAI та Flash Thinking від Gemini. Навіть Grok 3 Ілона Маска нещодавно вийшов із можливостями «розмірковування».

Але ми знаємо, що OpenAI також планують відмовлятися від окремих моделей, що розмірковують, на кшталт о1 чи о3, та збираються інтегрувати їх у «загальні» моделі. Тобто ця гібридність, або уніфікованість, моделей стає нормою.