«Потужна як GPT-3.5, тільки в меншому формфакторі». Microsoft представила легку модель ШІ для смартфонів — Phi-3 Mini
Microsoft випустила наступну версію своєї легкої моделі ШІ Phi-3 Mini, першу з трьох запланованих невеликих моделей.
Microsoft випустила наступну версію своєї легкої моделі ШІ Phi-3 Mini, першу з трьох запланованих невеликих моделей.
Phi-3 Mini вимірює 3,8 мільярда параметрів і навчається на меншому наборі даних порівняно з великими мовними моделями, такими як GPT-4. Зараз він доступний на Azure, Hugging Face та Ollama. Microsoft планує випустити Phi-3 Small (7B параметрів) і Phi-3 Medium (14B параметрів). Параметри означають, скільки складних інструкцій може зрозуміти модель, повідомляє The Verge.
У грудні минулого року компанія випустила Phi-2, яка працювала так само добре, як і більші моделі, такі як Llama 2. Microsoft каже, що Phi-3 працює ще краще за попередню версію, і може надавати відповіді, близькі до того, як це може робити модель у 10 разів більша за неї.
Ерік Бойд, корпоративний віцепрезидент Microsoft Azure AI Platform, розповів The Verge, що Phi-3 Mini настільки ж потужна, як така LLM, як GPT-3.5, «тільки в меншому формфакторі».
Порівняно зі своїми більшими аналогами, невеликі моделі ШІ часто дешевші в експлуатації та краще працюють на персональних пристроях, таких як телефони та ноутбуки. Раніше цього року видання The Information повідомляло, що Microsoft формує команду, яка зосередиться саме на легких моделях штучного інтелекту. Окрім Phi, компанія також створила Orca-Math — модель, орієнтовану на розв’язання математичних задач.
Бойд каже, що розробники навчали Phi-3 за «навчальною програмою». Вони надихалися тим, як діти вчаться на казках — книжок з простішими словами та структурами речень, які говорять про складніші теми.
«На ринку недостатньо дитячих книжок, тому ми взяли список з більш ніж 3000 слів і попросили одну з LLM написати „дитячі книжки“ для навчання Phi», — каже Бойд.
Він додав, що Phi-3 просто спирається на те, чого навчилися попередні версії. У той час як Phi-1 зосереджувалась на кодуванні, а Phi-2 почала вчитися міркувати, Phi-3 краще кодує і міркує. Хоча моделі сімейства Phi-3 володіють деякими загальними знаннями, вони не можуть зрівнятися з GPT-4 або іншими LLM за широтою охоплення — існує велика різниця в тому, які відповіді можна отримати від LLM, яка пройшла підготовку на основі всього інтернету, в порівнянні з меншою моделлю, такою як Phi-3.
Бойд каже, що компанії часто вважають, що менші моделі, такі як Phi-3, краще підходять для їхніх індивідуальних додатків, оскільки для багатьох компаній їхні внутрішні набори даних все одно будуть меншими. А оскільки ці моделі використовують меншу обчислювальну потужність, вони часто набагато доступніші за ціною.