«Мощная как GPT-3.5, только в меньшем формфакторе». Microsoft представила легкую модель ШИ для смартфонов - Phi-3 Mini
Microsoft выпустила следующую версию своей лёгкой модели ИИ Phi-3 Mini, первую из трех запланированных небольших моделей.
Microsoft выпустила следующую версию своей лёгкой модели ИИ Phi-3 Mini, первую из трех запланированных небольших моделей.
Phi-3 Mini измеряет 3,8 миллиарда параметров и учится на меньшем наборе данных по сравнению с большими языковыми моделями, такими как GPT-4. Сейчас он доступен на Azure, Hugging Face и Olama. Microsoft планирует выпустить Phi-3 Small (7B параметров) и Phi-3 Medium (14B параметров). Параметры означают сколько сложных инструкций может понять модель, сообщает The Verge.
В декабре прошлого года компания выпустила Phi-2, которая работала так же хорошо, как и большие модели, такие как Llama 2. Microsoft говорит, что Phi-3 работает еще лучше предыдущей версии, и может давать ответы, близкие к тому, как это может делать модель в 10 раз больше ее.
Эрик Бойд, корпоративный вице-президент Microsoft Azure AI Platform, рассказал The Verge, что Phi-3 Mini столь же мощна, как такая LLM, как GPT-3.5, «только в меньшем формфакторе».
По сравнению со своими большими аналогами, небольшие модели ИИ часто дешевле в эксплуатации и лучше работают на персональных устройствах, таких как телефоны и ноутбуки. Ранее в этом году The Information сообщало, что Microsoft формирует команду, которая сосредоточится именно на легких моделях искусственного интеллекта. Помимо Phi, компания также создала Orca-Math — модель, ориентированную на решение математических задач.
Бойд говорит, что разработчики обучали Phi-3 по «учебной программе». Они вдохновлялись тем, как дети учатся на сказках — книг с более простыми словами и структурами предложений, которые говорят о более сложных темах.
«На рынке недостаточно детских книг, поэтому мы взяли список из более чем 3000 слов и попросили одну из LLM написать „детские книги“ для обучения Phi», — говорит Бойд.
Он добавил, что Phi-3 просто опирается на то, чему научились предыдущие версии. В то время как Phi-1 сосредотачивалась на кодировке, а Phi-2 начала учиться размышлять, Phi-3 лучше кодирует и рассуждает. Хотя модели семейства Phi-3 обладают некоторыми общими знаниями, они не могут сравниться с GPT-4 или другими LLM по широте охвата — существует большая разница в том, какие ответы можно получить от LLM, прошедшей подготовку на основе всего интернета, по сравнению с меньшей моделью, такой как Phi-3.
Бойд говорит, что компании часто считают, что меньшие модели, такие как Phi-3, лучше подходят для их индивидуальных приложений, поскольку для многих компаний их внутренние наборы данных все равно будут меньше. А поскольку эти модели используют меньшую вычислительную мощность, они часто гораздо доступнее по цене.