Google випустила ШІ-модель Gemma 4 12B, яку можна запустити на звичайному ноутбуці із 16 ГБ пам'яті
Головною особливістю релізу стала унікальна архітектура, яка дозволяє обробляти аудіо та відео безпосередньо, а також оптимізація для запуску автономних агентів на звичайних комп’ютерах із 16 ГБ оперативної пам’яті.
Головною особливістю релізу стала унікальна архітектура, яка дозволяє обробляти аудіо та відео безпосередньо, а також оптимізація для запуску автономних агентів на звичайних комп’ютерах із 16 ГБ оперативної пам’яті.
Про випуск нової нейромережі повідомляється в офіційному блозі проєкту. Модель заповнює нішу між легкою версією E4B та складнішою 26B Mixture of Experts (MoE). Зазначається, що 12-мільярдна версія практично досягає показників старшої моделі у стандартних бенчмарках, але при цьому потребує вдвічі менше ресурсів пам’яті.
Основна технічна інновація Gemma 4 12B полягає у відмові від окремих мультимодальних енкодерів. Традиційні системи використовують їх для розпізнавання та перекладу зображень і звуку перед передачею до мовної моделі, що неминуче збільшує затримку та споживання обчислювальної потужності. Натомість нова архітектура інтегрує ці дані напряму. Необроблений аудіосигнал проєктується безпосередньо у простір текстових токенів, а для обробки зображень залишили лише легкий модуль вбудовування, передавши основну роботу базовій мовній моделі.
«Завдяки спільноті розробників кількість завантажень моделей сімейства Gemma 4 вже перевищила 150 мільйонів. Їх використовують для створення найрізноманітніших продуктів від носимих роботизованих рук для фізичної допомоги до систем корпоративної безпеки на базі штучного інтелекту», — зазначають у Google.
Серед інших характеристик новинки — інтеграція технології Multi-Token Prediction (MTP) для додаткового зниження затримки під час генерації тексту.