UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉
Олександр КузьменкоШІ
18 червня 2025, 10:55
2025-06-18
Китайський стартап MiniMax випустив ШІ-модель M1, яка переважає GPT-4o за кількістю токенів та DeepSeek R1 за ефективністю
Китайський стартап MiniMax, відомий за ШІ Hailuo, випустив нову велику мовну модель MiniMax-M1. Вона має 1 млн вхідних токенів (80 000 вихідних), що робить її однією з найбільших моделей ШІ за цим показником.
Китайський стартап MiniMax, відомий за ШІ Hailuo, випустив нову велику мовну модель MiniMax-M1. Вона має 1 млн вхідних токенів (80 000 вихідних), що робить її однією з найбільших моделей ШІ за цим показником.
Для порівняння, GPT-4o від OpenAI має контекстне вікно лише 128 000 токенів — цього достатньо, щоб обмінятися інформацією обсягом як одна книга між користувачем і моделлю за одну взаємодію. З 1 мільйоном токенів MiniMax-M1 може обмінятися інформацією обсягом невеликої колекції або серії книг, зазначає VentureBeat. Google Gemini 2.5 Pro також пропонує верхню межу контексту токенів у 1 мільйон, а також, за повідомленнями, працює над вікном у 2 мільйони.
Що за «контекстне вікно» і токени
«Контекстне вікно» у великих мовних моделях (LLM) означає максимальну кількість токенів, які модель може обробити одночасно. Токени — це основні одиниці тексту, які можуть включати цілі слова, частини слів, розділові знаки або символи коду. Ці токени перетворюються на числові вектори, які модель використовує для представлення та маніпулювання значенням за допомогою своїх параметрів (ваги та упередження).
M1 — доступна у відкритому доступі в спільноті обміну кодом штучного інтелекту Hugging Face та в спільноті обміну кодом GitHub за ліцензією Apache 2.0 Це означає, що компанії можуть використовувати її для комерційних цілей та модифікувати на свій розсуд без обмежень та оплати.
M1 навчений за допомогою підкріплювального навчання за інноваційною, винахідливою та високоефективною технікою. Модель навчена за допомогою гібридної архітектури Mixture-of-Experts (MoE) з механізмом блискавичної уваги, призначеним для зменшення витрат на інференцію.
Згідно з даними бенчмарків, MiniMax-M1 споживає лише 25% операцій з плаваючою комою (FLOP), необхідних DeepSeek R1 при довжині генерації 100 000 токенів. M1 також конкурує з OpenAI o3, Gemini 2.5 Pro, Claude 4 Opus, DeepSeek R1, DeepSeek R1-0528 та Qwen3-235B у різних бенчмарках (AIME 2024, LiveCodeBench, SWE-bench Verified, Tau-bench та MRCR), де вона переважає за одними показниками, і поступається в інших.
Day 1/5 of #MiniMaxWeek: We’re open-sourcing MiniMax-M1, our latest LLM — setting new standards in long-context reasoning.
— World’s longest context window: 1M-token input, 80k-token output — State-of-the-art agentic use among open-source models — RL at unmatched efficiency:… pic.twitter.com/bGfDlZA54n
У своїх дописах MiniMax дає зрозуміти, що намагається витіснити DeepSeek як провідного китайського гравця в галузі ШІ. Вона була заснована наприкінці 2021 року та підтримується такими інвесторами, як Alibaba і Tencent.
Узимку цього року стартап запустив три нові моделі ШІ: MiniMax-Text-01 — лише для текстів, MiniMax-VL-01 для розпізнавання зображень та тексту, а T2A-01-HD генерує звук, зокрема, мову. Розробники стверджують, що усі вони кращі за ШІ-моделі від Google та Anthropic.
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.
Хочете повідомити важливу новину? Пишіть у Telegram-бот
Головні події та корисні посилання в нашому Telegram-каналі