Наталя Хандусенко ШІ 3 січня 2026, 15:08

DeepSeek знайшла новий підхід до навчання LLM-моделей, який може знову перевернути ШІ-ринок

Команда дослідників з китайської ШІ-компанії DeepSeek днями опублікувала статтю, у якій описала метод під назвою Manifold-Constrained Hyper-Connections або скорочено mHC. Це дозволить розробникам будувати потужні мовні моделі, значно економлячи на обчислювальних ресурсах, які раніше вважалися незамінними для таких масштабів.

Залишити коментар

DeepSeek знайшла новий підхід до навчання LLM-моделей, який може знову перевернути ШІ-ринок

Команда дослідників з китайської ШІ-компанії DeepSeek днями опублікувала статтю, у якій описала метод під назвою Manifold-Constrained Hyper-Connections або скорочено mHC. Це дозволить розробникам будувати потужні мовні моделі, значно економлячи на обчислювальних ресурсах, які раніше вважалися незамінними для таких масштабів.

DeepSeek опинилася в центрі загальної уваги рік тому після релізу моделі R1, яка стала прямим конкурентом o1 від OpenAI, проте коштувала в рази дешевше у виробництві. Цей реліз став шоком для американських розробників, адже він довів, що для створення топового штучного інтелекту зовсім не обов’язково мати мільярдні бюджети та тисячі серверів.

Нова стаття про mHC може стати технологічною основою для майбутньої моделі DeepSeek, R2, яку планували випустити в середині минулого року, але відклали через обмежений доступ Китаю до передових ШІ-чипів штучного інтелекту та занепокоєння CEO компанії Лян Веньфена щодо продуктивності моделі.

Ця стаття, опублікована на сервері препринтів arXiv — популярному онлайн-ресурсі, де дослідники діляться результатами робіт, що ще не пройшли рецензування, — є спробою подолати складний і важливий технічний розрив, який перешкоджає масштабованості моделей ШІ, пише ZDNET.

Проблема

LLM побудовані на нейронних мережах, які, у свою чергу, призначені для збереження сигналів на багатьох шарах. Проблема полягає в тому, що чим більше шарів додається, тим більше сигнал може ослаблятися або погіршуватися, і тим більший ризик його перетворення на шум. Це трохи схоже на гру в телефон: чим більше людей додається, тим вища ймовірність того, що оригінальне повідомлення буде заплутане та змінене.

Отже, головне завдання полягає в тому, щоб створити моделі, здатні зберігати силу сигналу в якомога більшій кількості шарів — або, як зазначають дослідники DeepSeek у своїй новій роботі, «краще оптимізувати компроміс між пластичністю та стабільністю».

Рішення

Автори нової статті — серед яких і генеральний директор DeepSeek Лян Веньфен — спиралися на концепцію «гіперзв’язків» (HC). Цю структуру запропонували у 2024 році дослідники з ByteDance для диверсифікації каналів, через які шари нейронної мережі обмінюються інформацією між собою. Проте гіперзв’язки створюють ризик втрати початкового сигналу. Крім того, вони потребують значних витрат пам’яті, що ускладнює їх впровадження у великих масштабах.

Архітектура mHC має на меті вирішити цю проблему, обмежуючи гіперзв’язки в моделі, тим самим зберігаючи інформаційну складність, що забезпечується HC, одночасно уникаючи проблеми з пам’яттю. Це, своєю чергою, може дозволити навчання дуже складних моделей таким чином, щоб це було практично та масштабовано навіть для тих розробників, які мають менше коштів.

Чому це важливо

Як і у випадку з випуском R1 у січні 2025 року, дебют фреймворку mHC може натякнути на новий напрямок еволюції ШІ.

Досі в перегонах ШІ панувала думка, що лише найбільші та найбагатші компанії можуть дозволити собі створювати передові моделі. Але DeepSeek постійно демонструє, що обхідні шляхи можливі, і що проривів можна досягти виключно завдяки розумній інженерії.

Той факт, що компанія опублікувала своє нове дослідження методу mHC, означає, що він може бути широко прийнятий меншими розробниками, особливо якщо його буде використовувати довгоочікувана модель R2 (дата випуску якої офіційно не оголошена).

DeepSeek представив нову ШІ-модель V3.1-Exp яку назвав «проміжним кроком до архітектури наступного покоління»

DeepSeek тепер маркує весь контент створений ШІ і ці позначки не можна видалити

Читайте головні IT-новини країни в нашому Telegram

Залишити коментар

Текст: Наталя Хандусенко Фото: Boston University Теги: deepseek, llm, ші, штучний інтелект

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Штучний інтелект почав озвучувати фільми на MEGOGO

3 коментарі

Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео

2 коментарі

«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого

Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар