Реклама партнера — Название партнёра
UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

DeepSeek знайшла новий підхід до навчання LLM-моделей, який може знову перевернути ШІ-ринок

Команда дослідників з китайської ШІ-компанії DeepSeek днями опублікувала статтю, у якій описала метод під назвою Manifold-Constrained Hyper-Connections або скорочено mHC. Це дозволить розробникам будувати потужні мовні моделі, значно економлячи на обчислювальних ресурсах, які раніше вважалися незамінними для таких масштабів.

Залишити коментар
DeepSeek знайшла новий підхід до навчання LLM-моделей, який може знову перевернути ШІ-ринок

Команда дослідників з китайської ШІ-компанії DeepSeek днями опублікувала статтю, у якій описала метод під назвою Manifold-Constrained Hyper-Connections або скорочено mHC. Це дозволить розробникам будувати потужні мовні моделі, значно економлячи на обчислювальних ресурсах, які раніше вважалися незамінними для таких масштабів.

DeepSeek опинилася в центрі загальної уваги рік тому після релізу моделі R1, яка стала прямим конкурентом o1 від OpenAI, проте коштувала в рази дешевше у виробництві. Цей реліз став шоком для американських розробників, адже він довів, що для створення топового штучного інтелекту зовсім не обов’язково мати мільярдні бюджети та тисячі серверів.

Нова стаття про mHC може стати технологічною основою для майбутньої моделі DeepSeek, R2, яку планували випустити в середині минулого року, але відклали через обмежений доступ Китаю до передових ШІ-чипів штучного інтелекту та занепокоєння CEO компанії Лян Веньфена щодо продуктивності моделі.

Ця стаття, опублікована на сервері препринтів arXiv — популярному онлайн-ресурсі, де дослідники діляться результатами робіт, що ще не пройшли рецензування, — є спробою подолати складний і важливий технічний розрив, який перешкоджає масштабованості моделей ШІ, пише ZDNET.

Проблема

LLM побудовані на нейронних мережах, які, у свою чергу, призначені для збереження сигналів на багатьох шарах. Проблема полягає в тому, що чим більше шарів додається, тим більше сигнал може ослаблятися або погіршуватися, і тим більший ризик його перетворення на шум. Це трохи схоже на гру в телефон: чим більше людей додається, тим вища ймовірність того, що оригінальне повідомлення буде заплутане та змінене.

Отже, головне завдання полягає в тому, щоб створити моделі, здатні зберігати силу сигналу в якомога більшій кількості шарів — або, як зазначають дослідники DeepSeek у своїй новій роботі, «краще оптимізувати компроміс між пластичністю та стабільністю».

Рішення

Автори нової статті — серед яких і генеральний директор DeepSeek Лян Веньфен — спиралися на концепцію «гіперзв’язків» (HC). Цю структуру запропонували у 2024 році дослідники з ByteDance для диверсифікації каналів, через які шари нейронної мережі обмінюються інформацією між собою. Проте гіперзв’язки створюють ризик втрати початкового сигналу. Крім того, вони потребують значних витрат пам’яті, що ускладнює їх впровадження у великих масштабах.

Архітектура mHC має на меті вирішити цю проблему, обмежуючи гіперзв’язки в моделі, тим самим зберігаючи інформаційну складність, що забезпечується HC, одночасно уникаючи проблеми з пам’яттю. Це, своєю чергою, може дозволити навчання дуже складних моделей таким чином, щоб це було практично та масштабовано навіть для тих розробників, які мають менше коштів.

Чому це важливо

Як і у випадку з випуском R1 у січні 2025 року, дебют фреймворку mHC може натякнути на новий напрямок еволюції ШІ.

Досі в перегонах ШІ панувала думка, що лише найбільші та найбагатші компанії можуть дозволити собі створювати передові моделі. Але DeepSeek постійно демонструє, що обхідні шляхи можливі, і що проривів можна досягти виключно завдяки розумній інженерії.

Той факт, що компанія опублікувала своє нове дослідження методу mHC, означає, що він може бути широко прийнятий меншими розробниками, особливо якщо його буде використовувати довгоочікувана модель R2 (дата випуску якої офіційно не оголошена).

DeepSeek представила дві нові ШІ-моделі
DeepSeek представила дві нові ШІ-моделі
По темi
DeepSeek представила дві нові ШІ-моделі
DeepSeek представив нову ШІ-модель V3.1-Exp яку назвав «проміжним кроком до архітектури наступного покоління»
DeepSeek представив нову ШІ-модель V3.1-Exp, яку назвав «проміжним кроком до архітектури наступного покоління»
По темi
DeepSeek представив нову ШІ-модель V3.1-Exp, яку назвав «проміжним кроком до архітектури наступного покоління»
DeepSeek тепер маркує весь контент створений ШІ і ці позначки не можна видалити
DeepSeek тепер маркує весь контент, створений ШІ, і ці позначки не можна видалити
По темi
DeepSeek тепер маркує весь контент, створений ШІ, і ці позначки не можна видалити
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
3 коментарі
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
2 коментарі
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті. 

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.