🚀💳 Trustee Plus - більше ніж криптогаманець з європейською платіжною карткою. Спробуй 👉

Надмірне навчання LLM може призвести до зниження її продуктивності, показало нове дослідження

Протягом останніх кількох років вважалося, чим більше тренується ШІ-модель, тим краще будуть її результати. Але група дослідників із кількох університетів США може тепер із цим посперечатись.  

Залишити коментар
Надмірне навчання LLM може призвести до зниження її продуктивності, показало нове дослідження

Протягом останніх кількох років вважалося, чим більше тренується ШІ-модель, тим краще будуть її результати. Але група дослідників із кількох університетів США може тепер із цим посперечатись.  

Дослідники штучного інтелекту Університету Карнегі-Меллона, Стенфордського, Гарвардського та Принстонського університетів виявили, що надмірне навчання великих мовних моделей може негативно впливати на їхню продуктивність. 

Вони прийшли до такого висновку, коли перевіряли віддачу ШІ під час навчання двох різних версій LLM OLMo-1B: одну модель навчали, використовуючи 2,3 трлн токенів, іншу — 3 трлн токенів. Потім протестували їх за допомогою кількох тестів, таких як ARC і AlpacaEval. Вони виявили, що результат другої ШІ-моделі був гіршим на 3% за першу, пише Tech Xplore.

Здивовані своїми висновками, дослідники провели більше тестів і отримали подібні результати, що свідчить про те, що існує певний момент, коли більше навчання починає робити моделі менш «інтелектуальними». Дослідницька група називає це «катастрофічним перетренуванням» і припускає, що це пов’язано з тим, що вони описують як «прогресуюча чутливість».

Вони також припускають, що зі збільшенням кількості токенів модель стає більш крихкою. Це означає, що точне налаштування, яке можна розглядати як додавання шуму, починає зводити нанівець поліпшення, які спостерігалися раніше.

Щоб перевірити свою теорію, вони додали гаусівський шум до деяких моделей і виявили, що це призвело до того самого типу зниження продуктивності, свідками якого вони були раніше. Вони назвали точку неповернення «точкою перегину». Вони припускають, що після цього моменту будь-яке подальше навчання знизить стабільність моделі, що ускладнює її налаштування, яке є корисним для бажаного набору застосувань.

У висновку дослідники припускають, що в майбутньому розробникам LLM-моделей, можливо, доведеться оцінювати наскільки рівень навчання є достатнім або шукати інші методи для додаткового навчання, щоб не потрапити у точку неповернення. 

Моделі штучного інтелекту все ще не справляються з процесом налагодження коду показує дослідження Microsoft
Моделі штучного інтелекту все ще не справляються з процесом налагодження коду, показує дослідження Microsoft
По темi
Моделі штучного інтелекту все ще не справляються з процесом налагодження коду, показує дослідження Microsoft
Використання інструментів ШІ повільно погіршують навички критичного мислення — попереджає дослідження Microsoft
Використання інструментів ШІ повільно погіршують навички критичного мислення — попереджає дослідження Microsoft
По темi
Використання інструментів ШІ повільно погіршують навички критичного мислення — попереджає дослідження Microsoft
ШІ може брехати або вводити в оману користувача щоб досягти своєї цілі — дослідження
ШІ може брехати або вводити в оману користувача, щоб досягти своєї цілі — дослідження
По темi
ШІ може брехати або вводити в оману користувача, щоб досягти своєї цілі — дослідження
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Підключай Megogo зі знижками за акційними тарифами.

від 99 гривень на місяць

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.