UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉
Наталя ХандусенкоШІ
23 жовтня 2025, 17:48
2025-10-23
ШІ-агенти під наглядом так званого «батьківського штучного інтелекту» створили нову систему навчання, яка не потребує людського втручання
Подібно до людей, штучний інтелект навчається методом спроб і помилок, але традиційно потрібна участь людини, щоб запустити процес, а саме розробити алгоритми та правила, які керують навчанням. Однак із розвитком технологій ШІ машини все частіше роблять це самі.
Прикладом є нова система ШІ, яка винайшла власний метод навчання і створила алгоритм, що перевершив людський у низці складних завдань.
Подібно до людей, штучний інтелект навчається методом спроб і помилок, але традиційно потрібна участь людини, щоб запустити процес, а саме розробити алгоритми та правила, які керують навчанням. Однак із розвитком технологій ШІ машини все частіше роблять це самі.
Прикладом є нова система ШІ, яка винайшла власний метод навчання і створила алгоритм, що перевершив людський у низці складних завдань.
Десятиліттями люди-інженери розробляли алгоритми, які агенти використовують для навчання, особливо навчання з підкріпленням, де ШІ навчається, отримуючи винагороду за успішні дії. Хоча навчання є природним явищем для людей і тварин, завдяки мільйонам років еволюції, ШІ потрібно чітко навчати. Цей процес часто є повільним і трудомістким і зрештою обмежується людською інтуїцією.
Надихнувшись природною еволюцією, яка сама по собі є процесом випадкових спроб і помилок, група дослідників створила велику цифрову популяцію агентів ШІ, пише Tech Xplore.
Над цією популяцією працювала спеціальна «метамережа» — батьківський ШІ, який аналізував, наскільки успішно агенти виконують завдання у складних середовищах, і на основі цих даних змінював правило навчання.
Це дозволило системі відкрити нове правило навчання, DiscoRL, яке дослідники назвали Disco57 (оскільки його оцінювали на 57 іграх Atari), і яке виявилося кращим за будь-яке, розроблене людиною раніше.
Потім команда використала Disco57 для навчання нового агента ШІ та порівняла його продуктивність із деякими з найкращих алгоритмів, розроблених людиною, як-от PPO та MuZero. Спочатку його тренували на добре відомих іграх Atari, а потім на незнайомих раніше завданнях, включаючи такі ігри, як ProcGen, Crafter і NetHack.
Показники були дивовижними. Під час проходження Atari Benchmark (комплексу класичних ігор Atari для оцінювання ШІ) навчений на DiscoRL агент продемонстрував кращі результати, ніж усі людські алгоритми. Коли його поставили перед незнайомими викликами, він показав найвищий рівень ефективності, що підтвердило, що система самостійно відкрила власний метод навчання.
«Наші висновки свідчать про те, що алгоритми навчання з підкріпленням, необхідні для просунутого штучного інтелекту, незабаром можуть бути автоматично виявлені на основі досвіду агентів, а не розроблені вручну», — написали дослідники у своїй статті, опублікованій у журналі Nature. «Ця робота зробила крок до створення машинно розроблених алгоритмів навчання з підкріпленням, які можуть конкурувати й навіть перевершувати деякі з найкращих алгоритмів, створених вручну, у складних середовищах».
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.
Хочете повідомити важливу новину? Пишіть у Telegram-бот
Головні події та корисні посилання в нашому Telegram-каналі