Стас Юрасов ШІ 17 січня 2024, 08:28

Людство хоче донавчити штучний інтелект? Доведеться випустити його з інтернету в наш реальний світ. Інсайди з Давоського форуму

«Лижна маска» Vision Pro від Apple, окуляри Ray-Ban від Meta, Google Glasses, Echo Frames, окуляри з підслушкою від Amazon. Навіщо людству стільки розумних гаджетів такого типа, коли їхній функціонал здається зовсім обмеженим?

Залишити коментар

Людство хоче донавчити штучний інтелект? Доведеться випустити його з інтернету в наш реальний світ. Інсайди з Давоського форуму

«Лижна маска» Vision Pro від Apple, окуляри Ray-Ban від Meta, Google Glasses, Echo Frames, окуляри з підслушкою від Amazon. Навіщо людству стільки розумних гаджетів такого типа, коли їхній функціонал здається зовсім обмеженим?

Свіжа панельна дискусія на Всесвітньому економічному форумі в Давосі нарешті пролила трохи світла на це питання: штучному інтелекту потрібно тренуватися і зрозстати далі. Він вже все прогуглив в інтернеті і хоче отримати більше інформації з реального світу, з наших життів.

Окуляри — ідеальний інструмент для того, щоб дати загальному штучному інтелекту (Artificial general intelligence) більше даних, щоб навчатися, тренуватися експериментувати.

Панель зібрала видатних науковців у галузі ШІ з усіх куточків світу. І от що вони обговорювали: ми вибрали для вас найважливіше.

Питання ведучого: Якою буде швидкість змін ШІ в наступні роки? Чи триватимуть божевільні інновації, які ми мали останні два роки? Ми продовжуватимемо рухатися швидше, ніж закон Мура? Або ми наближаємося до якогось плато?

Кай-Фу Ли, тайванський бізнесмен, науковець, інвестор, екскерівник в Apple, Google, Microsoft налаштований оптимістично і думає що ми точно не досягли рівня плато.

«Я думаю, що він (ШІ) трохи сповільниться. Але я думаю, що все одно буде йти з неймовірною швидкістю. Подивіться лише за останні два роки наскільки зросла якість цих моделей.

Ви знаєте, два роки тому MMLU (Massive Multitask Language Understanding — це тест, призначений для вимірювання знань, отриманих під час навчання — Ред), що приблизно є показником інтелекту, показав що ми у 40-50-х роках. Зараз — 90. І є ще куди рости».

Ендрю Ян-Так Нґ — британсько-американський комп’ютерний вчений і підприємець, був керівником Google Brain, екс-головний науковий співробітник Baidu:

«Масштабувати стає все важче й важче. Але я відчуваю, що для більшості з нас темп усе ще прискорюється через кількість інновацій і кількість алгоритмічних оцінок.

От кілька коротких прикладів. Ми бачили, як текстова революція сталася минулого року. Я думаю, що цього року ми побачимо революцію в обробці зображень. Начебто вже тут з GPT-4V і Gemini Ultra. Але насправді комп’ютери будуть бачити набагато краще.

Я бачу багато інновацій в автономних агентах. Замість того, щоб промтити LLM (а вона дає вам відповідь), ви можете дати LLM інструкцію, вона вимкнеться і виконає за вас роботу протягом півгодини, переглядатиме веб-сторінки, проведе багато досліджень і повернеться. Зараз це не зовсім працює, але багато людей працюють над цим, щоб зробити ще одне нововведення.

Edge AI (це впровадження штучного інтелекту в периферійне обчислювальне середовище, що дозволяє виконувати обчислення поблизу того місця, де фактично збираються дані, а не в централізованому хмарному обчислювальному об’єкті — датацентрі).

Знаєте, ми звикли запускати LLM у хмарі, але через опенсорс та інші речі… Я думаю, що в майбутньому ми будемо запускати набагато більше великих мовних моделей на наших власних пристроях»

Ейдан Гомес, британсько-канадський вчений-інформатик, який працює в галузі штучного інтелекту, СЕО компанії Cohere:

«Я погоджуюся, що ШІ буде розвиватися в тій же траєкторії, і я б навіть пішов далі, щоб сказати, що він почне прискорюватися.

У тому, що ми маємо сьогодні, є величезні вузькі місця. Ми знаємо обмеження архітектури, методів, які ми використовуємо. І я думаю, що нам стане легше. Тому що апаратні платформи стають все кращими.

Отже, наступне покоління графічних процесорів стане великим кроком у порівнянні з нинішнім поколінням, і це відкриває новий масштаб, набагато дорожчі алгоритми та методи для роботи з ними».

Ведучий: Тож чим кращі графічні процесори, чим більше обчислювальних ресурсів, електроенергії, тим кращі моделі. Тоді чи це означає, що обчислювальні потужності під ШІ консолідуються у невеликій кількості компаній, які мають до неї доступ?

Дафна Коллер, ізраїльсько-американський вчений-інформатик, професор Стенфордського університету:

«Ви згадали обчислення, ви згадали електроенергію, ви не згадали дані. І я думаю, що ми лише починаємо дряпати поверхню даних, які з часом стануть доступними для моделей.

Те, як ми зараз тренуємося на всіх даних вебу, це дивовижно, і це неймовірно. Але ці агенти ще не втілені на повну. Бо вони ще не взаємодіють зі світом.

По мирі того, як ми починаємо носити речі з доповненою реальністю, як ми починаємо отримувати більше даних від безпілотних автомобілів, у ШІ з’явиться набагато більше роботи.

Тому я думаю, що якщо ми почнемо обробляти різні масиви даних, такі як біологія та охорона здоров’я, та інші види даних, які зараз приховані, ці моделі розвинуть нові рівні можливостей, яких вони зараз не мають сьогодні».

Янн ЛеКун, французький вчений-комп’ютерник, лауреат премії Тюрінга, віце-президент, головний науковий співробітник Meta:

«Дійсно, у нас закінчуються дані. Ми фактично використовуємо всі публічні дані в інтернеті.

А тепер подумайте про те, що дитина бачить за допомогою зору, і спробуйте визначити кількість інформації, яку чотирирічна дитина побачила протягом свого життя.

Це приблизно 20 мегабайт даних на секунду, які проходять через зоровий нерв протягом 16 000 годин неспання протягом перших чотирьох років життя.

Отже, це говорить вам про те, що чотирирічна дитина побачила в 50 разів більше інформації, ніж найбільші LLM, які ми маємо.

І чотирирічна дитина набагато розумніша за найбільших LLM, які у нас є. Обсяг накопичених знань, мабуть, менший, тому що вони в іншій формі. Але насправді чотирирічна дитина засвоїла величезну кількість інформації. І це тому, що вона отримала багато знань про те, як влаштований світ.

І ми можемо зробити це з LLM вже сьогодні. Нам не вистачає деяких суттєвих нових наукових архітектур, щоб отримати всі переваги від сенсорного введення даних, якими, зможуть скористатися майбутні системи ШІ.

Для цього будуть потрібні кілька науково-технічних проривів, які можуть відбутися в найближчі рік, три роки, п’ять років, десять років. Ми не знаємо. Це важко.

16 000 годин відео, про які я вам розповідав, — це всього 30 хвилин всіх завантажень на YouTube. Я маю на увазі, що у нас набагато більше даних, ніж тих, з якими можемо мати справу. Питання полягає в тому, як ми змусимо машини навчатися з відео?

Великі мовні моделі навчаються одним способом. Ви берете фрагмент тексту, спотворюєте його, а потім тренуєте якусь гігантську нейронну мережу реконструювати повний текст, передбачити слова, яких бракує. LLM, наприклад, ChagVT, LAMA та інші, ви навчаєте, просто видаливши останнє слово.

Технічно це відбувається складніше, але в основному це те, що вони роблять.

Отже, ви навчите систему відновлювати відсутню інформацію. Тож, звичайно, очевидна ідея: чому б нам не зробити те ж саме і з зображеннями?

Візьміть зображення, пошкодіть його, видаливши деякі частини, а потім навчіть велику нейронну мережу відновлювати зображення. Але це не працює. Або не дуже добре працює.

Є ціла купа зусиль у цьому напрямку, які тривають деякий час, але така система насправді не дуже добре працює. Це також не працює і для відео».

Тобто якщо ми покажемо системі частину відео, де ручка починає падати з руки в руку, то зараз машина не може передбачити, що ручка впаде?

Янн ЛеКун: «Машина не може. Ваша ручка має певну конфігурацію. Коли ви впустите її, вона буде слідувати певній траєкторії. Більшість із нас не може точно передбачити траєкторію. Але ми можемо передбачити, що об’єкт впаде. Дітям потрібно близько дев’яти місяців, щоб зрозуміти, що предмет, який не підтримується, падає. Інтуїтивно зрозуміла фізика. Як це зробити з машинами?

Потенційного вирішення цього питання — справжнього рішення — ще немає. Але речі, які є найбільш перспективними на даний момент. Принаймні речі, які працюють для розпізнавання зображень. І я вас здивую, вони не є генеративними.

Тому що те, що працює найкраще, де-факто не створює зображень. Ці системи не реконструюють їх. Вони передбачають, але в просторі абстрактної репрезентації.

Так само як я не можу точно передбачити, як ручка впаде у вашу руку, але можу передбачити, що вона таки впаде.

Тож на якомусь абстрактному рівні ручка, яка знаходиться тут чи там, без деталей її конфігурації, я можу зробити такий прогноз, що вона впаде.

Тому я можу робити прогнози в просторі абстрактного представлення на відміну від простору пікселів. І ось чому: усі прогнози в піксельному просторі поки що провалилися. Це просто надто складно».

Дафна Коллер: «Це більше, ніж просто відео. Я думаю, що ще одна річ, яку діти вивчають, — це поняття причини та наслідку. Про це вони дізнаються, втручаючись у світ і спостерігаючи, що відбувається. І ми ще не зробили цього взагалі з LLM.

Я маю на увазі, що вони повністю передбачувані механізми. Вони просто створюють асоціації. Дістатися до причинності — це величезна можливість, якої не вистачає в сучасних моделях. Цього не вистачає в здатності наших комп’ютерів обґрунтовувати здоровий глузд.

Цього не вистачає ШІ, коли ми намагаємося перейти до інших завдань, будь то виробництво, біологія чи будь-що, що взаємодіє з фізичним світом».

Ейдан Гомес: «Це повинні бути не просто синтетичні дані та взаємодія систем ШІ між собою в ізоляції. Для проведення експериментів їм потрібен доступ до реального світу і досвід, щоб сформувати гіпотезу, перевірити гіпотезу, зазнати невдачі тисячу разів. І одного разу вдасться, як люди, відкрити нове».

Дафна Коллер: «Ми не маємо можливості на даний момент створити модель світу in silico (зроблено за допомогою комп’ютера або за допомогою комп’ютерної симуляції — Ред.). Світ справді складний.

І здатність, яку ми маємо, щоб експериментувати зі світом, бачити, що відбувається, і вчитися на цьому, я вважаю, абсолютно критична для того, що робить людський інтелект таким, який він є.

Отже, якщо ми хочемо, щоб ці машини розвивалися, нам потрібно дати їм можливість, не просто щоб in silico розмовляти один з одним у власному маленькому всесвіті, а щоб по-справжньому експериментувати зі світом і генерувати такі дані, які допомагають їм продовжувати рости та розвиватися.

І я думаю, що найбільшою відмінністю по мірі того, як ми рухаємося вперед, є надання комп’ютерам доступу до планування експериментів. Будь то прості експерименти, на кшталт того, що відбувається, коли ви відпускаєте ручку і вона падає. Або більш складний експеримент: що відбувається, коли я поміщаю ці п’ять хімічних речовин у клітину, що відбувається з людиною.

Ось такі експерименти навчать комп’ютер. Тому нам потрібно розповісти комп’ютеру про цю неймовірну складність світу та дозволити йому справді вийти за межі того, чого людина може зараз навчити його, коли б ми начебто дали йому для навчання живого експерта з математики чи біології».

Залишити коментар

Текст: Стас Юрасов Теги: штучний інтелект

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Штучний інтелект почав озвучувати фільми на MEGOGO

3 коментарі

Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео

2 коментарі

«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого

Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар