Стас Юрасов Таке життя 30 жовтня 2023, 08:51

Як Google програв OpenAI й що буде далі. Розповідь інсайдера з Кремнієвої долини

Герой цього інтерв’ю — Хамуді Наанаа, AI-ресерчер із Кремнієвої долини. Він виріс в Україні, переїхав до Німеччини, здобув освіту, а потім перебрався до США.

Залишити коментар

Як Google програв OpenAI й що буде далі. Розповідь інсайдера з Кремнієвої долини

Хамуді встиг попрацювати в Apple і Google, а нещодавно покинув Amazon.

«Я взагалі покинув Big Tech, я працюю над власним проєктом, який ще в стелс-моді», — каже дослідник.

У галузі штучного інтелекту в Долині зараз виникають багато AI-стартапів, які крутяться навколо великої мовної моделі (Large language model, LLM) OpenAI.

Але LLМки великих компаній багато хто з дослідників сприймає як black box. Адже невідомо, як і на яких на яких даних вони тренувалися.

Тому Наанаа вважає, що ми стоїмо на порозі великого прориву у сфері штучного інтелекту, який піде саме зі сторони незалежних розробників, які започатковують нові проєкти. Якщо це круті ідеї, їм вдається отримати доступ до капіталу, бо за ними стоять ексспівробітники Google, Apple, Amazon та інших гігантів.

Як зміниться наш світ протягом двох-трьох років, чи з’являться людиноподібні андроїди, чому затаївся Apple, як тренували ChatGPT і чому Google врешті-решт втратив першість.

Про все це — у нашому ексклюзивному інтерв’ю з Хамуді Наанаа.

— Розкажи трохи про себе, я там бачив, що ти народився в Лівані, потім в Україні виріс, а навчався в Німеччині. Уже дуже цікаво.

— Мене звати Мохаммад (чи коротко Хамуді), це арабське ім’я. Мій батько — з Лівану, а моя мама з України. І коли мені було 6 років, ми переїхали в Київ, де я прожив до 17 років і отримав громадянство.

Ментально я українець, в Україні я виріс і провів там своє дитинство. У 17 років я переїхав до Німеччини на навчання. Там отримав свій computer science бекграунд, мій головний бекграунд.

У Німеччині почалася моя кар'єра та продовжилася у Кремнієвій долині.

Бекграунд Хамуді: шлях від Apple до Google

— Розкажи, з чого починав?

— Починав я паралельно з навчанням у 18 років у Мюнхені в Apple як технік. За 3 роки виріс до Software Engineer, далі Machine Learning Engineer, і згодом очолив R&D лабораторію. Працював над інтеграцією AI в hardware.

За мій час, ми розроблювали два великих проєкти: перший — 3D-аудіо для AirPods, це spatial audio. Коли ти вдягаєш свої AirPods, і крутиш головою, і воно створює такий 3D-ефект присутності звуку навколо тебе.

Другий проєкт, яким я керував, був пов’язаний з інтеграцією штучного інтелекту в апаратне забезпечення для фотографій. Ідея полягала в тому, щоб поліпшити якість фотографій із камери безпосередньо на рівні хардверу. Наприклад, коли ви робите фотографію на iPhone, за кілька секунд система розпізнає обличчя на фото та виправляє його, щоб отримати вищу якість зображення. Я та моя команда працювали над цим проєктом.

— Які були основні виклики та завдання у цьому проекті?

— Основними викликами були розробка алгоритмів і моделей для розпізнавання облич і автоматичної корекції зображень і їхня інтеграція на апаратному рівні. Фото не можна було відправляти на сервери і потрібна була мобільна модель із real-time розпізнаванням. Водночас нам потрібно було враховувати обмеження технічних можливостей хардверу та оптимізацію на різних поколіннях пристроїв. Я із цього проекту багато чому навчився з federated learning.

— Як ти потрапив до компанії Volkswagen (знаю, що ти там працював)?

— Під час роботи в Apple, я познайомився із представниками Cariad, дочірньої компанії Volkswagen, яка спеціалізується на розробці програмного забезпечення для автомобілів концерну. Їхні ідеї та проекти в галузі автономного водіння дуже мене зацікавили і це був мій шанс побудувати дуже цікаву і складну систему — можливість приєднатися до їхньої команди і долучитися до розробки систем автономного пілотування для автомобілів.

У компанії Quartett Mobile, що входить в екосистему Cariad, я працював над розробленням функцій для автомобілів всього концерну включаючи Bentley, Audi та Porsche, спрямованих на паркування та автономне керування.

— Як називався цей проєкт із паркування?

— Ми називали це PiPa, Piloted Parking. Це було дуже цікаво, я багато чому навчився як інженер. Я його розробив, і він зараз у реліз пайплайні, наприклад, для Bentley. Але це був мій період, коли я також зрозумів, що мені не дуже подобається low level розробка. Коли я створював PiPa, я дуже багато часу витрачав на оптимізацію на рівні hardware, тому що там все про мілісекунди, і там дуже багато такого low level development. У цей період я відчував, що хочу піднятися на один левел абстракції вище і будувати нові складні абстрактні системи як архітектор.

— Які були основні відмінності між твоїм досвідом роботи в Apple та роботою в німецькій компанії?

— Однією з відмінностей була культура і динаміка праці. В Apple працюють дуже цілеспрямовані фахівці, які завжди прагнуть досягти поставлених цілей за будь яких умов. Там важливий підхід зробити попри все і ця ідея залишається у центрі під час прийняття будь якого рішення.

Люди вірять у «робити речі, які змінюють життя мільйонів» і живуть цим.

У той час як в німецькій компанії існує інша корпоративна культура, де work-life balance має більшу вагу. І через цю різницю підходів і динаміка інша — в німецьких компаніях вона повільніше. На фініші звісно виходить дуже якісний і перевірений продукт, і там і там, але в дуже різному темпі.

Ця різниця в культурі праці була однією з речей, яку я помітив після переходу до компанії Cariad. Але мені тоді було не так багато років. Я був не на тому етапі свого життя, де в мене є сім’я, і мені треба думати про work-life balance.

Мені хотілося робити круті речі, і мені хотілося нового челенджу.

Новим викликом став Siemens. Туди мене запросили очолити команду і бути архітектором проекту, в якому ми будували децентралізовану систему прийняття колаборативних рішень між робо-агентами. Роботи-працівники отримують завдання (наприклад, перенести матеріали на виробництві із точки А в точку Б), і вони між собою обговорюють план, голосують, і один його виконує. Звучить трохи футуристично, але я успішно збудував агентів і алгоритм для комунікації та прийняття рішень, і добре памʼятаю цю першу «розмову» наших роботів, неймовірне відчуття!

Проте це був лише початок моїх агентів. Люди в Siemens якось запросили мене на хайкінг з їхніми друзями. Це така Мюнхенська тема — там всі йдуть хайкати в Альпи поруч. На хайкінгу я познайомився з декількома людьми, і, виявилося, один з них працював у Google. Ми обговорили різні теми, мої проекти в Києві, наші інтереси та багато іншого.

Невдовзі вони спонтанно поділилися, що їм сподобалася моя історія та речі, які я робив. Після цього вони розкрили, що працюють у Google. Виявилося, це був такий ніби то хайринговий план. Вони надали мені можливість приєднатися до Google і працювати над цікавими проектами.

— Це такий хайринг Коварний план, до речі.

— Отакий коварний план, фактично забрали мене з Siemens’а. Але звісно я жартую. Ми домовилися попити кави та обговорити мої ідеї і потенційну співпрацю, а я і не чинив спротив.

Це був для мене дуже захоплюючий шанс, оскільки Google завжди був однією з компаній, яку я дуже цінував. У Google, я бачив можливість розширити свої знання та розвивати нові навички ще глибше в AI. Звісно, це відкрило для мене нові можливості та дало змогу брати участь в проектах, які справді змінюють світ. Google — крута компанія. Це був мій період, коли я хотів перепробувати Big Tech і зрозуміти, що робить такі великі компанії великими, і навчитися в них. У мене був такий собі To-Do-ліст. І Google був моїм наступним топ пріоритетом.

— Чим ти займався в Google?

— Мені сказали, дивись, ми зараз їдемо в рісерч різних AI-агентів. І це був період за півроку до глобального релізу ChatGPT. Але у ком’юніті дослідників всі розуміли, що щось велике вже насувається, варто лише подивитися на InstructGPT на початку того року і сигнали дуже легко простежити. А трансформери, на основі яких потім збудували GPT, всі великі моделі, — це ж все пішло з Google.

Довідка

Трансформери — це така архітектура глибоких нейронних мереж, призначена для обробки послідовностей, таких як текст природною мовою. На відміну від старіших моделей, трансформер не вимагає обробки послідовностей по черзі (наприклад, від початку до кінця тексту). Така особливість дає змогу їм бачити увесь контекст одразу і так генерувати якісніші відповіді керуючись цим глобальним контекстом.

У 2017 році команда Google випустила paper, який називався Attention’s All You Need. І у цьому paper вони в принципі запропонували архітектуру NLP, архітектуру трансформера. Це така міні-біблія для GPT-моделей — воно навіть у назві зафіксовано (Generative Pre-Trained Transformer) — та і взагалі для всіх LLM архітектур поки що.

Момент істини: як OpenAI обійшов Google

— Вибач, не можу не спитати. Є така популярна думка, що Google провтикав цей час, коли треба було запускати масову мовну модель у маси, чи це правда?

— Я висловлю думку, яка ніяк не асоціюється з компанією Google, моя власна думка. Швидка відповідь: я не впевнений, що я теж не провтикав би. Але ретроспективно — так.

Усе це відбувалося, коли AI-розробники мали найбільший інтерес саме в Computer Vision. Спочатку з’явилася архітектура AlexNet наприкінці 2012 року, потім з’явилися інші конволюційні нейронетворки. Так, і Image був тоді гарячою темою, дуже багато чого відбувалося у комʼюніті інженерів та дослідників.

Паралельно звісно існувала команда в Google (багато команд насправді), які розробляли моделі для обробки мови. Уже існував Google Translate. Але я думаю ми всі памʼятаємо цей давній період: якщо перекладаєш більше ніж одне речення в Google Translate, то гарантовано там буде якийсь хаос.

Перед архітектурою трансформерів, яка вийшла у 2017, була ще архітектура LSTM, і перед цим була архітектура RNN. І це були такі мережі, які пробували зберігати в собі якийсь контекст, і його акумулювати. Але їхня проблема була в тому, що ти не міг акумулювати дуже багато через дизайн цієї архітектури.

А трансформери були першими, що показали, як круто можна скейлити за допомогою attention механізму, що навчався розуміти кореляцію одного токену з іншим токеном. І тобі вдається створити цей великий глобальний контекст, де ти можеш зрозуміти, що зараз важливе, що зараз неважливе, і за допомогою цього вийшло твою проблему набагато якісніше.

Коли з’явилися трансформери, всі починали розуміти, що NLP буде швидко розвиватися. З’явився BERT, це була LLM-ка від Google. Я пам’ятаю тоді в ній було тільки 340 мільйонів параметрів. І я пригадую, як всі казали, що 300 мільйонів — це не можна скейлити у масовий продукт. Немов, це дуже дорого, і в продакшн ніяк не запхати не вийде, тому що як ти поясниш своєму продакту економіку. Бо 300 мільйонів — це дуже великі рахунки за електрику.

Але в цей же час OpenAI вже існував, і вони підхопили цей тренд. Я був нещодавно на івенті, де Сем Альтман, засновник OpenAI, розповідав, як він бачив цей розвиток. Він висловив дуже цікаву думку: насправді штучний інтелект на базі трансформерів для них в той час були така, не то щоб екзотика, але явно не мейнстрім.

І лише одна чи дві людини в OpenAI помітили можливість і почали досліджувати їх. Це був майже side hustle в OpenAI на самому початку, у перші місяці, поки вони не зрозуміли, що це все взагалі не про Translate (переклад). І Переклад це типу лише один із дуже багатьох кейсів. Саме у цей момент вони сполучили усі крапки між собою. І відповідно почали думати про продакшн.

Чому ж вони були першими? Моя думка заключається в тому, що OpenAI тоді ще ніхто у великому контексті не знав. Тобто всі великі гравці знали, що таке OpenAI, всі знали, що там Ілон Маск і Сем Альтман.

Але моя мама не знала цю компанію, як і мільйони людей.

Це був інкубатор ідей, де гроші є, і є мета створювати і досліджувати AI системи. Але Google в той час — це була дуже величезна компанія, і ціна помилки запуску у маси технологій, яку ще ніхто з широкої аудиторії не побачив, для них була б величезна.

І знаєш, це на C-Level керівництві і далі призвело до того, що ніхто не міг пояснити, як це все зав’язується в крутий продукт. Просто ніхто не хотів ризикувати, тому що ці LLМки — це все одно була чорна скриня у сприйнятті людей. І скидати цю чорну скриню на мільйони людей у момент, коли вже почалося гоніння на великі тек компанії (соціальні медіа стали великою проблемою), не хотілося.

А OpenA такі: «давайте робити». Навіть якщо у нових моделях були присутні жахливі радикальні асоціації (прибиральник — завжди жінка, інженер — завжди хлопець) у видачі результатів — виправимо. Адже це відбувалося через те, що їх натренували на таких даних із інтернету.

На рівні СhatGPT такі помилки — це теж звісно скандал, про це теж розмовляли. І OpenAI докладає неймовірних зусиль щоб цього не сталося. Але з цим було більш окей, тому що вони дослідники. Якщо б такі помилки сталися в Google, то це сприйняли як катастрофу. І ось все це і призвело до того, що Google був дуже-дуже повільний.

Якщо ти до речі помітив, то усі автори paper Attention is all we need — покинули Google.

— Чому вони покинули Google?

— Це спекуляція з моєї сторони, але я думаю тому що вони, по-перше, зрозуміли, що самому набагато більше можна побудувати, ніж це дозволить тобі Google. Тому що ти все одно залишаєшся у межах цієї великої компанії і її екосистеми. А у цьому новому світі, який ми зараз будуємо — навіть ми ще не до кінця розуміємо, що там все можна збудувати.

І по-друге, у цій сфері є дуже великий потенціал і треба дуже швидко рухатись, а це можливо лише у стартапах. І в цьому контексті є дуже багато людей, які вже зрозуміли: саме стартапи, а не великі компанії, першими створять нові ідеї і продукти. Навіть якщо технологія буде йти від гігантів, адже малі гравці не мають можливості витрачати десятки тисяч доларів на тренування масивних моделей типу GPT3 чи 4.

Тому відповідаючи на твоє питання: так, Google цей момент пропустив. І він, навіть розуміючи, що він пропускає цей момент, його пропустив.

— Google пропустив, а чому тоді OpenAI всіх обіграв? В чому була його сильна сторона?

— Дуже талановита група людей-візіонерів із досвідом і можливість і свобода експериментувати. OpenAI, звісно, зробив революцію. І революція була не лише у LLМках, як таких. OpenAI вдалося додати свою «магію», щоб довести їх до продукту. Спробую пояснити на власному досвіді.

До останнього часу я працював дослідником AI та керував командами в Amazon. Одна команда була більш теоретична, а друга більш практична. Ми досліджували LLМки. Ми вже розуміли на той момент усю динаміку, і намагалися подивитися, а що може бути далі, яка може бути наступна архітектура, яка може бути наступна модель, які теоретичні ліміти є у існуючих систем, і як із цього створити продукти.

Ми тренували нашу модель багато часу, декілька тижнів, багато грошей було на це витрачено. Ми говоримо про десятки тисяч доларів тільки на електрику, просто щоб модель тренувалася. І я дуже добре пам’ятаю одну історію, коли цей процес закінчився, і треба було результат тестувати. В одному з тестів ми попросили цю модель перекласти речення з англійської на французьку (одне із важливих публічних завдань для Amazon це вочевидь мультимовність — компанія працює на дуже багатьох ринках).

Ми дали системі банальне речення, типу там London is the capital і просимо перекласти це на французьку. І замість того, щоб перекласти це на французьку мову, модель продовжує це речення англійською: The capital of Great Britain. Хоча ми звісно попросили саме переклад, а не продовження. Це все одно статистична машина, і якщо десь в інтернеті, у дейтасетах, було дуже багато текстів із запитами перекласти саме це речення (London, The capital of Great Britain), то статистично кажучи, це найімовірніший результат видачі.

Так працює модель тому що такі дані ця модель побачила. Але зрозуміло що юзеру ти це так не поясниш, в контексті продукту це неприпустимо. Ідея підрівнювання видачі (алайнменту) в тому, що ти намагаєшся зробити речення, яке здається людям більш інтуїтивним як відповідь. І це не завжди статистична середина.

OpenAI застосували техніку, RLHF, Reinforcement Learning Human Feedback, яка дозволила цю проблему вирішити. Якщо не дуже вдаючись в деталі, вони придумали, як зробити меншу сурогатну модель-компаньон, завдання якої — дивитися на фідбек людей і намагатися передбачити, наскільки сподобається людям видача основної моделі. Це реалізовано дуже просто. Коли ти отримуєш відповідь від ChatGPT, то в тебе справа є thumbs up, thumbs down. Ти просто кажеш моделі like чи dislike.

І завдяки цьому даєш багато додаткових даних для OpenAI, які вони використовують якраз для того, щоб тренувати цю сурогатну модель. Велика LLM-ка на кшталт GPT передбачає не один варіант видачі, а три-чотири. А маленька просто допомагає вибирати кращій. Мета алайнменту — суб'єктивність. Люди не завжди статистично вбирають найкраще. Вони вбирають те, що підходить зараз контексті найбільше.

OpenAI були першими, хто запустив цю механіку у масовому об'ємі, щоб отримувати фідбек від людей і покращувати свою модель, зробити видачу більш точною. Тобто це таке пост-тренування моделі після того, як вона була натренована на масивах даних. І не повіриш, в тому числі і це досі робить продукти OpenAI такими унікальними у порівнянні з їх open source альтернативами.

І ця історія лише один приклад із багатьох, які демонструють як за допомогою концентрації талановитих людей і ресурсів і правильно створених умов OpenAI це вдалося.

What’s up in Silicon Valley

— Ти згадував, що зараз у цій сфері час стартапів. Що саме відбувається у Кремнієвій долині?

— Коротко — бум! Нова технологія створила новий ринок навколо якої зараз росте ціла екосистема. Від будівництва продуктів обгорток GPT до компаній провайдерів інфраструктури. Усі намагаються направити нову технологію в продукти і кожного дня я бачу нові ідеї — дуже швидко розвивається все.

Паралельно із цим сама технологія дуже швидко розвивається, кожного тижня нові пейпери, і навколо нових технологій знову ж таки будуються ще новіші продукти. Exciting times, неймовірна динаміка!

На один поверх вище у місцевого дослідницького ком’юніті окремий тренд на демократизацію AI. Будуються опен сорс моделі як конкуренти новим титанам. Ось Мета, наприклад, випустила LlAMA 2, це було влітку. І якщо ти подивишся на їх white paper, то дійсно вона порівнюється з GPT4.

Але коли ти намагаєшся будувати продукти (із мого досвіду і розмов з дуже великою кількістю людей — засновників, які працюють навіть з Big Data і теж намагаються будувати продукти на основі LLM), то дійсно всі кажуть, що або ти зможеш знайти якусь дуже вузьку нішу твого продукту, і це буде маленька модель. Вона дуже добре робить щось одне, але вона буде не GPT, що робить все.

Або тобі потрібна GPT, щоб створити, наприклад, чатбот для аналізу твоїх медичних аналізів. І тут окрім GPT, на чомусь іншому дуже важко будувати продукт. Тому що інші моделі просто ще не спроможні так добре перформити, як це треба тобі.

— Тобто OpenAI пішов на декілька років попереду, чи як це можна сказати?

Можливо не років, а місяців, але так. Зараз така динаміка, що вони все ще попереду всіх. І вони дуже швидко рухаються.

— Як галузь буде намагатися боротися з галюцинаціями надалі?

— Є великий тренд, як боротися з галюцинаціями, який з’явився у лютому. Це так званий RAG. RAG — це Retrieval Augmented Generation. Ідея в тому, що RAG дозволяє тобі зберігати твій knowledge, специфічний для твоєї компанії.

Уяви собі себе в ролі Amazon чи якоїсь компанії, яка хоче використовувати LLM. У тебе, вочевидь, є якась інформація, якої не існувало в інтернеті публічно. Щось типу прайсингу, чи назви твоїх продуктів, їхньої специфіки і так далі. Ти хочеш цю інформацію використовувати, але ж не можеш просто напхати її в ChatGPT.

Так це не працює. У тебе ще є обмеження, яке досі існує: Limited Context Window Size. Це більше hardware обмеження. Бо архітектурно це вже можна було б вирішити, але це просто дуже дорого. Хоча я впевнений, що ця проблема буде однією з перших, яка вирішиться на горизонті.

Поки цього немає, з’явилося рішення, яке допомагає в цій проблемі. І це — RАG: замість того, щоб пхати в LLM багато всього, можна обирати динамічно лише той контекст, який має сенс саме зараз у цьому запиті.

— І як це працює, якщо коротко?

— Ти — власник компанії. Тобі треба зберегти всю свою інформацію у текстовому виді про свою компанію (це PDF-ки, якісь файли, тексти і так далі) у так звану векторну базу даних. І кожен раз, коли хтось робить реквест на твій чатбот, цей запит теж векторизується і порівнюється з усіма векторами, які є у твоїй базі даних. І ти тоді витягуєш з бази не все одразу, а тільки, скажімо, топ-10 векторів, які під запит підходять.

Я поговорив із дуже великою кількістю різних компаній, які надають інфраструктуру для баз даних. І зараз тенденція у Долині така: що якщо в тебе є компанія, яка дає якусь базу даних, але ти не робиш нічого з векторами, то ти підзастряв.

Ця технологія дозволяє тобі динамічно реагувати на запити. Якщо у тебе є стартап, який займається нерухомістю в Австралії і в Україні, то коли хтось питає про ціну квартир у Києві, то система по слову Київ знайде найближчий у таблиці нерухомість і не буде втягувати австралійський контекст в цю розмову.

— У тебе самого були колись прикольні приватні кейси застосування LLМки?

— У мене з Гугл була така діяльність — освіта. Я влаштовував різні конференції, куди я запрошував якихось експертів з індустрії, іноді це були звичайні студенти, іноді це були якісь най-топ-левел конференції.

Так от, одного разу це була мюнхенська конференція по безпеці, куди завжди навіть президенти приходять. І я влаштовував панель з Філом Веннабелсом, це був радник Байдена по питанням технологій та освіти в США. І тоді трапилася легендарна історія.

У мене не було прямого контакту до потенційних спікерів. І я взяв їх Твіттер — вони ж публічні персони. Прогнав по цим акаунтам спочатку одну модель, яка зробила сентиментальний аналіз і зрозуміла, наскільки емоційний тон у їхніх твітів. Моя гіпотеза була в тому, що чим емоційніший твіт, тим більш важлива це тема для цієї людини.

І ось я витягнув твіти Філа Веннаблса і профільтрував топ 15 по емоційній зарядженості. А потім просто всунув ці результати в контекст ChatGPT і сказав: я хочу запросити цю людину на панель, в мене така-то адженда, така-то тематика, ось про що ця людина пише і думає. Придумай мені, як написати такий колд-емейл, який допоможе мені викликати його інтерес і зачепити. І не повіриш, Філ приїхав у Мюнхен! Ми про це потім якось обговорили — для мене це був момент цієї магії.

— Я думаю, видача результатів багато в чому залежить від вдало підібраних ввідних даних.

— Так. Але і від промпту теж! Нещодавно тут був івент, куди приходив Андрій Карпати, кофаундер OpenAI, технар, який перед цим був в Tesla, був відповідальний за Autonomous Driving. І це дуже публічна фігура, інженер, обличчя OpenAI.

На івенті була така можливість — побалакати трохи з ним. І ми дуже сміялися з того, що Prompt Engineering — це, типу, вже офіційна кар'єра.

І дійсно, правильні водні дані, тобто, як правильно написати промпт, який змусить модель правильно себе вести — це окремий таск. Я пам’ятаю, ще взимку з цього сміявся. Але ти не повіриш, скільки людей я зустрів, які, на фул-таймі просто роблять промпти.

Це тренд, який я побачив навесні. В інкубаторі Y Combinator багато стартапів на цю тему. Це фактично обгортки навколо ChatGPT, але з правильним промптом: як модель має себе поводити, що має робити. Типу, додали input-output.

Великі компанії теж цим займаються. Є Khan Academy, це такий онлайн-портал, де можна навчатися через онлайн-курси. І вони були одними з перших, хто працював з OpenAI. Вони зробили персональних туторів. Це такі агенти, які розмовляють з тобою і намагаються навчити тебе дуже персоналізовано, індивідуально в темі, яку ти зараз проходиш.

Тобто ти можеш запитати щось, а він пояснює тобі, що працює, що не працює, знаходить прогалини у твоїх знаннях.

З точки зору продукту це просто обгортка ChatGPT, там немає хайтеку. Але це і повноцінний продукт, і Khan Academy інноватори.

Інший приклад — це телефонія. Я навіть сам грався і пробував декілька проєктів. Ідея в тому, що ти створюєш такий інструмент, де ти отримуєш аудіодзвінки від людей. Все просто. З однієї сторони в тебе speech-to-text модель, а з іншої сторони text-to-speech модель. А посередині — ChatGPT, такий собі сендвіч. І в тебе просто for free з’являється аудіо-агент, який може розмовляти по телефону та продавати.

Але далі виникають питання, як це правильно доробити до продукту, тому що там ще є latency, і AI-модель, яка конвертує щось, може робити це повільно. До речі, в кінці вересня ChatGPT запустив функцію озвучування відповідей. Тут вочевидь технологія теж не стоїть на місці.

Коли програміста замінить машина

— Таке питання: мовні модели не тільки для спілкування, це також стосується і програмування. І вже з’являються перші копілоти. Що далі? Коли машина замініть програміста?

— Зараз у Долині відбувається дуже багато різних хакатонів, зустрічей, дискусій, серед інженерів, дослідників, компаній. І питання, які вони обговорюють: як створювати автономні агенти. Я був на хакатоні із Еріком Шмідтом. І дискусія була та ж сама: як будувати автономних агентів.

Усі великі компанії рухаються в цьому напрямі. Усі, у кого є екосистема, почнуть будувати таких асистентів, які допоможуть тобі існувати в цій екосистемі. У Microsoft є Windows, і вони зараз збудували CoPilot не на рівні коду, а на рівні вже всіх систем. У такому ж форматі будуть розвиватися і інші Bigtech-компанії. Ось уяви собі, що в тебе є такий персональний асистент, який має доступ до твого контексту. Тобто є імейли, твої там мітинги в календарі і так далі. І він тобі допомагає. Наприклад, тобі хтось написав. Треба швидко відповісти. Він тобі запропонує три варіанти. Ти вибереш кращий. Він відповість.

— А що стосується саме роботи з програмування?

— Copilot зараз доповнює локально. Але в мене немає довіри на 100%, що він збудує мені все як треба. Він не здатний втиснути в себе весь контекст, якщо в тебе кодбейз не маленького проекту. Я впевнений насправді, що нещодавній анонс Майкрософту і ця нова версія Copilot, де ти вже можеш вести діалог зі своїм чат-ботом про свій код-бейс, це наступний крок, і ми скоро побачимо більше.

Тобто ти запитаєш, що робить цей клас, як він під'єднаний, яка логіка в цій архітектурі і як її розширити. Не забувай, що AI research роблять інженери і ці ж інженери заінтересовані в тому, щоб зробити своє життя кращим. Найкрутіші стартапи завжди йдуть за проблемами, які є в них самих. І тому люди, які вміють будувати AI системи і які є інженерами, точно побудують собі такі ж системи, які допоможуть їм будувати далі системи. Це така рекурсія.

Врешті-решт, ми девелопери завжди прагнули більшої абстракції. Із Assembly ми прийшли в С, а з С ми прийшли до Python. Мені подобається думати про майбутнє програмування як крок від Python до людської мови як наступної мови програмування.

«Просто опиши мені, що ти хочеш досягнути і якою архітектурою. А я вже склею тобі код.» Щось в цьому є. Даю тобі слово, ми туди дійдемо».

— SkyNet близько, так я розумію:)

— Це точно буде і дуже скоро. Але не так негативно — я вірю в позитивний ефект AI, у «техно-оптимізм» як це позначає Yann LeCun.

Що з відео

— З приводу мовних моделей зрозуміло. Коли вже буде там щось серйозне в галузі відео? Коли ти вже зможеш сказати програмі: зроби мені ось таке відео?

Взагалі, навіть більш велике питання — це мультимодальність моделей, тобто можливість працювати з декількома інпутами.

Відео — це серія картинок. Тут виникає проблема у темпоральній консистенції. Це дуже красиве слово для того, щоб сказати, що картинка, яку я зробив зараз, через 200 мс, це якось повʼязана картинка.

І якщо я щось змінив у першій картинці, то я хочу, щоб і в іншій картинці це була така сама зміна, а не зовсім інша зміна. І зараз дуже багато рісерчу йде насправді у тому, як це зробити. Тобто з однієї сторони, як це вирішити на рівні редагування — умовно Adobe Firefly, але для відео. А з іншої сторони, як генерувати відео типу Runway Gen 2.

Мені здається, що горизонт змін у цій сфері — це рік-два.

До речі, з цієї теми, помітив, що одна велика компанія, яка була дуже тихою в AI? Це Apple.

Вони дивляться, що відбувається, і намагаються зрозуміти, як з цього зробити продукт в екосистемі. І ось одна із нових розробок Apple Vision Pro, це їх AR окуляри. З того, що я знаю, там зараз дуже багато людських ресурсів йде в розробку відео алгоритмів. І аквізішн Mira від Apple тому приклад.

Тому продукт з відео точно буде, але технологія ще трохи сира із архітектурами зараз, але це швидко зміниться.

Окуляри та гуманоїди

— В окулярах є трохи напряжний форм-фактор. Це дуже масивна та незручна штука на твоїй голові. По-друге — це не дешево.

Я згоден із тобою. Я просто дивлюсь на ще рік далі. Люди тут планують на наступні 5 років вже. Я спілкувався з однією дівчиною з її стартапом. Вона робить зі звичайних окулярів за 200-300 доларів AI-окуляри. І в цих окулярах вона робить різні AR проєкції на лінзи, які допомагають тобі навігувати у кімнаті, створити якісь об'єкти і так далі. Ти навіть можеш з цим взаємодіяти. Ти цю взаємодію не відчуваєш рукою, звісно, але якщо ти провів рукою, то окуляри розуміють, де була твоя рука. Це може бути якась кнопка, наприклад.

На цей час це ще зовсім прототип, я скажу тобі чесно, я б це ще не випускав.

Але повір, мої відчуття підказують мені, що ми говоримо про два-три роки, і це точно буде реальністю. Тобто це буде такий гаджет, девайс, який стане масовим і буде мати якусь функцію, без якої не можна існувати. Такі собі Meta+Ray-Ban окуляри які нещодавно вийшли але із AR проекцією.

— Давай ще поговоримо про такий тред як Embodied AI. Коли можуть з’явитися «розумні гуманоїди»?

Google DeepMind випустив нещодавно Open X-Embodiment. І Meta Habitat 3.0 варто згадати. Вони створили вражаючий датасет і симуляції для маніпулятивних роботів. Тут мова йде про роботів, які можуть взаємодіяти з оточенням, виконувати завдання, отримані від людей, не маніпулювати людей — принаймні поки що :)

Цей великий датасет слугує для поєднання мовних моделей, тобто систем штучного інтелекту, які розуміють і генерують мовлення, з фізичними роботами. Ідея полягає в тому, що ви можете надати роботові інструкції або завдання, використовуючи природну мову. Наприклад, ви можете сказати: «Відкрий, будь ласка, ці двері,» і робот повинен зрозуміти ваші слова, обробити їх, спланувати завдання і виконати його. Це не тільки виклик для мовних моделей, але і для роботів, їхніх інженерів. Тому я думаю, що ми говоримо теж про горизонт декілька років.

Взагалі, якщо мене послухати, це все горизонт декількох років. Дійсно, через декілька років світ буде змінений повністю.

От подумай про те, який був світ два роки тому в контексті технологій. І чесно, я вірю в те, що через два роки він ще раз помітно зміниться. Тому що це буде такий період, коли технологічний хайп перетвориться в результат продуктів. І хочеться мати якнайбільше розумних людей, що будуть створювати ці зміни.