Стас Юрасов Такая жизнь 30 октября 2023, 08:51

Как Google проиграл OpenAI и что будет дальше. Рассказ инсайдера из Кремниевой долины

Герой этого интервью — Хамуди Наанаа, AI-ресерчер из Кремниевой долины. Он вырос в Украине, переехал в Германию, получил образование, а затем перебрался в США.

Оставить комментарий

Как Google проиграл OpenAI и что будет дальше. Рассказ инсайдера из Кремниевой долины

Герой этого интервью — Хамуди Наанаа, AI-ресерчер из Кремниевой долины. Он вырос в Украине, переехал в Германию, получил образование, а затем перебрался в США.

Хамуди успел поработать в Apple и Google, а недавно покинул Amazon.

«Я вообще покинул Big Tech, я работаю над своим собственным проектом, который еще в стелс-моде», — говорит исследователь.

В области искусственного интеллекта в Долине сейчас возникают многие AI-стартапы, крутящиеся вокруг большой языковой модели (Large language model, LLM) OpenAI.

Но LLМки крупных компаний многие из исследователей воспринимают как black box. Ведь неизвестно, как и на каких данных они тренировались.

Поэтому Наанаа считает, что мы стоим на пороге большого прорыва в сфере искусственного интеллекта, который пойдет именно со стороны независимых разработчиков, начинающих новые проекты. Если это крутые идеи, им удается получить доступ к капиталу, потому что за ними стоят экс-сотрудники Google, Apple, Amazon и других гигантов.

Как изменится наш мир в течение двух-трех лет, появятся ли человекоподобные андроиды, почему затаился Apple, как тренировали ChatGPT и почему Google наконец потерял первенство.

Обо всем этом — в нашем эксклюзивном интервью с Хамуди Наанаа.

— Расскажи немного о себе, я видел, что ты родился в Ливане, потом в Украине вырос, а учился в Германии. Уж очень интересно.

— Меня зовут Мохаммад (кратко ли Хамуди), это арабское имя. Мой отец из Ливана, а моя мама из Украины. И когда мне было 6 лет, мы переехали в Киев, где я прожил до 17 лет и получил гражданство.

Ментально я украинец, в Украине вырос и провел там свое детство. В 17 лет я переехал в Германию на учебу. Там получил свой computer science бэкграунд, мой главный бэкграунд.

В Германии началась моя карьера и продолжилась в Кремниевой долине.

Бекграунд Хамуди: путь от Apple к Google

— Расскажи, с чего начинал?

— Начинал я параллельно с учебой в 18 лет в Мюнхене в Apple как техник. За три года вырос в Software Engineer, далее Machine Learning Engineer, и впоследствии возглавил R&D лабораторию. Работал над интеграцией AI в hardware.

За мое время мы разрабатывали два больших проекта: первый — 3D аудио для AirPods, это spatial audio. Когда ты одеваешь свои AirPods и крутишь головой, и оно создает такой 3D-эффект присутствия звука вокруг тебя.

Второй проект, которым я руководил, был связан с интеграцией искусственного интеллекта в аппаратное обеспечение для фотографий. Идея заключалась в том, чтобы улучшить качество фотографий с камеры прямо на уровне хардвера. Например, когда вы делаете фотографию на iPhone, за несколько секунд система распознает лицо на фото и исправляет его, чтобы получить более высокое качество изображения. Я и моя команда работали над этим проектом.

— Каковы основные вызовы и задачи в этом проекте?

— Основными вызовами были разработка алгоритмов и моделей для распознавания лиц и автоматической коррекции изображений и их интеграция на аппаратном уровне. Фото нельзя было отправлять на серверы и требовалась мобильная модель с real-time распознаванием. При этом нам нужно учитывать ограничение технических возможностей хардвера и оптимизацию на разных поколениях устройств. Я по этому проекту многому научился по federated learning.

— Как ты попал в Volkswagen (знаю, что ты там работал)?

— Во время работы в Apple я познакомился с представителями Cariad, дочерней компании Volkswagen, специализирующейся на разработке программного обеспечения для автомобилей концерна. Их идеи и проекты в области автономного вождения меня очень заинтересовали и это был мой шанс построить очень интересную и сложную систему — возможность присоединиться к их команде и приобщиться к разработке систем автономного пилотирования для автомобилей.

В компании Quartett Mobile, входящей в экосистему Cariad, я работал над разработкой функций для автомобилей всего концерна, включая Bentley, Audi и Porsche, направленных на парковку и автономное управление.

— Как назывался этот парковочный проект?

— Мы называли это PiPa, Piloted Parking. Это было очень интересно, я многому научился как инженер. Я его разработал, и он сейчас в релизе пайплайни, например, для Bentley. Но это был мой период, когда я тоже понял, что мне не очень нравится low level разработка. Когда я создавал PiPa, я очень много времени тратил на оптимизацию на уровне hardware, потому что там все о миллисекундах, и там очень много такого low level development. В этот период я чувствовал, что хочу подняться на один левел абстракции повыше и строить новые сложные абстрактные системы как архитектор.

— Каковы основные отличия между твоим опытом работы в Apple и работой в немецкой компании?

— Одним из отличий была культура и динамика труда. В Apple работают очень целенаправленные специалисты, которые всегда стремятся достичь поставленных целей в любых условиях. Там важный подход сделать, несмотря ни на что, и эта идея остается в центре при принятии любого решения.

Люди верят в «делать вещи, меняющие жизнь миллионов» и живущие этим.

В то время как у немецкой компании существует другая корпоративная культура, где work-life balance имеет больший вес. И из-за этой разницы подходов и динамика другая — в немецких компаниях она медленнее. На финише, конечно, получается очень качественный и проверенный продукт, и там и там, но в очень разном темпе.

Эта разница в культуре труда была одной из вещей, которую я заметил после перехода к компании Cariad. Но мне тогда было не так много лет. Я был не на том этапе своей жизни, где у меня есть семья, и мне нужно думать о work-life balance.

Мне хотелось делать крутые вещи, и мне хотелось нового челленджа.

Новым вызовом стал Siemens. Туда меня пригласили возглавить команду и быть архитектором проекта, где мы строили децентрализованную систему принятия коллаборативных решений между робо-агентами. Работы-работники получают задание (например, перенести материалы на производстве из точки А в точку Б), и они между собой обсуждают план, голосуют и один его выполняет. Звучит немного футуристически, но я успешно построил агентов и алгоритм для коммуникации и принятия решений, и хорошо помню этот первый разговор наших роботов, невероятное ощущение!

Однако это было только начало моих агентов. Люди в Siemens однажды пригласили меня на хайкинг с их друзьями. Это такая Мюнхенская тема — там все идут хайкаты в Альпы рядом. На хайкинге я познакомился с несколькими людьми, и, оказалось, один из них работал в Google. Мы обсудили разные темы, мои проекты в Киеве, наши интересы и многое другое.

Вскоре они спонтанно поделились, что им понравилась моя история и вещи, которые я делал. После этого они раскрыли, что работают в Google. Оказалось, это был такой хайринговой план. Они предоставили мне возможность присоединиться к Google и работать над интересными проектами.

— Это такой хайринг Коварный план, кстати.

— Такой коварный план фактически забрали меня из Siemens’а. Но, конечно, я шучу. Мы договорились попить кофе и обсудить мои идеи и потенциальное сотрудничество, а я и не сопротивлялся.

Это был для меня очень увлекательный шанс, поскольку Google всегда был одной из компаний, которую я очень ценил. В Google я видел возможность расширить свои знания и развивать новые навыки еще глубже в AI. Конечно, это открыло для меня новые возможности и позволило участвовать в проектах, действительно меняющих мир. Google — крутая компания. Это был мой период, когда я хотел перепробовать Big Tech и понять, что делает такие крупные компании большими и научиться у них. У меня был некий To-Do-лист. И Google был моим следующим топ приоритетом.

— Чем ты занимался в Google?

— Мне сказали, смотри, мы сейчас едем в рисерч разных AI-агентов. И это был период за полгода до глобального релиза ChatGPT. Но в коммюните исследователей все понимали, что что-то большое уже надвигается, стоит только посмотреть на InstructGPT в начале того года и сигналы очень легко проследить. А трансформеры, на основе которых потом построили GPT, все большие модели — это же все пошло из Google.

Справка

Трансформеры — это такая архитектура глубоких нейронных сетей, предназначенная для обработки последовательностей, таких как текст на естественном языке. В отличие от более старых моделей трансформер не требует обработки последовательностей по порядку (например, от начала до конца текста). Такая особенность позволяет им видеть весь контекст сразу и таким образом генерировать более качественные ответы, руководствуясь этим глобальным контекстом.

В 2017 году команда Google выпустила paper, который назывался Attention’s All You Need. И в этом paper они в принципе предложили архитектуру NLP, архитектуру трансформера. Это такая мини-библия для GPT-моделей — оно даже в названии зафиксировано (Generative Pre-Trained Transformer) — да и вообще для всех LLM архитектур пока.

Момент истины: как OpenAI обошел Google

— Прости, не могу не спросить. Есть такое популярное мнение, что Google протыкал это время, когда нужно было запускать массовую языковую модель в массы, правда ли это?

— Я выскажу мнение, которое никак не ассоциируется с компанией Google, мое собственное мнение. Быстрый ответ: я не уверен, что я бы тоже не протыкал. Но ретроспективно — да.

Все это происходило, когда AI-разработчики представляли наибольший интерес именно в Computer Vision. Сначала появилась архитектура AlexNet в конце 2012 года, затем появились другие конволюционные нейронетворцы. Да, и Image был тогда горячей темой, очень многое происходило в комьюнити инженеров и исследователей.

Параллельно конечно существовала команда в Google (многие команды на самом деле), которые разрабатывали модели для обработки языка. Уже существовал Google Translate. Но я думаю мы все помним этот давний период: если переводишь больше одного предложения в Google Translate, то гарантированно там будет какой-то хаос.

Перед архитектурой трансформеров, вышедшей в 2017 году, была еще архитектура LSTM, и перед этим была архитектура RNN. И это были такие сети, которые пытались хранить в себе какой-то контекст и его аккумулировать. Но их проблема была в том, что ты не мог аккумулировать слишком многое из-за дизайна этой архитектуры.

А трансформеры были первыми, что показали, как круто можно скейлить с помощью attention механизма, учившегося понимать корреляцию одного токена с другим токеном. И тебе удается создать этот большой глобальный контекст, где ты можешь понять, что сейчас важно, что сейчас неважно, и с помощью этого получилась твоя проблема гораздо качественнее.

Когда возникли трансформеры, все начинали осознавать, что NLP будет стремительно развиваться. Появился BERT, это была LLM-ка от Google. Я помню, тогда в ней было только 340 миллионов параметров. И я помню, как все говорили, что 300 миллионов — это нельзя скейли в массовый продукт. Словно, это очень дорого, и в продакшн никак не запихать не получится, потому что как ты объяснишь своему продакту экономику. Потому что 300 миллионов — это очень большие счета за электричество.

Но в то же время OpenAI уже существовал, и они подхватили этот тренд. Я был недавно на ивенте, где Сэм Альтман, основатель OpenAI, рассказывал, как он видел это развитие. Он высказал очень интересное мнение: на самом деле искусственный интеллект на базе трансформеров для них в то время были таковы, не то чтобы экзотика, но явно не мейнстрим.

И только один или два человека в OpenAI заметили возможность и начали их исследовать. Это был почти side hustle в OpenAI в самом начале, в первые месяцы, пока они не поняли, что это вообще не о Translate (перевод). И перевод этого типа лишь один из очень многих кейсов. Именно в этот момент они соединили все точки между собой. И соответственно начали думать о продакшне.

Почему они были первыми? Мое мнение состоит в том, что OpenAI тогда еще никто в большом контексте не знал. То есть все великие игроки знали, что такое OpenAI, все знали, что там Илон Маск и Сэм Альтман.

Но моя мама не знала эту компанию, как и миллионы людей.

Это был инкубатор идей, где деньги есть, и есть цель создавать и исследовать AI системы. Но Google в то время — это была огромная компания, и цена ошибки запуска в массы технологий, которую еще никто из широкой аудитории не увидел, для них была бы огромна.

И знаешь, это на C-Level руководстве и дальше привело к тому, что никто не мог объяснить, как это все завязывается в крутом продукте. Просто никто не хотел рисковать, потому что эти LLМки — это все равно был черный сундук в восприятии людей. И сбрасывать этот черный сундук на миллионы людей в момент, когда уже началось гонение на крупные папки компании (социальные медиа стали большой проблемой), не хотелось.

А OpenA таковы: «давайте делать». Даже если в новых моделях присутствовали ужасные радикальные ассоциации (уборщик всегда женщина, инженер всегда парень) в выдаче результатов исправим. Это ведь происходило из-за того, что их натренировали на таких данных из Интернета.

На уровне СhatGPT такие ошибки — это, конечно, скандал, об этом тоже говорили. И OpenAI прилагает невероятные усилия, чтобы этого не произошло. Но с этим было более окей, потому что они исследователи. Если бы такие ошибки произошли в Google, это восприняли как катастрофу. И вот все это и привело к тому, что Google был очень-очень медленный.

Если ты кстати заметил, все авторы paper Attention is all we need — покинули Google.

— Почему они покинули Google?

— Это спекуляция с моей стороны, но я думаю, потому что они, во-первых, поняли, что самому гораздо больше можно построить, чем это позволит тебе Google. Потому что ты все равно остаешься в рамках этой крупной компании и ее экосистемы. А в этом новом мире, который мы сейчас строим, даже мы еще не до конца понимаем, что там все можно построить.

И во-вторых, в этой сфере очень большой потенциал и нужно очень быстро двигаться, а это возможно только в стартапах. И в этом контексте очень много людей, которые уже поняли: именно стартапы, а не крупные компании, первыми создадут новые идеи и продукты. Даже если технология будет уходить от гигантов, ведь у малых игроков нет возможности тратить десятки тысяч долларов на тренировки массивных моделей типа GPT3 или 4.

Поэтому отвечая на твой вопрос: да, Google этот момент упустил. И он, даже понимая, что он упускает этот момент, его пропустил.

— Google пропустил, а почему тогда OpenAI всех обыграл? В чем была его сильная сторона?

— Очень талантливая группа людей-визионеров с опытом и возможностью и свободой экспериментировать. OpenAI, конечно, совершил революцию. И революция была не только в LLМках, как таковых. OpenAI удалось добавить свою «магию», чтобы довести их до продукта. Попробую объяснить на собственном опыте.

До последнего времени я работал исследователем AI и руководил командами в Amazon. Одна команда была более теоретическая, а вторая более практична. Мы исследовали LLМки. Мы уже понимали на тот момент всю динамику, и пытались посмотреть, а что может быть дальше, какая может быть следующая архитектура, какая может быть следующая модель, какие теоретические лимиты есть у существующих систем, и как из этого создать продукты.

Мы тренировали нашу модель много времени, несколько недель, много денег было потрачено. Мы говорим о десятках тысяч долларов только на электричество, просто чтобы модель тренировалась. И я очень хорошо помню одну историю, когда этот процесс закончился, и нужно было результат тестировать. В одном из тестов мы попросили эту модель перевести предложение с английского на французский (одна из важных публичных задач для Amazon — это очевидно мультиязычие — компания работает на очень многих рынках).

Мы дали системе банальное предложение, типа там London is the capital и просим перевести это на французский. И вместо того, чтобы перевести это на французский язык, модель продолжает это предложение по-английски: The capital of Great Britain. Хотя мы, конечно, попросили именно перевод, а не продолжение. Это все равно статистическая машина, и если где-то в интернете, в дейтасетах было очень много текстов с запросами перевести именно это предложение (London, The capital of Great Britain), то статистически говоря, это самый вероятный результат выдачи.

Так работает модель потому, что такие данные эта модель увидела. Но понятно что пользователю ты это так не объяснишь, в контексте товара это недопустимо. Идея подравнивания выдачи (алайнмента) в том, что ты пытаешься сделать предложение, которое кажется людям более интуитивным как ответ. И это не всегда статистическая середина.

OpenAI применили технику, RLHF, Reinforcement Learning Human Feedback, которая позволила решить эту проблему. Если не вдаваясь в детали, они придумали, как сделать меньшую суррогатную модель-компаньон, задача которой — смотреть на фидбек людей и пытаться предсказать, насколько понравится людям выдача основной модели. Это реализовано очень просто. Когда ты получаешь ответ от ChatGPT, то у тебя дело есть thumbs up, thumbs down. Ты просто говоришь о модели like или dislike.

И благодаря этому даешь много дополнительных данных для OpenAI, которые они используют как раз для тренировки этой суррогатной модели. Большая LLM-ка вроде GPT предполагает не один вариант выдачи, а три-четыре. А маленькая просто помогает выбирать лучшее. Цель алайнмента — субъективность. Люди не всегда статистически впитывают лучше всего. Они впитывают то, что подходит сейчас в контексте больше всего.

OpenAI были первыми, кто запустил эту механику в массовом объеме, чтобы получать фидбеки от людей и улучшать свою модель, сделать выдачу более точной. То есть это такая пост-тренировка модели после того, как она была натренирована на массивах данных. И не поверишь, в том числе и до сих пор делает продукты OpenAI такими уникальными по сравнению с их open source альтернативами.

И эта история лишь один пример из многих, которые демонстрируют как с помощью концентрации талантливых людей и ресурсов и правильно созданных условий OpenAI это удалось.

What’s up in Silicon Valley

— Ты вспоминал, что сейчас в этой сфере время стартапов. Что же происходит в Кремниевой долине?

— Коротко — бум! Новая технология создала новый рынок, вокруг которой сейчас растет целая экосистема. От строительства продуктов оберток GPT до компаний провайдеров инфраструктуры. Все пытаются направить новую технологию в продукты и каждый день я вижу новые идеи очень быстро развивается все.

Параллельно с этим сама технология быстро развивается, каждую неделю новые пейперы, и вокруг новых технологий опять же строятся еще более новые продукты. Exciting times, невероятная динамика!

На один этаж выше у местного исследовательского комьюнити отдельный тренд по демократизации AI. Строятся опен сорс модели как конкуренты новым титанам. Вот Цель, к примеру, выпустила LlAMA 2, это было летом. И если ты посмотришь на их white paper, то действительно она сравнивается с GPT4.

Но когда ты пытаешься строить продукты (из моего опыта и разговоров с очень большим количеством людей — основателей, работающих даже с Big Data и тоже пытающихся строить продукты на основе LLM), то действительно все говорят, что или ты сможешь найти какую-нибудь очень узкую нишу твоего продукта, и это будет маленькая модель. Она очень хорошо делает что-то одно, но она не будет GPT, что делает все.

Или тебе нужно GPT, чтобы создать, например, чатбот для анализа твоих медицинских анализов. И здесь, кроме GPT, на чем-то другом очень трудно строить продукт. Потому что другие модели просто не способны так хорошо перформировать, как это нужно тебе.

— То есть, OpenAI пошел на несколько лет впереди, или как это можно сказать?

Возможно не лет, а месяцев, но да. Сейчас такая динамика, что они все еще впереди всех. И они очень быстро двигаются.

— Как отрасль будет пытаться бороться с галлюцинациями дальше?

— Есть большой тренд, как бороться с появившимся в феврале галлюцинациями. Это так называемый RAG. RAG — это Retrieval Augmented Generation. Идея в том, что RAG позволяет тебе сохранять твой knowledge, специфичный для твоей компании.

Представь себя в роли Amazon или какой-то компании, которая хочет использовать LLM. У тебя, очевидно, есть какая-то информация, которой не было в интернете публично. Что-то типа прайсинга или названия твоих продуктов, их специфики и так далее. Ты хочешь эту информацию использовать, но не можешь просто напичкать ее в ChatGPT.

Да это не работает. У тебя есть еще ограничение, которое до сих пор существует: Limited Context Window Size. Это больше hardware ограничения. Потому что архитектурно это уже можно было бы решить, но это очень дорого. Хотя я уверен, что эта проблема будет одной из первых, которая решится на горизонте.

Пока этого нет, появилось решение, помогающее в этой проблеме. И это RAG: вместо того, чтобы толкать в LLM много всего, можно выбирать динамически только тот контекст, который имеет смысл именно сейчас в этом запросе.

— И как это работает, если коротко?

— Ты владелец компании. Тебе нужно сохранить всю свою информацию в текстовом виде о своей компании (это PDF-ки, файлы, тексты и т. д.) в так называемую векторную базу данных. И каждый раз, когда кто-то делает реквест на твой чат, этот запрос тоже векторизируется и сравнивается со всеми векторами, которые есть в твоей базе данных. И ты тогда вытаскиваешь из базы не все сразу, а только, скажем, топ-10 подходящих под запрос векторов.

Я поговорил с очень большим количеством различных компаний, предоставляющих инфраструктуру для баз данных. И сейчас тенденция в Долине такова: если у тебя есть компания, которая дает какую-то базу данных, но ты не делаешь ничего с векторами, то ты подзастрял.

Эта технология позволяет динамически реагировать на запросы. Если у тебя есть стартап, который занимается недвижимостью в Австралии и Украине, то когда кто-то спрашивает о цене квартир в Киеве, то система по слову Киев найдет ближайшую в таблице недвижимость и не будет втягивать австралийский контекст в этот разговор.

— У тебя самого были когда-то прикольные частные кейсы применения LLМки?

— У меня с Google была такая деятельность — образование. Я устраивал разные конференции, куда я приглашал каких-то экспертов по индустрии, иногда это были обычные студенты, иногда это были какие-то топ-левел конференции.

Так вот, однажды это была мюнхенская конференция по безопасности, куда всегда даже президенты приходят. И я устраивал панель с Филом Веннабелсом, это был советник Байдена по технологиям и образованию в США. И тогда случилась легендарная история.

У меня не было прямого контакта к потенциальным спикерам. И я взял их Твиттер — они же публичные персоны. Прогнал по этим аккаунтам сначала одну модель, которая сделала сентиментальный анализ и поняла, насколько эмоционален у их твитов. Моя гипотеза была в том, что чем эмоциональнее твит, тем более важна это тема для этого человека.

И вот я вытащил твиты Фила Веннаблса и профильтровал топ 15 по эмоциональной заряженности. А потом просто всунул эти результаты в контекст ChatGPT и сказал: я хочу пригласить этого человека на панель, у меня такая-то адженда, такая-то тематика, вот о чем этот человек пишет и думает. Придумай мне, как написать такой колд-эмейл, который поможет мне вызвать его интерес и задеть. И не поверишь, Фил приехал в Мюнхен! Мы об этом потом как-то обсудили — для меня это был момент этой магии.

— Я думаю, выдача результатов во многом зависит от удачно подобранных вводных данных.

— Да. Но и от промпта тоже! Недавно здесь был ивент, куда приходил Андрей Карпаты, кофаундер OpenAI, технарь, который до этого был в Tesla, был ответственен за Autonomous Driving. И это очень публичная фигура, инженер, лицо OpenAI.

На ивенте была такая возможность поговорить немного с ним. И мы очень смеялись над тем, что Prompt Engineering — это, типа, уже официальная карьера.

И действительно, правильные водные данные, то есть как правильно написать промпт, который заставит модель правильно себя вести — это отдельный таск. Я помню, еще зимой над этим смеялся. Но ты не поверишь, сколько людей я встретил, какие на фул-тайме просто делают промпты.

Это тренд, который я увидел весной. В инкубаторе Y Combinator много стартапов по этой теме. Это фактически обертки вокруг ChatGPT, но с правильным промптом: как модель должна вести себя, что должна делать. Типа, добавили input-output.

Большие компании тоже этим занимаются. Есть Khan Academy, это такой онлайн-портал, где можно учиться через онлайн-курсы. И они были одними из первых, кто работал с OpenAI. Они сделали персональные туторы. Это такие агенты, которые разговаривают с тобой и пытаются научить тебя очень персонализированно, индивидуально в теме, которую ты сейчас проходишь.

То есть ты можешь спросить что-нибудь, а он объясняет тебе, что работает, что не работает, находит пробелы в твоих знаниях.

С точки зрения продукта это просто обертка ChatGPT, там нет хайтека. Но это и полноценный продукт и Khan Academy инноваторы.

Другой пример — это телефония. Я даже сам играл и пробовал несколько проектов. Идея в том, что ты создаешь такой инструмент, где получаешь аудиозвонки от людей. Всё просто. С одной стороны у тебя speech-to-text модель, а с другой стороны text-to-speech модель. А посередине — ChatGPT, некий сэндвич. И у тебя просто for free появляется аудиоагент, который может разговаривать по телефону и продавать.

Но дальше возникают вопросы, как это правильно доделать до продукта, потому что там еще есть latency, и AI-модель, которая конвертирует что-то, может делать это медленно. Кстати, в конце сентября ChatGPT запустил функцию озвучивания ответов. Здесь очевидно технология тоже не стоит на месте.

Когда программиста заменит машина

— Таков вопрос: языковые модели не только для общения, это касается и программирования. И уже появляются первые копилоты. Что дальше? Когда машина заменит программиста?

— Сейчас в Долине происходит очень много разных хакатонов, встреч, дискуссий среди инженеров, исследователей, компаний. И вопросы, которые они обсуждают, как создавать автономные агенты. Я был на хакатоне с Эриком Шмидтом. И дискуссия была та же: как строить автономных агентов.

Все крупные компании двигаются в этом направлении. Все, кто имеет экосистему, начнут строить таких ассистентов, которые помогут тебе существовать в этой экосистеме. У Microsoft есть Windows, и они сейчас построили CoPilot не на уровне кода, а уже на уровне всех систем. В таком же формате будут развиваться и другие компании Bigtech. Вот представь себе, что у тебя есть такой персональный ассистент, имеющий доступ к твоему контексту. То есть есть имейлы, твои там митинги в календаре и так далее. И он помогает тебе. К примеру, тебе кто-то написал. Надо быстро ответить. Он предложит тебе три варианта. Ты выберешь лучшее. Он ответит.

— А что касается именно работы по программированию?

— Copilot сейчас дополняет локально. Но у меня нет доверия на 100%, что он построит мне все как следует. Он не способен втиснуть в себя весь контекст, если у тебя кодбейз не маленького проекта. Я на самом деле уверен, что недавний анонс Майкрософта и эта новая версия Copilot, где ты уже можешь вести диалог со своим чат-ботом о своем код-бейс, это следующий шаг, и мы скоро увидим больше.

То есть ты спросишь, что делает этот класс, как он подключен, какова логика в этой архитектуре и как ее расширить. Не забывай, что AI research делают инженеры и эти же инженеры заинтересованы в том, чтобы сделать свою жизнь лучше. Самые крутые стартапы всегда идут за проблемами, которые есть у них самих. И потому люди, умеющие строить AI системы и являющиеся инженерами, точно построят себе такие же системы, которые помогут им строить дальше системы. Это такая рекурсия.

В конце концов, мы девелоперы всегда стремились к большей абстракции. С Assembly мы пришли в С, а из С мы пришли в Python. Мне нравится думать о будущем программировании как шаге от Python к человеческому языку как следующему языку программирования.

«Просто опиши мне, что ты хочешь добиться и какой архитектурой. А я уже склею тебе код. Что-то в этом есть. Даю тебе слово, мы туда дойдем».

— SkyNet близко, да я понимаю:).

— Это точно будет и очень скоро. Но не так негативно — я верю в положительный эффект AI, в «техно-оптимизм», как это обозначает Yann LeCun.

Что с видео

— По поводу языковых моделей понятно. Когда уже будет там что-нибудь серьезное в области видео? Когда ты сможешь сказать программе: сделай мне вот такое видео?

Вообще, даже более большой вопрос — это мультимодальность моделей, то есть возможность работать с несколькими инпутами.

Видео — это серия картинок. Здесь возникает проблема в темпоральной консистенции. Это очень красивое слово для того, чтобы сказать, что картинка, которую я сделал сейчас, через 200 мс, это как-то связанная картинка.

И если я что-то изменил в первой картинке, то я хочу, чтобы и в другой картинке это было такое же изменение, а не совсем другое изменение. И сейчас очень много риссерча идет на самом деле о том, как это сделать. То есть с одной стороны, как это решить на уровне редактирования — условно Adobe Firefly, но для видео. А с другой стороны, как генерировать видео типа Runway Gen 2.

Мне кажется, что горизонт перемен в этой сфере — это год-два.

Кстати, по этой теме, заметил, что одна крупная компания, которая была очень тихой в AI? Это Apple.

Они смотрят, что происходит и пытаются понять, как из этого сделать продукт в экосистеме. И вот одна из новых разработок Apple Vision Pro, это их AR очки. Из того, что я знаю, там сейчас очень много человеческих ресурсов уходит в разработку видео алгоритмов. И аквизишн Mira от Apple тому пример.

Поэтому продукт с видео точно будет, но технология еще немного сыра с архитектурами сейчас, но быстро изменится.

Очки и гуманоиды

— В очках есть немного напряженный форм-фактор. Это очень массивная и неловкая штука на твоей голове. Во-вторых, это не дешево.

Я согласен с тобой. Я просто смотрю еще год дальше. Люди здесь планируют на следующие 5 лет. Я общался с одной девчонкой с ее стартапом. Она делает из обычных очков за 200-300 долларов AI-очки. И в этих очках она делает разные AR проекции на линзы, которые помогают тебе навигировать в комнате, создать какие-то объекты и так далее. Ты даже с этим можешь взаимодействовать. Ты это взаимодействие не ощущаешь рукой, конечно, но если ты провел рукой, то очки понимают, где была твоя рука. Это может быть какая-нибудь кнопка, например.

Сейчас это еще совсем прототип, я скажу тебе честно, я бы это еще не упускал.

Но поверь, мои ощущения подсказывают мне, что мы говорим о двух-трех годах, и это точно будет реальностью. То есть это будет такой гаджет, девайс, который станет массовым и будет иметь некую функцию, без которой нельзя существовать. Такие Meta+Ray-Ban очки недавно вышли, но с AR проекцией.

— Давай еще поговорим о таком треде как Embodied AI. Когда могут появиться «умные гуманоиды»?

Google DeepMind выпустил недавно Open X-Embodiment. И Meta Habitat 3.0 стоит упомянуть. Они создали поразительный датасет и симуляции для манипулятивных роботов. Здесь речь идет о роботах, которые могут взаимодействовать с окружающими, выполнять задачи, полученные от людей, не манипулировать людей — по крайней мере, пока :)

Этот большой датасет служит для сочетания языковых моделей, то есть систем искусственного интеллекта, понимающих и генерирующих речь, с физическими работами. Идея состоит в том, что вы можете предоставить роботовые инструкции или задачи, используя естественный язык. Например, вы можете сказать: «Открой, пожалуйста, эту дверь,» и робот должен понять ваши слова, обработать их, спланировать задания и выполнить его. Это не только вызов для речевых моделей, но и для роботов, их инженеров. Поэтому я думаю, что мы говорим тоже о горизонте несколько лет.

Вообще если меня послушать, это все горизонт нескольких лет. Действительно, через несколько лет мир будет изменен полностью.

Вот подумай о том, каким был мир два года назад в контексте технологий. И честно, я верю в то, что через два года он еще раз заметно изменится. Потому что это будет такой период, когда технологичный хайп превратится в результат продуктов. И хочется иметь больше умных людей, которые будут создавать эти изменения.

Оставить комментарий

Текст: Стас Юрасов Теги: chatgpt, google, openai

Нашли ошибку в тексте — выделите её и нажмите Ctrl+Enter. Нашли ошибку в тексте — выделите её и нажмите кнопку «Сообщить об ошибке».

УЧАСТЬ В АЗАРТНИХ ІГРАХ МОЖЕ ВИКЛИКАТИ ІГРОВУ ЗАЛЕЖНІСТЬ. ДОТРИМУЙТЕСЯ ПРАВИЛ (ПРИНЦИПІВ) ВІДПОВІДАЛЬНОЇ ГРИ.

Ліцензія видана ТОВ "СЛОТС Ю.ЕЙ." на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 15.09.23 (рішення КРАІЛ №245 від 31.08.2023); ТОВ "СЛОТС Ю.ЕЙ." – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 26.04.2021 (рішення КРАІЛ №150 від 12.04.2021); ТОВ «СПЕЙСИКС» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 08.02.2021 (рішення КРАІЛ №34 від 02.02.2021); ТОВ «ГЕЙМДЕВ» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 16.02.2021 (рішення № 47 від 10.02.2021).

Розміщення реклами

Размещение рекламы