Олексій Дзюба Історії 27 січня 2025, 16:59

Вбивця ChatGPT та Nvidia. Як китайська DeepSeek ідеально застосувала принцип «дешево і сердито» до ШІ-моделі, сколихнувши цим світові ринки

Останні дні всі говорять про китайський стартап DeepSeek та його нову безплатну модель штучного інтелекту з відкритим кодом R1. Остання буквально зараз переписує історію штучного інтелекту. По-перше, вона перевершила найновішу модель o1 від OpenAI у декількох незалежних тестах. По-друге, допомогла DeepSeek за вихідні стати топовим застосунком в App Store. По-третє, спровокувала падіння цін на акції технологічних компаній, включно з топовим виробником графічних процесорів Nvidia. Детальний розбір того, за рахунок чого DeepSeek вдалося перевершити конкурентів, читайте в матеріалі.

Залишити коментар

Вбивця ChatGPT та Nvidia. Як китайська DeepSeek ідеально застосувала принцип «дешево і сердито» до ШІ-моделі, сколихнувши цим світові ринки

Хто такі DeepSeek

DeepSeek у 2023-му році заснував 40-річний підприємець Лян Веньфен. Він вважається одним із провідних інвесторів Китаю. Його хедж-фонд High-Flyer фінансує ШІ-дослідження DeepSeek. Сама компанія базується в місті Ханчжоу, розташованому на східному узбережжі країни, в провінції Чжецзян.

Ханчжоу є одним із провідних технологічних центрів Китаю. Саме там розташована штаб-квартира технологічної корпорації Alibaba Group. Ще у місті розвиваються численні дослідницькі інститути та університети. Наприклад, університет Чжецзян — один із найкращих технічних університетів Китаю.

Лян Веньфен здобув освіту в галузі комп’ютерних наук та штучного інтелекту. До заснування DeepSeek він працював у провідних технологічних компаніях Китаю, де займався дослідженнями в сфері машинного навчання та обробки природної мови.

В одному зі своїх нечисленних інтерв’ю засновник DeepSeek попередив свого конкурента, компанію OpenAI: «Перед обличчям проривних технологій перешкоди, створені закритим кодом, є тимчасовими. Навіть закритий підхід OpenAI не може завадити іншим наздогнати її». Його слова не були порожніми.

Яку революцію в ШІ робить DeepSeek

Наприкінці 2024 року DeepSeek представила свою нову відкриту ШІ-модель — V3, яка добре працює з кодом, але не дуже охоче відповідає на питання стосовно Китаю та його історії. Уже за місяць, у 20-их числах січня компанія представила нову версію ШІ — R1. Розробники стверджують, що вона не поступається «вдумливій» моделі o1 від OpenAI за продуктивністю та ціновою доступністю. DeepSeek R-1 грунтується на великій базовій моделі DeepSeek-V3.

DeepSeek-R1, як і o1 від OpenAI, тренувалася за методом навчання з підкріпленням (RL). Проте в китайській компанії говорять, що крім цього застосували «контрольоване тонке налаштування», щоб впоратися зі складними завданнями на міркування і відповідати продуктивності o1.

Щоб продемонструвати переваги свого підходу, DeepSeek використовував R1 для дистиляції шести моделей Llama і Qwen, піднявши їхню продуктивність на новий рівень. В одному випадку, дистильована версія Qwen-1.5B перевершила набагато більші моделі, GPT-4o і Claude 3.5 Sonnet, в окремих математичних тестах. Ці моделі, як і основна R1, були розроблені з відкритим вихідним кодом і доступні на Hugging Face за ліцензією Массачусетського технологічного інституту.

Під час тестування DeepSeek-R1 набрала 79,8% на математичних тестах AIME 2024 і 97,3% на тесті MATH-500. Вона також отримала 2029 балів на Codeforces, перевершивши 96,3% програмістів-людей. У цих тестах версія o1-1217 набрала 79,2%, 96,4% та 96,6% відповідно. У тесті на загальні знання на MMLU, R1 трохи поступилася з точністю 90,8% проти 91,8% в o1.

Ефективність DeepSeek-R1 називають великим досягненням китайського стартапу у сфері ШІ, де наразі переважно домінують компанії з США. Крім того, DeepSeek працює за моделлю open source і відкриває доступ навіть до навчальних матеріалів.

Ще однією перевагою DeepSeek для користувачів є її цінова політика. OpenAI надає доступ до o1 за ціною $15 за мільйон вхідних токенів і $60 за мільйон вихідних токенів. Натомість DeepSeek Reasoner, заснований на моделі R1, коштує $0,55 за мільйон вхідних токенів і $2,19 за млн вихідних токенів.

Китайський ШІ-застосунок DeepSeek обійшов ChatGPT в App Store

Як китайська компанія обійшла американські санкції

Китайські ШІ-компанії стикаються з обмеженнями у вигляді посилення експортного контролю США над передовими чіпами. Але замість того, щоб послабити можливості штучного інтелекту Китаю, санкції, схоже, спонукають такі стартапи, як DeepSeek, до інновацій.

Протягом 2021 року Лян Веньфен почав купувати тисячі графічних процесорів Nvidia для одного зі своїх ШІ-проєктів. Інсайдери галузі розцінили це як ексцентричні дії мільярдера, який шукає нове хобі. Натомість китайський підприємець казав, що хоче побудувати те, що змінить правила гри.

Китайські ЗМІ пишуть, що компанія має на складі понад 10 000 одиниць, але Ділан Пател, засновник консалтингової компанії SemiAnalysis, що займається дослідженнями штучного інтелекту, називає кількість в 50 000. Визнання потенціалу цього запасу для навчання штучному інтелекту — це те, що спонукало Ляна до створення DeepSeek, яка змогла використовувати їх у поєднанні з чіпами з меншою потужністю для розробки своїх моделей.

Один з колишніх працівників DeepSeek розповів, що для того, щоб створити R1, стартапу довелося переробити свій процес навчання. Це було потрібно, аби зменшити навантаження на графічні процесори, потужності яких компанія Nvidia зменшила для китайського ринку на вимогу США.

Дімітріс Папайліопулос, головний науковий співробітник дослідницької лабораторії Microsoft AI Frontiers, каже, що найбільше його здивувало в R1 — це його інженерна простота. «DeepSeek націлений на отримання точних відповідей, а не на деталізацію кожного логічного кроку, значно скорочуючи час обчислення, зберігаючи високий рівень ефективності», — каже він.

Про американські технологічні санкції щодо Китаю

Влітку 2023 року президент США Джо Байден підписав указ про блокування та регулювання інвестицій американських компаній у технологічні компанії Китаю. Це стосується напівпровідників, мікроелектроніки, квантових інформаційних технологій та штучного інтелекту.

Через це компанії Nvidia довелося випускати спеціальну відеокарту RTX 4090D — повільнішу версію своєї флагманської відеокарти для китайського ринку. Вона мала на 12,8% менше CUDA-ядер, щоб відповідати санкційним обмеженням США.

На початку цього року стало відомо, що Nvidia вдалося зменшити продуктивність китайської версії відеокарти RTX 5090D без зміни технічних характеристик. Як і попереднє покоління відеокарт Nvidia, next-gen версії GPU матимуть спеціальну версію для Китаю, яка матиме обмежену потужність, зокрема в завданнях для ШІ, через санкції США. Цікаво, що цього разу, попри зменшену продуктивність RTX 5090D має ідентичні характеристики з повноцінною версією відеокарти.

Чому DeepSeek спричинив падіння акцій по всьому світу

Тепер у компанії стверджують, що модель DeepSeek R1 була розроблена всього за два місяці й обійшлася лише у $6 млн. Для неї нібито використовували потужності чипів Nvidia H800, які були обмежені американськими санкціями проти Китаю. Не дивлячись на те, що H800 є не найсучаснішою розробкою Nvidia, DeepSeek вдалося створити модель, яка конкурує з найпотужнішими ШІ-моделями США.

Якщо інформація про DeepSeek повністю відповідає дійсності, це викликає сумніви в інвесторів щодо майбутніх значних витрат на інфраструктуру штучного інтелекту. Можна робити «дешево і сердито».

Запуск запитів DeepSeek-R1 коштує лише $0,14 за мільйон токенів, що робить її на 98% дешевшою у порівнянні з OpenAI, де ця вартість становить $7,5 на момент підготовки матеріалу. Більш яскраво різницю видно у розрізі рентабельності. DeepSeek витрачають $2,19 за 1 млн токенів, а OpenAI — $60 за 1 млн токенів.

Ринок вже відреагував на дешевшу ШІ-альтернативу. Першим на собі падіння через DeepSeek відчули японські компанії, пов’язані з американськими ШІ-компаніями. Акції Advantest, яка постачає техніку для Nvidia, впали на 7,99%, Tokyo Electron — майже на 4%, Softbank Group (володіє розробником чипів Arm) — на 5,4%, Furukawa — на 9,8%, Fujikura — на 8%.

Акції Nvidia, яка є великим бенефіціаром ШІ-революції, впали спочатку на 9% у премаркеті, а згодом — на 12%. Інші техгіганти, включно з Microsoft і Meta, втратили близько 4%. Nasdaq втратив 3,6%, тоді як S&P 500 знизився на 2,2%. Зниження вартості акцій не обмежилося США.

Європейський виробник чипів ASML втратив 9,7%, що спричинило 4,8-відсоткове падіння індексу Stoxx Europe 600 Technology. Furukawa Electric, який постачає кабелі для дата-центрів, втратив понад 11,3%, ставши лідером падіння на індексі Nikkei 225 у Токіо. Не втрималась і крипта — біткоїн та менші токени подешевшали разом із ф’ючерсами на акції США.

Вартість Bitcoin опустилася нижче $100 000 після новин про запуск китайської ШІ-моделі DeepSeek та указу Трампа про криптовалюту

Яка реакція OpenAI і Meta

Відповідно до «Білої книги», опублікованої минулого року Китайською академією інформаційно-комунікаційних технологій, державним науково-дослідним інститутом, кількість великих мовних моделей штучного інтелекту в усьому світі досягла 1328. З них 36% походять з Китаю. Це позиціонує Китай як другого за величиною внеску в ШІ після США.

«Ми повинні дуже серйозно поставитися до китайських розробок», — сказав на економічному форумі в Давосі Сатья Наделла, генеральний директор компанії Microsoft, яка є найбільшим інвестором OpenAI.

Meta планує вкласти $60 млрд у 2025-му році в розвиток ШІ на тлі занепокоєння щодо китайського стартапу DeepSeek. Її глава Марк Цукерберг заявив, що його компанія створить центр обробки даних компанії в Луїзіані «розміром з острів Мангеттен». За його словами, 2025-ий рік стане «визначальним для ШІ».

На думку Марка Цукерберга Meta AI стане «провідним помічником», який обслуговуватиме понад 1 млрд користувачів. «У 2025-му році ми виведемо в онлайн близько 1 ГВт обчислювальних потужностей, а до кінця року матимемо понад 1,3 млн графічних процесорів», — заявив Цукерберг.

«OpenAI була заснована 10 років тому, має 4500 співробітників і залучила $6,6 млрд. DeepSeek було засновано менше 2-х років тому, налічує 200 співробітників і коштує менш як $10 млн. Як ці дві компанії зараз є конкурентами?» — логічно запитав один з експертів в соцмережі X.

Meta планує вкласти $60 млрд у 2025 році в розвиток ШІ на тлі занепокоєння щодо китайського стартапу DeepSeek

Чому до кінця не можна довіряти DeepSeek

Попри хайп навколо R1, DeepSeek залишається відносно невідомою компанією. Її заснував у липні 2023 року Лян Веньфен. Як і Сем Альтман з OpenAI, Лян прагне створити штучний загальний інтелект (AGI), яка може зрівнятися з людьми або навіть перевершити їх у ряді завдань. Чи буде стартап залучати додаткові кошти для роботи і від кого, ким фінансується, хто складає ядро його команди зараз — на всі ці питання відповіді поки що немає. Так само як і немає розгорнутої інформації про Лян Веньфена, засновника компанії.

Ще одна проблема — це цензура ШІ-моделі. DeepSeek, будучи китайською компанією, підлягає порівняльному аналізу з боку китайського Інтернет-регулятора, щоб переконатися, що відповіді її моделей «втілюють основні соціалістичні цінності». Багато китайських систем штучного інтелекту відмовляються відповідати на теми, які можуть викликати гнів регуляторів, наприклад, спекуляції про режим Сі Цзіньпіна, Тайвань чи повстання на площі Тяньаньмень (місце протестів 1989 року, пов’язаних із демократичним рухом і розгоном протестувальників).

Також невідомими залишаються деталі розробки DeepSeek та яке обладнання вона використовує. Існують заяви компанії, які поки що неможливо перевірити. Скільки саме і які потужності були використані, за скільки часу був досягнутий результат та як компанія буде продовжувати розвиток, маючи обмеження в імпорті потужностей. Також на сьогодні ми не маємо достатньої кількості незалежних ШІ-досліджень, які б справді підтвердили перевагу китайської компанії над ШІ-моделями від OpenAI чи Meta. І головне — які саме налаштування в технологіях допомогли DeepSeek стати головною ШІ-компанією в моменті, а також, можливо, і в майбутньому.

Китайський стартап DeepSeek випустив ШІ-модель рівня o1 від OpenAI й пропонує на 90% дешевшу підписку

Китайці запустили одну з найпотужніших відкритих ШІ-моделей DeepSeek V3 яка добре працює з кодом але не дуже охоче відповідає на питання стосовно країни розробника

Читайте головні IT-новини країни в нашому Telegram

Залишити коментар

Текст: Олексій Дзюба Теги: chatgpt, deepseek, nvidia

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».