Робочий коник та overkill. Які GPU-карти є на ринку України, і для чого їх використовують

Українські хмарні провайдери розповіли, що активно інвестують у створення інфраструктури під АІ/ML. Основою такої інфраструктури є спеціальні карти-прискорювачі — GPU з тензорними ядрами. Які з цих пристроїв найбільш актуальні та які моделі (й чому) мають найбільший попит з боку українських споживачів?

GPU та відеокарта: у чому різниця

GPU та відеокарта: не одне й те саме. Часто терміни GPU та відеокарта використовують як синоніми, але між ними є різниця. GPU (Graphics Processing Unit) — це сам графічний процесор, який виконує обчислення. Відеокарта — це цілий пристрій, що включає GPU, відеопамʼять, систему охолодження, живлення та інтерфейси для підключення. Простими словами, GPU — «мозок», а відеокарта — «тіло». GPU може бути не тільки на відеокарті — він також може бути вбудованим у процесор. Але в AI/ML задачах мають значення саме дискретні відеокарти з потужними GPU (типу NVIDIA A100). Сьогодні NVIDIA є беззаперечним світовим лідером у галузі GPU — її дискретні відеокарти займають близько 90% ринку як у користувацькому, так й у корпоративному сегментах.

Які моделі NVIDIA можна знайти в українських провайдерів?

Універсальна модель для ШІ та інших завдань

NVIDIA A40 — досить потужний GPU для дата-центрів на базі архітектур попереднього покоління Ampere, призначений для завдань візуалізації, обчислень й штучного інтелекту. Оснащений 48 ГБ пам’яті GDDR6 з ECC (функція корекції помилок). A40 добре підходить як для виконання графічних задач, так й для інференсу нейромереж. Зазначимо, що А40, на відміну від більш потужних моделей, не підтримує режим FP8, який може надати додаткової швидкості в обробці ШІ-моделей. Проте, А40 підійде для компаній, яким потрібен баланс між візуалізацією та AI/ML-завданнями.

Робочий коник для легких ШІ-завдань

NVIDIA L4 — економічне рішення на базі архітектури Ada Lovelace. Карта розрахована на завдання на кшталт інференсу невеликих мовних моделей, опрацювання зображень і відеоаналітики. У неї 24 ГБ відеопам’яті й споживання всього 72 Вт — чудовий вибір для тих, хто хоче заощаджувати на енергії, але все ж таки запускати ШІ-сервіси. За продуктивністю вона значно поступається старшим моделям, але ідеальна для стартапів і пілотних проєктів.

Багато пам’яті для ШІ за помірну ціну

NVIDIA L40S — універсальний GPU на архітектурі Ada Lovelace, оптимізований для завдань штучного інтелекту, кодування/декодування відео, наприклад, computer vision, генерації контенту (наприклад, Stable Diffusion) та високопродуктивних обчислень. Він має 48 ГБ пам’яті GDDR6 з ECC та пропускну здатність до 864 ГБ/с, що забезпечує ефективну роботу з великими моделями. Завдяки підтримці FP8, FP16 й тензорним ядрам четвертого покоління, L40S демонструє високу продуктивність в інференсі та навчанні нейромереж. Це відмінний вибір для компаній, які хочуть впроваджувати ШІ, не інвестуючи у флагманські рішення на зразок H100 та H200.

Ветеран для важких ШІ-розрахунків

NVIDIA A100 — флагман попереднього покоління, побудований на архітектурі Ampere. Карта доступна у версіях на 40 і 80 ГБ пам’яті HBM2, з пропускною спроможністю до 2 ТБ/с. Це потужне рішення для навчання великих моделей, і досі широко використовується в дата-центрах. Прискорювач оснащено тензорними ядрами третього покоління. Відрізняється високою стабільністю і хорошою сумісністю з ML-фреймворками. Якщо ваш проєкт вимагає серйозних обчислень, але ви не готові платити за H100/H200 — A100 чудовий вибір.

Максимальна потужність

NVIDIA H100 — GPU на архітектурі Hopper, з тензорними ядрами четвертого покоління. Обсяг пам’яті — 80 ГБ HBM3, пропускна здатність — до 3,35 ТБ/с. Підтримує FP8 (новий формат для навчання), що дає змогу запускати моделі у 2-3 рази швидше, ніж на A100. Це найкращий вибір, якщо ви працюєте з моделями GPT-подібного рівня і вам потрібна максимальна швидкість і ефективність. Так, це дороге рішення, але воно дійсно прискорює все. Абсолютний максимум для генеративного ИИ.
NVIDIA H200 — флагман 2024-2025 року, еволюція H100. Головна відмінність — 141 ГБ пам’яті HBM3e й пропускна здатність до 4,8 ТБ/с. Це карта для тих, хто створює ШІ-продукти світового рівня і не хоче йти на компроміси. Щоправда, інженери сходяться на думці, що на українському ринку сьогодні така карта — це overkill. Таких проєктів, які не можливо вирішити дешевшими картками, на внутрішньому ринку поки що не помітно.

Таблиця порівняння основних характеристик GPU NVIDIA

Модель	Архітект.	Операт. памʼять	Пропускна здатність	Енергоспоживання	FP8	NVLink
NVIDIA A40	Ampere	48 ГБ GDDR6	696 ГБ/с	300 Вт	Ні	Так
NVIDIA L4	Ada Lovelace	24 ГБ GDDR6	300 ГБ/с	72 Вт	Ні	Ні
NVIDIA L40S	Ada Lovelace	48 ГБ GDDR6	864 ГБ/с	~350 Вт	Так	Ні
NVIDIA A100	Ampere	40/80 ГБ HBM2	до 2 ТБ/с	250-400 Вт	Ні	Так (до 600 ГБ/с)
NVIDIA H100	Hopper	80 ГБ HBM3	до 3.35 ТБ/с	350-700 Вт	Так	Так (до 900 ГБ/с)
NVIDIA H200	Hopper	141 ГБ HBM3e	до 4.8 ТБ/с	до 700 Вт	Так	Так (до 900 ГБ/с)

Під які завдання найчастіше беруть GPU в Україні?

Інженери De Novo повідомили, що з моменту презентації пілотного проєкту ML-cloud на початку 2024 року, українські користувачі отримали в оренду у хмарі десятки прискорювачів NVIDIA різних моделей. Більшість із замовників — реальний сектор, українські компанії, які впроваджують AI-рішення у виробничий або логістичний процес. Під такі завдання в першу чергу використовувалися картки NVIDIA A100. Простіші моделі серій L4 і L40S мають попит у компаній, які перебувають на стадії перевірки технічних гіпотез. При цьому більшість компаній оформляють довгострокові заявки після тестування карт. Це нормальне явище, адже більшість проєктів ми починаємо саме з етапу тестування карток і тільки потім визначаємося, що саме купувати. І для цього існує низка причин:

багато проєктів можна ефективно запускати на більш доступних картах, як-от L4 або L40S. Без тестів легко переплатити за надлишкову продуктивність. Різниця в ціні між, скажімо, L40S і H100 — величезна. Але якщо ваша модель не використовує весь потенціал H100, ви просто витрачаєте гроші даремно;
кожна нейромережа поводиться по-різному. Одна модель може відмінно працювати на A100, а інша — вимагати FP8 й обсяг пам’яті H200. Тестування допомагає визначити, як поводиться саме ваша архітектура. Тести покажуть, яке співвідношення «пам’ять-обчислення-швидкість» потрібне для проєкту, щоб правильно спланувати навантаження і масштабування.

Процес інтеграції графічного прискорювача NVIDIA H100 у серверну платформу. Акселератор оснащений тензорними ядрами четвертого покоління, прискорює навчання AI-моделі удев’ятеро, порівняно з попереднім поколінням. Його ціна становить від $27 000 до $60 000 за одиницю залежно від конфігурації. (Фото De Novo)

Безоплатні тести та інші лайфхаки для етапу вибору карти

Тести дають змогу заздалегідь виявити вузькі місця і підібрати потрібну конфігурацію без втрати часу в продакшені. Тому особлива удача, коли у провайдера є дешевий або зовсім безплатний тестовий період.

З інших лайфхаків — поділ пам’яті для здешевлення вартості. За допомогою технологій віртуалізації VMware карта може ділитися на кілька частин, кожну з яких можна використати в окремій віртуальній машині. Якщо у вас кілька невеликих завдань, ви можете виділити кожному процесу свою частину GPU, а не орендувати всю карту. Відповідно, можна платити тільки за використовуваний об'єм.

Ще один лайфхак: можна й об'єднати пам’ять карт з допомогою технології NVLink. NVLink — це високошвидкісна шина від NVIDIA, яка з'єднує відеокарти безпосередньо, в обхід материнської плати. Вона забезпечує швидкий обмін даними між GPU, набагато швидший, ніж звичайна шина PCIe. У A100 NVLink — до 600 ГБ/с на з'єднання між двома картами. У H100 і H200 — ще вища (до 900 ГБ/с). Навіщо це потрібно? Для об'єднання пам’яті двох GPU (тобто більше обсягу для навчання великих моделей) й зниження затримок у розподілених обчисленнях. Більш ефективна робота багатокартних конфігурацій, особливо в LLM і deep learning.

Важливо: як зазначено у таблиці вище, не всі моделі GPU підтримують NVLink. Наприклад, L4 і L40S — не підтримують, а A40, A100, H100 і H200 — підтримують. Також для під'єднання потрібен спеціальний NVLink-bridge, що підходить до конкретної моделі та формфактору карт.

Й останнє — для МL-інженера. Замість побудови та утримання власної інфраструктури під МL, існують готові рішення у вигляді платформ. Наприклад, ML Cloud від De Novo поєднує інтегровану, попередньо сконфігуровану й самодостатню збірку «best of breed» відкритого ПЗ — MLflow, Kubeflow, CVAT, Doccano, Minio, Grafana, Keycloak тощо.