Українські хмарні провайдери розповіли, що активно інвестують у створення інфраструктури під АІ/ML. Основою такої інфраструктури є спеціальні карти-прискорювачі — GPU з тензорними ядрами. Які з цих пристроїв найбільш актуальні та які моделі (й чому) мають найбільший попит з боку українських споживачів?
GPU та відеокарта: у чому різниця
GPU та відеокарта: не одне й те саме. Часто терміни GPU та відеокарта використовують як синоніми, але між ними є різниця. GPU (Graphics Processing Unit) — це сам графічний процесор, який виконує обчислення. Відеокарта — це цілий пристрій, що включає GPU, відеопамʼять, систему охолодження, живлення та інтерфейси для підключення. Простими словами, GPU — «мозок», а відеокарта — «тіло». GPU може бути не тільки на відеокарті — він також може бути вбудованим у процесор. Але в AI/ML задачах мають значення саме дискретні відеокарти з потужними GPU (типу NVIDIA A100). Сьогодні NVIDIA є беззаперечним світовим лідером у галузі GPU — її дискретні відеокарти займають близько 90% ринку як у користувацькому, так й у корпоративному сегментах.
Які моделі NVIDIA можна знайти в українських провайдерів?
Універсальна модель для ШІ та інших завдань
NVIDIA A40 — досить потужний GPU для дата-центрів на базі архітектур попереднього покоління Ampere, призначений для завдань візуалізації, обчислень й штучного інтелекту. Оснащений 48 ГБ пам’яті GDDR6 з ECC (функція корекції помилок). A40 добре підходить як для виконання графічних задач, так й для інференсу нейромереж. Зазначимо, що А40, на відміну від більш потужних моделей, не підтримує режим FP8, який може надати додаткової швидкості в обробці ШІ-моделей. Проте, А40 підійде для компаній, яким потрібен баланс між візуалізацією та AI/ML-завданнями.
Робочий коник для легких ШІ-завдань
NVIDIA L4 — економічне рішення на базі архітектури Ada Lovelace. Карта розрахована на завдання на кшталт інференсу невеликих мовних моделей, опрацювання зображень і відеоаналітики. У неї 24 ГБ відеопам’яті й споживання всього 72 Вт — чудовий вибір для тих, хто хоче заощаджувати на енергії, але все ж таки запускати ШІ-сервіси. За продуктивністю вона значно поступається старшим моделям, але ідеальна для стартапів і пілотних проєктів.
Багато пам’яті для ШІ за помірну ціну
NVIDIA L40S — універсальний GPU на архітектурі Ada Lovelace, оптимізований для завдань штучного інтелекту, кодування/декодування відео, наприклад, computer vision, генерації контенту (наприклад, Stable Diffusion) та високопродуктивних обчислень. Він має 48 ГБ пам’яті GDDR6 з ECC та пропускну здатність до 864 ГБ/с, що забезпечує ефективну роботу з великими моделями. Завдяки підтримці FP8, FP16 й тензорним ядрам четвертого покоління, L40S демонструє високу продуктивність в інференсі та навчанні нейромереж. Це відмінний вибір для компаній, які хочуть впроваджувати ШІ, не інвестуючи у флагманські рішення на зразок H100 та H200.
Ветеран для важких ШІ-розрахунків
NVIDIA A100 — флагман попереднього покоління, побудований на архітектурі Ampere. Карта доступна у версіях на 40 і 80 ГБ пам’яті HBM2, з пропускною спроможністю до 2 ТБ/с. Це потужне рішення для навчання великих моделей, і досі широко використовується в дата-центрах. Прискорювач оснащено тензорними ядрами третього покоління. Відрізняється високою стабільністю і хорошою сумісністю з ML-фреймворками. Якщо ваш проєкт вимагає серйозних обчислень, але ви не готові платити за H100/H200 — A100 чудовий вибір.
Максимальна потужність
- NVIDIA H100 — GPU на архітектурі Hopper, з тензорними ядрами четвертого покоління. Обсяг пам’яті — 80 ГБ HBM3, пропускна здатність — до 3,35 ТБ/с. Підтримує FP8 (новий формат для навчання), що дає змогу запускати моделі у 2-3 рази швидше, ніж на A100. Це найкращий вибір, якщо ви працюєте з моделями GPT-подібного рівня і вам потрібна максимальна швидкість і ефективність. Так, це дороге рішення, але воно дійсно прискорює все. Абсолютний максимум для генеративного ИИ.
- NVIDIA H200 — флагман 2024-2025 року, еволюція H100. Головна відмінність — 141 ГБ пам’яті HBM3e й пропускна здатність до 4,8 ТБ/с. Це карта для тих, хто створює ШІ-продукти світового рівня і не хоче йти на компроміси. Щоправда, інженери сходяться на думці, що на українському ринку сьогодні така карта — це overkill. Таких проєктів, які не можливо вирішити дешевшими картками, на внутрішньому ринку поки що не помітно.
Таблиця порівняння основних характеристик GPU NVIDIA
| Модель | Архітект. | Операт. памʼять | Пропускна здатність | Енергоспоживання | FP8 | NVLink |
| NVIDIA A40 | Ampere | 48 ГБ GDDR6 | 696 ГБ/с | 300 Вт | Ні | Так |
| NVIDIA L4 | Ada Lovelace | 24 ГБ GDDR6 | 300 ГБ/с | 72 Вт | Ні | Ні |
| NVIDIA L40S | Ada Lovelace | 48 ГБ GDDR6 | 864 ГБ/с | ~350 Вт | Так | Ні |
| NVIDIA A100 | Ampere | 40/80 ГБ HBM2 | до 2 ТБ/с | 250-400 Вт | Ні | Так (до 600 ГБ/с) |
| NVIDIA H100 | Hopper | 80 ГБ HBM3 | до 3.35 ТБ/с | 350-700 Вт | Так | Так (до 900 ГБ/с) |
| NVIDIA H200 | Hopper | 141 ГБ HBM3e | до 4.8 ТБ/с | до 700 Вт | Так | Так (до 900 ГБ/с) |
Під які завдання найчастіше беруть GPU в Україні?
Інженери De Novo повідомили, що з моменту презентації пілотного проєкту ML-cloud на початку 2024 року, українські користувачі отримали в оренду у хмарі десятки прискорювачів NVIDIA різних моделей. Більшість із замовників — реальний сектор, українські компанії, які впроваджують AI-рішення у виробничий або логістичний процес. Під такі завдання в першу чергу використовувалися картки NVIDIA A100. Простіші моделі серій L4 і L40S мають попит у компаній, які перебувають на стадії перевірки технічних гіпотез. При цьому більшість компаній оформляють довгострокові заявки після тестування карт. Це нормальне явище, адже більшість проєктів ми починаємо саме з етапу тестування карток і тільки потім визначаємося, що саме купувати. І для цього існує низка причин:
- багато проєктів можна ефективно запускати на більш доступних картах, як-от L4 або L40S. Без тестів легко переплатити за надлишкову продуктивність. Різниця в ціні між, скажімо, L40S і H100 — величезна. Але якщо ваша модель не використовує весь потенціал H100, ви просто витрачаєте гроші даремно;
- кожна нейромережа поводиться по-різному. Одна модель може відмінно працювати на A100, а інша — вимагати FP8 й обсяг пам’яті H200. Тестування допомагає визначити, як поводиться саме ваша архітектура. Тести покажуть, яке співвідношення «пам’ять-обчислення-швидкість» потрібне для проєкту, щоб правильно спланувати навантаження і масштабування.

Безоплатні тести та інші лайфхаки для етапу вибору карти
Тести дають змогу заздалегідь виявити вузькі місця і підібрати потрібну конфігурацію без втрати часу в продакшені. Тому особлива удача, коли у провайдера є дешевий або зовсім безплатний тестовий період.
З інших лайфхаків — поділ пам’яті для здешевлення вартості. За допомогою технологій віртуалізації VMware карта може ділитися на кілька частин, кожну з яких можна використати в окремій віртуальній машині. Якщо у вас кілька невеликих завдань, ви можете виділити кожному процесу свою частину GPU, а не орендувати всю карту. Відповідно, можна платити тільки за використовуваний об'єм.
Ще один лайфхак: можна й об'єднати пам’ять карт з допомогою технології NVLink. NVLink — це високошвидкісна шина від NVIDIA, яка з'єднує відеокарти безпосередньо, в обхід материнської плати. Вона забезпечує швидкий обмін даними між GPU, набагато швидший, ніж звичайна шина PCIe. У A100 NVLink — до 600 ГБ/с на з'єднання між двома картами. У H100 і H200 — ще вища (до 900 ГБ/с). Навіщо це потрібно? Для об'єднання пам’яті двох GPU (тобто більше обсягу для навчання великих моделей) й зниження затримок у розподілених обчисленнях. Більш ефективна робота багатокартних конфігурацій, особливо в LLM і deep learning.
Важливо: як зазначено у таблиці вище, не всі моделі GPU підтримують NVLink. Наприклад, L4 і L40S — не підтримують, а A40, A100, H100 і H200 — підтримують. Також для під'єднання потрібен спеціальний NVLink-bridge, що підходить до конкретної моделі та формфактору карт.
Й останнє — для МL-інженера. Замість побудови та утримання власної інфраструктури під МL, існують готові рішення у вигляді платформ. Наприклад, ML Cloud від De Novo поєднує інтегровану, попередньо сконфігуровану й самодостатню збірку «best of breed» відкритого ПЗ — MLflow, Kubeflow, CVAT, Doccano, Minio, Grafana, Keycloak тощо.