Грім гримнув, час перехреститися? Які проблеми виявив нещодавній блекаут ЦОД De Novo

Відключення дата-центру De Novo, що сталося 26 квітня, призвело до кількагодинної недоступності низки важливих сервісів національного масштабу. Завдяки злагодженій роботі спеціалістів оператора все закінчилося добре й відносно швидко. Але за підсумками інциденту залишилися питання — й вони не до De Novo.

Про що йдеться

У суботу, 26 квітня, в українському сегменті цифрових сервісів стався справжній переполох — уже з восьмої ранку не працювали низка важливих послуг. Користувачі не мали доступу до інтернет-сервісів кількох державних банків, була недоступною «Дія», а «Нова пошта» не могла видавати та приймати посилки через збій у системі. Роботоздатність сервісів було відновлено до середини дня.

На той момент також стало відомо, що причиною всьому була не хакерська атака, як спочатку думали, а майже неймовірна подія — повне короткочасне знеструмлення одного з найнадійніших комерційних дата-центрів України — De Novo, який, до речі, до того моменту працював понад 15 років без жодного збою. Примітно, що електроживлення було відновлено в повному обсязі вже через 14 хвилин після блекауту (при середньому часі відновлення по галузі у 138 хвилин), але цього часу вистачило, щоб обладнання в стійках вимкнулося. Подальші дії спеціалістів оператора були спрямовані вже на відновлення доступності хмарної платформи та клієнтських застосунків.

При цьому до самого дата-центру, точніше до його інфраструктури, за ідеєю, питань бути не повинно — ЦОД повністю і навіть із запасом вклався у нормативи Tier III (99,98% доступності, час простою — не більше 1,6 години на рік). Однак, вбачається явний парадокс — надійність є, а сервісів немає. Як так вийшло і що зробити, щоб подібна ситуація не повторилася в майбутньому?

А де резерв?

Проблеми з електроживленням — абсолютний чемпіон серед причин, що викликають відмови в дата-центрах по всьому світу. Це стосується як власних майданчиків компаній, так і об'єктів, що належать глобальним операторам. З нещодавнього — буквально у березні один із дата-центрів Google Cloud вийшов в офлайн на шість годин, у результаті чого кілька десятків хмарних сервісів були недоступними для клієнтів зони us-east5-c. У 2023 році в Сінгапурі великий ЦОД Equinix вимкнувся на кілька годин, унаслідок чого сервіси банків DBS і Citigroup стали недоступними, а клієнти не могли використовувати платіжні картки, знімати готівку чи входити в онлайн-банкінг. Прикладів багато, охочі можуть продивитися їх самостійно.

Так, що вже говорити, не тільки дата-центри, навіть потужні національні електромережі періодично страждають від масштабних проблем. Буквально в момент, коли писалася ця стаття — 28 квітня 2025 року — у кількох країнах Західної Європи несподівано стався масовий блекаут. Офіційна причина — «рідкісне атмосферне явище». В Іспанії постраждали найбільші міста, довелося зупинити роботу головного аеропорту Мадрида, а деякі лікарні опинилися у критичному стані. У столиці Португалії, Лісабоні, через блекаут не працювало метро та виникали масові проблеми з доступом до Інтернету. Помітні перебої з електрикою були зафіксовані у Франції та Бельгії. Загалом, електропостачання складних об'єктів — це завжди непросто, і які б професіонали не стояли за розробкою та підтримкою систем живлення, від аварій і збоїв не застрахований ніхто, абсолютно ніхто.

Тому під час проєктування й створення відповідальних інформаційних систем завжди необхідно передбачати резервні майданчики (один або навіть кілька, для більшої надійності), які можна було б активувати у разі відмови основного дата-центру. Якщо ми говоримо про критично важливі електронні послуги, як, наприклад, банкінг національного масштабу, то для таких сервісів обов’язково має бути передбачено хоча б один резервний майданчик, що підтримується у «гарячому» режимі. Це дозволяє при збої основного дата-центру швидко відновити послугу, незалежно від того, що сталося в оператора. Наскільки відомо, усі великі державні банки повинні відповідати цій вимозі. Те ж саме стосується й платформи «Дія», яка має розподілену архітектуру і точно підтримує щонайменше два власні захищені сайти у двох незалежних українських дата-центрах.

Головне питання

Отже, головне питання — чому, наприклад, великим банкам не вдалося активувати резерв і швидко запустити сервіси на альтернативному майданчику після збою в De Novo. Невже можливість аварійного відновлення (Disaster Recovery, DR) не була передбачена, а якщо була, то чому не спрацювала? За ідеєю, при правильно побудованій ІТ-архітектурі навіть повне знищення одного дата-центру не має призводити до тривалої втрати працездатності й доступності критично важливих державних сервісів. Існує безліч способів реалізувати DR, наприклад, використовуючи майданчики кількох операторів (або кілька майданчиків одного оператора) — було б бажання і… гроші. Так, безпека і надійність обходяться недешево, але це того варте.

Власне, головне питання в тому, чому у великих і важливих структур національного масштабу, таких як державні банки, не виявилося власного дієвого плану швидкого відновлення хмарних сервісів, які зачіпають життя всієї країни. Так, у цьому випадку технічні спеціалісти оператора спрацювали швидко і професійно — завдяки чому вдалося уникнути серйозних наслідків. Але за наявності адекватного DR проблем би взагалі не виникло, і клієнти банків, «Дії», «Нової пошти», ймовірно, взагалі б нічого не помітили.

Чому DR усе-таки не був реалізований — це поки що відкрите питання, яке хотілося б адресувати представникам відповідних компаній і українській експертній ІТ-спільноті. Цікаво дізнатися вашу думку з цього приводу.