Стійкість IT-системи: як її посилити та уникнути ризиків?

Якщо ви коли-небудь грали в дженгу, то, певно, знаєте ці відчуття: спочатку все просто і цікаво, ви з ентузіазмом кладете брусок на брусок, і всім весело. А за якусь мить ви відчуваєте як пітніють долоні, і замість цікавості з’являється вже азарт — хоч би ця складна споруда не впала вся одразу. Те саме стосується IT-інфраструктури. Її складність — завжди челендж для її стійкості. Запас міцності дозволяє притомно пережити втрату кількох «брусків»-елементів, але перетин критичної межі може якщо не знищити, то добряче зашкодити всій системі.

Як вберегти бізнес від цього або принаймні мінімізувати ризики — нумо розбиратися.

Що впливає на стійкість IT-системи

Уявімо апокаліптичний сценарій: кібератака зруйнувала внутрішню мережу замовника, магнітні бурі вивели з ладу супутники, а… тім ліда ІТ-відділу з усіма доступами безсовісно вкрали інопланетяни. Це все фактори, які загрожують стабільності IT-системи. Але якщо одночасно давати бій хакерам, стихії та інопланетянам — буде складно, набирають чинності «обставини непереборної сили». А от завчасно прибрати шкідливі «елементи» — цілком реально. До них можна віднести:

Неліцензійне програмне забезпечення;
Запізніле оновлення системи;
Несвоєчасна модернізація устаткування;
Слабкий рівень антивірусних заходів;
Недостатнє резервування окремих компонентів системи;
Брак фізичного захисту;
Якість та кількість команди операторів (низька кваліфікація, незацікавленість або малий штат сисадмінів);
Відсутність протоколів безпеки та відновлення.

Як бачимо, окремий пул ризиків провокує сподівання на «може, пронесе» або звичайна недбалість: десь заощадили на оновленні ПЗ або зарплатні операторам, не розробили антикризовий план відновлення тощо — система «ляже» або працюватиме з перебоями.

Для компанії, яка зав’язана на оперативності послуг, це велика проблема. Вихід з ладу системи на кілька годин, не кажучи вже про дні та тижні — це суттєві й фінансові, і репутаційні втрати. Кібератака проти телекомунікаційного провайдера «Київстар» у грудні торік обернулася збитками на понад $100 млн. Певний час мережа просто не функціонувала, а на повне відновлення витратили кілька діб.

Цей кейс дуже показовий — кібератака вкотре нагадала про так звану «ілюзію безпеки». За статистикою, лише в Україні від січня 2022 року зафіксували понад 4 тисячі кібератак. Хакерські загрози навіть увійшли до переліку глобальних ризиків від видання «The Economist» у 2023 році.

Своєю чергою, кризові ситуації поділяють на ті, що загрожують доступності сервісів, та ті, які наражають на ризик стійкість.

Відсутність доступу до якогось сервісу протягом незначного часу — ситуативне явище. Це як з пробитим колесом в авто — замінили та рушили далі. Натомість суть відмовостійкості полягає у безперебійності, коли кожна ланка має життєву важливість. Жоден компонент, який живить роботу сервісу, не має вийти з ладу (як на прикладі двигуна або системи охолодження).

Стійкість: що робити в кризовий час та напередодні?

Природні катаклізми завдають збитків не менше, а подекуди навіть потужніше б’ють по IT-системам, ніж хакери. Наприклад, через ураган Ієн, який вдарив по атлантичному узбережжю Америки у 2022 році, 18% станцій зв’язку у Флориді припинили роботу.

Пандемія Covid-19 стала сюрпризом для системи охорони здоров’я. І мова не лише про вакцини або засоби гігієни, а й звичайний потік відвідувачів медзакладів. Інтегрувати всіх пацієнтів в умовах високого ризику інфікування було складно, тому допомогли технології на базі хмар, зокрема в Індії розробили віртуальні лікарні Daktarbhai Telemedicine Program та HelloDoc23.

Підготовка до кризи має починатися задовго до її приходу. Систему необхідно постійно тестувати на спроможність витримати як відмову критичних компонентів, так і роботу на рекордних обертах. Це дасть змогу виявити слабкі місця в інфраструктурі та вчасно їм запобігти. Втім після краш-тесту стійкості системі теж необхідний час на відновлення — суто з питань профілактики. З меншими втратами пройти цей етап (або принаймні дожити до нього) допоможуть:

Резервні копії даних (бекап);
Цілісність бекапу;
Додаткова інфраструктура для відновлення, а краще — дві;
Достатня кількість каналів зв’язку;
Кваліфікований та укомплектований штат операторів системи;
Чіткий план дій з аварійного відновлення.

Бекап, а точніше, коректний бекап, виконаний за принципом «3-2-1-1-0», де 3 — кількість резервних копій, 2 — носії, 1 — копія офлайн, 1 — копія у хмарі та 0 — помилок, значно підвищує шанси на виживання.

Зберігання даних у хмарі — це зручно та безпечно. До того ж за потреби можна швидко відновити втрачену інформацію з головних серверів. У цьому хмара майже не має аналогів. Зокрема, завдяки технології Veeam Cloud Connect. Це репозиторій, єдиний центр збереження даних клієнта, куди надсилають репліки з кількох носіїв. Суттєвою перевагою є швидкість, оскільки масив бекапу може бути різним. В наших «хмарах» швидкість відновлення даних з бекапу сягає 1ТБ/годину.

У питаннях резервного копіювання важливо також розподіляти інформацію між ЦОД в Україні та за кордоном. Зважаючи на запит, в UCloud збільшили швидкість каналів зв’язку до 100 Гбіт/с. Крім того, хмарні провайдери можуть надавати кваліфікованих спеціалістів, операторів та фахівців з відновлення.

Висновки

Може здаватися, що ваша система міцна, мов камінь: команда передбачила безліч кризових сценаріїв, обладнання оновлено за останніми технологічними трендами, а критичні дані перебувають на віддаленому сервері. Виживання компанії зростає в рази, але повних гарантій немає. Форс-мажори на кшталт стихійних лих, глобальних потрясінь та кібератак можуть застати зненацька будь-кого, і кейс «Київстар» найліпше це підтверджує. Ваша ІТ-дженга може розсипатися, а компанія зазнає збитків. Тому підготовка до кризи — це постійний та системний процес, а економія на безпеці може коштувати надто дорого.