Що впливає на стійкість IT-системи
Уявімо апокаліптичний сценарій: кібератака зруйнувала внутрішню мережу замовника, магнітні бурі вивели з ладу супутники, а… тім ліда ІТ-відділу з усіма доступами безсовісно вкрали інопланетяни. Це все фактори, які загрожують стабільності IT-системи. Але якщо одночасно давати бій хакерам, стихії та інопланетянам — буде складно, набирають чинності «обставини непереборної сили». А от завчасно прибрати шкідливі «елементи» — цілком реально. До них можна віднести:
- Неліцензійне програмне забезпечення;
- Запізніле оновлення системи;
- Несвоєчасна модернізація устаткування;
- Слабкий рівень антивірусних заходів;
- Недостатнє резервування окремих компонентів системи;
- Брак фізичного захисту;
- Якість та кількість команди операторів (низька кваліфікація, незацікавленість або малий штат сисадмінів);
- Відсутність протоколів безпеки та відновлення.
Як бачимо, окремий пул ризиків провокує сподівання на «може, пронесе» або звичайна недбалість: десь заощадили на оновленні ПЗ або зарплатні операторам, не розробили антикризовий план відновлення тощо — система «ляже» або працюватиме з перебоями.
Для компанії, яка зав’язана на оперативності послуг, це велика проблема. Вихід з ладу системи на кілька годин, не кажучи вже про дні та тижні — це суттєві й фінансові, і репутаційні втрати. Кібератака проти телекомунікаційного провайдера «Київстар» у грудні торік обернулася збитками на понад $100 млн. Певний час мережа просто не функціонувала, а на повне відновлення витратили кілька діб.
Цей кейс дуже показовий — кібератака вкотре нагадала про так звану «ілюзію безпеки». За статистикою, лише в Україні від січня 2022 року зафіксували понад 4 тисячі кібератак. Хакерські загрози навіть увійшли до переліку глобальних ризиків від видання «The Economist» у 2023 році.
Своєю чергою, кризові ситуації поділяють на ті, що загрожують доступності сервісів, та ті, які наражають на ризик стійкість.
Відсутність доступу до якогось сервісу протягом незначного часу — ситуативне явище. Це як з пробитим колесом в авто — замінили та рушили далі. Натомість суть відмовостійкості полягає у безперебійності, коли кожна ланка має життєву важливість. Жоден компонент, який живить роботу сервісу, не має вийти з ладу (як на прикладі двигуна або системи охолодження).
Стійкість: що робити в кризовий час та напередодні?
Природні катаклізми завдають збитків не менше, а подекуди навіть потужніше б’ють по IT-системам, ніж хакери. Наприклад, через ураган Ієн, який вдарив по атлантичному узбережжю Америки у 2022 році, 18% станцій зв’язку у Флориді припинили роботу.
Пандемія Covid-19 стала сюрпризом для системи охорони здоров’я. І мова не лише про вакцини або засоби гігієни, а й звичайний потік відвідувачів медзакладів. Інтегрувати всіх пацієнтів в умовах високого ризику інфікування було складно, тому допомогли технології на базі хмар, зокрема в Індії розробили віртуальні лікарні Daktarbhai Telemedicine Program та HelloDoc23.
Підготовка до кризи має починатися задовго до її приходу. Систему необхідно постійно тестувати на спроможність витримати як відмову критичних компонентів, так і роботу на рекордних обертах. Це дасть змогу виявити слабкі місця в інфраструктурі та вчасно їм запобігти. Втім після краш-тесту стійкості системі теж необхідний час на відновлення — суто з питань профілактики. З меншими втратами пройти цей етап (або принаймні дожити до нього) допоможуть:
- Резервні копії даних (бекап);
- Цілісність бекапу;
- Додаткова інфраструктура для відновлення, а краще — дві;
- Достатня кількість каналів зв’язку;
- Кваліфікований та укомплектований штат операторів системи;
- Чіткий план дій з аварійного відновлення.
Бекап, а точніше, коректний бекап, виконаний за принципом «3-2-1-1-0», де 3 — кількість резервних копій, 2 — носії, 1 — копія офлайн, 1 — копія у хмарі та 0 — помилок, значно підвищує шанси на виживання.
Зберігання даних у хмарі — це зручно та безпечно. До того ж за потреби можна швидко відновити втрачену інформацію з головних серверів. У цьому хмара майже не має аналогів. Зокрема, завдяки технології Veeam Cloud Connect. Це репозиторій, єдиний центр збереження даних клієнта, куди надсилають репліки з кількох носіїв. Суттєвою перевагою є швидкість, оскільки масив бекапу може бути різним. В наших «хмарах» швидкість відновлення даних з бекапу сягає 1ТБ/годину.
У питаннях резервного копіювання важливо також розподіляти інформацію між ЦОД в Україні та за кордоном. Зважаючи на запит, в UCloud збільшили швидкість каналів зв’язку до 100 Гбіт/с. Крім того, хмарні провайдери можуть надавати кваліфікованих спеціалістів, операторів та фахівців з відновлення.
Висновки
Може здаватися, що ваша система міцна, мов камінь: команда передбачила безліч кризових сценаріїв, обладнання оновлено за останніми технологічними трендами, а критичні дані перебувають на віддаленому сервері. Виживання компанії зростає в рази, але повних гарантій немає. Форс-мажори на кшталт стихійних лих, глобальних потрясінь та кібератак можуть застати зненацька будь-кого, і кейс «Київстар» найліпше це підтверджує. Ваша ІТ-дженга може розсипатися, а компанія зазнає збитків. Тому підготовка до кризи — це постійний та системний процес, а економія на безпеці може коштувати надто дорого.