Як Facebook перетворився на гарбуз. Розбір від телеком-експерта Алекса Семеняки
Експерт по телекому і роботі DNS Алекс Семеняка на прохання dev.ua комертує збій, що стався вчора в Facebook, Instagram і WhatsApp.
Експерт по телекому і роботі DNS Алекс Семеняка на прохання dev.ua комертує збій, що стався вчора в Facebook, Instagram і WhatsApp.
У масштабах Facebook (сотні тисяч серверів у датацентрах по всьому світу) «ручне» управління мережею виявляється абсолютно неефективним і ненадійним, якщо не сказати неможливим.
У результаті Facebook (як і всі компанії подібного розміру) використовують системи автоматизації управління мережею, що дозволяють описувати відразу логіку найвищого рівня, ніж логіка роботи окремого елемента мережі, і застосовувати її відразу в масштабах всієї мережі.
На жаль, у цього підходу є і зворотна сторона: система має бути відбудована так, щоб помилкова конфігурація не могла зламати всю мережу цілком.
З якоїсь причини саме така історія і трапилася учора: мережеві пристрої Facebook по всьому світу отримали невірну конфігурацію, що призвело до миттєвої недоступності частини сервісів.
На жаль, серед цих сервісів виявився і DNS Facebook.
Є ще цікавий момент. Роки три тому у Facebook був збій, результатом якого стало порушення роботи купи мобільних додатків. Виявилося, що Facebook роздає авторам мобільних додатків тулкіт для побудови різної аналітики, і недоступність соцмережі тоді позначилася на роботі цих додатків, хоча, здавалося б…
Цього разу такого не спостерігалося-можливо, цей тулкіт відтоді зробили асинхронним. Але запити на резолвінг імен в зонах Facebook.com, Instagram.com та інших було дуже багато.
Провайдерські резолвери відповідали на них помилкою SERVFAIL, яка за стандартом не кешується — тобто, через короткий час запит відлітав заново. А резолвери операторів частенько не розраховані на високе навантаження (оператори зазвичай взагалі до DNS ставляться аби як, подивимося правді в очі).
Так що під потоком цих запитів вони почали «просідати», що призвело до гальм за запитами до всіх ресурсів. Звідси багато скарг, що «гальмують всі сервіси».
Плюс люди почали переходити в Twitter, Telegram тощо — у яких теж стався незапланований сплеск навантаження. Поєднання цих факторів і створило картинку вчорашнього вечора.