«Яндекс» раскрыл причины многочасовой аварии
Многочасовой сбой в работе «Яндекса» был вызван ошибкой ПО на маршрутизаторе в новом дата-центре в Амстердаме.
Около 22 часов 19 августа 2011 г. сервисы «Яндекса» начали восстанавливать работу после серьезного сбоя, произошедшего пятью часами ранее.
Замруководителя департамента эксплуатации «Яндекс» Владимир Иванов вечером 19 августа разместил в своем блоге постинг, в котором объяснил причины аварии и сообщил, что к моменту публикации основные последствия проблемы были устранены.
Согласно его записи, она произошла из-за «проблем с маршрутизацией в сети Яндекса». Он подчеркнул, что сбой не был связан «с работой дата-центров, DDoS-атаками, пожарами, а также любыми другими внешними факторами». Никакие пользовательские данные не потеряны, подчеркнул он.
Напомним, что начиная с 17 часов 19 августа 2011 г. поисковик «Яндекс» переживал серьезный сбой в работе, выразившийся в прекращении работы всех сервисов «Яндекса», включая поиск. Серверы поисковика были недоступны по команде ping. Тогда же представитель компании Очир Манджиков заявил CNews, что «специалисты компании сейчас ищут причины сбоя», и не высказал в этой связи никаких предположений.
«Подробности для тех, кому интересно» привел в своем постинге Владимир Иванов. По его описанию, «проблема была вызвана ошибкой программного обеспечения на маршрутизаторе, расположенном в нашем новом дата-центре в Амстердаме. В Яндексе используются протоколы маршрутизации – внутренний протокол OSPF и внешний протокол BGP. Из-за ошибки информация обо всех внешних маршрутах оказалась во внутренних таблицах маршрутизации. Это примерно на три порядка больше маршрутов, чем обычно. Протокол OSPF не рассчитан на такое количество. В результате у всех маршрутизаторов кончилась память, и они перестали работать. Нарушилась работа сети, и через несколько минут Яндекс стал полностью недоступен».
Согласно Иванову, внутренняя сеть поисковика тоже не работала, поэтому специалистам «Яндекса» потребовалось много времени, «чтобы по цепочке добраться до источника проблемы».
Когда администраторы исправили ошибку на маршрутизаторе, специалистам пришлось «разделить сеть на несколько частей», чтобы снять лишнюю нагрузку с остальных маршрутизаторов, которых в «Яндексе» больше сотни. Когда количество трафика снизилось, маршрутизаторы смогли самостоятельно восстановить связность сети, и через некоторое время сервисы Яндекса стали доступны большей части пользователей.
Владислав Мещеряков
http://www.cnews.ru/news/top/