Причины сбоя в работе сервисов 2 сентября

Сентябрь 6, 2011 – 5:16

Вечером 2 сентября произошел сбой в работе части сервисов нашей компании. Около 16:00 система мониторинга просигнализировала о потере связи с одним из дата-центров, в котором размещается часть наших проектов.

Мы рассматривали две наиболее вероятные причины отсутствия связи: выход из строя маршрутизирующего оборудования или повреждение оптического канала. На предполагаемое место разрыва оптики выехала аварийная бригада от компании-провайдера, который обслуживает данный участок оптической трассы. В это же время наши специалисты проверяли версию о сбое на маршрутизаторах и оптических модулях.

Спустя несколько часов аварийная бригада подтвердила худший из сценариев: в результате строительных работ был разорван магистральный оптический кабель. На поврежденном участке оптической трассы наш основной и резервный каналы проходили в одном колодце, поэтому мы вынуждены были срочно организовать дополнительное подключение, используя ресурсы другого оператора связи. К 23:00 связь с дата-центром была восстановлена по временной схеме.

Последствия аварии ликвидировали к 16:00 субботы – потребовалось заново протянуть около 500м. оптики. В промежутке между 16:00-18:00 мы проводили работы по переключению на основной канал, после которых дата-центр заработал в штатном режиме. Также мы организовали дополнительный резервный канал, дабы не допустить подобной ситуации в будущем.

Мы еще раз приносим свои извинения за доставленные неудобства, и благодарим всех клиентов за понимание и поддержку в тот злополучный осенний вечер.

  • http://twitter.com/EsmerMetin Metin Esmer

    Со всеми бывает.
    Спасибо,что оперативно устранили неполадки !

    [Ответить]

  • Павел

    Добрый день!
    Я являюсь клиентом хостинга.
    Вы на моем блоге http://www.altmedpribor.ru/2011/09/06/host/
    оставили комментарий:
    «Добрый день! Вчера мы написали о причинах сбоя подробнее в нашем блоге. А можно узнать чем именно “хостинг испортился”? Может мы сможем что-то исправить, учитывая ваши комментарии.»

    Отвечаю:
    К данной крупной аварии отношусь с пониманием, конечно это наш общий форсмажор…

    Имею в виду другое. В течение лета пару раз замечал короткие перерывы в доступности сайтов (кстати «Яндекс» присылает оповещения, если стоит их счётчик, типа «сайт был недоступен, число и время).

    Раньше этого не замечал и считаю, что даже два раза в три месяца это часто. В остальном все устаивает, но перебои в работе ухудшают индексацию.

    [Ответить]

    AGAVA Team Reply:

    А сколько по времени длились перерывы? На всякий случай укажите число и время, если эта информация еще осталась. Посмотрим, что это могло быть.

    [Ответить]

    Павел Reply:

    Поищу писма от Яндекса, если не удалил.

    [Ответить]

  • Shindrigalov

    Да, ничего себе история! Главное что сервис снова работает=)

    [Ответить]

  • Павел

    Конечно старых писем от яндекса не нашёл, однако вот получил сегодня новое:

    «Согласно данным мониторинга, обнаружены проблемы с доступностью сайта:
    http://www.altmedpribor.ru (09 ноября в 02:15).

    Рекомендуем проверить работоспособность сайта.»

    [Ответить]

    AGAVA Team Reply:

    Спасибо за информацию. Попробуем разобраться с причинами недоступности.

    [Ответить]

  • Павел

    Добрый день!
    Как с причинами недоступности?
    Удалось разобраться?

    А она — недоступность, периодически возникает.

    Чтобы не быть голословным, цитирую очередное письмо от «Метрики»:

    ============================

    «Здравствуйте, Павел Строна!

    Согласно данным мониторинга, обнаружены проблемы с доступностью сайта:
    http://www.altmedpribor.ru (20 ноября в 00:42).

    Рекомендуем проверить работоспособность сайта.

    Настроить уведомления о результатах мониторинга Вы можете на странице «Мои счётчики»
    (http://metrika.yandex.ru/list?).»

    ===============================

    От себя могу добавить, что замечал и сам периоды недоступности, не документированные метрикой.

    Но по моему, проблема налицо, даже если они возникают спереодичностью, которую отследил Яндекс.

    Хотелось бы, чтобы техническая поддерка действительно разобралась и приняла меры, а не просто пообещала — «попробуем разобраться».

    [Ответить]

    AGAVA Team Reply:

    Добрый день! Извиняемся за задержку в ответе. Действительно, на вашем сервере периодически наблюдаются проблемы с mysql, этим и вызвана недоступность. Сейчас мы разгружаем машину и переносим клиентов, создающих нагрузку. Если в течение 1-2 недель показатели метрики останутся неизменными, мы можем предложить вам перенос на другой сервер.

    [Ответить]

    Павел Reply:

    Спасибо за конкретный ответ.

    [Ответить]

    Павел Reply:

    Добрый день!
    Сбои в работе сервера продолжаются.
    Вот очередная хроника с метрики:

    Согласно данным мониторинга, начал работать в нормальном режиме сайт:
    http://www.altmedpribor.ru (02 декабря в 13:03).

    Согласно данным мониторинга, обнаружены проблемы с доступностью сайта:
    http://www.altmedpribor.ru (02 декабря в 12:34).

    ============================

    Согласно данным мониторинга, начал работать в нормальном режиме сайт:
    http://www.altmedpribor.ru (02 декабря в 10:30).

    Согласно данным мониторинга, обнаружены проблемы с доступностью сайта:
    http://www.altmedpribor.ru (02 декабря в 10:10).

    ===========================

    Думаю, что действительно имеет смысл мне перейтти на другой сервер.
    Что для этого нужно, позвонить, направить письменную заявку?
    По какому адресу?

    [Ответить]

    AGAVA Team Reply:

    Для этого необходимо написать заявку на перенос с контактного ящика на support@agava.com Ждем заявки!

    [Ответить]

  • Павел

    Вот, кстати зафиксировано время, когда сайт стал доступен:

    «Согласно данным мониторинга, начал работать в нормальном режиме сайт:
    http://www.altmedpribor.ru (20 ноября в 01:59)»

    [Ответить]

  • Павел

    Добрался до письма с Агавы.
    Да, вижу что это недоступность плановая.

    [Ответить]