Пройдемся от алертов к причинам их возникновения — инцидентам. Ответим на вопросы: что считать инцидентом? Что делать, чтобы их было меньше? Обсудим регламенты работы, подсказки для сложных ситуаций, дежурства, разборы причин и планирование улучшений.
Поговорим об SLI, SLO, SLA и подходах, которые помогут вам договориться с бизнесом о том, что значит «стабильное приложение» и сколько это будет стоить.
Затронем нагрузочное тестирование приложения. Что такое хаос тесты и когда они вам могут пригодится? Сделаем обзор практик по хаос-инжинирингу.
Результат: - Поймёте, как внедрить в компании процесс инцидент-менеджмента.
- Узнаете, как договориться с бизнесом о приемлемых диапазонах простоя приложения.
- Сможете убедить бизнес, что 100% работоспособности — это не то, чего он хочет.
- Разберётесь, как подготовится к большим нагрузкам с помощью нагрузочного тестирования. И как протестировать систему на отказ с помощью хаос-тестов.
Содержание:- Фазы работы над инцидентом
- Роли участников процесса
- Организация с точки зрения процесса и технической реализации
- Метрики стабильности (SLI, SLO, SLA)
- Нагрузочное тестирование
- Хаос-тесты