Курс: SRE практики и инструменты
Что даст вам этот курс
Ваша система дорогая в обслуживании, плохо поддерживается и не отличается стабильностью? Возможно пришло время начать использовать новый подход.
Site Reliability Engineering - это подход к организации эксплуатации информационных систем.
SRE подход переосмысливает задачи, которые исторически выполнялись операторами и системными администраторами, часто вручную, и передает их операционным группам, которые используют программное обеспечение и автоматизацию для решения проблем эксплуатации и управления системами.
SRE решает задачу управления надежностью используя набор техник: принятие решений на основе данных о состоянии системы, работа с инцидентами и усовершенствованные регламенты, работа со стейкхолдерами и управление ожиданиями и конечно же разумная автоматизация происходящего.
SRE - это прежде всего практики создания масштабируемых и высоконадежных программных систем. SRE помогает управлять большими системами с помощью подхода "инфраструктура как код (IaC)", который является масштабируемым, самодокументируемым и воспроизводимым, позволяющим управлять тысячами взаимосвязанных частей силами нескольких специалистов.
Курс подойдет для:
- Системных инженеров, администраторов и операторов, в задачи которых входит обеспечение надежности и доступности
- Разработчиков, которые хотят понять что происходит в production окружениях
- Инфраструктурных и платформенных инженеров, которые предоставляют свои сервисы другим командам
- Технических директоров, руководителей и тимлидам, которые хотят разобраться и внедрить SRE практики и инструменты
На курсе вы узнаете:
- Что такое SRE и какие существуют на сегодня SRE-практики
- Как внедрить SRE практики в своей организации
- Как управлять надежностью, доступностью и эффективностью сервисов
- Управлять изменениями
- Осуществлять мониторинг и улучшать наблюдаемость системы
- Реагировать на инциденты и проблемы с производительностью
Курс проходит в формате интерактивных лекций. Мы верим, что расширение технического кругозора важно для работы в эксплуатации.
Практические домашние задания для закрепления теории выполняются на базе следующего технологического стека: Linux, Kubernetes, Ansible, Terraform, Prometheus, Python.
Баннер про Git
Необходимые знания
- Опыт из разработки, тестирования или эксплуатации
- Будет плюсом один из пройденных курсов по разработке в ОТУС
- Будет плюсом пройденные курсы по DevOps практикам и инструментам и Linux