23 марта 2025
Привет!
Мы команда Слёрм , выросли из внутреннего обучения Southbridge, и теперь обучаем айтишников инженерным штукам и разработке, а именно создаем лучшие курсы по сложным ИТ-продуктам для профессионалов. Большинство российских компаний с крупными ИТ-подразделениями отправляет к нам учиться своих сотрудников.
Сейчас мы запускаем онлайн-курс по SRE с акцентом на data-driven инженерию. Курс будет включать разработку стратегий мониторинга, управление инцидентами, работу с метриками (SLO/SLI, Error Budget), автоматизацию Health Checks, внедрение canary-релизов и интеграцию SRE-практик в проекты. Нам нужен Методист/Спикер , который станет ключевым участником команды.
Чем предстоит заниматься:
Создание курса:
Разработка программы (включая теорию, практику, кейсы) совместно с ведущими экспертами;
Подготовка сценариев для видеолекций и практических заданий.
Практические задания:
Реалистичные кейсы: настройка алертов на основе Error Budget, проектирование Health Checks для проблемного сервиса;
Создание лабораторных сред (например, в Kubernetes) для отработки canary-релизов.
Участие в потоке:
Проведение вебинаров и воркшопов (например, Как согласовать SLO с бизнесом );
Ответы на вопросы студентов, разбор домашних заданий.
Маркетинг:
Написание экспертных статей, участие в подкастах или YouTube-трансляциях.
Мы предлагаем:
Мы ждем от вас:
1. Технические компетенции:
Глубокое понимание SRE-практик:
Опыт внедрения SLO/SLI, расчета Error Budget, настройки дашбордов для мониторинга бизнес-метрик;
Знание принципов Resiliency Engineering (отказоустойчивость, graceful degradation, circuit breakers);
Работа с инцидентами: проведение постмортемов, root cause analysis (RCA), настройка алертинга.
Data-Driven подход:
Умение проектировать метрики, отражающие пользовательский опыт (например, latency, error rate, availability);
Опыт работы с инструментами: Prometheus, Grafana, Thanos, VictoriaMetrics, Elastic Stack.
Инфраструктура и автоматизация:
Настройка Health Checks для сервисов (Liveness/Readiness Probes в Kubernetes, кастомные проверки);
Реализация canary-релизов и progressive delivery (Argo Rollouts, Flagger, Spinnaker);
Знание cloud-платформ (AWS, GCP, Azure) и контейнеризации (Docker, Kubernetes).
Работа с базами данных:
Понимание проблем репликации, рассогласования данных, методов мониторинга БД (например, PostgreSQL, MySQL);
Инструменты: Percona Monitoring, pgMetrics, VividCortex.
2. Практический опыт:
Участие в проектах с высоконагруженными системами, где SLO/SLI критичны для бизнеса.
Примеры решения проблем:
Управление upstream/downstream зависимостями (согласование метрик между сервисами).
Дебаг скрытых проблем (например, рассогласование данных в БД, сетевые задержки).
Внедрение SRE в команды: онбординг проектов, обучение разработчиков.
3. Навыки разработки учебного контента:
Опыт проектирования программ обучения: от теории до практических кейсов;
Умение создавать реалистичные задания (например, настройка Argo Rollouts для canary-деплоя, проектирование дашбордов с SLO);
Способность структурировать материал: от базовых концепций (что такое SRE) до продвинутых тем (автоматизация инцидент-менеджмента).
4. Педагогические и коммуникативные навыки:
Проведение вебинаров, запись видеолекций, объяснение сложных концепций через реальные кейсы;
Умение работать с аудиторией разного уровня: от Junior DevOps до опытных инженеров;
Готовность участвовать в маркетинге: написание статей, интервью, прямые эфиры.
5. Будет преимуществом:
Знание DevOps-практик: CI/CD (GitLab CI, GitHub Actions), инфраструктура как код (Terraform, Ansible);
Опыт работы с Service Mesh (Istio, Linkerd) для управления трафиком и наблюдения;
Участие в open-source проектах, связанных с SRE-инструментами.
Сертификации: Google SRE, AWS Certified DevOps Engineer, HashiCorp Terraform Associate;
Внимание к деталям, адаптивность, коммуникабельность, способность удерживать внимание аудитории.
Интересно? Тогда откликайся!
До встречи в Слёрм!