Методист/Спикер Senior DevOps engineer (SRE) (удаленная работа)

23 марта 2025

Уровень зарплаты:
з.п. не указана
Требуемый опыт работы:
Не указан

Вакансия: Методист/Спикер Senior DevOps engineer (SRE)

Описание вакансии

Привет!

Мы команда Слёрм , выросли из внутреннего обучения Southbridge, и теперь обучаем айтишников инженерным штукам и разработке, а именно создаем лучшие курсы по сложным ИТ-продуктам для профессионалов. Большинство российских компаний с крупными ИТ-подразделениями отправляет к нам учиться своих сотрудников.

Сейчас мы запускаем онлайн-курс по SRE с акцентом на data-driven инженерию. Курс будет включать разработку стратегий мониторинга, управление инцидентами, работу с метриками (SLO/SLI, Error Budget), автоматизацию Health Checks, внедрение canary-релизов и интеграцию SRE-практик в проекты. Нам нужен Методист/Спикер , который станет ключевым участником команды.

Чем предстоит заниматься:

Создание курса:

  • Разработка программы (включая теорию, практику, кейсы) совместно с ведущими экспертами;

  • Подготовка сценариев для видеолекций и практических заданий.

Практические задания:

  • Реалистичные кейсы: настройка алертов на основе Error Budget, проектирование Health Checks для проблемного сервиса;

  • Создание лабораторных сред (например, в Kubernetes) для отработки canary-релизов.

Участие в потоке:

  • Проведение вебинаров и воркшопов (например, Как согласовать SLO с бизнесом );

  • Ответы на вопросы студентов, разбор домашних заданий.

Маркетинг:

  • Написание экспертных статей, участие в подкастах или YouTube-трансляциях.

Мы предлагаем:

  • Полностью удаленный формат взаимодействия;
  • Гибкий график, дедлайны согласовываются с командой;
  • Достойный уровень компенсации;
  • Возможность получить крутой опыт для своего резюме и личного бренда.

Мы ждем от вас:

1. Технические компетенции:

Глубокое понимание SRE-практик:

  • Опыт внедрения SLO/SLI, расчета Error Budget, настройки дашбордов для мониторинга бизнес-метрик;

  • Знание принципов Resiliency Engineering (отказоустойчивость, graceful degradation, circuit breakers);

  • Работа с инцидентами: проведение постмортемов, root cause analysis (RCA), настройка алертинга.

Data-Driven подход:

  • Умение проектировать метрики, отражающие пользовательский опыт (например, latency, error rate, availability);

  • Опыт работы с инструментами: Prometheus, Grafana, Thanos, VictoriaMetrics, Elastic Stack.

Инфраструктура и автоматизация:

  • Настройка Health Checks для сервисов (Liveness/Readiness Probes в Kubernetes, кастомные проверки);

  • Реализация canary-релизов и progressive delivery (Argo Rollouts, Flagger, Spinnaker);

  • Знание cloud-платформ (AWS, GCP, Azure) и контейнеризации (Docker, Kubernetes).

Работа с базами данных:

  • Понимание проблем репликации, рассогласования данных, методов мониторинга БД (например, PostgreSQL, MySQL);

  • Инструменты: Percona Monitoring, pgMetrics, VividCortex.

2. Практический опыт:

Участие в проектах с высоконагруженными системами, где SLO/SLI критичны для бизнеса.

Примеры решения проблем:

  • Управление upstream/downstream зависимостями (согласование метрик между сервисами).

  • Дебаг скрытых проблем (например, рассогласование данных в БД, сетевые задержки).

  • Внедрение SRE в команды: онбординг проектов, обучение разработчиков.

3. Навыки разработки учебного контента:

  • Опыт проектирования программ обучения: от теории до практических кейсов;

  • Умение создавать реалистичные задания (например, настройка Argo Rollouts для canary-деплоя, проектирование дашбордов с SLO);

  • Способность структурировать материал: от базовых концепций (что такое SRE) до продвинутых тем (автоматизация инцидент-менеджмента).

4. Педагогические и коммуникативные навыки:

  • Проведение вебинаров, запись видеолекций, объяснение сложных концепций через реальные кейсы;

  • Умение работать с аудиторией разного уровня: от Junior DevOps до опытных инженеров;

  • Готовность участвовать в маркетинге: написание статей, интервью, прямые эфиры.

5. Будет преимуществом:

  • Знание DevOps-практик: CI/CD (GitLab CI, GitHub Actions), инфраструктура как код (Terraform, Ansible);

  • Опыт работы с Service Mesh (Istio, Linkerd) для управления трафиком и наблюдения;

  • Участие в open-source проектах, связанных с SRE-инструментами.

  • Сертификации: Google SRE, AWS Certified DevOps Engineer, HashiCorp Terraform Associate;

  • Внимание к деталям, адаптивность, коммуникабельность, способность удерживать внимание аудитории.

Интересно? Тогда откликайся!

До встречи в Слёрм!