Site Reliability Engineer / SRE (удаленная работа)

22 ноября 2024

Уровень зарплаты:
з.п. не указана
Требуемый опыт работы:
Не указан

Вакансия: Site Reliability Engineer / SRE

Описание вакансии

Что такое eXpress

  • Лидер рынка коммуникаций . Мы 1 на рынке (итоговый рейтинг корпоративных мессенджеров CNEWS 2022 и 2023).
  • Доказанное качество. Доверие крупнейших российских заказчиков и амбициозные проекты с 11 компаниями из топ-20 списка РБК500.
  • Постоянный рост. Год назад нас было 80 человек, сегодня в нашей команде более 200 сотрудников. Мы уже аренд овали новый офис и ждем новых классных специалистов.
  • Уникальные технологии. Мы с нуля создали собственный протокол передачи данных. Сегодня это единственный распределенный (федеративный) протокол онлайн-коммуникаций в мире.
  • Мы придумали смартаппы и приложение криптоконтейнер, которые полностью перевернули понятие защищенная корпоративная мобильность .
  • Мы не копируем чужое . Мы создаем новое, что до нас никто не создавал.

Процесс работы

Мы любим и умеем работать удалённо. Все наши внутренние процессы выстроены так, чтобы наши сотрудники свободно работали из любого комфортного места, оставались на связи и чувствовали себя частью коллектива. По желанию можно работать в офисе.

Сейчас мы формируем команду SRE и у будущего коллеги будет возможность напрямую влиять на процессы, выбор подходов и технологий.

Чем предстоит заниматься:

- Участвовать в развитии SRE практик компании;

- Сопровождать и администрировать боевые контура с приложением;

- Сопровождать релизы приложения;

- Обеспечивать и повышать надежность приложения;

- Разрабатывать системы автоматизации рутины на базе Python/Golang;

- Разрабатывать алерты и CI/CD алертов;

- Разрабатывать Postmortems и Runbooks;

- Участвовать в постоянном улучшении системы мониторинга;

- Взаимодействовать с разработчиками продукта, QA, DevOps;

- Планировать и проводить работы на тестовых и промышленных контурах;

- Участвовать в развитии архитектуры систем;

- Решать инциденты совместно с разработчиками, реагировать на алерты;

- Оказывать консультации о параметрах работы системы, локализовывать проблемы, эскалировать баги на разработчиков;

- Планировать и проводить работы на тестовых и промышленных инсталляциях;

- Повышать наблюдаемость приложений;

- Документировать активности в Confluence/Jira, описывать архитектуру взаимодействия компонентов, процедур обновления;

- Взаимодействовать с разработчиками продукта, QA, DevOps;

- Участвовать в развитии SRE практик компании;

- Проводить работы по повышению отказоустойчивости и масштабируемости сервисов.

Что для нас важно:

- Уверенные знания Linux;

- Уверенные знания DevOps практик;

- Понимание принципов работы SRE;

- Практический опыт работы с инцидентами;

- Опыт администрирования любой из перечисленных систем мониторинга: Prometheus, Grafana, Thanos, VictoriaMetrics, Loki, ELK;

- Умение автоматизировать рутину через Python/Golang/Bash;

- Опыт администрирования систем управления репозиториями: Nexus, Artifactory;

- Опыт работы с Docker, Kubernetes, диагностика проблем, эксплуатация и поддержка;

- Опыт работы с Hashicorp-стеком: Vault, Terraform;

- Навыки работы с облаками (AWS, Yandex.Cloud, SberCloud и т.п.) .

Наш основной стек:

- Linux;

- Ansible/Terraform;

- Gitlab;

- Docker и kubernetes;

- Redis, zookeeper, kafka;

- Системы хранения и обработки логов (elasticsearch/logstash/kibana);

- Системы мониторинга (zabbix/prometheus/grafana/thanos);

- Python,bash scripting;

- Sentry;

- СУБД PostgreSQL и Cassandra.

Работа в eXpress - это:

  • Масштабный и высоконагруженный проект: возможность заниматься широким кругом задач, прокачивать свои инженерные скиллы и влиять на выбор подходов/технологий/библиотек;
  • Атмосфера профессионализма
    Тебя будут окружать опыт ные коллеги единомышленники по всей стране, которые с удовольствием делятся опыт ом и знаниями друг с другом;
  • Сложные и интересные задачи: Мессенджер это сложно, поэтому и интересно. Мы постоянно развиваемся и стараемся не только реализовывать новую функциональность, но и улучшать старый, проводя рефакторинг кода;
  • Наш стек: мы работаем с Git и JIRA и у нас развитая инженерная культура разработки, прозрачный процесс код ревью. Мы оперативно внедряем новые фичи, доставляя их клиенту через настроенные процессы CI/CD и высокопрофессиональную команду QA;
  • Условия работы: оформление по ТК РФ; полностью белая конкурентная заработная плата, ориентируемся на ожидания кандидата в первую очередь;
  • Обучение: наставничество, внутреннее обучение в команде или внешние конференции, курсы;
  • Здоровье: после прохождения испытательного срока - доступ к программе ДМС.


Посмотрите похожие вакансии

Junior/Middle Site Reliability Engineer (SRE)
Компания: Codex Optimus
Зарплата: з.п. не указана
Site Reliability Engineer (SRE)
Компания: Звук
Зарплата: з.п. не указана
Senior Site Reliability Engineer (SRE)
Компания: Codex Optimus
Зарплата: з.п. не указана