Вакансия: Team Lead SRE в VK Cloud Storage
Описание вакансии
Cloud Storage объектное хранилище с поддержкой S3 API, которое обеспечивает надёжное масштабируемое хранение и стабильную скорость раздачи любых объектов независимо от числа одновременных обращений. Примеры использования хранилища: потоковая раздача мультимедиа, хостинг сайтов, хранение логов транзакций, электронных документов, хранение больших данных, хранение бэкапов и архивов.
Наши принципы
- Все сервисы должны быть задублированы как минимум в двух ДЦ
- Повторяемый прод все сервисы должны быть описаны в Puppet или в манифестах для Kubernetes
- Любые повторяемые ручные действия должны быть автоматизированы
- Бэкапы любые используемые БД обязаны иметь консистентные бэкапы и инструкции по восстановлению
Наш стек
- Инструментарий: Lua, Python, Bash, Tarantool, Nginx, HAProxy, Puppet, Kubernetes, Ansible, БД разных типов
- Мониторинг: graphite+grafana, prometheus+alertmanager
Вам предстоит
- Обеспечивать стабильную и безаварийную работу промышленных и тестовых сервисов VKCS (S3 Public) в качестве L3 линии поддержки
- Принимать участие в устранении инцидентов
- Помогать с решением клиентских обращений, поступающих на L3 линию поддержки
- Соблюдать установленные SLA по назначенным обращениям, инцидентам
- Участвовать в проектах по сокращению time-to-market, в том числе за счёт развития автоматизации в зоне вашей ответственности
- Осуществлять обновление/модификацию ППО и СПО на тестовых и промышленных сервисах VK CS (S3 Public)
- Принимать участие в дежурствах в формате on-call
Мы ожидаем, что вы
- Работали в роли системного администратора или SRE от пяти лет
- Имеете экспертные знания в эксплуатации Linux-систем
- Обладаете уверенными знаниями в сетях и стеке TCP/IP, DNS, HTTP
- Уже работали с инструментами оркестрации и виртуализации
- Использовали инструменты управления конфигурацией Ansible, Puppet
- Знакомы с Prometheus или Grafana
- Используете в своей работе Bash для автоматизации рутины и обладаете базовыми навыками в написании кода на Python или Go
- Имеете навыки траблшутинга и готовы докапываться до истины, чтобы предотвратить повторяющиеся инциденты
Будет плюсом
- Опыт работы с базами данных разных типов
- Знание энтерпрайзных хранилищ, дисков, клаудов
- Умение разбираться в оборудовании, железе