Системный администратор Linux / SRE (CorpCloud) (удаленная работа)
(вакансия в архиве)

VK

16 февраля 2023

Уровень зарплаты:
з.п. не указана
Требуемый опыт работы:
Не указан

Вакансия: Системный администратор Linux / SRE (CorpCloud)

Описание команды:

Наша команда является критичным элементом инфраструктуры компании и обеспечивает бесперебойную работу большей части команд разработки. Без корпоративных облачных решений наши DevOps-инженеры и разработчики не могут вести свою работу, настраивать рабочие процессы и CI/CD цепочки. Внесение и тестирование срочных исправлений с использованием облачной инфраструктуры может потребоваться в любое время, поэтому к работе облака предъявляются те же требования, которые предъявляются к другим production-системам компании.

Команда SRE CorpCloud входит в состав группы системного администрирования инфраструктуры отдела по обеспечению надежности сервисов. На данный момент в команду входит 6 человек, обеспечивая ежедневные дежурства и развитие внутренних инсталляций OpenStack. Активно ведется взаимодействие с командами VK Cloud для внедрения их технологий для нужд внутреннего корпоративного облака.

Цель обеспечение доступности внутренних облачных решений на основе OpenStack.

Задачи:

  • обеспечение непрерывного доступа к ресурсам для внешних и внутренних пользователей;

  • развитие и масштабирование продуктов наша инфраструктура состоит из множества сервисов в геораспределенных дата-центрах, мы также планируем наши вычислительные ресурсы и прогнозируем их утилизацию;

  • оперативная работа с мониторингом и стратегическая с инцидентами мы не только разрешаем текущие инциденты, но и постоянно работаем над предотвращением их появления в будущем;

  • автоматизация работы с инфраструктурой наши команды SRE занимаются полным циклом сопровождения продуктовой среды, от удаленной установки ОС до описания деплойментов (Helm-чартов, Kubernetes-операторов, Playbook Ansible);

  • участие в жизненном цикле продуктов мы тесно связаны с нашими командами разработки, двусторонняя обратная связь между нашими командами позволяет добиться лучших результатов в продукте и совместно влиять на наиболее критичные, узкие места в наших сервисах и инфраструктуре.

Основной стек технологий:

  • OpenStack;

  • Kubernetes;

  • Python, Golang;

  • Apache, Nginx, HAProxy;

  • MySQL, Galera cluster;

  • Tarantool;

  • RabbitMQ4

  • OpenVSwitch, Calico;

  • Ceph;

  • Prometheus/VictoriaMetrics monitoring stack;

  • Zabbix;

  • Ansible.

Требования:

  • опыт работы с ОС Linux от 3 лет и более на интервью мы поговорим обо всем, от syscall до cgroups и namespaces;

  • понимание принципов работы с Сетью мы уверены, что вы точно знаете, чем отличаются L3, L4 и L7, а также назовете практическую разницу между DROP и REJECT;

  • опыт работы с СУБД (основная для нас MySQL) высокая доступность, планы запросов, оптимизация работы сервера, репликация, метрики и мониторинг;

  • опыт развертывания и администрирования распределенных систем, понимание принципов организации балансировки нагрузки, отказоустойчивости, надежности, высокой доступности;

  • системы управления конфигурациями, деплоймент и шаблонизация, ожидаем, что вы знакомы с одной или несколькими системами Ansible, Puppet или Salt;

  • мониторинг мы ожидаем, что вы знакомы с Zabbix, Graphite или Prometheus системами мониторинга;

  • CI/CD считаем, что вы знакомы с непрерывной поставкой кода и практиковали это ранее.

Будет плюсом:

  • значительный опыт использования или администрирования OpenStack;

  • опыт развертывания и администрирования Ceph;

  • RHEL / CentOS / Almalinux мы используем именно это семейство ОС;

  • возможность решать поставленные задачи на Python или Golang;

  • опыт развертывания приложений в K8S и использования Helm;

  • продуктовый опыт работы с RabbitMQ или Kafka;

  • продуктовый опыт работы с Clickhouse, MongoDB или Redis.