16 февраля 2023
Описание команды:
Наша команда является критичным элементом инфраструктуры компании и обеспечивает бесперебойную работу большей части команд разработки. Без корпоративных облачных решений наши DevOps-инженеры и разработчики не могут вести свою работу, настраивать рабочие процессы и CI/CD цепочки. Внесение и тестирование срочных исправлений с использованием облачной инфраструктуры может потребоваться в любое время, поэтому к работе облака предъявляются те же требования, которые предъявляются к другим production-системам компании.
Команда SRE CorpCloud входит в состав группы системного администрирования инфраструктуры отдела по обеспечению надежности сервисов. На данный момент в команду входит 6 человек, обеспечивая ежедневные дежурства и развитие внутренних инсталляций OpenStack. Активно ведется взаимодействие с командами VK Cloud для внедрения их технологий для нужд внутреннего корпоративного облака.
Цель обеспечение доступности внутренних облачных решений на основе OpenStack.
Задачи:
обеспечение непрерывного доступа к ресурсам для внешних и внутренних пользователей;
развитие и масштабирование продуктов наша инфраструктура состоит из множества сервисов в геораспределенных дата-центрах, мы также планируем наши вычислительные ресурсы и прогнозируем их утилизацию;
оперативная работа с мониторингом и стратегическая с инцидентами мы не только разрешаем текущие инциденты, но и постоянно работаем над предотвращением их появления в будущем;
автоматизация работы с инфраструктурой наши команды SRE занимаются полным циклом сопровождения продуктовой среды, от удаленной установки ОС до описания деплойментов (Helm-чартов, Kubernetes-операторов, Playbook Ansible);
участие в жизненном цикле продуктов мы тесно связаны с нашими командами разработки, двусторонняя обратная связь между нашими командами позволяет добиться лучших результатов в продукте и совместно влиять на наиболее критичные, узкие места в наших сервисах и инфраструктуре.
Основной стек технологий:
OpenStack;
Kubernetes;
Python, Golang;
Apache, Nginx, HAProxy;
MySQL, Galera cluster;
Tarantool;
RabbitMQ4
OpenVSwitch, Calico;
Ceph;
Prometheus/VictoriaMetrics monitoring stack;
Zabbix;
Ansible.
Требования:
опыт работы с ОС Linux от 3 лет и более на интервью мы поговорим обо всем, от syscall до cgroups и namespaces;
понимание принципов работы с Сетью мы уверены, что вы точно знаете, чем отличаются L3, L4 и L7, а также назовете практическую разницу между DROP и REJECT;
опыт работы с СУБД (основная для нас MySQL) высокая доступность, планы запросов, оптимизация работы сервера, репликация, метрики и мониторинг;
опыт развертывания и администрирования распределенных систем, понимание принципов организации балансировки нагрузки, отказоустойчивости, надежности, высокой доступности;
системы управления конфигурациями, деплоймент и шаблонизация, ожидаем, что вы знакомы с одной или несколькими системами Ansible, Puppet или Salt;
мониторинг мы ожидаем, что вы знакомы с Zabbix, Graphite или Prometheus системами мониторинга;
CI/CD считаем, что вы знакомы с непрерывной поставкой кода и практиковали это ранее.
Будет плюсом:
значительный опыт использования или администрирования OpenStack;
опыт развертывания и администрирования Ceph;
RHEL / CentOS / Almalinux мы используем именно это семейство ОС;
возможность решать поставленные задачи на Python или Golang;
опыт развертывания приложений в K8S и использования Helm;
продуктовый опыт работы с RabbitMQ или Kafka;
продуктовый опыт работы с Clickhouse, MongoDB или Redis.