Вакансия: SRE в One Cloud
Описание вакансии
One Cloud это технологический фундамент для всех продуктов компании. Мы предоставляем единую среду запуска приложений, хранилищ, баз данных и любых других сервисов.
Сейчас One Cloud это 12 000 серверов в 9 дата-центрах, загрузка более 1 000 000 процессорных ядер, объём хранилища в 5000 терабайт и 400 Тбит/сек по сети.
Перед командой стоят задачи развития и масштабирования, повышения надёжности, разработки внутренних инструментов и онбординга новых проектов. Ключевая цель стать самым передовым внутренним облаком среди аналогичных платформ.
Мы ищем Site Reliability Engineer, готовых разделить с нами задачи по эксплуатации, инцидент-менеджменту, R&D, а также принять технический вызов кратного роста облака и амбициозности поставленных перед командой задач.
Стек: Linux, Python, Go, CFEngine, AWX.
Задачи
- Эксплуатировать парк серверов облака (в том числе bare metal) более 10 000 хостов
- Постоянно обновлять парк серверов мы стараемся эффективнее использовать каждый юнит в дата-центрах
- Управлять инцидентами в связке с командами мониторинга и разработки устранять сбои и предотвращать их повторение
- Автоматизировать процессы эксплуатации и оркестрации при наших объёмах задачи решаются через код
- Участвовать в разработке и внедрении новой функциональности облака
Требования
- Коммерческий опыт работы в релевантной роли SRE, DevOps, системного инженера от трёх лет
- Опыт работы с серверной инфраструктурой на базе Linux, уверенные знания Linux
- Опыт работы с сетью iptables, BGP, VRRP
- Опыт работы с SCM Puppet, Salt, Ansible
- Опыт автоматизации на Bash
Будет плюсом
- Опыт работы с системами на базе RHEL
- Опыт работы с веб-хостингом nginx, серверы приложений, MySQL, Postgres
- Опыт работы с CFEngine, Cassandra, Zabbix и Vault
- Знание Go и Java