Вакансия: Главный инженер сопровождения кластеров Elasticsearch и Kafka
Описание вакансии
Главный инженер сопровождения кластеров Elasticsearch и Kafka
Департамент больших данных
Управление сопровождения аналитических систем
ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ:
Обеспечение отказоустойчивости, производительности и предсказуемости кластеров Elasticsearch и Kafka, минимизация времени простоя и воздействия инцидентов;
Разработка и внедрение стратегии мониторинга, алертинга и логирования для Elasticsearch и Kafka (на уровне кластера, нод, топиков, индексов, потребителей, lag-ов);
Определение и настройка ключевых метрик здоровья (KPI) и SLO/SLA для компонентов;
Проведение регулярных аудитов существующей архитектуры Elasticsearch (шаблоны индексов, шардирование, репликация, mapping) и Kafka (топики, партиции, репликация, политики очистки, ACL);
Планирование и проведение масштабирования (как горизонтального, так и вертикального), обновления версий ПО с нулевым или минимальным downtime;
Разработка и поддержка Disaster Recovery (DR) и процедур аварийного восстановления (backup/restore для Elasticsearch, mirroring/replication для Kafka). Регулярное проведение учебных восстановлений;
Разработка и документирование runbooks (чек-листов действий) для частых инцидентов (например, отказ ноды, потеря лидера партиции, рост consumer lag, желтый/красный статус кластера ES);
Координация действий команды во время инцидента, коммуникация с заинтересованными сторонами;
Проведение постмортемов (Post-Mortem) по серьёзным инцидентам с выработкой плана по предотвращению повторения;
Ведение актуальной архитектурной и эксплуатационной документации.
Документирование всех внесенных изменений, процедур, политик.
НАШИ ОЖИДАНИЯ ОТ КАНДИДАТА:
Высшее образование;
Опыт администрирования Elasticsearch в production;
Практический опыт масштабирования кластеров (hot-warm-cold архитектуры), обновлений версий;
Настройка мониторинга (cluster health, jvm, indices stats, thread pools);
Резервное копирование и восстановление с использованием snapshot/restore API в S3;
Опыт администрирования Apache Kafka в production;
Понимание внутреннего устройства: брокеры, топики, партиции, реплики, ISR, контроллер, ZooKeeper/KRaft;
Настройка и мониторинг критических метрик: lag потребителей, throughput, размер топиков, состояние реплик, under-replicated partitions;
Опыт работы с Linux;
Знание систем мониторинга: Prometheus, Grafana, Zabbix;
Опыт работы с системами сбора логов (ELK stack как минимум для логов самих систем);