Осуществление круглосуточного мониторинга событий в системах Prometheus/VictoriaMetrics, Zabbix;
Создание инцидентов в таск-трекинговой системе и эскалация на ответственных специалистов;
Взаимодействие со смежными командами по вопросам развития и оптимизации мониторинга: создание и корректировка алертов, добавление новых метрик и правил детекции инцидентов;
Анализ логов и метрик для первичной диагностики причин инцидентов;
Актуализация документации по правилам мониторинга и процедурам реагирования;
Работа с Grafana: cоздание и доработка дашбордов, анализ метрик для выявления потенциальных проблем, визуализация данных для различных групп пользователей.
Что мы ожидаем:
Опыт работы с системами мониторинга: Prometheus/VictoriaMetrics, Zabbix;
Навыки создания и настройки дашбордов в Grafana;
Понимание принципов построения алертинга и настройки Alertmanager (или аналогов);
Опыт работы в таск-трекинговых системах (Jira, Service Desk или аналогах);
Опыт взаимодействия с другими IT-подразделениями при решении инцидентов: эскалация проблем, координация действий между командами, обеспечение своевременного реагирования на алерты;
Понимание основных принципов мониторинга: метрики и их типы, алертинг и триггеры, процессы эскалации.
Условия:
Удаленный формат работы с графиком 1/3 с 8.00 до 8.00 по МСК;
Работу в IT-компании, аккредитованной в Министерстве цифрового развития;
Работа с командой профессионалов;
Отсутствие бюрократии и бессмысленных процессов;
Полностью "белая" оплата труда;
ДМС после 3 месяцев работы;
Официальное оформление по ТК РФ с первого дня работы;
Возможности для профессионального и карьерного роста.
Откликайся на вакансию и HR-менеджер свяжется с тобой :)