Senior SRE инженер Trust & Safety (удаленная работа)
(вакансия не опубликована)

18 сентября 2025

Уровень зарплаты:
з.п. не указана
Требуемый опыт работы:
Не указан

Вакансия: Senior SRE инженер Trust & Safety

Описание вакансии

Wildberries и Russ лидер рынков e-commerce и наружной рекламы в России и странах СНГ.
Ежедневно более 4 тысяч наших IT-специалистов создают цифровую экосистему, состоящую из сотен тысяч продуктов. На сегодня мы создали крупнейшую онлайн-платформу для покупки и продажи товаров в России и странах СНГ.

Вместе с масштабным развитием IT-направления мы формируем культуру Trust and Safety, гарантируя непрерывную безопасность и доверие между компанией, её сотрудниками, пользователями и клиентами.

Мы - платформенная команда в направлении Trust & Safety. Наша главная задача - контроль, хранение и обработка очень большого объема данных(datalake)

Отвечаем за обеспечение инфраструктуры и предоставление платформенных решений для всего направления T&S (общие шины данных, контроль соблюдения контрактов, PaaS - Platform as a Service, etc), а также мы отвечаем за внедрение best practices на уровне всего департамента.

Наши задачи:

Обеспечение надежности и доступности сервисов с фокусом на SLA/SLO
Оптимизация производительности и устранение узких мест в инфраструктуре RedPanda/Kafka и Cassandra
Внедрение и совершенствование SRE-практик: error budgets, postmortems, chaos engineering
Настройка и управление алертами для снижения шума (Alertmanager, Grafana)
Оптимизация работы высоконагруженных BigData-кластеров (RedPanda/Kafka, Cassandra, Flink)
Автоматизация процессов реагирования на инциденты и инфраструктурных задач
Улучшение observability в тесном взаимодействии с командами разработки
Внедрение улучшений для повышения отказоустойчивости и масштабируемости систем

Необходимые опыт и навыки:

Опыт работы в SRE/DevOps от 4 лет
Глубокое понимание принципов SRE и их применения
Экспертиза в настройке и эксплуатации RedPanda/Kafka и Cassandra
Навыки работы с Kubernetes и распределенными системами
Опыт настройки и анализа метрик/логов (PromQL, Loki, Elasticsearch)
Умение разрабатывать инструменты автоматизации (Python, Go, Bash)
Навыки управления инцидентами и проведения postmortem-анализа

Будет плюсом:

Опыт работы с Service-Level Objectives (SLO)
Знание Chaos Engineering (Chaos Mesh, Litmus)
Глубокое понимание BigData-стеков: RedPanda/Kafka, Cassandra, Spark

Наш стек:

Observability: Prometheus, Grafana, ELK, Sentry
Data Engineering: RedPanda/Kafka, Cassandra, Flink, AirFlow
Automation: Ansible, Terraform, Kubernetes Operators
Хранилища: Redis, S3/Ceph

Что мы предлагаем:

Полная удаленка или свободное посещение офисов в Москве и Санкт-Петербурге
IT-ипотека и оформление в аккредитованную IT-компанию
Бесплатное питание в офисах, ДМС со стоматологией (после испытательного срока)
Корпоративное обучение и IT-мероприятия

Наш процесс найма:

30-минутное HR интервью, чтобы рассказать о себе и узнать больше о вакансии
Техническое интервью длительностью 1 час
Финальное интервью с лидом длительностью 1 час