МТС Digital сердце цифровой экосистемы МТС. 12 гильдий инженеров, суперкомпьютер, системы видеоаналитики, IoT, собственная лаборатория AI и 20+ петабайт данных. Финтех, стриминг, гейминг, мобильные приложения, облачные сервисы. Каждый день мы работаем над тем, чтобы вывести мобильную и веб-разработку на новый уровень, благодаря сплоченным продуктовым командам и agile методологиям.
Сейчас мы в поиске специалиста, чья главная задача помочь нам выстроить и внедрить единые подходы к обеспечению надежности продуктов, сервисов и систем в рамках Экосистемы МТС.
Чем предстоит заниматься:
- определению классов критичности систем и сервисов на основе влияния их простоя на бизнес-процессы Экосистемы;
- оценке экономически-обоснованных значений RTO и RPO;
- формированию системы продуктовых метрик в части обеспечения надежности;
- выстраиванию процессов управления уровнем сервиса на основе SLA/SLO/SLI;
- обеспечению непрерывности и доступности критичных для экосистемы систем и сервисов;
- управлению критическими событиями в продуктивной среде.
опыт работы в ИТ от 10 лет;
опыт работы на позиции лидера практики SRE в крупных технологических компаниях;
наличие управленческого опыта (управление командой не менее 10 человек);
опыт разработки SLA/SLI/SLO и знание принципов их формирования;
практический опыт локализации проблем и устранения инцидентов в больших и сложных системах;
опыт внедрения практик и инструментов SRE и DevOps;
опыт построения отказоустойчивых распределенных хранилищ на базе Cassandra, Mongo, Postgres, Ignite, Elastic;
опыт встраивания процессов / процедур обеспечения надежности в типовые процессы экплуатационных приложений;
практический опыт внедрения практик и инструментов Capacity Management, Availability Management, Business Continuity Management;
опыт организации построения или управления инфраструктурой отказоустойчивых систем, работающих в режиме 24x7x365 и требующих минимального участия человека;
знание принципов работы SCM систем и современных средств мониторинга и автоматизации управления инфраструктурой;
знание принципов и методов обеспечения качества и надёжности ИТ сервисов;
отличные коммуникационные навыки;
английский не ниже Intermediate.
Что мы предлагаем:
А еще: