SRE / Performance Engineer (GPU/AI направление) (удаленная работа)

Т1

22 мая 2026

Уровень зарплаты:
з.п. не указана
Требуемый опыт работы:
Не указан

Вакансия: SRE / Performance Engineer (GPU/AI направление)

Описание вакансии

Основная цель: обеспечение высокого уровня надёжности, производительности и управляемости GPU-решений Граус в промышленной эксплуатации за счёт проактивного мониторинга, управления мощностями и систематического анализа производительности.

Чем предстоит заниматься:

  • Определение ключевых индикаторов уровня обслуживания (SLI) для GPU-решений;
  • Формирование целевых уровней обслуживания (SLO) совместно с Заказчиками и Владельцем продукта;
  • Мониторинг соблюдения SLO и подготовка отчётов по отклонениям;
  • Анализ стоимости ошибок и принятие решений о допустимости рискованных изменений;
  • Проектирование и настройка систем сбора метрик, логов и трейсов (Prometheus, Grafana, ELK/Loki и др.);
  • Разработка процедур graceful degradation, failover и автоматического восстановления;
  • Настройка алертинга по критическим событиям и деградациям производительности;
  • Интеграция систем наблюдаемости с инцидент-менеджментом и эскалационными процедурами;
  • Анализ рисков отказов и критических зависимостей в архитектуре GPU-стека;
  • Участие в post-mortem анализе инцидентов и формирование списка мер по предотвращению повторений;
  • Сбор и анализ данных о потреблении ресурсов в пилотах и промышленных инсталляциях;
  • Подготовка рекомендаций по размерности кластеров и конфигурации для различных сценариев использования;
  • Формирование требований к железу и сети для новых площадок;
  • Определение критериев готовности релиза с точки зрения производительности и надёжности;
  • Участие в пилотных проектах для сбора метрик реального использования;
  • Подготовка отчетов по производительности и стабильности по итогам пилотов.

Для нас важно:

  • Высшее образование (компьютерные науки, физика, инженерия или смежные области);
  • Опыт в SRE, performance engineering или эксплуатации критичных систем не менее 4х лет;
  • Практический навык с принципами SRE: SLI/SLO/SLA, error budget, incident management;
  • Опыт работы с системами мониторинга и observability: Prometheus, Grafana, ELK/Loki, Jaeger/Tempo;
  • Опыт в нагрузочном тестирование: методы, инструменты, интерпретация результатов;
  • Понимание GPU-архитектуры и метрик производительности: utilization, memory bandwidth, PCIe throughput, thermal throttling;
  • Опыт с Linux performance tuning, kernel parameters, сетевой оптимизацией;
  • Наличие опыта с Capacity planning, прогнозированием ресурсов, анализом трендов;
  • Желательно понимание требований по лицензированию ПО и работе с проприетарными драйверами;
  • Готовность работать на территории РФ.


Посмотрите похожие вакансии

Senior Go-разработчик
Компания: Getmatch
Зарплата: з.п. не указана