SRE / Performance Engineer (GPU/AI направление) (удаленная работа)

Т1

22 мая 2026

Если информация в вакансии не соответствует действительности, или эта вакансия является мошенничеством, сообщите, пожалуйста, модератору, используя кнопку . Спасибо.

Уровень зарплаты:
з.п. не указана

Требуемый опыт работы:
Не указан

Вакансия: SRE / Performance Engineer (GPU/AI направление)

Описание вакансии

Основная цель: обеспечение высокого уровня надёжности, производительности и управляемости GPU-решений Граус в промышленной эксплуатации за счёт проактивного мониторинга, управления мощностями и систематического анализа производительности.

Чем предстоит заниматься:

Определение ключевых индикаторов уровня обслуживания (SLI) для GPU-решений;
Формирование целевых уровней обслуживания (SLO) совместно с Заказчиками и Владельцем продукта;
Мониторинг соблюдения SLO и подготовка отчётов по отклонениям;
Анализ стоимости ошибок и принятие решений о допустимости рискованных изменений;
Проектирование и настройка систем сбора метрик, логов и трейсов (Prometheus, Grafana, ELK/Loki и др.);
Разработка процедур graceful degradation, failover и автоматического восстановления;
Настройка алертинга по критическим событиям и деградациям производительности;
Интеграция систем наблюдаемости с инцидент-менеджментом и эскалационными процедурами;
Анализ рисков отказов и критических зависимостей в архитектуре GPU-стека;
Участие в post-mortem анализе инцидентов и формирование списка мер по предотвращению повторений;
Сбор и анализ данных о потреблении ресурсов в пилотах и промышленных инсталляциях;
Подготовка рекомендаций по размерности кластеров и конфигурации для различных сценариев использования;
Формирование требований к железу и сети для новых площадок;
Определение критериев готовности релиза с точки зрения производительности и надёжности;
Участие в пилотных проектах для сбора метрик реального использования;
Подготовка отчетов по производительности и стабильности по итогам пилотов.

Для нас важно:

Высшее образование (компьютерные науки, физика, инженерия или смежные области);
Опыт в SRE, performance engineering или эксплуатации критичных систем не менее 4х лет;
Практический навык с принципами SRE: SLI/SLO/SLA, error budget, incident management;
Опыт работы с системами мониторинга и observability: Prometheus, Grafana, ELK/Loki, Jaeger/Tempo;
Опыт в нагрузочном тестирование: методы, инструменты, интерпретация результатов;
Понимание GPU-архитектуры и метрик производительности: utilization, memory bandwidth, PCIe throughput, thermal throttling;
Опыт с Linux performance tuning, kernel parameters, сетевой оптимизацией;
Наличие опыта с Capacity planning, прогнозированием ресурсов, анализом трендов;
Желательно понимание требований по лицензированию ПО и работе с проприетарными драйверами;
Готовность работать на территории РФ.

Откликнуться на вакансию

Количество просмотров: 3

Посмотрите похожие вакансии

Senior Go-разработчик
Компания: Getmatch
Зарплата: з.п. не указана

Добавить в закладки

Подтвердите действие

Список регионов

SRE / Performance Engineer (GPU/AI направление) (удаленная работа)

Т1

Вакансия: SRE / Performance Engineer (GPU/AI направление)

Описание вакансии

Посмотрите похожие вакансии