Вакансия: Главный инженер по тестированию решений под Linux
Описание вакансии
Цель должности: обеспечение требуемого уровня качества GPU-решений Граус за счет системного тестирования, автоматизации проверок и независимой валидации эксплуатационных сценариев.
Чем предстоит заниматься:
Подготовка тест-кейсов и чек-листов по установке, обновлению и эксплуатации GPU Граус;
Проведение тестов корректности работы драйверов, утилит и интеграции;
Проверка сценариев, связанных с типовыми кейсами заказчиков, использования ML систем;
Подготовка отчетов по результатам тестирования;
Поддержка набора регрессионных тестов по ключевым сценариям;
Запуск регрессии при новых версиях драйверов, прошивок и скриптов;
Анализ результатов и фиксация дефектов;
Контроль повторного тестирования после исправлений;
Настройка и запуск нагрузочных и длительных тестов (stress, soak, performance);
Анализ деградаций, ошибок и нестабильностей под нагрузкой;
Подготовка рекомендаций по оптимизации и эксплуатационным ограничениям;
Разработка и поддержка автотестов и smoke-проверок;
Интеграция автотестов в CI/CD-пайплайны;
Подготовка тестовых данных и скриптов для HIL-стендов;
Отслеживание стабильности автотестов и покрытие ключевых сценариев;
Конфигурация стендов с реальным оборудованием для тестирования;
Ведение матрицы совместимости (серверы, ОС, версии драйверов и т.д.);
Обеспечение готовности стендов к тестовым кампаниям и пилотам;
Взаимодействие с DevOps и инженерной командой по вопросам.
Для нас важно:
Высшее техническое образование;
Понимание Linux-окружения, диагностики ОС, работы runtime-компонентов и тестовых стендов;
Опыт integration/system testing для low-level или инфраструктурных компонентов;
Опыт автоматизации тестирования системных компонентов: драйверов, Linuxпакетов, runtime и Docker-окружений;
Опыт построения regression/smoke automation и участия в release pipelines и quality gates;
Опыт проведения проверки upgrade/rollback сценариев, стабильности релизов и совместимости компонентов;
Опыт performance regression detection и длительного/нагрузочного тестирования;
Опыт работы с системными логами Linux, логами ядра и диагностикой низкоуровневого оборудования;
Опыт проведения анализа performance-метрик, расследования деградаций производительности и нестабильного поведения системы;
Опыт подготовки и поддержки тестовых стендов, контейнерных сред и воспроизводимых окружений;
Понимание reliability testing, offline delivery и процессов валидации инфраструктурных релизов.