Вакансия: Тестировщик MLOps-инфраструктуры
Описание вакансии
Обязанности: Тестирование Kubernetes (K8s):
Тестирование жизненного цикла рабочих нагрузок (Pods, Deployments, StatefulSets, DaemonSets) на устойчивость к сбоям нод, планировщика и сети.
Валидация конфигураций Helm -чартов и Kustomize оверлеев.
Тестирование механизмов самоисцеления (Liveness, Readiness Probes), управления ресурсами (Limits/Requests) и Affinity rules.
Тестирование хранилищ (MinIO, Longhorn):
MinIO: Тестирование S3-совместимого API на предмет соответствия стандартам, проверка распределенной загрузки/выгрузки данных, тестирование отказоустойчивости при потере нод, проверка политик доступа и шифрования.
Longhorn: Тестирование работы распределенного блочного хранилища: создание/удаление/резервное копирование томов, миграция томов между нодами, восстановление данных после сбоя ноды, проверка производительности IOPS/throughput.
Тестирование GitOps (Argo):
Тестирование пайплайнов развертывания в ArgoCD: синхронизация приложений, автоматические и ручные способы деплоя, обработка конфликтов, работа с хуками (PreSync, PostSync).
Валидация работы Argo Rollouts для canary- и blue-green-развертываний: анализ метрик, автоматическое откатывание, управление трафиком.
Тестирование сервисной сетки (Istio) и шлюзов (Nginx):
Istio: Тестирование маршрутизации трафика (VirtualServices, DestinationRules), проверка политик безопасности (AuthorizationPolicies), тестирование отказоустойчивости (Retries, Timeouts, Circuit Breakers), валидация работы mTLS.
Nginx Ingress Controller: Тестирование правил маршрутизации, работы с SSL-сертификатами, ограничения скорости (rate-limiting), базовой аутентификации.
CI CD:
Тестирование пайплайнов в Jenkins, GitLab CI, GitHub Actions, ArgoCD (проверка этапов, устойчивости к ошибкам, корректности артефактов).
Требования: Опыт коммерческой разработки от 2-х лет, из которых не менее 1 года на позиции, связанной с тестированием или разработкой инфраструктуры (QA Engineer, DevOps Engineer, SRE).
Наличие реализованных проектов по автоматизации тестирования инфраструктурных компонентов.
1. Kubernetes:
Глубокое понимание архитектуры и ключевых примитивов K8s.
Умение диагностировать проблемы с помощью kubectl (логи, события, дебаг подов, описания ресурсов).
Понимание концепций Services , Ingress , ConfigMaps , Secrets , PersistentVolumes/PersistentVolumeClaims .
Опыт тестирования приложений с состоянием (StatefulSets) в K8s.
2. Хранилища:
MinIO: Опыт тестирования S3-совместимых API, понимание распределенной архитектуры. Умение использовать mc (MinIO Client).
Longhorn: Понимание архитектуры распределенного хранилища. Опыт тестирования операций с томами (создание, снапшоты, резервное копирование, восстановление).
3. GitOps (Argo):
Практический опыт тестирования приложений, развернутых через ArgoCD. Понимание принципа GitOps.
Знание компонентов Argo Rollouts для тестирования стратегий постепенного развертывания
4. Сервисная сетка и Ingress:
Istio: Базовое понимание архитектуры сервисной сетки. Опыт тестирования конфигураций управления трафиком и политик безопасности.
Nginx Ingress Controller: Опыт тестирования и валидации конфигураций Ingress-ресурсов.
5. Языки программирования/скриптинга:
Python для написания и поддержки автотестов и скриптов
6. Базы данных:
Базовые знания SQL/NoSQL (PostgreSQL, MySQL, Redis) для проверки подключений и работы под нагрузкой.
7. Мониторинг:
Опыт работы с Prometheus, Grafana, Alertmanager.
8. Контейнеризация:
Опыт работы с Docker (Dockerfile, docker-compose). Понимание принципов изоляции.
9. ОС:
Linux обязательно на уровне администрирования (командная строка, файловая система, процессы, сеть, системные логи, скрипты Bash).
Windows Server обязательно на уровне администрирования
10. Сетевые технологии:
Понимание модели OSI/TCP-IP.
Ключевые протоколы: TCP/UDP, HTTP/HTTPS, DNS, SSH, SSL/TLS.
Умение использовать сетевые утилиты: ping, traceroute, telnet, netstat, ss, tcpdump, curl, wget.
Понимание основ сетевой безопасности (Firewalls, VPN, ACL).
Желательные (будут плюсом):
Навыки написания кастомных контроллеров или операторов для Kubernetes
Глубокие знания в области безопасности (K8s RBAC, Istio Security, сетевая политика).
Опыт работыс Yandex Cloud
Условия: Стабильную работу в одном из крупнейших банков страны
Сильное DS community, большое разнообразие рабочих и внерабочих активностей
Конкурентную заработную плату, соцпакет.
Условия для роста и развития (в т.ч. конференции, тренинги, внутренние программы развития).
Дружный коллектив единомышленников (все специалисты, занимающиеся машинным обучением объединены одним департаментом для максимально плотного и продуктивного обмена знаниями).
Передовой стек технологий, высокопроизводительное оборудование.
Возможность решать разнообразные прикладные задачи с выводом в промышленную эксплуатацию, возможность существенно влиять на результат (в т.ч. в бизнес-смысле) и способы его достижения (вплоть до внесения изменений в архитектуру).
Квартальный бонус по результатам работы;
ДМС, страхование жизни;
корпоративное обучение;