31 июля 2025
Динтаблицы YTsaurus распределённая СУБД, работающая на большом числе машин и обслуживающая много пользователей. Динтаблицы используются как при подготовке данных внутри Яндекса, так и для ответов внешним пользователям.
Эксплуатация такой большой и нагруженной системы непростая задача, требующая глубокого погружения в устройство как самой системы, так и рабочего окружения. Кроме того, для администратора крайне важна аккуратность. При этом многие сценарии типичны и могут быть автоматизированы.
Вам предстоит автоматизировать сценарии эксплуатации динамических таблиц (выкладку релизов, проведение учений по выключению дата-центров) и доработать инструментарий, используемый при авариях. Задачи автоматизации включают в себя как логику на Python и Go, так и доработки в серверной части на C++. Надёжность требует комплексного подхода.
Какие задачи вас ждут
Автоматизация релизов
Сейчас словами CI/CD никого не удивишь: есть масса готовых инструментов и историй успеха. Однако для большой системы, которая не может позволить себе потерять данные пользователей, автоматизация выкладки усложняется на порядок. Нужно не просто задеплоить код, но и сделать аккуратный стейджинг, собрать все сигналы о проблемах и деградациях и только после исправлений допустить выкладку дальше. Вы реализуете необходимые проверки и инструменты и автоматизируете этот процесс.
Автоматизация учений
Для проверки надёжности мы постоянно выключаем части сервиса, как правило, изолированные в одной локации. Выключение должно пройти максимально бесшовно для пользователей. Для этого мы выполняем ряд ручных действий, следя за состоянием кластера. Ваша задача надёжно автоматизировать этот сценарий, для чего в том числе потребуется адаптировать сигналы доступности для работы в деградированном состоянии.
Инструменты аварийной работы
Когда случается неприятное (например, происходят аварии), мы выполняем ручные манипуляции с кластером. Есть несколько типичных сценариев, которые требуют осмысления и фиксации в виде инструментов. Вы реализуете эти инструменты, при необходимости доработав серверный код.
Мы ждем, что вы
Будет плюсом, если вы