27 марта 2026
Мы строим платформу LLM инференса, обслуживающую как внутренние, так и продакшен-сервисы. Наша миссия обеспечить стабильный, масштабируемый и экономичный сервинг больших языковых моделей. Мы ищем инженера, который поможет в развитии инфраструктуры, оптимизацию latency и throughput, а также внедрение передовых подходов к распределенному LLM инференсу.
Обязанности:
Разработка и оптимизация инфраструктуры инференса LLM моделей.
Performance-tunning llm моделей, поиск точек деградации или кейсов оптимизации на основе реальных логов
Помощь в capacity-планировании командам-заказчикам
Обеспечивать масштабируемость и надежность LLM serving инфраструктуры, выбор инструментов для инференса (sglang, vLLM, TensorRT LLM).
Ключевые знания и навыки:
Будет преимуществом:
Что предлагаем мы: