27 января 2026

Уровень зарплаты:
з.п. не указана
Требуемый опыт работы:
Не указан

Вакансия: Эксперт Reinforcement learning

Описание вакансии

Мы - Центр педагогического дизайна и онлайн обучения Института дистанционного образования ТГУ. Создаем онлайн-магистратуры, являемся оператором проекта Цифровые кафедры в ТГУ (IT-программы для обучающихся любых специальностей).

Сейчас в рамках одной из наших флагманских онлайн-магистратур Науки о данных мы находимся в поиске эксперта-разработчика дисциплины Reinforcement learning (обучение с подкреплением) .

Для Вас это уникальная возможность разработать курс с нуля от концепции и подбора кейсов до создания системы заданий.

Основная задача курса научить использованию подхода к обучению с подкреплением для различных алгоритмов машинного обучения: создание reward-функции для больших языковых моделей, обучение алгоритмов для беспилотных автомобилей, моделирование производственных процессов (создание агентно-ориентированных систем на конкретном бизнес-процессе для его оптимизации).

Возможные темы дисциплины:
1. Отличие задачи Rl от классических задач МО. 2. Основы теории игр. 3. Основы построения агентно-ориентированных систем. 4. Основные value-based и policy-based алгоритмы обучения с подкреплением. 5. Основные алгоритмы Rl (Q-learning, SARSA, Monte Carlo и др.). 6. Построение модуля среды и агента. 7. Алгоритмы глубокого обучения для RL. 8. Reward-функция для LLM. Rl-модуль для LLM.

Примеры проектов:

  • Предсказание поведения конкурентов на рынке;
  • Обучение модулей Rl в LLM за счет инструктивного датасета;
  • Задача про применение policy-based и value-based подходов в аукционах;
  • Моделирование производственных процессов (на конкретном кейсе от предприятия).

Чем предстоит заниматься:

- Разработка педагогического сценария дисциплины в рамках существующей магистратуры, в соответствии с заданными компетенциями, задачами, объемом (в согласовании с педагогическим дизайнером), с отчуждением авторских прав в пользу ТГУ;

- Разработка лонгридов, сценариев видеоконтента, презентаций и аннотаций к лекциям, заданий; подбор дополнительных учебных материалов и списка литературы;

- Составление рабочей программы дисциплины и оценочных материалов;

- Запись видеоконтента в студии ИДО или скринкаста при удаленной работе;

- Проведение вебинаров (синхронных занятий) в удаленном формате. Вебинары проходят в вечернее время в будние дни и по субботам - есть возможность выбрать подходящее время;

- Поддержание коммуникации с обучающимся в рабочем пространстве.

Требования к кандидату:

  • Глубокое понимание теоретических основ RL: математический аппарат (марковские процессы принятия решений, теория игр), понимание различий value-based, policy-based и model-based подходов.
  • Практический опыт реализации и отладки алгоритмов RL: уверенное владение ключевыми алгоритмами (Q-Learning, SARSA, DQN и его модификации, Policy Gradients, PPO, A3C, SAC) не только на уровне библиотек, но и на уровне их устройства.
  • Опыт работы с ключевыми фреймворками и средами: OpenAI Gym/Gymnasium, Stable-Baselines3, Ray RLlib; опыт создания собственных сред (environment) для симуляции задач.
  • Навыки программирования: уверенное владение Python и основными библиотеками для ML (NumPy, PyTorch или TensorFlow).
  • Понимание современных трендов и смежных областей: знакомство с Deep RL, Multi-Agent RL, Inverse RL, а главное RLHF (Reinforcement Learning from Human Feedback) и его применение для тонкой настройки LLM.
  • Опыт решения прикладных задач: портфолио проектов, где RL был ключевым инструментом (оптимизация, управление, игровые агенты, рекомендательные системы).
  • Умение выстраивать контакт в онлайн среде;
  • Умение работать с разновозрастной аудиторией;
  • Приветствуется опыт работы в онлайн-образовании (ДПО, онлайн-курсы).

Что мы предлагаем:

  • Договор о создании произведения (онлайн-курса) с отчуждением авторских прав;
  • Удаленный формат работы;
  • Заработная плата обсуждается индивидуально.

Почему стоит откликнуться:

Томский государственный университет это бренд с более чем вековой историей, ведущий вуз с высокими стандартами качества. У нас Вы найдете поддержку и возможности для профессионального роста, которые помогут раскрыть Ваш потенциал.

Работая с нами, Вы будете частью команды, которая формирует будущее образования в России!



Посмотрите похожие вакансии