Эксперт Reinforcement learning (удаленная работа)

Национальный исследовательский Томский государственный университет

27 января 2026

Если информация в вакансии не соответствует действительности, или эта вакансия является мошенничеством, сообщите, пожалуйста, модератору, используя кнопку . Спасибо.

Уровень зарплаты:
з.п. не указана

Требуемый опыт работы:
Не указан

Вакансия: Эксперт Reinforcement learning

Описание вакансии

Мы - Центр педагогического дизайна и онлайн обучения Института дистанционного образования ТГУ. Создаем онлайн-магистратуры, являемся оператором проекта Цифровые кафедры в ТГУ (IT-программы для обучающихся любых специальностей).

Сейчас в рамках одной из наших флагманских онлайн-магистратур Науки о данных мы находимся в поиске эксперта-разработчика дисциплины Reinforcement learning (обучение с подкреплением) .

Для Вас это уникальная возможность разработать курс с нуля от концепции и подбора кейсов до создания системы заданий.

Основная задача курса научить использованию подхода к обучению с подкреплением для различных алгоритмов машинного обучения: создание reward-функции для больших языковых моделей, обучение алгоритмов для беспилотных автомобилей, моделирование производственных процессов (создание агентно-ориентированных систем на конкретном бизнес-процессе для его оптимизации).

Возможные темы дисциплины:
1. Отличие задачи Rl от классических задач МО. 2. Основы теории игр. 3. Основы построения агентно-ориентированных систем. 4. Основные value-based и policy-based алгоритмы обучения с подкреплением. 5. Основные алгоритмы Rl (Q-learning, SARSA, Monte Carlo и др.). 6. Построение модуля среды и агента. 7. Алгоритмы глубокого обучения для RL. 8. Reward-функция для LLM. Rl-модуль для LLM.

Примеры проектов:

Предсказание поведения конкурентов на рынке;
Обучение модулей Rl в LLM за счет инструктивного датасета;
Задача про применение policy-based и value-based подходов в аукционах;
Моделирование производственных процессов (на конкретном кейсе от предприятия).

Чем предстоит заниматься:

- Разработка педагогического сценария дисциплины в рамках существующей магистратуры, в соответствии с заданными компетенциями, задачами, объемом (в согласовании с педагогическим дизайнером), с отчуждением авторских прав в пользу ТГУ;

- Разработка лонгридов, сценариев видеоконтента, презентаций и аннотаций к лекциям, заданий; подбор дополнительных учебных материалов и списка литературы;

- Составление рабочей программы дисциплины и оценочных материалов;

- Запись видеоконтента в студии ИДО или скринкаста при удаленной работе;

- Проведение вебинаров (синхронных занятий) в удаленном формате. Вебинары проходят в вечернее время в будние дни и по субботам - есть возможность выбрать подходящее время;

- Поддержание коммуникации с обучающимся в рабочем пространстве.

Требования к кандидату:

Глубокое понимание теоретических основ RL: математический аппарат (марковские процессы принятия решений, теория игр), понимание различий value-based, policy-based и model-based подходов.
Практический опыт реализации и отладки алгоритмов RL: уверенное владение ключевыми алгоритмами (Q-Learning, SARSA, DQN и его модификации, Policy Gradients, PPO, A3C, SAC) не только на уровне библиотек, но и на уровне их устройства.
Опыт работы с ключевыми фреймворками и средами: OpenAI Gym/Gymnasium, Stable-Baselines3, Ray RLlib; опыт создания собственных сред (environment) для симуляции задач.
Навыки программирования: уверенное владение Python и основными библиотеками для ML (NumPy, PyTorch или TensorFlow).
Понимание современных трендов и смежных областей: знакомство с Deep RL, Multi-Agent RL, Inverse RL, а главное RLHF (Reinforcement Learning from Human Feedback) и его применение для тонкой настройки LLM.
Опыт решения прикладных задач: портфолио проектов, где RL был ключевым инструментом (оптимизация, управление, игровые агенты, рекомендательные системы).
Умение выстраивать контакт в онлайн среде;
Умение работать с разновозрастной аудиторией;
Приветствуется опыт работы в онлайн-образовании (ДПО, онлайн-курсы).

Что мы предлагаем:

Договор о создании произведения (онлайн-курса) с отчуждением авторских прав;
Удаленный формат работы;
Заработная плата обсуждается индивидуально.

Почему стоит откликнуться:

Томский государственный университет это бренд с более чем вековой историей, ведущий вуз с высокими стандартами качества. У нас Вы найдете поддержку и возможности для профессионального роста, которые помогут раскрыть Ваш потенциал.

Работая с нами, Вы будете частью команды, которая формирует будущее образования в России!

Откликнуться на вакансию

Количество просмотров: 7

Посмотрите похожие вакансии

Автор на курс Обучение с подкреплением Reinforcement Learning в Практикум
Компания: Яндекс
Зарплата: з.п. не указана

Добавить в закладки

Подтвердите действие

Список регионов

Эксперт Reinforcement learning (удаленная работа)

Национальный исследовательский Томский государственный университет

Вакансия: Эксперт Reinforcement learning

Описание вакансии

Посмотрите похожие вакансии