Вакансия: Эксперт Reinforcement learning
Описание вакансии
Мы - Центр педагогического дизайна и онлайн обучения Института дистанционного образования ТГУ. Создаем онлайн-магистратуры, являемся оператором проекта Цифровые кафедры в ТГУ (IT-программы для обучающихся любых специальностей).
Сейчас в рамках одной из наших флагманских онлайн-магистратур Науки о данных мы находимся в поиске эксперта-разработчика дисциплины Reinforcement learning (обучение с подкреплением) .
Для Вас это уникальная возможность разработать курс с нуля от концепции и подбора кейсов до создания системы заданий.
Основная задача курса научить использованию подхода к обучению с подкреплением для различных алгоритмов машинного обучения: создание reward-функции для больших языковых моделей, обучение алгоритмов для беспилотных автомобилей, моделирование производственных процессов (создание агентно-ориентированных систем на конкретном бизнес-процессе для его оптимизации).
Возможные темы дисциплины: 1. Отличие задачи Rl от классических задач МО. 2. Основы теории игр. 3. Основы построения агентно-ориентированных систем. 4. Основные value-based и policy-based алгоритмы обучения с подкреплением. 5. Основные алгоритмы Rl (Q-learning, SARSA, Monte Carlo и др.). 6. Построение модуля среды и агента. 7. Алгоритмы глубокого обучения для RL. 8. Reward-функция для LLM. Rl-модуль для LLM.
Примеры проектов:
- Предсказание поведения конкурентов на рынке;
- Обучение модулей Rl в LLM за счет инструктивного датасета;
- Задача про применение policy-based и value-based подходов в аукционах;
- Моделирование производственных процессов (на конкретном кейсе от предприятия).
Чем предстоит заниматься:
- Разработка педагогического сценария дисциплины в рамках существующей магистратуры, в соответствии с заданными компетенциями, задачами, объемом (в согласовании с педагогическим дизайнером), с отчуждением авторских прав в пользу ТГУ;
- Разработка лонгридов, сценариев видеоконтента, презентаций и аннотаций к лекциям, заданий; подбор дополнительных учебных материалов и списка литературы;
- Составление рабочей программы дисциплины и оценочных материалов;
- Запись видеоконтента в студии ИДО или скринкаста при удаленной работе;
- Проведение вебинаров (синхронных занятий) в удаленном формате. Вебинары проходят в вечернее время в будние дни и по субботам - есть возможность выбрать подходящее время;
- Поддержание коммуникации с обучающимся в рабочем пространстве.
Требования к кандидату:
- Глубокое понимание теоретических основ RL: математический аппарат (марковские процессы принятия решений, теория игр), понимание различий value-based, policy-based и model-based подходов.
- Практический опыт реализации и отладки алгоритмов RL: уверенное владение ключевыми алгоритмами (Q-Learning, SARSA, DQN и его модификации, Policy Gradients, PPO, A3C, SAC) не только на уровне библиотек, но и на уровне их устройства.
- Опыт работы с ключевыми фреймворками и средами: OpenAI Gym/Gymnasium, Stable-Baselines3, Ray RLlib; опыт создания собственных сред (environment) для симуляции задач.
- Навыки программирования: уверенное владение Python и основными библиотеками для ML (NumPy, PyTorch или TensorFlow).
- Понимание современных трендов и смежных областей: знакомство с Deep RL, Multi-Agent RL, Inverse RL, а главное RLHF (Reinforcement Learning from Human Feedback) и его применение для тонкой настройки LLM.
- Опыт решения прикладных задач: портфолио проектов, где RL был ключевым инструментом (оптимизация, управление, игровые агенты, рекомендательные системы).
- Умение выстраивать контакт в онлайн среде;
- Умение работать с разновозрастной аудиторией;
- Приветствуется опыт работы в онлайн-образовании (ДПО, онлайн-курсы).
Что мы предлагаем:
- Договор о создании произведения (онлайн-курса) с отчуждением авторских прав;
- Удаленный формат работы;
- Заработная плата обсуждается индивидуально.
Почему стоит откликнуться:
Томский государственный университет это бренд с более чем вековой историей, ведущий вуз с высокими стандартами качества. У нас Вы найдете поддержку и возможности для профессионального роста, которые помогут раскрыть Ваш потенциал.
Работая с нами, Вы будете частью команды, которая формирует будущее образования в России!