Резюме: Data Scientist RecSys и RL Эконометрист
Резюме: Data Scientist RecSys и RL Эконометрист
Data Scientist - рекомендационные системы
RecSys DS - за время работы разработаны и доказаны легко внедряемые методы и подходы, не
требующие вложений в переделку состоявшейся IT архитектуры, для внедрения и улучшения
следующих функций:
**Поиск**
- главный поиск и подсказки
(оптимизация поиска, через угадывание вводимого запроса и вариаций)
**Рекомендаций**
(в рамках борьба со sparsity "разряженностью данных" внедряю подходы коллаб. фильтрации
и "обратного" метода , то есть подбора оптимального клиента исходя из совокупностей и свойств
товаров)
- Offline(классификации и рэнкинги) и online (при наличии мощностей) методы.
- похожие товары (определение схожести товаров по совокупности свойств или покупательских
активностей)
- с этим товаром покупали
- вам может понравиться (групповые и персональные предложения)
**Рэнкинг ассортимента**
- изобретение устойчивого способа определения популярности товаров всей матрицы, сотни
тысяч позиций (на основе данных которые массово логируются и есть в каждой компании) с
прекрасным преодолением проблемы "холодного старта"
- Разработка автоматизация поддержки ассортимента рекламных полок в зависимости от стоков
- Разработка вариаций оптимального микроассротимента для участия в промо акциях на основе
эволюционного алгоритма оптимизации.
**Ассортиментная иерархия**
- Определение комплиментарных и субcтитутных позиций. (классификация... и иерархические
модели)
**Отзывы**
- Автоматизация работы с отзывами (определение эмоционального окраса отзыва
"позитив/негатив" и их градаций).
**Пользовательская аналитика**
- Кластеризация пользователей и описание на основе широко логируемого множества данных
(кластеризация в многомерном пространстве без потерь информации из-за снижения
размерностей) и последующее всеобъемлющее и точное описание аудитории с
визуализированной статистикой их предпочтений.
- Статистика и визуализация пользовательских интентов по поисковым запросам. (миллиарды
записей)
В рамках общего DS ML:
Extract - расчёт достаточности выборки, выгрузка данных из DWH на SQL или NoSQL.
Transform - Визуализация и тестирование данных на multicollinearity, heteroscedacity,
autoсorrelation, endogenity(omit/latent-variable,confounding) heterogeneity.
Dimensional Reduce(PCA, ICA, SVD,T-sne,U-map,SOM) или Feature extraction(нахождение
предикторов, RFE ,stepwise и др.),балансировка классов(over/undersamling, ввод синтетических).
Алгоритмы LM, RLM, Quantreg, GLM, SVM, survival, Genetic, NN, XGB, CatBoost, LightGBM, GBM,
RandomForest, C5.0, rpart, и тд.)
Настройка под bagging.
Настройка параметров в алгоритмах boosting'a.
Cross-validation и параметризация. Оптимизация гиперпараметров моделей с использованием
техник MC.
ML stacking в исследованиях потенциала точности.
ML ансамбли при выборе подходящей техники обучения.
Кластеризация(k-means, pam, KNN, HC, fuzzy clustering etc...)
Исследовательские EDA и ML:
Смешанные модели дискриминантного анализа, EM и Bayes (MAP based).Исследование
истинных параметров при фикс. данных либо MLE || Bayes подтверждение адекватности
данных зафиксированным параметрам.
Энтропийные критерии в оценке аппроксимаций неизвестного распределения.
Оценка : коэф. тесты на точность (RSS,AIC,BIC- для количественных,ROC/AUC, Gini и пр.для
качественных моделей)
SOTA приёмы преодоления размерности в NLP.(similarity matrix, embeddings, LSH)
Тесты:
A/B,A/A,A/A/B тесты. расчет мощности, объема выборки.
Параметрические и не параметрические тесты гипотез.
На состоятельность, стат.значимость(проверка гипотез на наличие эффекта p-,F-,value,
критерии происхождения данных из согласующихся распределений и др.статистики)
Дизайн для улучшения качества тестов под CUPED и DiD.
Расчеты выборки для чувствительности устойчивых модификаций WMW и других
непараметрических тестов.
Propensity score - оценка предрасположенностей при исследованиях наличия эффекта
постфактум.
Маркетинговые:
uplift инкрементные доли прироста, Conjoint-связные события.
RFM - анализ, CJM исследования.
BTYD - моделирование.
Load - выгрузка результатов и визуализации в
EXCEL-like,SQL,HTML.(в том числе и интерактивные)
Shiny - сервер в перспективе.
Интересуюсь Reinforcement learning подходами в рамках online исполнения задач ML.