Вакансия: Аналитик данных на проект по дедубликации и нормализации
Что нужно делать:
Вы будете работать в проекте по очистке, нормализации и дедубликации данных об организациях (в т.ч. мед. учреждениях, аптеках и филиалах) с помощью Python.
Примеры задач:
Очистка названий организаций от лишней информации (типы, формы, отделения, аббревиатуры);
Кластеризация организаций по координатам и названию;
Поиск дублей в одной группе (lat_lon) с помощью fuzzy matching, RapidFuzz, лемматизации (pymorphy2);
Использование справочников и контекста для выделения структуры (центр, филиал, аптека, поликлиника и т.д.);
Разработка и доработка шагов пайплайна дедубликации (каждый шаг — модуль в скрипте);
Проверка и оптимизация метрик схожести (name_similarity, number_similarity, keyword_similarity, avg_score);
Работа с результатами: группировка дублей, присвоение идентификаторов, сохранение в Excel/CSV.
Что потребуется:
Отличное знание Python, библиотеки: pandas, numpy, rapidfuzz, pymorphy2, networkx;
Умение работать со справочниками, леммами, регулярками, строковыми функциями;
Опыт в задачах кластеризации, нормализации и fuzzy matching;
Базовое понимание архитектуры DWH и задач data quality — будет плюсом;
Навыки написания понятного и модульного кода, логирования шагов;
Умение тестировать результат дедубликации вручную и через метрики.
Что вам понравится:
Уже готова чёткая логика и структура пайплайна, каждый шаг задокументирован;
Работа на реальных данных (от 500 тыс. строк), с практическим эффектом;
Возможность предложить и внедрить улучшения;
Технический лидер — опытный дата-аналитик, всегда даёт обратную связь.