Разработчик парсеров (Reddit / Trustpilot) / Data Extraction Engineer (удаленная работа)

Ит

4 апреля 2026

Если информация в вакансии не соответствует действительности, или эта вакансия является мошенничеством, сообщите, пожалуйста, модератору, используя кнопку . Спасибо.

Уровень зарплаты:
от 76 153 до 228 458 руб.

Требуемый опыт работы:
Не указан

Вакансия: Разработчик парсеров (Reddit / Trustpilot) / Data Extraction Engineer

Описание вакансии

Мы продуктовая команда, делаем приложения для конечных пользователей и активно используем ML. Растём быстро: любим новые технологии, но понимаем, что результат это ещё и регулярная рутинная инженерная работа.

Сейчас у нас 10 продуктов дающие порядка 1 000 000 установок ежемесячно:

Saby Baby monitor
Visory Security camera
Imgit AI art generator

Мы находимся в Испании , работать можно удалённо из любой точки мира , в удобное время. Важен результат и ответственность.

Задача роли (что нужно сделать)

Твоя основная миссия построить и поддерживать надёжный пайплайн массового сбора отзывов/комментариев из:

Reddit (посты + треды комментариев, поиск по сабреддитам/ключевым словам, фильтры по времени/популярности)
Trustpilot (страницы компаний/продуктов, отзывы, рейтинги, метаданные)

Дальше эти данные будут использоваться, чтобы:

выделять боли пользователей в существующих приложениях/сервисах

находить ниши , где мы можем быстро делать MVP и забирать спрос

Чем будешь заниматься

Разработка парсеров и/или интеграций с API (где возможно) для Reddit и Trustpilot
Массовый сбор данных: миллионы сущностей (посты/комменты/отзывы) с контролем качества
Нормализация данных: единые схемы, дедупликация, языковые поля, таймстемпы, ссылки на источники
Построение пайплайна: планировщик, очереди, ретраи, обработка ошибок, мониторинг
Антифрод/антибан устойчивость: лимиты, ротации, корректное соблюдение правил платформ
Экспорт в хранилище (SQL/NoSQL/BigQuery/S3 выберем оптимально)
Базовые аналитические выгрузки для продукта/ресерча: топ-боли , частотность, кластеры по темам (можно совместно с ML)

Эта вакансия для тебя, если ты

Умеешь самостоятельно доводить задачу до работающей системы , а не скрипта на один запуск
Любишь копаться в данных и строить системы сбора под нагрузку
Понимаешь, что парсер = продукт , которому нужны тесты, мониторинг и поддержка
Ок с удалёнкой и работой на результат (без микроменеджмента)

Требования (обязательно)

Опыт разработки парсеров / скрейперов / data ingestion систем в проде для Reddit или Trustpilot
Умение проектировать устойчивый сбор данных:
- rate limits, backoff/retry, очереди, таймауты, прокси/ротации (если нужно)
- восстановление после падений, идемпотентность, дедупликация
Умение работать с:
- HTTP, cookies/sessions, pagination, динамическими страницами
- парсингом HTML (CSS selectors/XPath) и JSON
Знание одного из стеков:
- Python или Node.js
Умение писать понятный код, покрывать критичное тестами и логами

Будет плюсом

Опыт построения ETL:
- Airflow/Prefect/Temporal
- Kafka/RabbitMQ/SQS
Опыт с хранилищами и аналитикой:
- Postgres, ClickHouse, BigQuery, Elasticsearch
Опыт с NLP-задачами pain mining :
- тематическое моделирование, кластеризация, embeddings

Пример ожидаемого результата через 2 4 недели работы (ориентир)

Reddit: сбор по списку сабреддитов и ключевиков, треды комментариев, обновления инкрементально
Trustpilot: сбор отзывов по списку компаний/категорий, стабильная пагинация, контроль пропусков
Хранилище + схема + базовая витрина данных
Метрики: сколько собрано, процент ошибок, пропуски/дубликаты, скорость

Условия

Удалённая работа , фулл-тайм, гибкий график
Чёткие задачи и ожидаемый результат, адекватная оценка времени
Интересные задачи на стыке данных, автоматизации и продуктового ресерча
Официальное оформление

Откликнуться на вакансию

Количество просмотров: 42

Добавить в закладки

Подтвердите действие

Список регионов