Программист баз данных. Задача по курсу «big data» к студентов (Дистанционная работа)
(проект не опубликован)

Бюджет не указан

Задание: Программист баз данных. Задача по курсу «big data» к студентов (Дистанционная работа)

Задание по курсу «Большие данные» для студентов Нужно: * выбрать данные по следующим ограничениям: • Объем выборки > 200 элементов (но очень большие данные тоже брать не рекомендуется – обрабатываться будут долго); • Не менее бинарных 2-х переменных; • Как минимум одна переменная, по которой можно разбить выборку на несколько (>3) групп; • Не менее 3-х метрических (непрерывных) переменных. данные можно поискать здесь: Datasets for Data Science and Machine Learning (https://elitedatascience.com/datasets) UCI Machine Learning Repository (https://archive.ics.uci.edu/ml/index.php) Kaggle (https://www.kaggle.com/datasets) data.world (поиск по ключевым словам) http://r-dir.com/reference/datasets.html http://getthedata.org/ http://www.umass.edu/statdata/statdata/ * провести анализ: • описательные статистики • сравнение групп • корреляцию • регрессию • кластеризацию * оформить анализ в виде отчёта (примерная структура в формате Word в документах -- см. Пример (шаблон) отчета)