Задание: Программист баз данных. Задача по курсу «big data» к студентов (Дистанционная работа)
Задание по курсу «Большие данные» для студентов
Нужно:
* выбрать данные по следующим ограничениям:
• Объем выборки > 200 элементов (но очень большие данные тоже брать не рекомендуется – обрабатываться будут долго);
• Не менее бинарных 2-х переменных;
• Как минимум одна переменная, по которой можно разбить выборку на несколько (>3) групп;
• Не менее 3-х метрических (непрерывных) переменных.
данные можно поискать здесь:
Datasets for Data Science and Machine Learning (https://elitedatascience.com/datasets)
UCI Machine Learning Repository (https://archive.ics.uci.edu/ml/index.php)
Kaggle (https://www.kaggle.com/datasets)
data.world (поиск по ключевым словам)
http://r-dir.com/reference/datasets.html
http://getthedata.org/
http://www.umass.edu/statdata/statdata/
* провести анализ:
• описательные статистики
• сравнение групп
• корреляцию
• регрессию
• кластеризацию
* оформить анализ в виде отчёта (примерная структура в формате Word в документах -- см. Пример (шаблон) отчета)