Задание: Программист баз данных. Машинное обучение (Дистанционная работа)
Задание 2, 3 и 4 (на фото)
все должно быть по плану и нужны пояснения как именно это делается, какая-то памятка, по которой человек сможет защитить эту работу
дедлайн 18.12 вечер
Проектное задание на зачет
Варианты (можно выбрать какой понравится)
1. Построить модель машинного обучения для определения количества колец на спиле дерева.
Набор данных
https://archive.ics.uci.edu/dataset/1/abalone
2. Построить модель машинного обучения для рекомендательной системы "подбор автомобиля".
Набор данных
https://archive.ics.uci.edu/dataset/10/automobile
3. Построить модель машинного обучения для рекомендательной системы "выбор видеоигры".
https://raw.githubusercontent.com/yakushinav/omo/
Описание набора данных
https://www.kaggle.com/datasets/thedevastator/vide
game-sales-and-ratings/data
4. Построить модель машинного обучения для рекомендательной системы "выбор фильма".
https://raw.githubusercontent.com/yakushinav/omo/
Описание набора данных
https://www.kaggle.com/datasets/parthdande/imdb-
dataset-2024-updated
Вы должны прикрепить в качестве ответа блокнот в
формате Jupyter Notebook.
• Авторизуйтесь в своём Google аккаунте.
• Откройте документ с задачами в Google Colab
• Сохраните копию себе на диск через меню: Файл
> Скачать -> Скачать IPYNB.
• Прикрепите файл как ответ на задание
Блокнот в формате Jupyter Notebook должен содержать:
(каждый пункт оформить в виде отдельной ячейки с кодом)
1. Чтение набора данных
2. Первык 10 строк набора данных
3. Информация о полях набора данных
4. Размер набора данных
5. Описательная статистика по числовым полям
6. Описательная статистика по категориальным
ПОЛЯМ
7. Подсчет количества строк по видам значений категориального поля (поле на ваш выбор)
8. Информация о пропущенных значениях
9. Построить поле корреляции
10. На основе поля корреляции и информации о
пропущенных значениях удалить из набора одно поле данных (или удалить несколько полей, чтобы осталось удобное для вас количество полей)
11. Построить 2 гистограммы
12. Построить 2 графика
13. Построить диаграмму рассеяния
14. Разделить выборку на признаки (X) и результат (Y)
15. Разделить на обучающую и тестовую выборки
16. Сформировать модель машинного обучения
17. Обучить модель
18. Оценить качество модели
19. Выполнить предсказание
20. По итогам сделать выводы о структуре набора данных, его пригодности для машинного обучения и о качестве модели машинного обучения