Курс: Spark Developer
Что даст вам этот курс
Для кого этот курс:
Курс рассчитан на Data инженеров, желающих глубже изучить Spark, а попутно также Hadoop и Hive
На курсе вы изучите следующие основные темы:
- Hadoop (основные компоненты, дистрибутивы вендоров)
- Архитектура HDFS
- Архитектура YARN
- Форматы данных
- Spark
- Spark Streaming и Flink
- Hive
- Оркестрация, Мониторинг и CI/CD
и т.д.
Научитесь применять все это на практике и закрепите с помощью интересных и сложных домашних заданий и выпускного проекта.
После прохождения курса вы сможете:
- Использовать Hadoop для обработки данных
- Взаимодействовать с его компонентами через консольные клиенты и API
- Работать со слабоструктурированными данными в Hive
- Писать и оптимизировать приложения на Spark
- Писать тесты для Spark-приложений
- Использовать Spark для обработки табличных, потоковых, гео-данных и даже графов
- Настраивать CI и мониторинг Spark-приложений
Необходимые знания
Опыт написания кода хотя бы на одном из следующих языков: Python, Java, Scala
Базовое знание SQL и опыт работы с любой реляционной базой данных
Компьютер или виртуальная машина на Linux с ОЗУ не менее 8 Гб