Apache Spark 和 Databricks – Lakehouse 中的流处理
使用 Apache Spark (PySpark) 和 Databricks Cloud (Azure) 以及端到端 Capstone 项目掌握流处理
讲师:Prashant Kumar Pandey
口袋资源独家Udemy付费课程,独家中英文字幕,配套资料齐全!
用不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。
你将学到什么
- 实时流处理概念
- Spark 结构化流 API 和架构
- 使用流媒体源和接收器
- 面向数据工程师的 Kafka
- 使用 Kafka 源并将 Spark 与 Kafka 集成
- 无状态和全状态流传输转换
- 使用 Spark Stream 的窗口化聚合
- 水印和状态清理
- 流式连接和聚合
- 使用流连接处理内存问题
- 使用 Azure Databricks
- Capstone 项目 – Lakehouse 中的流媒体应用程序
要求
- Spark 基础知识和 Spark Dataframe API 接触
- 使用Python编程语言的编程知识
描述
关于课程
我正在使用 Python 语言和 PySpark API在 Lakehouse 中创建Apache Spark 和 Databricks – 流处理。 本课程 将帮助您了解使用 Apache Spark 和 Databricks Cloud 进行实时流处理,并应用这些知识来构建实时流处理解决方案。本课程以示例为主导,并遵循类似工作会议的方法。我们将采用实时编码方法并解释所有需要的概念。
顶点项目
本课程还包括一个端到端顶点项目。该项目将帮助您了解现实项目设计、编码、实施、测试和 CI/CD 方法。
谁应该学习本课程?
我为愿意使用 Apache Spark 开发实时流处理管道和应用程序的软件工程师设计了本课程。我还为负责设计和构建组织以数据为中心的基础设施的数据架构师和数据工程师创建这门课程。另一类人是不直接参与 Spark 实施的经理和架构师。尽管如此,他们还是与那些在底层实施 Apache Spark 的人合作。
课程中使用的 Spark 版本。
本课程使用Apache Spark 3.5。我已使用 Databricks Runtime 14.1在 Azure Databricks Cloud 上测试了本课程中使用的所有源代码和示例。
本课程适合谁:
- 愿意使用 Apache Spark 和 Databricks Cloud 设计和开发大数据工程项目的软件工程师和架构师
- 渴望使用 Apache Spark 和 Databricks Cloud 成长和学习数据工程的程序员和开发人员
声明:口袋资源网(koudaizy.com)提供的所有课程、素材等资源全部来源于互联网,赞助VIP仅用于对口袋资源服务器带宽及网站运营等费用支出做支持,从本站下载资源,说明你已同意本条款。