使用 Apache Spark 和 Python 驯服大数据 – 动手实践!

PySpark 教程包含 20 多个使用 Python 在桌面或 Hadoop 上分析大型数据集的动手示例!

讲师:Sundog Education by Frank Kane

口袋资源独家Udemy付费课程独家中英文字幕配套资料齐全!

不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。

你将会学到的

  • 在 Spark 3 中使用 DataFrames 和结构化流
  • 使用 MLLib 机器学习库回答常见的数据挖掘问题
  • 了解 Spark Streaming 如何让您实时处理连续的数据流
  • 将大数据分析问题定义为 Spark 问题
  • 使用 Amazon 的 Elastic MapReduce 服务在具有 Hadoop YARN 的集群上运行您的作业
  • 在台式计算机或集群上安装和运行 Apache Spark
  • 使用 Spark 的弹性分布式数据集来处理和分析跨多个 CPU 的大型数据集
  • 使用 Spark 实现迭代算法,例如广度优先搜索
  • 了解 Spark SQL 如何让您处理结构化数据
  • 对集群上运行的大型作业进行调整和故障排除
  • 使用广播变量和累加器在 Spark 集群上的节点之间共享信息
  • 了解 GraphX 库如何帮助解决网络分析问题

显示更少

本课程包括:

  • 7 小时 长的随选视频
  • 4 篇文章
  • 26 个可下载资源
  • 在移动设备和电视上观看
  • 结业证书

要求

  • 访问个人计算机。本课程使用 Windows,但示例代码也可以在 Linux 上正常运行。
  • 一些先前的编程或脚本经验。Python 经验会有很大帮助,但你可以边学边学。

说明

新的! 针对 Spark 3 进行了更新,增加了动手练习,并且更加关注 DataFrames 和结构化流。

“大数据”分析是一项热门且极具价值的技能——本课程将教你大数据中最热门的技术:Apache Spark,特别是PySpark。包括亚马逊eBayNASA JPL雅虎在内的雇主都使用 Spark 快速提取意义从容错Hadoop集群中的海量数据集。您将在家中使用自己的 Windows 系统学习相同的技术。这比您想象的要容易。

通过 20 多个动手示例学习和掌握将数据分析问题构建为 Spark 问题的艺术,然后在本课程中将它们扩展为在云计算服务上运行。您将向来自亚马逊和 IMDb 的前工程师和高级经理学习。

  • 了解 Spark 的 DataFrames 和弹性分布式数据存储的概念
  • 使用 Python 和 pyspark 快速开发和运行 Spark 作业
  • 将复杂的分析问题转化为迭代或多阶段 Spark 脚本
  • 使用 Amazon 的Elastic MapReduce服务扩展到更大的数据集
  • 了解Hadoop YARN如何跨计算集群分发 Spark
  • 了解其他 Spark 技术,例如 Spark SQL、Spark Streaming 和 GraphX

在本课程结束时,您将在几分钟内运行在云中分析数千兆字节信息的代码。 

本课程使用熟悉的 Python 编程语言;如果您希望使用 Scala 从 Spark 中获得最佳性能,请参阅我的“Apache Spark with Scala – Hands On with Big Data”课程。

一路上我们会有一些乐趣。您将通过一些使用 Spark 分析电影分级数据和书中文本的简单示例来热身。一旦你掌握了基础知识,我们将转向一些更复杂和有趣的任务。我们将使用一百万个电影评分来寻找彼此相似的电影,您甚至可能会在此过程中发现一些您可能喜欢的新电影!我们将分析超级英雄的社交图谱,并了解谁是最“流行”的超级英雄——并开发一个系统来找出超级英雄之间的“分离度”。是否所有漫威超级英雄都与无敌浩克有一定的联系?你会找到答案的。

本课程非常实用;在我们一起编写、分析和运行真实代码时,您将花费大部分时间跟随讲师——无论是在您自己的系统上,还是在使用 Amazon 的 Elastic MapReduce 服务的云中。包括7 小时的视频内容,其中包含20 多个越来越复杂的真实示例,您可以自己构建、运行和学习。按照你自己的节奏,按照你自己的时间表来完成它们。本课程最后概述了其他基于 Spark 的技术,包括 Spark SQL、Spark Streaming 和 GraphX。

使用 Apache Spark 处理大数据是当今技术世界的一项重要技能。现在报名!

  • “我和 Frank Kane 一起学习了“使用 Apache Spark 和 Python 驯服大数据”,并帮助我为我的公司构建了一个很棒的大数据即服务平台。我推荐这门课程!” – Cleuton Sampaio De Melo Jr.

此课程面向哪些人:

  • 有一些软件开发背景的人想学习大数据分析中最热门的技术,会想看看这个。本课程从软件开发的角度关注 Spark;我们在此过程中介绍了一些机器学习和数据挖掘概念,但这不是重点。如果您想学习如何使用 Spark 分割庞大的数据集并从中提取意义,那么本课程适合您。
  • 如果您以前从未编写过计算机程序或脚本,那么本课程还不适合您。如果您对编程不熟悉,我建议您先从 Python 课程开始。
  • 如果您的软件开发工作涉及或将涉及处理大量数据,您需要了解 Spark。
  • 如果您正在为数据科学或大数据的新职业进行培训,Spark 是其中的重要组成部分。

发表回复

后才能评论

  • 每一个课程页面,都有演示地址选项,点击链接可以跳转到课程发布网站查看详细课程列表。
  • 绝大部分课程都有试看内容,可以先点击试看,再决定是否购买。
  • 本站课程均存储在阿里云盘或百度网盘中,由于阿里云盘对分享的文件类型有限制,所以课程资料和字幕会存储到蓝奏云盘中。
  • 阿里云盘和蓝奏云盘都是不限速下载的,你既可以选择在阿里云盘中在线学习,也可以选择下载到本地学习。
  • 课程下载到本地可以挂载中英文双字幕,请点击查看Potplayer挂载中英文双字幕教程
  • 本站所有课程,均提供mp4格式视频文件,中英文双字幕,配套资料齐全,不加密。
  • 每一个课程右侧下载面板中,都会有清晰度标识,大部分都是1080P或者720P,还有少数是超高清的。
  • 本站课程购买之后,均可以免费更新,所有课程,皆配有中文字幕。
  • 请注意,课程的中文字幕是根据英文字幕用谷歌翻译生成的,本非人工翻译。谷歌翻译准确度尚可,学习观看,没有问题。
  • 由于数字资源具有可复制性,一旦购买,不接受退款要求,请在购买之前,认真了解课程内容,确定是否需要。
  • 当然,如果有特殊情况,可以查看网站底部联系方式,联系站长说明问题,我会为你妥善处理。
  • 赞助本站VIP会员,可以免费下载所有课程,详情请查看VIP介绍