Python 中的聚类分析和无监督机器学习
用于模式识别、数据挖掘、k 均值聚类、层次聚类和 KDE 的数据科学技术。
讲师:Lazy Programmer Team
口袋资源独家Udemy付费课程,独家中英文字幕,配套资料齐全!
用不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。
你将学到什么
- 了解常规 K-Means 算法
- 理解并列举K-Means聚类的缺点
- 了解软或模糊 K 均值聚类算法
- 在代码中实现软 K 均值聚类
- 了解层次聚类
- 从算法上解释层次聚合聚类的工作原理
- 将 Scipy 的层次聚类库应用于数据
- 了解如何阅读树状图
- 了解聚类中使用的不同距离度量
- 了解单联动、完全联动、Ward联动、UPGMA之间的区别
- 了解高斯混合模型以及如何使用它进行密度估计
- 用Python代码编写GMM
- 解释何时 GMM 相当于 K 均值聚类
- 解释期望最大化算法
- 了解 GMM 如何克服 K-Means 的一些缺点
- 了解奇异协方差问题以及如何解决它
描述
聚类分析是无监督机器学习和数据科学的主要内容。
它对于数据挖掘和大数据非常有用,因为它会自动查找数据中的模式,而不需要标签,这与监督机器学习不同。
在现实环境中,您可以想象机器人或人工智能并不总是能够获得最佳答案,或者可能没有最佳正确答案。您希望机器人能够自行探索世界,并通过寻找模式来学习东西。
您是否想知道我们如何获取在监督机器学习算法中使用的数据?
我们似乎总是有一个漂亮的 CSV 或表格,其中包含 X 和相应的 Y。
如果你自己没有参与获取数据,你可能不会想到这一点,但必须有人制作这些数据!
这些“Y”必须来自某个地方,而且很多时候都涉及体力劳动。
有时,您无法访问此类信息,或者获取此类信息不可行或成本高昂。
但您仍然想了解数据的结构。如果您正在进行数据分析,那么数据中的自动化模式识别将是无价的。
这就是无监督机器学习发挥作用的地方。
在本课程中,我们首先讨论聚类。这就是我们尝试创建自己的标签,而不是在标签上进行训练的地方!我们将通过将看起来相似的数据分组在一起来做到这一点。
我们将讨论两种聚类方法:k-means 聚类和层次聚类。
接下来,因为在机器学习中我们喜欢讨论概率分布,所以我们将讨论高斯混合模型和核密度估计,其中我们讨论如何“学习”一组数据的概率分布。
一个有趣的事实是,在某些条件下,高斯混合模型和 k 均值聚类是完全相同的!我们将证明这是怎么回事。
我们在本课程中讨论的所有算法都是机器学习和数据科学的主要内容,因此,如果您想知道如何通过数据挖掘和模式提取自动查找数据中的模式,而不需要有人进行手动工作标记该数据,那么本课程适合您。
本课程的所有材料都是免费的。您可以在Windows、Linux 或 Mac上使用简单的命令下载并安装Python、Numpy 和 Scipy。
本课程重点关注“如何构建和理解”,而不仅仅是“如何使用”。任何人在阅读一些文档后都可以在 15 分钟内学会使用 API。这不是“记住事实”,而是 通过实验“亲眼目睹”。它将教您如何可视化模型内部发生的情况。如果您想要的 不仅仅是 机器学习模型的肤浅了解,那么本课程适合您。
“如果你不能实施它,你就没有理解它”
- 或者正如伟大的物理学家理查德·费曼所说:“我无法创造的东西,我就不理解”。
- 我的课程是唯一您将学习如何从头开始实现机器学习算法的课程
- 其他课程将教您如何将数据插入到库中,但您真的需要 3 行代码的帮助吗?
- 对 10 个数据集执行相同的操作后,您意识到自己没有学到 10 件事。你学到了 1 件事,只是重复了同样的 3 行代码 10 次……
建议的先决条件:
- 矩阵加法、乘法
- 可能性
- Python 编码:if/else、循环、列表、字典、集合
- Numpy 编码:矩阵和向量运算、加载 CSV 文件
我应该按什么顺序学习您的课程?:
- 查看讲座“机器学习和 AI 先决条件路线图”(可在我的任何课程的常见问题解答中找到,包括免费的 Numpy 课程)
本课程适合谁:
- 对机器学习和数据科学感兴趣的学生和专业人士
- 想要了解无监督机器学习和聚类分析的人
- 想知道如何编写自己的聚类代码的人
- 对数据挖掘大数据集自动寻找模式感兴趣的专业人士