机器学习的特征工程

学习插补、变量编码、离散化、特征提取、如何处理日期时间、离群值等

讲师:Soledad Galli

口袋资源独家Udemy付费课程独家中英文字幕配套资料齐全!

不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。

你将会学到的

  • 学习多种缺失数据插补技术。
  • 将分类变量转换为数字,同时捕获有意义的信息。
  • 了解如何处理不常见、稀有和看不见的类别。
  • 了解如何使用偏态变量。
  • 将数值变量转换为离散变量。
  • 从变量中删除异常值。
  • 从日期和时间变量中提取有用的特征。
  • 学习在全球组织和数据竞赛中使用的技术。
  • 增加预处理数据和构建更强大的机器学习模型的技术库。

本课程包括:

  • 10.5 小时 长的随选视频
  • 24 篇文章
  • 4 个可下载资源
  • 在移动设备和电视上观看
  • 作业

要求

  • Python 安装。
  • Jupyter 笔记本安装。
  • Python编码技巧。
  • 一些使用 Numpy 和 Pandas 的经验。
  • 熟悉机器学习算法。
  • 熟悉 Scikit-Learn。

说明

欢迎来到机器学习的特征工程,这是在线提供的最全面的特征工程课程。在本课程中,您将学习变量插补、变量编码、特征转换、离散化以及如何从数据中创建新特征。

掌握特征工程和特征提取。

在本课程中,您将学习多种特征工程方法,这些方法可以让您转换数据并使其准备好用于训练机器学习模型。具体来说,您将学习:

  • 如何估算缺失数据
  • 如何编码分类变量
  • 如何转换数值变量并改变它们的分布
  • 如何进行离散化
  • 如何删除异常值
  • 如何从日期和时间中提取特征
  • 如何从现有功能创建新功能

使用数学、统计学和领域知识创建有用的特征

特征工程是转换现有特征或创建新变量以用于机器学习的过程。原始数据不适合训练机器学习算法。相反,数据科学家将大量时间用于数据预处理。本课程将教授您需要了解的一切知识,让您的数据为训练模型做好准备。

虽然大多数在线课程会教你特征工程的基础知识,比如用均值插补变量或使用一种热编码转换分类变量,但本课程会教你这些,以及更多。

在本课程中,您将首先学习最流行和广泛使用的变量工程技术,例如均值和中值插补、one-hot 编码、对数变换和离散化。然后,您将发现更高级的方法,这些方法可以在编码或转换变量时捕获信息以提高机器学习模型的性能。

您将学习金融中使用的证据权重等方法,以及如何在变量和目标之间创建单调关系以提高线性模型的性能。您还将学习如何从日期和时间变量创建特征,以及如何处理具有很多类别的分类变量。

您将学习的方法在科学文章中有所描述,在数据科学竞赛中使用,并且在组织中普遍使用。更重要的是,它们可以通过使用 Python 的开源库轻松实现!

在整个讲座中,您将找到对每种技术的详细解释以及关于它们的优势、局限性和基本假设的讨论,然后是在 Python 中实现它们的最佳编程实践。

在课程结束时,您将能够根据变量特征和您希望训练的模型来决定您需要哪种特征工程技术。而且,您还将能够很好地测试各种转换方法,并让您的模型决定哪些方法最有效。

提升您在数据科学领域的职业生涯

您已经迈出了数据科学的第一步。您了解最常用的预测模型。您甚至已经训练了一些线性回归或分类模型。在这个阶段,您可能会开始发现一些挑战:您的数据很脏,很多值丢失,一些变量不是数字的,而其他变量则极度倾斜。您可能还想知道您的代码是否高效和高性能,或者是否有更好的编程方式。您在线搜索,但找不到有关特征工程的综合资源。也许只是博客?所以你可能会开始怀疑:科技公司是如何做事的?

在本课程中,您将找到这些问题的答案。在整个课程中,您将学习变量转换不同方面的多种技术,以及如何使用 Python以优雅、高效和专业的方式实现它们。您将利用 Python 开源生态系统的强大功能,包括 NumPy、Pandas、Scikit-learn 库和用于特征工程的特殊包:特征引擎和类别编码器。

到课程结束时,您将能够将所有特征工程步骤实施到一个优雅的管道中,这将使您能够以最高效率将预测模型投入生产。

利用开源的力量

我们将使用 Pandas 和 Numpy 执行所有特征工程方法,并将与 Scikit-learn、特征引擎和类别编码器的实现进行比较,突出每个库的优点和局限性。随着您在课程中的进步,您将能够选择您最喜欢的库来执行您的项目。

有一个专用的 Python 笔记本,其中包含用于实现每个特征工程方法的代码,您可以在项目中重复使用这些代码以加快机器学习模型的开发。

最全面的特征工程在线课程

没有一个地方可以去学习特征工程。它涉及在网络上搜索数小时,以了解人们正在做什么以充分利用他们的数据。

这就是为什么本课程收集了世界范围内用于特征转换的大量技术,这些技术是从 Kaggle 和 KDD 的数据竞赛、科学文章以及讲师作为数据科学家的经验中学到的。因此,本课程提供了一个参考来源,您可以在其中学习新方法,还可以在需要重新访问修改变量所需的技术和代码。

本课程由一位具有在金融和保险领域使用机器学习经验的首席数据科学家讲授,他也是一本书的作者和用于特征工程的 Python 开源库的首席开发人员。还有更多:

  • 该课程不断更新以包含新的特征工程方法。
  • 笔记本会定期刷新,以确保所有方法都使用最新版本的 Python 库执行,因此您的代码永远不会中断。
  • 该课程结合了视频、演示文稿和 Jupyter 笔记本来解释这些方法并展示它们在 Python 中的实现。
  • 该课程历时四年开发而成,并在特征工程领域不断进行研究,为您带来最新的技术、工具和趋势。

想知道更多?继续阅读…

这门全面的特征工程课程包含 100 多个讲座,分布在大约 10 小时的视频中,所有主题都包括动手实践的 Python 代码示例,您可以在自己的项目中参考、练习和重用这些代码示例。

请记住,该课程提供 30 天退款保证,因此您今天就可以毫无风险地注册。

那你还在等什么?立即注册并加入世界上最全面的机器学习特征工程课程。

此课程面向哪些人:

  • 想要学习如何预处理数据集以构建机器学习模型的数据科学家。
  • 希望学习更多机器学习特征工程技术的数据科学家。
  • 希望提高特征工程编码技能和编程实践的数据科学家。
  • 软件工程师、数学家和学者将职业转向数据科学。
  • 有兴趣在数据竞赛中试验各种特征工程技术的数据科学家
  • 想要学习如何使用 Scikit-learn 和其他开源软件包进行特征工程的软件工程师。

发表回复

后才能评论

  • 每一个课程页面,都有演示地址选项,点击链接可以跳转到课程发布网站查看详细课程列表。
  • 绝大部分课程都有试看内容,可以先点击试看,再决定是否购买。
  • 本站课程均存储在阿里云盘或百度网盘中,由于阿里云盘对分享的文件类型有限制,所以课程资料和字幕会存储到蓝奏云盘中。
  • 阿里云盘和蓝奏云盘都是不限速下载的,你既可以选择在阿里云盘中在线学习,也可以选择下载到本地学习。
  • 课程下载到本地可以挂载中英文双字幕,请点击查看Potplayer挂载中英文双字幕教程
  • 本站所有课程,均提供mp4格式视频文件,中英文双字幕,配套资料齐全,不加密。
  • 每一个课程右侧下载面板中,都会有清晰度标识,大部分都是1080P或者720P,还有少数是超高清的。
  • 本站课程购买之后,均可以免费更新,所有课程,皆配有中文字幕。
  • 请注意,课程的中文字幕是根据英文字幕用谷歌翻译生成的,本非人工翻译。谷歌翻译准确度尚可,学习观看,没有问题。
  • 由于数字资源具有可复制性,一旦购买,不接受退款要求,请在购买之前,认真了解课程内容,确定是否需要。
  • 当然,如果有特殊情况,可以查看网站底部联系方式,联系站长说明问题,我会为你妥善处理。
  • 赞助本站VIP会员,可以免费下载所有课程,详情请查看VIP介绍