尖端人工智能:Python 中的深度强化学习
使用进化策略、A2C 和 DDPG 将深度学习应用于人工智能和强化学习
讲师:Lazy Programmer Inc.
口袋资源独家Udemy付费课程,独家中英文字幕,配套资料齐全!
用不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。
你将学到什么
- 了解 A2C 算法的前沿实现(OpenAI 基线)
- 理解并实施人工智能的进化策略(ES)
- 理解并实施 DDPG(深度确定性策略梯度)
本课程包括:
- 8.5小时点播视频
- 通过手机和电视访问
- 结业证书
要求
- 了解 MDP(马尔可夫决策过程)和强化学习的基础知识
- 看到我的前两门强化学习课程很有帮助
- 了解如何在 Tensorflow 中构建卷积神经网络
描述
欢迎来到尖端人工智能!
从技术上讲,这是我的深度学习系列的《Python 深度学习》第 11 部分,也是我的第三门强化学习课程。
深度强化学习实际上是两个主题的结合:强化学习和深度学习(神经网络)。
虽然这两种技术已经存在相当长一段时间了,但直到最近深度学习以及强化学习才真正起飞。
深度学习的成熟推动了强化学习的进步,强化学习自 20 世纪 80 年代以来就已经存在,尽管它的某些方面(例如贝尔曼方程)已经存在了更长时间。
最近,这些进步让我们展示了强化学习的强大力量。
我们已经看到AlphaZero如何仅通过自我对弈就能掌握围棋游戏。
就在几年前,最初的 AlphaGo 已经击败了围棋世界冠军。
我们已经看到现实世界的机器人学习如何行走,甚至在被踢倒后恢复,尽管仅使用模拟进行训练。
模拟很好,因为它不需要昂贵的实际硬件。如果你的特工摔倒了,也不会造成真正的伤害。
我们已经看到现实世界中的机器人学会了手的灵活性,这是一个不小的壮举。
走路是一回事,但这涉及粗略的动作。手的灵活性是复杂的——你有很多自由度,并且涉及的许多力量都非常微妙。
想象一下用你的脚做一些你通常用手做的事情,你会立即明白为什么这会很困难。
最后但并非最不重要的一点是——视频游戏。
即使仅考虑过去几个月,我们也看到了一些惊人的发展。AI 现在正在CS:GO和Dota 2中击败职业玩家。
那么这门课程与前两门课程有何不同?
既然我们知道深度学习可以与强化学习配合使用,那么问题就变成了:我们如何改进这些算法?
本课程将向您展示几种不同的方法:包括强大的A2C(Advantage Actor-Critic)算法、DDPG(深度确定性策略梯度)算法和进化策略。
进化策略是强化学习的一种新的尝试,它抛弃了所有旧的理论,转而采用一种更“黑匣子”的方法,其灵感来自于生物进化。
这门新课程的另一个优点是我们可以看到各种各样的环境。
首先,我们将了解经典的Atari环境。这些很重要,因为它们表明强化学习代理可以仅根据图像进行学习。
其次,我们要看看MuJoCo,它是一个物理模拟器。这是构建能够在现实世界中导航并理解物理的机器人的第一步——我们首先必须证明它可以与模拟物理一起工作。
最后,我们来看看几年前大家最喜欢的手机游戏《Flappy Bird》 。
感谢您的阅读,我们课堂上见!
“如果你不能实施它,你就没有理解它”
- 或者正如伟大的物理学家理查德·费曼所说:“我无法创造的东西,我就不理解”。
- 我的课程是唯一您将学习如何从头开始实现机器学习算法的课程
- 其他课程将教您如何将数据插入到库中,但您真的需要 3 行代码的帮助吗?
- 对 10 个数据集执行相同的操作后,您意识到自己没有学到 10 件事。你学到了 1 件事,只是重复了同样的 3 行代码 10 次……
建议的先决条件:
- 结石
- 可能性
- 面向对象编程
- Python 编码:if/else、循环、列表、字典、集合
- Numpy 编码:矩阵和向量运算
- 线性回归
- 梯度下降
- 了解如何在 TensorFlow 中构建卷积神经网络 (CNN)
- 马尔可夫决策过程 (MDP)
我应该按什么顺序学习您的课程?:
- 查看讲座“机器学习和 AI 先决条件路线图”(可在我的任何课程的常见问题解答中找到,包括免费的 Numpy 课程)
独特的功能
- 每行代码都有详细解释 – 如果您不同意,请随时给我发电子邮件
- 不像其他课程那样浪费时间在键盘上“打字”——说实话,没有人能真正从头开始在短短 20 分钟内编写出值得学习的代码
- 不害怕大学水平的数学 – 获取其他课程遗漏的算法的重要细节
本课程适合谁:
- 想要将强化学习应用到工作和项目中的学生和专业人士
- 任何想要学习尖端人工智能和强化学习算法的人