人工智能:Python 强化学习
强化学习完整指南,包括股票交易和在线广告应用程序
讲师:Lazy Programmer Team
口袋资源独家Udemy付费课程,独家中英文字幕,配套资料齐全!
用不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。
你将学到什么
- 将基于梯度的监督机器学习方法应用于强化学习
- 从技术层面理解强化学习
- 了解强化学习与心理学之间的关系
- 实现 17 种不同的强化学习算法
要求
- 微积分(导数)
- 概率/马尔可夫模型
- Numpy、Matplotlib
- 拥有至少一些监督机器学习方法的经验是有益的
- 梯度下降
- 良好的面向对象编程能力
描述
当人们谈论人工智能时,他们通常并不是指有监督和无监督的机器学习。
与我们想象中的人工智能所做的事情相比,这些任务是相当微不足道的——下棋和围棋、驾驶汽车、以超人的水平击败电子游戏。
强化学习最近因实现所有这些以及更多功能而变得流行。
就像深度学习一样,很多理论都是在 70 年代和 80 年代发现的,但直到最近我们才能够亲眼观察到可能出现的惊人结果。
2016 年,我们看到谷歌的 AlphaGo击败了围棋世界冠军。
我们看到人工智能在玩《毁灭战士》和《超级马里奥》等电子游戏。
自动驾驶汽车已经开始在真实的道路上与其他司机一起行驶,甚至载客(Uber),所有这些都不需要人工协助。
如果这听起来令人惊奇,那就为未来做好准备,因为加速回报定律表明这种进步只会继续呈指数级增长。
了解监督和无监督机器学习并不是一件小事。迄今为止,我已经开设了超过二十五(25!)个关于这些主题的课程。
然而强化学习开辟了一个全新的世界。正如您将在本课程中了解到的,强化学习范式非常来自监督学习和无监督学习。
它在行为心理学和神经科学领域带来了新的、令人惊叹的见解。正如您将在本课程中了解到的那样,在教授代理和教授动物甚至人类时,有许多类似的过程。这是迄今为止我们最接近真正的通用人工智能的东西。本课程涵盖哪些内容?
- 多臂老虎机问题和探索-利用困境
- 计算平均值和移动平均值的方法及其与随机梯度下降的关系
- 马尔可夫决策过程 (MDP)
- 动态规划
- 蒙特卡洛
- 时间差分 (TD) 学习(Q-Learning 和 SARSA)
- 近似方法(即如何将深度神经网络或其他可微分模型插入到 RL 算法中)
- 如何使用 OpenAI Gym,零代码更改
- 项目:应用 Q-Learning 构建股票交易机器人
如果您准备好接受全新的挑战,并了解传统监督机器学习、无监督机器学习甚至深度学习中从未见过的人工智能技术,那么本课程适合您。
我们在课室见!
“如果你不能实施它,你就没有理解它”
- 或者正如伟大的物理学家理查德·费曼所说:“我无法创造的东西,我就不理解”。
- 我的课程是唯一您将学习如何从头开始实现机器学习算法的课程
- 其他课程将教您如何将数据插入到库中,但您真的需要 3 行代码的帮助吗?
- 对 10 个数据集执行相同的操作后,您意识到自己没有学到 10 件事。你学到了 1 件事,只是重复了同样的 3 行代码 10 次……
建议的先决条件:
- 结石
- 可能性
- 面向对象编程
- Python 编码:if/else、循环、列表、字典、集合
- Numpy 编码:矩阵和向量运算
- 线性回归
- 梯度下降
我应该按什么顺序学习您的课程?:
- 查看讲座“机器学习和 AI 先决条件路线图”(可在我的任何课程的常见问题解答中找到,包括免费的 Numpy 课程)
独特的功能
- 每行代码都有详细解释 – 如果您不同意,请随时给我发电子邮件
- 不像其他课程那样浪费时间在键盘上“打字”——说实话,没有人能真正从头开始在短短 20 分钟内编写出值得学习的代码
- 不害怕大学水平的数学 – 获取其他课程遗漏的算法的重要细节
本课程适合谁:
- 任何想要学习人工智能、数据科学、机器学习和深度学习的人
- 无论是学生还是专业人士