现代强化学习:PyTorch 中的深度 Q 学习
如何将深度强化学习研究论文转化为击败经典 Atari 游戏的智能体
讲师:Phil Tabor
口袋资源独家Udemy付费课程,独家中英文字幕,配套资料齐全!
用不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。
你将学到什么
- 如何阅读和实施深度强化学习论文
- 如何编写 Deep Q 学习代理代码
- 如何编写双深度 Q 学习代理的代码
- 如何编写 Dueling Deep Q 和 Dueling Double Deep Q 学习代理的代码
- 如何编写模块化和可扩展的深度强化学习软件
- 如何使用命令行参数自动调整超参数
要求
- 一些大学微积分
- 接触深度学习
- 熟悉 Python
描述
在这个完整的深度强化学习课程中,您将学习一个用于阅读和实施深度强化学习研究论文的可重复框架。您将阅读介绍Deep Q 学习、Double Deep Q 学习和Dueling Deep Q 学习算法的原始论文。然后,您将学习如何在 Pythonic 和简洁的 PyTorch 代码中实现这些,这些代码可以扩展以包括任何未来的深度 Q 学习算法。这些算法将用于解决 Open AI 健身房 Atari 库中的各种环境问题,包括 Pong、Breakout 和 Bankheist。
您将学习使这些 Deep Q Learning 算法发挥作用的关键,即如何修改 Open AI Gym 的 Atari 库以满足原始 Deep Q Learning 论文的规范。你将学到如何:
- 重复操作以减少计算开销
- 重新调整 Atari 屏幕图像以提高效率
- 堆叠帧以赋予 Deep Q 代理运动感
- 使用随机无操作来评估 Deep Q 代理的性能,以处理模型过度训练的问题
- 剪辑奖励,使 Deep Q 学习代理能够泛化具有不同分数等级的 Atari 游戏
如果您之前没有强化或深度强化学习的经验,那也没有问题。该课程包括关于强化学习基础知识的完整而简洁的课程。强化学习入门课程将在 Open AI Gym 解决冰湖环境的背景下进行教授。
我们将涵盖:
- 马尔可夫决策过程
- 时间差异学习
- 原创Q学习算法
- 如何求解贝尔曼方程
- 价值函数和行动价值函数
- 无模型与基于模型的强化学习
- 探索-利用困境的解决方案,包括乐观的初始值和 epsilon-greedy 行动选择
还包括使用 PyTorch 框架进行深度学习的迷你课程。这适合熟悉深度学习基本概念但不熟悉细节的学生,或者熟悉其他框架(例如 Tensorflow 或 Keras)中深度学习的学生。您将学习如何在 Pytorch 中编写深度神经网络以及卷积神经网络的工作原理。这将用于实现一个简单的 Deep Q 学习代理,以解决 Open AI 健身房中的 Cartpole 问题。
本课程适合谁:
- Python 开发人员渴望了解前沿的深度强化学习