现代强化学习:Actor-Critic 算法
如何使用 PyTorch 框架在开放 AI 健身房中实现前沿人工智能研究论文
讲师:Phil Tabor
口袋资源独家Udemy付费课程,独家中英文字幕,配套资料齐全!
用不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。
你将学到什么
- 如何在 PyTorch 中编写策略梯度方法
- 如何在 PyTorch 中编写深度确定性策略梯度 (DDPG)
- 如何在 PyTorch 中编写孪生延迟深度确定性策略梯度 (TD3)
- 如何在 PyTorch 中编写 Actor Critic 算法
- 如何用Python实现前沿人工智能研究论文
要求
- 对大学微积分的理解
- 强化学习之前的课程
- 能够独立编码深度神经网络
描述
在深度强化学习的高级课程中,您将学习如何以各种方式实现策略梯度、 演员批评家、深度确定性策略梯度 (DDPG)、孪生延迟深度确定性策略梯度 (TD3) 和软演员批评家 (SAC) 算法来自开放人工智能健身房的具有挑战性的环境。将重点关注处理具有连续动作空间的环境,这对于那些希望通过深度强化学习进行机器人控制研究的人特别感兴趣。
在这里,您将学习自己阅读深度强化学习研究论文,并从头开始实施它们,而不是一门填鸭式的课程。您将学习一个可重复的框架,用于快速实现高级研究论文中的算法。掌握本课程的内容将使您作为人工智能工程师的能力实现巨大飞跃,并使您在依赖他人分解复杂想法的学生中脱颖而出。
不用担心,如果距离您上一次强化学习课程已经有一段时间了,我们将从对核心主题的快节奏回顾开始。
本课程首先对强化学习的基础知识进行实际回顾,包括以下主题:
- 贝尔曼方程
- 马尔可夫决策过程
- 蒙特卡洛预测
- 蒙特卡罗控制
- 时间差异预测 TD(0)
- 使用 Q 学习进行时间差异控制
然后直接开始编写我们的第一个代理:玩人工智能的二十一点。从这里开始,我们将进一步教导智能体使用Q 学习来平衡车杆。
掌握了基础知识后,节奏加快,我们直接进入政策梯度方法的介绍。我们介绍了REINFORCE算法,并使用它来训练人工智能在 Open AI 健身房的月球着陆器环境中登陆月球。接下来,我们将编写一步演员批评算法,以再次击败月球着陆器。
基础知识完成后,我们将继续进行更困难的项目:实施深度强化学习研究论文。我们将从深度确定性策略梯度(DDPG)开始,这是一种用于训练机器人擅长各种连续控制任务的算法。DDPG将深度 Q 学习的许多进步与传统的演员批评方法相结合,在具有连续动作空间的环境中实现最先进的结果。
接下来,我们实现了最先进的人工智能算法: 双延迟深度确定性策略梯度(TD3)。该算法为连续机器人控制任务的性能树立了新的基准,我们将在 Open AI 健身房的 Bipedal Walker 环境中展示世界一流的性能。TD3基于 DDPG 算法,但解决了许多导致 DDPG 和其他 Actor Critic 算法性能不佳的近似问题。
最后,我们将实现软演员批评算法(SAC)。SAC 从完全不同的角度处理深度强化学习:将熵最大化而不是分数最大化视为可行的目标。这导致我们的代理增加了探索,并在许多重要的 Open AI Gym 环境中实现了世界一流的性能。
在课程结束时,您将知道 Actor-Critic 方法中以下基本问题的答案:
- 当深度 Q 学习如此成功时,我们为什么还要为演员批评家方法而烦恼呢?
- 深度 Q 学习的进步可以应用于强化学习的其他领域吗?
- 我们如何通过确定性政策解决探索-利用困境?
- 我们如何获得并处理演员批评家方法中的高估偏差?
- 我们如何处理深度神经网络固有的近似误差?
本课程适合积极主动且进步的学生。要成功,您必须事先完成以下所有主题的课程:
- 大学水平的微积分
- 强化学习
- 深度学习
课程的节奏很快,主题处于深度强化学习研究的前沿,但回报是你将知道如何阅读研究论文并尽快将其转化为功能代码。您将永远不必再依赖狡猾的媒体博客文章。
本课程适合谁:
- 想要发表最先进学术研究论文的人工智能高级学生