好奇心驱动的深度强化学习

智能体如何在没有奖励的环境中学习

讲师:Phil Tabor

口袋资源独家Udemy付费课程独家中英文字幕配套资料齐全!

不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。

你将学到什么

  • 如何编写 A3C 代理代码
  • 如何在 Python 中进行并行处理
  • 如何实现深度强化学习论文
  • 如何编写内在好奇心模块的代码

要求

  • 编写演员评论家代理的经验

描述

如果强化学习要成为通用人工智能的可行途径,它必须学会应对奖励稀少或完全没有的环境。大多数现实生活中的系统提供的奖励仅在许多时间步骤后才会发生,从而使代理几乎没有信息来构建成功的策略。基于好奇心的强化学习通过赋予智能体对其世界天生的好奇感来解决这个问题,使其能够探索和学习导航世界的成功策略。

在这门关于深度强化学习的高级课程中,积极主动的学生将学习如何从头开始实现前沿的人工智能研究论文。对于那些有自己编写演员评论家代理经验的人来说,这是一门快节奏的课程。我们将在本课程中使用流行的 PyTorch 框架编写两篇论文。

第一篇论文涵盖了深度强化学习的异步方法;也称为流行的异步优势演员批评家算法(A3C)。在这里,学生将发现一种不需要 GPU 的新学习框架。我们将学习如何在 Python 中实现多线程,并使用它来并行训练多个 Actor Critic 代理。我们将超越本文的基本实现,并实施最近对强化学习的改进,称为广义优势估计我们将在Open AI Gym 的 Atari 库的Pong 环境中测试我们的代理,并在短短几个小时内实现近乎世界一流的性能。

从这里开始,我们进入课程的核心:在奖励稀疏或完全没有的环境中学习。这种新范式利用智能体对环境的好奇心作为内在奖励,激励智能体探索和学习通用技能。我们将实现内在好奇心模块(ICM),它是任何深度强化学习算法的附加模块。我们将在类似迷宫的环境中训练和测试我们的代理,只有当代理达到目标时才会产生奖励。将展示相对于普通 A3C 算法的明显性能提升,最终展示好奇心驱动的深度强化学习的力量。

请记住,这是一门快节奏的课程,适合有积极性和进步的学生。只会对强化学习和演员批评方法的基本概念进行非常简短的回顾,然后我们将直接跳入阅读和实施论文。

ICM 和异步方法的优点在于这些范例可以应用于几乎任何其他强化学习算法。两者都具有高度适应性,并且只需对近端策略优化、软演员批评家或深度 Q 学习等算法进行少量修改即可插入。

学生将学习如何:

  • 实施深度强化学习论文
  • 在 Python 中利用多核 CPU 进行并行处理
  • 从头开始编写 A3C 算法
  • 从第一原则对 ICM 进行编码
  • 代码广义优势估计
  • 修改Open AI Gym Atari库
  • 编写可扩展的模块化代码

本课程随 PyTorch 实现一起启动,并推出 Tensorflow 2 版本。

我会在里面见到你。

本课程适合谁:

  • 本课程面向深度强化学习的高级学生

发表回复

后才能评论

  • 每一个课程页面,都有演示地址选项,点击链接可以跳转到课程发布网站查看详细课程列表。
  • 绝大部分课程都有试看内容,可以先点击试看,再决定是否购买。
  • 本站课程均存储在阿里云盘或百度网盘中,由于阿里云盘对分享的文件类型有限制,所以课程资料和字幕会存储到蓝奏云盘中。
  • 阿里云盘和蓝奏云盘都是不限速下载的,你既可以选择在阿里云盘中在线学习,也可以选择下载到本地学习。
  • 课程下载到本地可以挂载中英文双字幕,请点击查看Potplayer挂载中英文双字幕教程
  • 本站所有课程,均提供mp4格式视频文件,中英文双字幕,配套资料齐全,不加密。
  • 每一个课程右侧下载面板中,都会有清晰度标识,大部分都是1080P或者720P,还有少数是超高清的。
  • 本站课程购买之后,均可以免费更新,所有课程,皆配有中文字幕。
  • 请注意,课程的中文字幕是根据英文字幕用谷歌翻译生成的,本非人工翻译。谷歌翻译准确度尚可,学习观看,没有问题。
  • 由于数字资源具有可复制性,一旦购买,不接受退款要求,请在购买之前,认真了解课程内容,确定是否需要。
  • 当然,如果有特殊情况,可以查看网站底部联系方式,联系站长说明问题,我会为你妥善处理。
  • 赞助本站VIP会员,可以免费下载所有课程,详情请查看VIP介绍