高级强化学习:策略梯度方法
使用深度强化学习和 PyTorch 构建人工智能 (AI) 代理:(REINFORCE、A2C、PPO 等)
讲师:Escape Velocity Labs
口袋资源独家Udemy付费课程,独家中英文字幕,配套资料齐全!
用不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。
你将学到什么
- 掌握一些最先进的强化学习算法。
- 了解如何创建能够在复杂环境中行动以实现其目标的人工智能。
- 使用 Python 最流行的工具(PyTorch Lightning、OpenAIgym、Optuna)从头开始创建高级强化学习代理
- 了解如何执行超参数调整(为我们的人工智能学习选择最佳实验条件)
- 从根本上了解每种算法的学习过程。
- 调试和扩展所提出的算法。
- 从研究论文中理解并实现新算法。
要求
- 轻松使用 Python 进行编程
- 完成我们的课程“强化学习初学者到大师”或熟悉强化学习的基础知识(或观看本课程中包含的升级部分)。
- 了解基本统计数据(均值、方差、正态分布)
描述
这是 Udemy 上最完整的强化学习课程系列。在其中,您将学习使用 PyTorch 和 PyTorch Lightning 在 Python 中实现一些最强大的深度强化学习算法。您将从头开始实施自适应算法,根据经验解决控制任务。您将学习将这些技术与神经网络和深度学习方法相结合,以创建能够解决决策任务的自适应人工智能代理。
本课程将向您介绍强化学习技术的最新技术。它还将为您准备本系列的下一课程,我们将探索在其他类型的任务中表现出色的其他高级方法。
该课程的重点是培养实践技能。因此,在学习了每个方法系列中最重要的概念之后,我们将从头开始在 Jupyter Notebook 中实现它们的一个或多个算法。
调平模块:
– 复习:马尔可夫决策过程 (MDP)。
– 复习:蒙特卡罗方法。
– 复习:时间差分法。
– 复习:N 步引导。
– 复习:神经网络简介。
– 复习:政策梯度方法。
高级强化学习:
– 加强
– 强化连续行动空间
– 优势演员评论家 (A2C)
– 信赖域方法
– 近端策略优化(PPO)
– 广义优势估计(GAE)
– 信任域策略优化(TRPO)
本课程适合谁:
- 希望在机器学习领域找到工作的开发人员。
- 寻求扩展知识广度的数据科学家/分析师和机器学习从业者。
- 机器人学学生和研究人员。
- 工程专业的学生和研究人员。
声明:口袋资源网(koudaizy.com)提供的所有课程、素材等资源全部来源于互联网,赞助VIP仅用于对口袋资源服务器带宽及网站运营等费用支出做支持,从本站下载资源,说明你已同意本条款。