登录
深入浅出强化学习——原理入门
暂无评分 作者:郭宪,方勇纯编著 出版社:电子工业出版社 出版日期:2018年01月 ISBN:978-7-121-32918-0 中图分类:TP18 ( 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 ) 标签:
评分: 借阅次数:0 收藏人数:0 推荐次数:0
封面 书名页 版权页 推荐序一 推荐序二 推荐序三 推荐序四 推荐序五 前言 目录页 1 绪论 1.1 这是一本什么书 1.2 强化学习可以解决什么问题 1.3 强化学习如何解决问题 1.4 强化学习算法分类及发展趋势 1.5 强化学习仿真环境构建 1.5.1 gym安装及简单的demo示例 1.5.2 深入剖析gym环境构建 1.6 本书主要内容及安排 第一篇 强化学习基础 2 马尔科夫决策过程 2.1 马尔科夫决策过程理论讲解 2.2 MDP中的概率学基础讲解 2.3 基于gym的MDP实例讲解 2.4 习题 3 基于模型的动态规划方法 3.1 基于模型的动态规划方法理论 3.2 动态规划中的数学基础讲解 3.2.1 线性方程组的迭代解法 3.2.2 压缩映射证明策略评估的收敛性 3.3 基于gym的编程实例 3.4 最优控制与强化学习比较 3.5 习题 第二篇 基于值函数的强化学习方法 4 基于蒙特卡罗的强化学习方法 4.1 基于蒙特卡罗方法的理论 4.2 统计学基础知识 4.3 基于Python的编程实例 4.4 习题 5 基于时间差分的强化学习方法 5.1 基于时间差分强化学习算法理论讲解 5.2 基于Python和gym的编程实例 5.3 习题 6 基于值函数逼近的强化学习方法 6.1 基于值函数逼近的理论讲解 6.2 DQN及其变种 6.2.1 DQN方法 6.2.2 Double DQN 6.2.3 优先回放(Prioritized Replay) 6.2.4 Dueling DQN 6.3 函数逼近方法 6.3.1 基于非参数的函数逼近 6.3.2 基于参数的函数逼近 6.3.3 卷积神经网络 6.4 习题 第三篇 基于直接策略搜索的强化学习方法 7 基于策略梯度的强化学习方法 7.1 基于策略梯度的强化学习方法理论讲解 7.2 基于gym和TensorFlow的策略梯度算法实现 7.2.1 安装Tensorflow 7.2.2 策略梯度算法理论基础 7.2.3 Softmax策略及其损失函数 7.2.4 基于TensorFlow的策略梯度算法实现 7.2.5 基于策略梯度算法的小车倒立摆问题 7.3 习题 8 基于置信域策略优化的强化学习方法 8.1 理论基础 8.2 TRPO中的数学知识 8.2.1 信息论 8.2.2 优化方法 8.3 习题 9 基于确定性策略搜索的强化学习方法 9.1 理论基础 9.2 习题 10 基于引导策略搜索的强化学习方法 10.1 理论基础 10.2 GPS中涉及的数学基础 10.2.1 监督相LBFGS优化方法 10.2.2 ADMM算法 10.2.3 KL散度与变分推理 10.3 习题 第四篇 强化学习研究及前沿 11 逆向强化学习 11.1 概述 11.2 基于最大边际的逆向强化学习 11.3 基于最大熵的逆向强化学习 11.4 习题 12 组合策略梯度和值函数方法 13 值迭代网络 13.1 为什么要提出值迭代网络 13.2 值迭代网络 14 基于模型的强化学习方法:PILCO及其扩展 14.1 概述 14.2 PILCO 14.3 滤波PILCO和探索PILCO 14.3.1 滤波PILCO算法 14.3.2 有向探索PILCO算法 14.4 深度PILCO 后记 参考文献 ..更多
推荐图书
第二次改革(英文版)
迟福林著
五洲传播出版社
看不见的星
赵峥著
清华大学出版社
新编青少年卫生保健学
李泽民,张迎修主编
中国海洋大学出版社
萧红全集 2——呼兰河传
萧红著
北方文艺出版社
影视作品评论与分析
王功山编著
中国传媒大学出版社
20世纪外国文学研究史论
何辉斌,蔡海燕著
浙江大学出版社
新大陆在哪里
王连河编著
吉林出版集团有限责任公司
返回顶部 用户指南
下载APP
关注我们