𝔖 Scriptorium
✦   LIBER   ✦

📁

深入浅出强化学习:原理入门

✍ Scribed by 郭宪; 方勇纯


Publisher
电子工业出版社
Year
2018
Tongue
Chinese
Leaves
284
Series
博文视点AI系列
Category
Library

⬇  Acquire This Volume

No coin nor oath required. For personal study only.

✦ Synopsis


《深入浅出强化学习:原理入门》用通俗易懂的语言深入浅出地介绍了强化学习的基本原理,覆盖了传统的强化学习基本方法和当前炙手可热的深度强化学习方法。开篇从最基本的马尔科夫决策过程入手,将强化学习问题纳入到严谨的数学框架中,接着阐述了解决此类问题最基本的方法——动态规划方法,并从中总结出解决强化学习问题的基本思路:交互迭代策略评估和策略改善。基于这个思路,分别介绍了基于值函数的强化学习方法和基于直接策略搜索的强化学习方法。最后介绍了逆向强化学习方法和近年具有代表性、比较前沿的强化学习方法。

除了系统地介绍基本理论,书中还介绍了相应的数学基础和编程实例。因此,《深入浅出强化学习:原理入门》既适合零基础的人员入门学习、也适合相关科研人员作为研究参考。

✦ Table of Contents


版权页
推荐序一
推荐序二
推荐序三
推荐序四
推荐序五
前言
目录
1 绪论
1.1 这是一本什么书
1.2 强化学习可以解决什么问题
1.3 强化学习如何解决问题
1.4 强化学习算法分类及发展趋势
1.5 强化学习仿真环境构建
1.5.1 gym安装及简单的demo示例
1.5.2 深入剖析gym环境构建
1.6 本书主要内容及安排
第一篇 强化学习基础
2 马尔科夫决策过程
2.1 马尔科夫决策过程理论讲解
2.2 MDP中的概率学基础讲解
2.3 基于gym的MDP实例讲解
2.4 习题
3 基于模型的动态规划方法
3.1 基于模型的动态规划方法理论
3.2 动态规划中的数学基础讲解
3.2.1 线性方程组的迭代解法
3.2.2 压缩映射证明策略评估的收敛性
3.3 基于gym的编程实例
3.4 最优控制与强化学习比较
3.5 习题
第二篇 基于值函数的强化学习方法
4 基于蒙特卡罗的强化学习方法
4.1 基于蒙特卡罗方法的理论
4.2 统计学基础知识
4.3 基于Python的编程实例
4.4 习题
5 基于时间差分的强化学习方法
5.1 基于时间差分强化学习算法理论讲解
5.2 基于Python和gym的编程实例
5.3 习题
6 基于值函数逼近的强化学习方法
6.1 基于值函数逼近的理论讲解
6.2 DQN及其变种
6.2.1 DQN方法
6.2.2 Double DQN
6.2.3 优先回放(Prioritized Replay)
6.2.4 Dueling DQN
6.3 函数逼近方法
6.3.1 基于非参数的函数逼近
6.3.2 基于参数的函数逼近
6.3.3 卷积神经网络
6.4 习题
第三篇 基于直接策略搜索的强化学习方法
7 基于策略梯度的强化学习方法
7.1 基于策略梯度的强化学习方法理论讲解
7.2 基于gym和TensorFlow的策略梯度算法实现
7.2.1 安装Tensorflow
7.2.2 策略梯度算法理论基础
7.2.3 Softmax策略及其损失函数
7.2.4 基于TensorFlow的策略梯度算法实现
7.2.5 基于策略梯度算法的小车倒立摆问题
7.3 习题
8 基于置信域策略优化的强化学习方法
8.1 理论基础
8.2 TRPO中的数学知识
8.2.1 信息论
8.2.2 优化方法
8.3 习题
9 基于确定性策略搜索的强化学习方法
9.1 理论基础
9.2 习题
10 基于引导策略搜索的强化学习方法
10.1 理论基础
10.2 GPS中涉及的数学基础
10.2.1 监督相LBFGS优化方法
10.2.2 ADMM算法
10.2.3 KL散度与变分推理
10.3 习题
第四篇 强化学习研究及前沿
11 逆向强化学习
11.1 概述
11.2 基于最大边际的逆向强化学习
11.3 基于最大熵的逆向强化学习
11.4 习题
12 组合策略梯度和值函数方法
13 值迭代网络
13.1 为什么要提出值迭代网络
13.2 值迭代网络
14 基于模型的强化学习方法:PILCO及其扩展
14.1 概述
14.2 PILCO
14.3 滤波PILCO和探索PILCO
14.3.1 滤波PILCO算法
14.3.2 有向探索PILCO算法
14.4 深度PILCO
后记
参考文献


📜 SIMILAR VOLUMES


深入浅出通信原理
✍ 陈爱军 📂 Library 📅 2017 🏛 清华大学出版社 🌐 Chinese

《深入浅出通信原理》的主要内容源于作者在通信人家园上的“深入浅出通信原理”系列连载,汇编成为继承了连载图文并茂、深入浅出、理论联系实际的特点,并在连载内容的基础上进行了补充和完善。从信号和频谱讲起,以通信模型为主线,对信道、信源编码、信道编码和交织、脉冲成形、调制、天线技术、复用和多址技术等做了系统讲解。 《深入浅出通信原理》针对真正希望搞清楚通信原理的读者编写,适用于高等院校通信专业本科生和研究生、在职的电信行业工程师,也适用于对通信原理具有浓厚兴趣的非通信专业人士。

深入浅出JavaScript
✍ Michael Morrison 📂 Library 📅 2010 🏛 东南大学出版社 🌐 Chinese

<p>你将从《深入浅出JavaScript(中文版)》学到什么?这么说你准备从写html和css的静态网页跃进到编写动态网络应用程序脚本了?这里就是起点。《深入浅出java script》带你游历令人兴奋的交互式网页创建过程。为了启发你的思考,《深入浅出JavaScript(中文版)》覆盖了所有的java script基本知识,从基本网络编程技巧,如变量、函数和循环语句,到高级一些的专题,如表单验证、dom操作、客户端对象、脚本程序调试——甚至是aiax!赶快做好准备……快速响应的网站离你只有几页纸那么远。</p> <p>为何《深入浅出JavaScript(中文版)》看上去如此不同?</p>

深入浅出 Rust
✍ 范长春 📂 Library 📅 2018 🏛 机械工业出版社 🌐 Chinese

内容简介 · · · · · · 本书详细描述了Rust语言的基本语法,穿插讲解一部分高级使用技巧,并以更容易理解的方式解释其背后的设计思想。全书总共分五个部分。 第一部分介绍Rust基本语法,因为对任何程序设计语言来说,语法都是基础,学习这部分是理解其他部分的前提。 第二部分介绍属于Rust独一无二的内存管理方式。它设计了一组全新的机制,既保证了安全性,又保持了强大的内存布局控制力,而且没有额外性能损失。这部分是本书的重点和核心所在,也是Rust语言的思想内核精髓之处。 第三部分介绍Rust的抽象表达能力。它支持多种编程范式,以及较为强大的抽象表达能力。 第

深入浅出 Rust
✍ 范长春 📂 Library 📅 2018 🏛 机械工业出版社 🌐 Chinese

内容简介 · · · · · · 本书详细描述了Rust语言的基本语法,穿插讲解一部分高级使用技巧,并以更容易理解的方式解释其背后的设计思想。全书总共分五个部分。 第一部分介绍Rust基本语法,因为对任何程序设计语言来说,语法都是基础,学习这部分是理解其他部分的前提。 第二部分介绍属于Rust独一无二的内存管理方式。它设计了一组全新的机制,既保证了安全性,又保持了强大的内存布局控制力,而且没有额外性能损失。这部分是本书的重点和核心所在,也是Rust语言的思想内核精髓之处。 第三部分介绍Rust的抽象表达能力。它支持多种编程范式,以及较为强大的抽象表达能力。 第