𝔖 Scriptorium
✦   LIBER   ✦

📁

深度强化学习:基础、研究与应用

✍ Scribed by 董豪 / 丁子涵 / 仉尚航


Publisher
电子工业出版社
Year
2021
Tongue
Chinese
Leaves
520
Category
Library

⬇  Acquire This Volume

No coin nor oath required. For personal study only.

✦ Table of Contents


扉页
版权页
前言
目录
基础部分
第1章 深度学习入门
1.1 简介
1.2 感知器
1.3 多层感知器
1.4 激活函数
1.5 损失函数
1.6 优化
1.6.1 梯度下降和误差的反向传播
1.6.2 随机梯度下降和自适应学习率
1.6.3 超参数筛选
1.7 正则化
1.7.1 过拟合
1.7.2 权重衰减
1.7.3 Dropout
1.7.4 批标准化
1.7.5 其他缓和过拟合的方法
1.8 卷积神经网络
1.9 循环神经网络
1.10 深度学习的实现样例
1.10.1 张量和梯度
1.10.2 定义模型
1.10.3 自定义层
1.10.4 多层感知器: MNIST数据集上的图像分类
1.10.5 卷积神经网络: CIFAR-10数据集上的图像分类
1.10.6 序列到序列模型:聊天机器人
第2章 强化学习入门
2.1 简介
2.2 在线预测和在线学习
2.2.1 简介
2.2.2 随机多臂赌博机
2.2.3 对抗多臂赌博机
2.2.4 上下文赌博机
2.3 马尔可夫过程
2.3.1 简介
2.3.2 马尔可夫奖励过程
2.3.3 马尔可夫决策过程
2.3.4 贝尔曼方程和最优性
2.3.5 其他重要概念
2.4 动态规划
2.4.1 策略迭代
2.4.2 价值迭代
2.4.3 其他DPs:异步DP、近似DP和实时DP
2.5 蒙特卡罗
2.5.1 蒙特卡罗预测
2.5.2 蒙特卡罗控制
2.5.3 增量蒙特卡罗
2.6 时间差分学习
2.6.1 时间差分预测
2.6.2 Sarsa:在线策略TD控制
2.6.3 Q-Learning:离线策略TD控制
2.7 策略优化
2.7.1 简介
2.7.2 基于价值的优化
2.7.3 基于策略的优化
2.7.4 结合基于策略和基于价值的方法
第3章 强化学习算法分类
3.1 基于模型的方法和无模型的方法
3.2 基于价值的方法和基于策略的方法
3.3 蒙特卡罗方法和时间差分方法
3.4 在线策略方法和离线策略方法
第4章 深度Q网络
4.1 Sarsa 和 Q-Learning
4.2 为什么使用深度学习: 价值函数逼近
4.3 DQN
4.4 Double DQN
4.5 Dueling DQN
4.6 优先经验回放
4.7 其他改进内容:多步学习、噪声网络和值分布强化学习
4.8 DQN 代码实例
第5章 策略梯度
5.1 简介
5.2 REINFORCE:初版策略梯度
5.3 Actor-Critic
5.4 生成对抗网络和Actor-Critic
5.5 同步优势Actor-Critic
5.6 异步优势Actor-Critic
5.7 信赖域策略优化
5.8 近端策略优化
5.9 使用Kronecker因子化信赖域的Actor-Critic
5.10 策略梯度代码例子
5.10.1 相关的Gym环境
5.10.2 REINFORCE: Atari Pong和CartPole-V0
5.10.3 AC: CartPole-V0
5.10.4 A3C: BipedalWalker-v2
5.10.5 TRPO: Pendulum-V0
5.10.6 PPO: Pendulum-V0
第6章 深度Q网络和Actor-Critic的结合
6.1 简介
6.2 深度确定性策略梯度算法
6.3 孪生延迟DDPG算法
6.4 柔性Actor-Critic算法
6.4.1 柔性策略迭代
6.4.2 SAC
6.5 代码例子
6.5.1 相关的 Gym 环境
6.5.2 DDPG: Pendulum-V0
6.5.3 TD3: Pendulum-V0
6.5.4 SAC: Pendulum-v0
研究部分
第7章 深度强化学习的挑战
7.1 样本效率
7.2 学习稳定性
7.3 灾难性遗忘
7.4 探索
7.5 元学习和表征学习
7.6 多智能体强化学习
7.7 模拟到现实
7.8 大规模强化学习
7.9 其他挑战
第8章 模仿学习
8.1 简介
8.2 行为克隆方法
8.2.1 行为克隆方法的挑战
8.2.2 数据集聚合
8.2.3 Variational Dropout
8.2.4 行为克隆的其他方法
8.3 逆向强化学习方法
8.3.1 简介
8.3.2 逆向强化学习方法的挑战
8.3.3 生成对抗模仿学习
8.3.4 生成对抗网络指导性代价学习
8.3.5 对抗性逆向强化学习
8.4 从观察量进行模仿学习
8.4.1 基于模型方法
8.4.2 无模型方法
8.4.3 从观察量模仿学习的挑战
8.5 概率性方法
8.6 模仿学习作为强化学习的初始化
8.7 强化学习中利用示范数据的其他方法
8.7.1 将示范数据导入经验回放缓存
8.7.2 标准化Actor-Critic
8.7.3 用示范数据进行奖励塑形
8.8 总结
第9章 集成学习与规划
9.1 简介
9.2 基于模型的方法
9.3 集成模式架构
9.4 基于模拟的搜索
9.4.1 朴素蒙特卡罗搜索
9.4.2 蒙特卡罗树搜索
9.4.3 时间差分搜索
第10章 分层强化学习
10.1 简介
10.2 选项框架
10.2.1 战略专注作家
10.2.2 选项-批判者结构
10.3 封建制强化学习
10.3.1 封建制网络
10.3.2 离线策略修正
10.4 其他工作
第11章 多智能体强化学习
11.1 简介
11.2 优化和均衡
11.2.1 纳什均衡
11.2.2 关联性均衡
11.2.3 斯塔克尔伯格博弈
11.3 竞争与合作
11.3.1 合作
11.3.2 零和博弈
11.3.3 同时决策下的竞争
11.3.4 顺序决策下的竞争
11.4 博弈分析架构
第12章 并行计算
12.1 简介
12.2 同步和异步
12.3 并行计算网络
12.4 分布式强化学习算法
12.4.1 异步优势Actor-Critic
12.4.2 GPU/CPU混合式异步优势Actor-Critic
12.4.3 分布式近端策略优化
12.4.4 重要性加权的行动者-学习者结构和可扩展高效深度强化学习
12.4.5 Ape-X、回溯-行动者和分布式深度循环回放Q网络
12.4.6 Gorila
12.5 分布式计算架构
应用部分
第13章 Learning to Run
13.1 NeurIPS 2017挑战:Learning to Run
13.1.1 环境介绍
13.1.2 安装
13.2 训练智能体
13.2.1 并行训练
13.2.2 小技巧
13.2.3 学习结果
第14章 鲁棒的图像增强
14.1 图像增强
14.2 用于鲁棒处理的强化学习
第15章 AlphaZero
15.1 简介
15.2 组合博弈
15.3 蒙特卡罗树搜索
15.4 AlphaZero:棋类游戏的通用算法
第16章 模拟环境中机器人学习
16.1 机器人模拟
16.2 强化学习用于机器人学习任务
16.2.1 并行训练
16.2.2 学习效果
16.2.3 域随机化
16.2.4 机器人学习基准
16.2.5 其他模拟器
第17章 Arena:多智能体强化学习平台
17.1 安装
17.2 用Arena开发游戏
17.2.1 简单的单玩家游戏
17.2.2 简单的使用奖励机制的双玩家游戏
17.2.3 高级设置
17.2.4 导出二进制游戏
17.3 MARL训练
17.3.1 设置X-Server
17.3.2 进行训练
17.3.3 可视化
17.3.4 致谢
第18章 深度强化学习应用实践技巧
18.1 概览:如何应用深度强化学习
18.2 实现阶段
18.3 训练和调试阶段
总结部分
附录A 算法总结表
附录B 算法速查表
B.1 深度学习
B.1.1 随机梯度下降
B.1.2 Adam优化器
B.2 强化学习
B.2.1 赌博机
B.2.2 动态规划
B.2.3 蒙特卡罗
B.3 深度强化学习
B.4 高等深度强化学习
B.4.1 模仿学习
B.4.2 基于模型的强化学习
B.4.3 分层强化学习
B.4.4 多智能体强化学习
B.4.5 并行计算
附录C 中英文对照表


📜 SIMILAR VOLUMES


基础量子化学与应用
✍ 刘靖疆 📂 Library 📅 2004 🏛 高等教育 🌐 Chinese

《基础量子化学与应用》是南开大学近代化学教学系列丛书之一,在介绍量子化学基本原理的同时也介绍其在化学中的应用。《基础量子化学与应用》共13章,分二三个部分,第1~5章为基本原理及定性部分;第6~10章为定量部分;第11~13章为专题。在化学键理论中讨论了共价键、配价键、金属键的多种模型,对获Nobel奖的“前线轨道理论、量子化学计算方法中的从头计算法和密度泛函法”作了重点介绍,同时也介绍了IR、uV、NMR、EsR等光谱的基础。书中安排了应用Gaussian程序的上机计算内容,还讨论了化学反应速率、固体量子化学及分子工程学中量子化学的作用。 《基础量子化学与应用》可作为高等学校化学、化工专业

PaddlePaddle与深度学习应用实战
✍ 程天恒 📂 Library 📅 2018 🏛 电子工业出版社 🌐 Chinese

<p>深度学习是目前人工智能研究中前沿、有效的一项技术,主要通过构建深度神经网络解决视觉、自然语言处理、语音识别等诸多领域的问题。百度在2016 年发布了国内首个开源深度学习框架PaddlePaddle,简化了深度学习算法的实现步骤,提供了灵活、易用的接口,同时支持分布式训练。</p> <p>《PaddlePaddle与深度学习应用实战》由简单的例子引入深度学习和PaddlePaddle 框架,介绍了PaddlePaddle 的安装、测试与基本使用,并结合PaddlePaddle 接口介绍深度学习的基础知识,包括常用的神经网络和算法。最后,通过一系列深度学习项目实例介绍PaddlePaddl