精通数据科学:从线性回归到深度学习
✍ Scribed by 唐亘
- Publisher
- 人民邮电出版社
- Year
- 2018
- Tongue
- Chinese
- Leaves
- 430
- Series
- 异步图书深度学习系列
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
书签已装载,
书签制作方法请找 [email protected]
完全免费
(若有印刷不清等问题也请发送相关邮件,会尽快更新的)
数据科学是一门内涵很广的学科,它涉及到统计分析、机器学习以及计算机科学三方面的知识和技能。本书深入浅出、全面系统地介绍了这门学科的内容。
本书分为13章,最初的3章主要介绍数据科学想要解决的问题、常用的IT工具Python以及这门学科所涉及的数学基础。第4-7章主要讨论数据模型,主要包含三方面的内容:一是统计中最经典的线性回归和逻辑回归模型;二是计算机估算模型参数的随机梯度下降法,这是模型工程实现的基础;三是来自计量经济学的启示,主要涉及特征提取的方法以及模型的稳定性。接下来的8-10章主要讨论算法模型,也就是机器学习领域比较经典的模型。这三章依次讨论了监督式学习、生成式模型以及非监督式学习。目前数据科学最前沿的两个领域分别是大数据和人工智能。本书的第11章将介绍大数据中很重要的分布式机器学习,而本书的最后两章将讨论人工智能领域的神经网络和深度学习。...
(展开全部)
✦ Table of Contents
封面
书名
版权
前言
目录
第1章 数据科学概述
1.1 挑战
1.1.1 工程实现的挑战
1.1.2 模型搭建的挑战
1.2 机器学习
1.2.1 机器学习与传统编程
1.2.2 监督式学习和非监督式学习
1.3 统计模型
1.4 关于本书
第2章 Python安装指南与简介:告别空谈
2.1 Python简介
2.1.1 什么是Python
2.1.2 Python在数据科学中的地位
2.1.3 不可能绕过的第三方库
2.2 Python安装
2.2.1 Windows下的安装
2.2.2 Mac下的安装
2.2.3 Linux下的安装
2.3 Python上手实践
2.3.1 Python shell
2.3.2 第一个Python程序:Word Count
2.3.3 Python编程基础
2.3.4 Python的工程结构
2.4 本章小结
第3章 数学基础:恼人但又不可或缺的知识
3.1 矩阵和向量空间
3.1.1 标量、向量与矩阵
3.1.2 特殊矩阵
3.1.3 矩阵运算
3.1.4 代码实现
3.1.5 向量空间
3.2 概率:量化随机
3.2.1 定义概率:事件和概率空间
3.2.2 条件概率:信息的价值
3.2.3 随机变量:两种不同的随机
3.2.4 正态分布:殊途同归
3.2.5 P-value:自信的猜测
3.3 微积分
3.3.1 导数和积分:位置、速度
3.3.2 极限:变化的终点
3.3.3 复合函数:链式法则
3.3.4 多元函数:偏导数
3.3.5 极值与最值:最优选择
3.4 本章小结
第4章 线性回归:模型之母
4.1 一个简单的例子
4.1.1 从机器学习的角度看这个问题
4.1.2 从统计学的角度看这个问题
4.2 上手实践:模型实现
4.2.1 机器学习代码实现
4.2.2 统计方法代码实现
4.3 模型陷阱
4.3.1 过度拟合:模型越复杂越好吗
4.3.2 模型幻觉之统计学方案:假设检验
4.3.3 模型幻觉之机器学习方案:惩罚项
4.3.4 比较两种方案
4.4 模型持久化
4.4.1 模型的生命周期
4.4.2 保存模型
4.5 本章小结
第5章 逻辑回归:隐藏因子
5.1 二元分类问题:是与否
5.1.1 线性回归:为何失效
5.1.2 窗口效应:看不见的才是关键
5.1.3 逻辑分布:胜者生存
5.1.4 参数估计之似然函数:统计学角度
5.1.5 参数估计之损失函数:机器学习角度
5.1.6 参数估计之最终预测:从概率到选择
5.1.7 空间变换:非线性到线性
5.2 上手实践:模型实现
5.2.1 初步分析数据:直观印象
5.2.2 搭建模型
5.2.3 理解模型结果
5.3 评估模型效果:孰优孰劣
5.3.1 查准率与查全率
5.3.2 ROC曲线与AUC
5.4 多元分类问题:超越是与否
5.4.1 多元逻辑回归:逻辑分布的威力
5.4.2 One-vs.-all:从二元到多元
5.4.3 模型实现
5.5 非均衡数据集
5.5.1 准确度悖论
5.5.2 一个例子
5.5.3 解决方法
5.6 本章小结
第6章 工程实现:计算机是怎么算的
6.1 算法思路:模拟滚动
6.2 数值求解:梯度下降法
6.3 上手实践:代码实现
6.3.1 TensorFlow基础
6.3.2 定义模型
6.3.3 梯度下降
6.3.4 分析运行细节
6.4 更优化的算法:随机梯度下降法
6.4.1 算法细节
6.4.2 代码实现
6.4.3 两种算法比较
6.5 本章小结
第7章 计量经济学的启示:他山之石
7.1 定量与定性:变量的数学运算合理吗
7.2 定性变量的处理
7.2.1 虚拟变量
7.2.2 上手实践:代码实现
7.2.3 从定性变量到定量变量
7.3 定量变量的处理
7.3.1 定量变量转换为定性变量
7.3.2 上手实践:代码实现
7.3.3 基于卡方检验的方法
7.4 显著性
7.5 多重共线性:多变量的烦恼
7.5.1 多重共线性效应
7.5.2 检测多重共线性
7.5.3 解决方法
7.5.4 虚拟变量陷阱
7.6 内生性:变化来自何处
7.6.1 来源
7.6.2 内生性效应
7.6.3 工具变量
7.6.4 逻辑回归的内生性
7.6.5 模型的联结
7.7 本章小结
第8章 监督式学习:目标明确
8.1 支持向量学习机
8.1.1 直观例子
8.1.2 用数学理解直观
8.1.3 从几何直观到最优化问题
8.1.4 损失项
8.1.5 损失函数与惩罚项
8.1.6 Hard margin与soft margin比较
8.1.7 支持向量学习机与逻辑回归:隐藏的假设
8.2 核函数
8.2.1 空间变换:从非线性到线性
8.2.2 拉格朗日对偶
8.2.3 支持向量
8.2.4 核函数的定义:优化运算
8.2.5 常用的核函数
8.2.6 Scale variant
8.3 决策树
8.3.1 决策规则
8.3.2 评判标准
8.3.3 代码实现
8.3.4 决策树预测算法以及模型的联结
8.3.5 剪枝
8.4 树的集成
8.4.1 随机森林
8.4.2 Random forest embedding
8.4.3 GBTs之梯度提升
8.4.4 GBTs之算法细节
8.5 本章小结
第9章 生成式模型:量化信息的价值
9.1 贝叶斯框架
9.1.1 蒙提霍尔问题
9.1.2 条件概率
9.1.3 先验概率与后验概率
9.1.4 参数估计与预测公式
9.1.5 贝叶斯学派与频率学派
9.2 朴素贝叶斯
9.2.1 特征提取:文字到数字
9.2.2 伯努利模型
9.2.3 多项式模型
9.2.4 TF-IDF
9.2.5 文本分类的代码实现
9.2.6 模型的联结
9.3 判别分析
9.3.1 线性判别分析
9.3.2 线性判别分析与逻辑回归比较
9.3.3 数据降维
9.3.4 代码实现
9.3.5 二次判别分析
9.4 隐马尔可夫模型
9.4.1 一个简单的例子
9.4.2 马尔可夫链
9.4.3 模型架构
9.4.4 中文分词:监督式学习
9.4.5 中文分词之代码实现
9.4.6 股票市场:非监督式学习
9.4.7 股票市场之代码实现
9.5 本章小结
第10章 非监督式学习:聚类与降维
10.1 K-means
10.1.1 模型原理
10.1.2 收敛过程
10.1.3 如何选择聚类个数
10.1.4 应用示例
10.2 其他聚类模型
10.2.1 混合高斯之模型原理
10.2.2 混合高斯之模型实现
10.2.3 谱聚类之聚类结果
10.2.4 谱聚类之模型原理
10.2.5 谱聚类之图片分割
10.3 Pipeline
10.4 主成分分析
10.4.1 模型原理
10.4.2 模型实现
10.4.3 核函数
10.4.4 Kernel PCA的数学原理
10.4.5 应用示例
10.5 奇异值分解
10.5.1 定义
10.5.2 截断奇异值分解
10.5.3 潜在语义分析
10.5.4 大型推荐系统
10.6 本章小结
第11章 分布式机器学习:集体力量
11.1 Spark简介
11.1.1 Spark安装
11.1.2 从MapReduce到Spark
11.1.3 运行Spark
11.1.4 Spark DataFrame
11.1.5 Spark的运行架构
11.2 最优化问题的分布式解法
11.2.1 分布式机器学习的原理
11.2.2 一个简单的例子
11.3 大数据模型的两个维度
11.3.1 数据量维度
11.3.2 模型数量维度
11.4 开源工具的另一面
11.4.1 一个简单的例子
11.4.2 开源工具的阿喀琉斯之踵
11.5 本章小结
第12章 神经网络:模拟人的大脑
12.1 神经元
12.1.1 神经元模型
12.1.2 Sigmoid神经元与二元逻辑回归
12.1.3 Softmax函数与多元逻辑回归
12.2 神经网络
12.2.1 图形表示
12.2.2 数学基础
12.2.3 分类例子
12.2.4 代码实现
12.2.5 模型的联结
12.3 反向传播算法
12.3.1 随机梯度下降法回顾
12.3.2 数学推导
12.3.3 算法步骤
12.4 提高神经网络的学习效率
12.4.1 学习的原理
12.4.2 激活函数的改进
12.4.3 参数初始化
12.4.4 不稳定的梯度
12.5 本章小结
第13章 深度学习:继续探索
13.1 利用神经网络识别数字
13.1.1 搭建模型
13.1.2 防止过拟合之惩罚项
13.1.3 防止过拟合之dropout
13.1.4 代码实现
13.2 卷积神经网络
13.2.1 模型结构之卷积层
13.2.2 模型结构之池化层
13.2.3 模型结构之完整结构
13.2.4 代码实现
13.2.5 结构真的那么重要吗
13.3 其他深度学习模型
13.3.1 递归神经网络
13.3.2 长短期记忆
13.3.3 非监督式学习
13.4 本章小结
封底
📜 SIMILAR VOLUMES
<p>《Python机器学习手册:从数据预处理到深度学习》采用基于任务的方式来介绍如何在机器学习中使用Python。书中有近200个独立的解决 方案,针对的都是数据科学家或机器学习工程师在构建模型时可能遇到的常见任务,涵盖从简 单的矩阵和向量运算到特征工程以及神经网络的构建。所有方案都提供了相关代码,读者可以 复制并粘贴这些代码,用在自己的程序中。</p> <p>《Python机器学习手册:从数据预处理到深度学习》不是机器学习的入门书,适合熟悉机器学习理论和概念的读者阅读。你可以将本书作 为案头参考书,在机器学习的日常开发中遇到问题时,随时借鉴书中代码,快速解决问题。</p>
<p>《深度学习的数学》基于丰富的图示和具体示例,通俗易懂地介绍了深度学习相关的数学知识。第1章介绍神经网络的概况;第2章介绍理解神经网络所需的数学基础知识;第3章介绍神经网络的最优化;第4章介绍神经网络和误差反向传播法;第5章介绍深度学习和卷积神经网络。书中使用Excel进行理论验证,帮助读者直观地体验深度学习的原理。</p>
本书是一本学术著作,本书的前面几章是深度学习神经网络与大数据智能处理的理论方法部分;接下来几章是深度学习神经网络与大数据智能处理的应用实践部分。本书原创性在于提出、研究并给出了十四种深度学习神经网络与大数据智能处理新理论新方法和新应用。本书适用于高等院校、科研院所及企事业单位的科研及教学用书。