本书以独特的方式讲解数据科学,不仅让读者可以轻松学习数据科学理论,又可以动手(手算和机算)进行数据科学实战。本书特色:全彩印刷,图形、表格、思维导图丰富;避免深奥的数学证明,采用简单的数学说明;用各种学习图将本书内容贯穿起来;实战计算,包含小型数据的演算和大型数据的实战程序。 本书共13章,内容涵盖丰富的数据科学模型,包含关联分析、聚类分析、贝叶斯分类、近邻法、决策树、降维分析、回归模型等算法。利用小数据例题介绍计算步骤,同时用R语言验证计算结果。另外,也有大数据的案例数据,例如:推荐系统、支持向量机、集成学习等。另外,本书只有大数据的案例数据用R语言计算。 本书适合各个专业领域(
R语言与大数据编程实战
✍ Scribed by 李倩星
- Publisher
- 电子工业出版社
- Year
- 2017
- Tongue
- Chinese
- Leaves
- 321
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
本书介绍了来自统计分析,机器学习,人工智能等领域的多种数据分析算法,在讲解与之相关的R代码时,还讨论了这些算法的原理,优缺点与适用背景.
✦ Table of Contents
扉页
版权页
前言
目录
第1章 R的基本介绍
1.1 强大的R
1.2 R语言在大数据中的应用
1.2.1 R语言用户行为分析
1.2.2 R语言处理金融大数据
1.2.3 R语言天气数据可视化
1.2.4 R语言医疗大数据分析
1.3 R的安装与启动
1.3.1 安装并启动R
1.3.2 安装并启动一个IDE
1.4 R的向量、矩阵和数组
1.4.1 向量的操作方法和固有属性
1.4.2 矩阵的操作和运算
1.4.3 数组中的维度函数
1.5 R的列表和数据框
1.5.1 列表的特性和编辑方法
1.5.2 数据框的创建和基本操作
1.6 R数据文件的载入和载出
1.6.1 结构化纯文本文件的读取和输出
1.6.2 其他文件的读取和输出
1.7 向R中安装包
第2章 原始数据的探索与预处理
2.1 度量数据集的集中程度
2.2 度量数据集的分散程度
2.2.1 极值、方差和标准差
2.2.2 标准误和偏度系数、峰度系数
2.3 创建一个数值摘要表
2.4 异常值的观测与说明
2.4.1 利用箱线图观测异常值并处理
2.4.2 异常值检测的其他情况和说明
2.5 缺失值的填补与处理
2.5.1 删除缺失值或对其进行简单填补
2.5.2 按照相关性对空缺值进行填补
第3章 R的数据可视化
3.1 plot()函数和常用的图形参数
3.1.1 设置plot()函数中的参数
3.1.2 修改散点图的坐标并加入标注
3.2 经典的基础图形及用途
3.2.1 线图
3.2.2 直方图
3.2.3 箱线图和茎叶图
3.3 将图形组合起来
3.4 更多的高水平作图函数
3.5 更多的常用作图命令
第4章 R中参数的估计和检验
4.1 使用R进行点估计和区间估计
4.1.1 简单的点估计和区间估计
4.1.2 估计单侧置信区间
4.2 与正态总体有关的参数检验
4.3 列联表与独立性检验
4.4 几种检验数据分布的函数
4.5 对非正态总体的区间估计和检验
4.5.1 非正态总体的区间估计
4.5.2 非参数检验中的符号检验
4.5.3 非参数检验中的秩检验
第5章 R中的方差分析
5.1 方差分析模型的建立
5.2 单因素方差分析
5.2.1 单因素方差分析的数学思想与模型
5.2.2 检验样本是否满足方差分析的假设条件
5.2.3 构建单因素方差分析模型
5.3 多因素方差分析
5.3.1 多因素方差分析的数学思想与模型
5.3.2 不考虑交互作用的双因素方差分析
5.3.3 考虑交互作用的双因素方差分析
5.4 秩检验和协方差分析
5.4.1 对控制变量应用秩检验方法
5.4.2 协方差分析的假设与应用
第6章 R中的相关分析和回归分析
6.1 多种相关系数的度量和分析
6.1.1 简单相关系数的计算和检验
6.1.2 散布矩阵图和偏相关系数
6.1.3 典型相关分析
6.2 线性回归分析及其常规参数
6.2.1 对数据进行预处理
6.2.2 构建第一个回归模型
6.2.3 修正方程并检验残差
6.3 使用逐步回归筛选自变量
6.3.1 逐步回归的思想与分类
6.3.2 构建逐步回归模型
6.4 哑变量和逻辑回归
6.4.1 哑变量和逻辑回归的思想
6.4.2 向线性回归模型中纳入哑变量
第7章 更高级的数据可视化
7.1 基础图形的拓展与延伸
7.1.1 绘制分类散点图并添加图标
7.1.2 绘制含多种类别的密度分布图
7.1.3 复合条形图和堆栈条形图
7.2 有关多元分布函数的特殊图形
7.2.1 星图和脸谱图
7.2.2 轮廓图
7.2.3 调和曲线图
7.3 建立最简单的3D图形
7.4 如何让图形更美观
7.5 更多的绘图包和系统
第8章 R中的聚类分析和判别分析
8.1 几种聚类分析的异同
8.2 使用R实现KNN聚类
8.2.1 KNN算法的思想和模型
8.2.2 使用R实现KNN聚类
8.3 使用R实现系统聚类
8.3.1 系统聚类的思想和模型
8.3.2 使用R实现系统聚类
8.4 使用R实现快速聚类
8.4.1 快速聚类的思想和模型
8.4.2 使用R实现快速聚类
8.5 几种判别分析模型综述
8.5.1 距离判别模型
8.5.2 Fisher判别模型
第9章 R中的主成分分析和因子分析
9.1 主成分分析的实现与应用
9.1.1 主成分分析的模型假设和数据处理
9.1.2 构造一个主成分分析模型
9.1.3 计算主成分的综合得分
9.2 因子分析的初次构建与完善
9.2.1 构造一个简单的因子分析模型
9.2.2 计算因子得分并分析
9.3 对因子分析模型进行修正
9.3.1 修改因子分析模型中的因子个数
9.3.2 基于主成分法和主轴因子法进行因子分析
9.4 在降维分析的基础上进行回归分析和聚类分析
9.4.1 在降维分析的基础上进行回归分析
9.4.2 在降维分析的基础上进行聚类分析
第10章 R中的广义线性回归模型
10.1 一般的广义线性回归模型
10.1.1 使用二次函数拟合线性回归模型
10.1.2 拟合更多的广义线性模型
10.1.3 比较线性模型的优劣
10.2 Logistic线性回归模型
10.2.1 Logistic模型的原理与构建方法
10.2.2 Logistic模型的显著性检验和优势比
10.2.3 修正被警告的Logistic模型
10.3 泊松回归分析模型
10.3.1 拟合第一个泊松回归模型
10.3.2 泊松回归模型的过散布检验
10.4 广义线性模型的交叉验证
第11章 R中的时间序列模型
11.1 将数据转换为时间序列格式
11.1.1 使用ts()函数转换数据格式并绘制时间序列曲线
11.1.2 使用zoo()函数转换数据格式并绘制时间序列曲线
11.2 分解时间序列并检验时间序列的自相关性
11.2.1 使用经典方法分解时间序列
11.2.2 使用STL方法分解时间序列
11.3 探究时间序列的自相关性
11.3.1 使用月图和季度图探究自相关性
11.3.2 使用散点图探究自相关性
11.4 构建时间序列并预测
11.4.1 均值预测、单纯预测和漂移
11.4.2 不考虑长期趋势和季节波动的简单指数平滑
11.4.3 在指数平滑中加入长期趋势和季节波动
11.4.4 自回归移动平均模型
第12章 R中的最优化问题
12.1 最优化问题简述
12.2 黄金分割法
12.2.1 黄金分割法和局部最优解
12.2.2 使用R实现黄金分割法
12.3 牛顿最优化方法
12.3.1 牛顿法的算法原理
12.3.2 在一维情形下实现牛顿迭代法
12.3.3 在多维情形下实现牛顿迭代法
12.4 最快上升法
12.4.1 利用梯度求解上升最快的相邻点
12.4.2 构建最快上升法函数并检验
12.5 R中的最优化函数
第13章 使用R绘制地理信息图形
13.1 绘制世界、国家、省市地图
13.1.1 使用map()函数绘制地图
13.1.2 另一种绘制地图的方法
13.1.3 分省市绘制地图
13.2 向地图中添加颜色
13.2.1 向地图中添加颜色前的准备工作
13.2.2 在地图上添加颜色
13.3 向地图中添加标签和线条
13.3.1 向地图中添加标签前的准备工作
13.3.2 在地图上添加标签
13.3.3 在地图上添加线条
13.4 使用其他格式的文件优化地图
第14章 使用R构建支持向量机
14.1 构建一个简单的支持向量机
14.1.1 支持向量机的算法原理
14.1.2 构建一个简单的支持向量机
14.1.3 使用其他核函数构建支持向量机
14.2 优化支持向量机的参数
14.2.1 优化参数degree
14.2.2 优化参数cost
14.2.3 优化参数gamma
14.3 比较支持向量机与Logistic回归的优劣
14.4 比较支持向量机和KNN聚类算法的优劣
第15章 实现更高效的流程控制和高级循环
15.1 R中的流程控制
15.1.1 if语句的多种实现方法
15.1.2 ifelse语句与花括号的结合
15.1.3 适合多分支情况的switch语句
15.2 R中的for循环、while循环和repeat循环
15.2.1 R中的for循环和while循环
15.2.2 R中的repeat循环
15.3 apply家族中的循环函数
15.3.1 R中的apply()函数
15.3.2 R中的lapply()函数和sapply()函数
15.3.3 R中的tapply()函数
15.3.4 R中的mapply()函数
15.4 更多的高级循环函数
15.4.1 R中的replicate()函数和sweep()函数
15.4.2 R中的aggregate()函数
第16章 R代码的调试与优化
16.1 R代码的常见信息与警告
16.1.1 R代码的正常信息与警告
16.1.2 R代码中的警告处理方法
16.2 R代码中的错误与错误处理方法
16.2.1 使用try()函数处理错误信息
16.2.2 将try()函数与循环相结合
16.3 调试R代码
16.3.1 查看调用栈或暂停代码
16.3.2 修改error选项
16.4 向量化编程方法
16.4.1 向量化编程思想
16.4.2 比较循环和向量的运行速度
第17章 构建电影评分预测模型
17.1 获取数据并探索
17.2 利用recommenderlab包处理数据
17.3 建立模型并评估
17.3.1 模型的选择与建立
17.3.2 模型之间的比较和评估
第18章 贝叶斯垃圾邮件过滤器模型
18.1 贝叶斯模型中的条件概率
18.2 复杂的数据预处理过程
18.2.1 利用for循环读入多封邮件正文
18.2.2 利用tm包进一步转换数据格式
18.2.3 将TDM转换成真正有用的数据框
18.3 利用occurrece值构造分类器
18.3.1 完成理论准备并处理测试邮件和普通邮件
18.3.2 创建一个函数用于比较概率
📜 SIMILAR VOLUMES
<p>大数据时代,数据成为决策最为重要的参考之一,数据分析行业迈入了一个全新的阶段。R是一款非常优秀的统计分析软件,《数据分析:R语言实战》侧重于使用R进行数据的处理、整理和分析,重点讲述了R的数据分析流程、算法包的使用以及相关工具的应用,同时结合大量精选的数据分析问题对R软件进行科学、准确和全面的介绍,以便使读者能深刻理解R的精髓和灵活、高效的使用技巧。</p> <p>通过《数据分析:R语言实战》,读者不仅能掌握使用R及相关的算法包来快速解决实际问题,而且能学会从实际问题分析入手,到利用R进行求解,以及对结果进行分析。</p> <p>《数据分析:R语言实战》可作为计算机、互联网、机器学习
书签已装载, 书签制作方法请找 [email protected] 完全免费 “如果你想学习如何用一款统计专家和数据挖掘专家所开发的免费软件包,那就选这本书吧。本书包括大量实际案例,它们充分体现了R软件的广度和深度。” —— Bernhard Pfahringer, 新西兰怀卡托大学 本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。 本书的支持网站(http://www.liaad.up.pt/~ltorgo/DataMiningWithR/)给出了案例研究的所有
书签已装载, 书签制作方法请找 [email protected] 完全免费 本书在国际上是一本实时系统方面的畅销教材。全面论述实时系统、嵌入式系统和分布式系统的特征,深入分析设计和实现实时嵌入式系统的需求,批评性地介绍了当前的编程语言和操作系统对设计和实现实时系统的支持,重点是Ada95、实时Java、实时POSIX以及实时CORBA。本书建议了对于实现不同的实时系统所使用的最佳编程语言。本书覆盖的丰富内容是其他关于实时(或并发)编程语言的书籍所无可比拟的。 本书全面论述实时系统、嵌入式系统和分布式系统的特征,深入分析设计和实现实时嵌入式系统的需求,并讨论了当前的编
数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。算法根据数据创建的挖掘模型可以采用多种形式,这包括:说明数据集中的事例如何相关的一组分类。预测结果并描述不同条件是如何影响该结果的决策树。预测销量的数学模型。说明在事务中如何将产品分组到一起的一组规则,以及一起购买产品的概率等。本书主要介绍数据挖掘的十大经典算法的基本原理及其R语言的实现。 理论部分通俗易懂,实验部分使用编写语言的顺序讲解每个数据挖掘算法的实现过程,让学员所见即所得。