在阿里巴巴集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双11购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。 《大数据之路:阿里巴巴大数据实践》就是在此背景下完成的。《大数据之路:阿里巴巴大数据实践》中讲到的阿里巴巴大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计
R语言——迈向大数据之路
✍ Scribed by 洪锦魁; 蔡桂宏
- Publisher
- 清华大学出版社
- Year
- 2016
- Tongue
- Chinese
- Leaves
- 501
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
DOS 时代用汇编语言,Windows 时代倡导 Windows 编程,Internet 时代是 HTML 的天下,进入大数据时代, R 语言必须掌握! 本书作者作为一名历经四个时代的老程序员,深知学习编程的痛苦与欢乐,结合多年的开发经验完成此书。 本书将从无到有地教读者 R 语言的使用,同时学习本书并不需要统计学基础,在学习编程的过程中,就掌握 了一些必要的统计知识。本书完整讲解了几乎所有 R 语言语法与使用技巧,通过丰富的程序案例讲解,让你事半功倍。
✦ Table of Contents
封面
扉页
版权页
前言
目录
Chapter 01 基本概念
1-1 Big Data的起源
1-2 R语言之美
1-3 R语言的起源
1-4 R的运行环境
1-5 R的扩展
1-6 本书的学习目标
本章习题
Chapter 02 第一次使用 R
2-1 第一次启动R
2-2 认识RStudio环境
2-3 第一次使用R
2-4 R语言的对象设定
2-5 Workspace窗口
2-6 结束RStudio
2-7 保存工作成果
2-8 历史记录
2-9 程序注释
本章习题
Chapter 03 R的基本数学运算
3-1 对象命名原则
3-2 基本数学运算
3-3 R语言控制运算的优先级
3-4 无限大 Infinity
3-5 Not a Number(NaN)
3-6 Not Available(NA)
本章习题
Chapter 04 向量对象运算
4-1 数值型的向量对象
4-2 常见向量对象的数学运算函数
4-3 考虑Inf、-Inf、NA的向量运算
4-4 R语言的字符串数据的属性
4-5 探索对象的属性
4-6 向量对象元素的存取
4-7 逻辑向量(Logical Vector)
4-8 不同长度向量对象相乘的应用
4-9 向量对象的元素名称
本章习题
Chapter 05 处理矩阵与更高维数据
5-1 矩阵Matrix
5-2 取得矩阵元素的值
5-3 修改矩阵的元素值
5-4 降低矩阵的维度
5-5 矩阵的行名和列名
5-6 将行名或列名作为索引
5-7 矩阵的运算
5-8 三维或高维数组
5-9 再谈class()函数
本章习题
Chapter 06 因子Factor
6-1 使用factor()或as.factor()函数建立因子
6-2 指定缺失的Levels值
6-3 lbels参数
6-4 因子的转换
6-5 数值型因子在转换时常见的错误
6-6 再看levels参数
6-7 有序因子(Ordered Factor)
6-8 table()函数
6-9 认识系统内建的数据集
本章习题
Chapter 07 数据框Data Frame
7-1 认识数据框
7-2 认识数据框的结构
7-3 取得数据框的内容
7-4 使用rbind()函数增加数据框的行数据
7-5 使用cbind()函数增加数据框的列数据
7-6 再谈转置函数 t()
本章习题
Chapter 08 串行List
8-1 建立串行
8-2 获得串行内对象的元素内容
8-3 编辑串行内对象的元素值
8-4 串行合并
8-5 解析串行的内容结构
本章习题
Chapter 09 进阶字符串的处理
9-1 语句的分割
9-2 修改字符串的大小写
9-3 unique()函数的使用
9-4 字符串的连接
9-5 字符串数据的排序
9-6 搜索字符串的内容
9-7 字符串内容的更改
9-8 正则表达式(Regular Expression)
本章习题
Chapter 10 日期和时间的处理
10-1 日期的设置与使用
10-2 时间的设置与使用
10-3 时间序列
本章习题
Chapter 11 编写自己的函数
11-1 正式编写程序
11-2 函数的基本组成
11-3 设计第一个函数
11-4 函数也是一个对象
11-5 程序代码的简化
11-6 return()的功能
11-7 省略函数的大括号
11-8 传递多个函数参数的应用
11-9 函数也可以作为参数
11-10 局部变量和全局变量
11-11 通用函数(Generic Function)
11-12 设计第一个通用函数
本章习题
Chapter 12 程序的流程控制
12-1 if 语句
12-2 递归式函数的设计
12-3 向量化的逻辑表达式
12-4 switch语句
12-5 for循环
12-6 while循环
12-7 repeat循环
12-8 再谈break语句
12-9 next语句
本章习题
Chapter 13 认识 apply 家族
13-1 apply()函数
13-2 sapply()函数
13-3 lapply()函数
13-4 tapply()函数
13-5 iris鸢尾花数据集
本章习题
Chapter 14 输入与输出
14-1 认识文件夹
14-2 数据输出cat()函数
14-3 读取数据scan()函数
14-4 输出数据write()函数
14-5 数据的输入
14-6 数据的输出
14-7 处理其他数据
本章习题
Chapter 15 数据分析与处理
15-1 复习数据类型
15-2 随机抽样
15-3 再谈向量数据的抽取并以islands为实例
15-4 数据框数据的抽取——对重复值的处理
15-5 数据框数据的抽取——对NA值的处理
15-6 数据框的字段运算
15-7 数据的分割
15-8 数据的合并
15-9 数据的排序
15-10 系统内建数据集 mtcars
15-11 aggregate()函数
15-12 建立与认识数据表格
本章习题
Chapter 16 数据汇总与简单图表制作
16-1 之前的准备工作
16-2 了解数据的唯一值
16-3 基础统计知识与R语言
16-4 使用基本图表认识数据
16-5 认识数据汇总函数summary()
16-6 绘制箱形图
16-7 数据的相关性分析
16-8 使用表格进行数据分析
本章习题
Chapter 17 正态分布
17-1 用直方图检验crabs对象
17-2 用直方图检验beaver2对象
17-3 用QQ图检验数据是否服从正态分布
17-4 shapiro.test()函数
本章习题
Chapter 18 数据分析——统计绘图
18-1 分类数据的图形描述
18-2 量化数据的图形描述
18-3 在一个页面内绘制多张图表的应用
18-4 将数据图存盘
18-5 新建窗口
本章习题
Chapter 19 再谈 R 的绘图功能
19-1 绘图的基本设置
19-2 高级绘图
19-3 低级绘图——附加图形于已绘制完成的图形
19-4 交互式绘图
本章习题
正文结束
Appendix A 下载和安装R
A-1 下载R语言
A-2 下载RStudio
Appendix B 使用R的补充说明
B-1 获得系统内建的数据集
B-2 看到陌生的函数
B-3 看到陌生的对象
B-4 认识CRAN
B-5 搜索扩展包
B-6 安装与加载扩展包
B-7 阅读扩展包的内容
B-8 更新扩展包
B-9 搜索系统目前的扩展包
B-10 卸载扩展包
B-11 R-Forge
Appendix C 本书习题答案
Appendix D 函数索引表
📜 SIMILAR VOLUMES
书签已装载, 书签制作方法请找 [email protected] 完全免费 “如果你想学习如何用一款统计专家和数据挖掘专家所开发的免费软件包,那就选这本书吧。本书包括大量实际案例,它们充分体现了R软件的广度和深度。” —— Bernhard Pfahringer, 新西兰怀卡托大学 本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。 本书的支持网站(http://www.liaad.up.pt/~ltorgo/DataMiningWithR/)给出了案例研究的所有
本书介绍了来自统计分析,机器学习,人工智能等领域的多种数据分析算法,在讲解与之相关的R代码时,还讨论了这些算法的原理,优缺点与适用背景.
<p>大数据时代,数据成为决策最为重要的参考之一,数据分析行业迈入了一个全新的阶段。R是一款非常优秀的统计分析软件,《数据分析:R语言实战》侧重于使用R进行数据的处理、整理和分析,重点讲述了R的数据分析流程、算法包的使用以及相关工具的应用,同时结合大量精选的数据分析问题对R软件进行科学、准确和全面的介绍,以便使读者能深刻理解R的精髓和灵活、高效的使用技巧。</p> <p>通过《数据分析:R语言实战》,读者不仅能掌握使用R及相关的算法包来快速解决实际问题,而且能学会从实际问题分析入手,到利用R进行求解,以及对结果进行分析。</p> <p>《数据分析:R语言实战》可作为计算机、互联网、机器学习