𝔖 Scriptorium
✦   LIBER   ✦

📁

数据科学实战

✍ Scribed by Rachel Schutt, Cathy O’Neil


Publisher
人民邮电出版社
Year
2015
Tongue
Chinese
Leaves
336
Series
图灵程序设计丛书
Category
Library

⬇  Acquire This Volume

No coin nor oath required. For personal study only.

✦ Synopsis


统计推断、探索性数据分析(EDA)及数据科学工作流程
算法
垃圾邮件过滤、朴素贝叶斯和数据清理
逻辑回归
金融建模
推荐引擎和因果关系
数据可视化
社交网络与数据新闻
数据工程、MapReduce、Pregel和Hadoop

✦ Table of Contents


作者介绍   XII
关于封面图  XIII
前言  XIV
第1章 简介:什么是数据科学  1
1.1 大数据和数据科学的喧嚣  1
1.2 冲出迷雾  2
1.3 为什么是现在  3
1.4 数据科学的现状和历史  5
1.5 数据科学的知识结构  8
1.6 思维实验:元定义  10
1.7 什么是数据科学家  11
1.7.1 学术界对数据科学家的定义  12
1.7.2 工业界对数据科学家的定义  12
第2章 统计推断、探索性数据分析和数据科学工作流程  14
2.1 大数据时代的统计学思考  14
2.1.1 统计推断  15
2.1.2 总体和样本  16
2.1.3 大数据的总体和样本  17
2.1.4 大数据意味着大胆的假设  19
2.1.5 建模  21
2.2 探索性数据分析  26
2.2.1 探索性数据分析的哲学  27
2.2.2 练习:探索性数据分析  29
2.3 数据科学的工作流程  31
2.4 思维实验:如何模拟混沌  34
2.5 案例学习:RealDirect  35
2.5.1 RealDirect是如何赚钱的  36
2.5.2 练一练:RealDirect公司的数据策略  36
第3章 算法  39
3.1 机器学习算法  40
3.2 三大基本算法  41
3.2.1 线性回归模型  42
3.2.2 k 近邻模型(k-NN)  55
3.2.3 k 均值算法  64
3.3 练习:机器学习算法基础  68
3.4 总结  72
3.5 思维实验:关于统计学家的自动化  73
第4章 垃圾邮件过滤器、朴素贝叶斯与数据清理  74
4.1 思维实验:从实例中学习  74
4.1.1 线性回归为何不适用  75
4.1.2 k 近邻效果如何  77
4.2 朴素贝叶斯模型  78
4.2.1 贝叶斯法则  79
4.2.2 个别单词的过滤器  80
4.2.3 直通朴素贝叶斯  82
4.3 拉普拉斯平滑法  83
4.4 对比朴素贝叶斯和k 近邻  85
4.5 Bash代码示例  85
4.6 网页抓取:API和其他工具  87
4.7 Jake的练习题:文章分类问题中的朴素贝叶斯模型  88
第5章 逻辑回归  92
5.1 思维实验  93
5.2 分类器  94
5.2.1 运行时间  95
5.2.2 你自己  95
5.2.3 模型的可解释性  95
5.2.4 可扩展性  96
5.3 逻辑回归:一个来自M6D 的真实案例研究  96
5.3.1 点击模型  96
5.3.2 模型背后  97
5.3.3 α和β 的参数估计  99
5.3.4 牛顿法  101
5.3.5 随机梯度下降法  101
5.3.6 操练  101
5.3.7 模型评价  102
5.4 练习题  105
第6章 时间戳数据与金融建模  110
6.1 Kyle Teague与GetGlue公司  110
6.2 时间戳  112
6.2.1 探索性数据分析(EDA)  113
6.2.2 指标和新变量  117
6.2.3 下一步怎么做  117
6.3 轮到Cathy O'Neill了  118
6.4 思维实验  118
6.5 金融建模  119
6.5.1 样本期内外以及因果关系  120
6.5.2 金融数据处理  121
6.5.3 对数收益率  123
6.5.4 实例:标准普尔指数  124
6.5.5 如何衡量波动率  126
6.5.6 指数平滑法  128
6.5.7 金融模型的反馈  128
6.5.8 聊聊回归模型  130
6.5.9 先验信息量  130
6.5.10 一个小例子  131
6.6 练习:GetGlue提供的时间戳数据  134
第7章 从数据到结论  136
7.1 William Cukierski  136
7.1.1 背景介绍:数据科学竞赛  136
7.1.2 背景介绍:众包模式  137
7.2 Kaggle模式  139
7.2.1 Kaggle的参赛者  140
7.2.2 Kaggle的客户  141
7.3 思维实验:关于作业自动评分系统  143
7.4 特征选择  145
7.4.1 例子:留住用户  146
7.4.2 过滤型  149
7.4.3 包装型  149
7.4.4 决策树与嵌入型变量选择  151
7.4.5 熵  153
7.4.6 决策树算法  155
7.4.7 如何在决策树模型中处理连续性变量  156
7.4.8 随机森林  157
7.4.9 用户黏性:模型的预测能力与可解释性  159
7.5 David Huffaker:谷歌社会学研究的新方法  160
7.5.1 从描述性统计到预测模型  161
7.5.2 谷歌的社交研究  163
7.5.3 隐私保护  163
7.5.4 思维实验:如何消除用户的顾虑  164
第8章 构建面向大量用户的推荐引擎  165
8.1 一个真实的推荐引擎  166
8.1.1 最近邻算法回顾  167
8.1.2 最近邻模型的已知问题  168
8.1.3 超越近邻模型:基于机器学习的分类模型  169
8.1.4 高维度问题  171
8.1.5 奇异值分解(SVD)  172
8.1.6 关于SVD的重要特性  172
8.1.7 主成分分析(PCA)  173
8.1.8 交替最小二乘法  174
8.1.9 固定矩阵V,更新矩阵U  175
8.1.10 关于这些算法的一点思考  176
8.2 思维实验:如何过滤模型中的泡沫  176
8.3 练习:搭建自己的推荐系统  176
第9章 数据可视化与欺诈侦测  179
9.1 数据可视化的历史  179
9.1.1 Gabriel Tarde  180
9.1.2 Mark 的思维实验  181
9.2 到底什么是数据科学  181
9.2.1 Processing  182
9.2.2 Franco Moretti  182
9.3 一个数据可视化的方案实例  183
9.4 Mark 的数据可视化项目  186
9.4.1 《纽约时报》大厅里的可视化:Moveable Type  186
9.4.2 屏幕上的生命:Cascade可视化项目  188
9.4.3 Cronkite广场项目  189
9.4.4 eBay与图书网购  190
9.4.5 公共剧场里的“莎士比亚机”  192
9.4.6 这些展览的目的是什么  193
9.5 数据科学和风险  193
9.5.1 关于Square公司  194
9.5.2 支付风险  194
9.5.3 模型效果的评估问题  197
9.5.4 建模小贴士  200
9.6 数据可视化在Square  203
9.7 Ian的思维实验  204
9.8 关于数据可视化  204
第10章 社交网络与数据新闻学  207
10.1 Morning Analytics与社交网络  207
10.2 社交网络分析  209
10.3 关于社交网络分析的相关术语  209
10.3.1 如何衡量向心性  210
10.3.2 使用哪种向心性测度  211
10.4 思维实验  212
10.5 Morningside Analytics  212
10.6 从统计学的角度看社交网络分析  215
10.6.1 网络的表示方法与特征值向心度  215
10.6.2 随机网络的第一个例子:Erdos-Renyi模型  217
10.6.3 随机网络的第二个例子:指数随机网络图模型  217
10.7 数据新闻学  220
10.7.1 关于数据新闻学的历史回顾  220
10.7.2 数据新闻报告的写作:来自专家的建议  220
第11章 因果关系研究  222
11.1 相关性并不代表因果关系  223
11.1.1 对因果关系提问  223
11.1.2 干扰因子:一个关于在线约会网站的例子  224
11.2 OK Cupid的发现  225
11.3 黄金准则:随机化临床实验  226
11.4 A/B测试  228
11.5 退一步求其次:关于观察性研究  229
11.5.1 辛普森悖论  230
11.5.2 鲁宾因果关系模型  231
11.5.3 因果关系的可视化  232
11.5.4 定义:因果关系  233
11.6 三个小建议  235
第12章 流行病学  236
12.1 Madigan的学术背景  236
12.2 思维实验  237
12.3 统计学在现代  238
12.4 医学文献与观察性研究  238
12.5 分层法不解决干扰因子的问题  239
12.6 就没有更好的办法吗  241
12.7 研究性实验(OMOP)  242
12.8 最后的思维实验  246
第13章 从竞赛中学到的:数据泄漏和模型评价  247
13.1 Claudia作为数据科学家的知识结构  247
13.1.1 首席数据科学家的生活  248
13.1.2 作为一名女数据科学家  248
13.2 数据挖掘竞赛  249
13.3 如何成为出色的建模者  250
13.4 数据泄漏  250
13.4.1 市场预测  251
13.4.2 亚马逊案例学习:出手阔绰的顾客  251
13.4.3 珠宝抽样问题  251
13.4.4 IBM 客户锁定  252
13.4.5 乳腺癌检测  253
13.4.6 预测肺炎  253
13.5 如何避免数据泄漏  254
13.6 模型评价  255
13.6.1 准确度重要吗  256
13.6.2 概率的重要性,不是非0 即1  256
13.7 如何选择算法  259
13.8 最后一个例子  259
13.9 临别感言  260
第14章 数据工程:MapReduce、Pregel、Hadoop  261
14.1 关于David Crawshaw  262
14.2 思维实验  262
14.3 MapReduce  263
14.4 单词频率问题  264
14.5 其他MapReduce案例  267
14.6 Pregel  268
14.7 关于Josh Wills  269
14.8 思维实验  269
14.9 给数据科学家的话  269
14.9.1 数据丰富和数据匮乏  270
14.9.2 设计模型  270
14.10 算算Hadoop的经济账  270
14.10.1 Hadoop简介  271
14.10.2 Cloudera  271
14.11 Josh 的工作流程  272
14.12 如何开始使用Hadoop  272
第15章 听听学生们怎么说  273
15.1 重在过程  273
15.2 不再简单  274
15.3 援助之手  275
15.4 殊途同归  277
15.5 逢山开路,遇水架桥  279
15.6 作品展示  279
第16章 下一代数据科学家、自大狂和职业道德  281
16.1 前面都讲了些什么  281
16.2 什么是数据科学(再问一次)  282
16.3 谁是下一代的数据科学家  283
16.3.1 成为解决问题的人  284
16.3.2 培养软技能  284
16.3.3 成为提问者  285
16.4 做一个有道德感的数据科学家  286
16.5 对于职业生涯的建议  289


📜 SIMILAR VOLUMES


实战大数据
✍ 鲍两; 李倩 📂 Library 📅 2014 🏛 清华大学出版社 🌐 Chinese

<p>“数据是重要资产”已成为大家的共识,众多公司都在争相分析、挖掘大数据背后的信息资源。本书在此背景下,对目前大数据及其相关技术的发展进行总结,理论联系实践,既不缺乏理论深度又具有实用价值。</p> <p>本书共12章,内容包括大数据的概念、特点、发展历史,数据获取与存储,数据抽取和清洗,数据集成,数据的查询、分析与建模,异构数据采集,文档的存储与检索,异种数据的统一访问与转换,基于微博的股票市场预测系统实例,海量视频检索系统实例,HDFS云文件系统实例。</p> <p>本书适合大数据技术初学者、大数据从业人员和研究人员,也可以作为高等院校相关专业师生的教学参考书。</p>

数据新闻实战
✍ 刘英华 📂 Library 📅 2016 🏛 电子工业出版社 🌐 Chinese

<p>《数据新闻实战》紧密围绕数字媒体环境下新闻工作者在数据新闻制作中的实际需求,基于案例全面介绍了数据新闻制作的流程。《数据新闻实战》理论和实践结合,内容包括数据新闻的概念和制作流程,公开数据的获取、申请和搜索方法,数据转换和存储方法,“脏数据”的成因及其表现形式,常见的数据清理和分析工具,基于OpenRefine环境清理“脏数据”的过程和方法,数据清理原则,数据合理性分析,缺失数据的预测和时间序列预测等。《数据新闻实战》同时阐明了数据可视化的概念,详细介绍了Tableau制作数据新闻的方法和技巧,最后介绍了其他常用的数据新闻制作工具。</p> <p>《数据新闻实战》通俗易懂、结构严谨、层

Python数据分析实战
✍ 吕云翔; 李伊琳; 王肇一; 张雅素 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

使用Python进行数据分析是十分便利且高效的,因此它被认为是最优秀的数据分析工具之一。本书从理论和实战两个角度对Python数据分析工具进行了介绍,并采用理论分析和Python实践相结合的形式,按照数据分析的基本步骤对数据分析的理论知识以及相应的Python库进行了详细的介绍,让读者在了解数据分析的基本理论知识的同时能够快速上手实现数据分析程序。 本书适用于对数据分析有浓厚兴趣但不知从何下手的初学者,在阅读数据分析的基础理论知识的同时可以通过Python实现简单的数据分析程序,从而快速对数据分析的理论和实现两个层次形成一定的认知。

R数据科学
✍ 哈德利 • 威克姆;加勒特 • 格罗勒芒德; Hadley Wickham; Garrett Grolemund 📂 Library 📅 2018 🏛 人民邮电出版社 🌐 Chinese

本书的目标是教会读者使用最重要的数据科学工具,从而为实施数据科学奠定坚实的基础。读完本书后,你将掌握R语言的精华,并能够熟练使用多种工具来解决各种数据科学难题。每一章都按照这样的顺序组织内容:先给出一些引人入胜的示例,以便你可以整体了解这一章的内容,然后再深入细节。本书的每一节都配有习题,以帮助你实践所学到的知识。