数据科学家养成手册
✍ Scribed by 高扬
- Publisher
- 电子工业出版社
- Year
- 2017
- Tongue
- Chinese
- Leaves
- 368
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
作为认知科学的延伸,数据科学一方面应该越来越引起广大大数据工作者的重视,另一方面也要撩开自己的神秘面纱,以最为亲民的姿态和每位大数据工作者成为亲密无间的战友,为用科学的思维方式进行工作做好理论准备。《数据科学家养成手册》从众多先贤及科学家的轶事讲起,以逐步归纳和递进的脉络总结出科学及数据科学所应关注的要点,然后在生产的各个环节中对这些要点逐一进行讨论与落实,从更高、更广的视角回看科学及数据科学在各个生产环节的缩影。《数据科学家养成手册》并不以高深的数学理论研究作为目的,也不以某一种计算机语言编程作为主线脉络,而是在一个个看似孤立的故事与工程中不断拾遗,并试着从中悟出一些道理。
《数据科学家养成手册》适合大数据从业人员和对大数据相关知识感兴趣的人,初级和中级程序员、架构师及希望通过对数据的感知改进工作的人,产品经理、运营经理、数据分析师、数据库开发工程师等对数据分析工作敏感的人,以及所有对数据科学感兴趣并希望逐步深入了解数据科学知识体系的人阅读。
✦ Table of Contents
扉页
版权页
序
前言
目录
认知篇
第1章 什么是科学家
1.1 从太阳东升西落开始
1.1.1 农历
1.1.2 公历
1.1.3 小结
1.2 阿基米德爱洗澡?
1.3 托勒密的秘密
1.4 牛顿为什么那么牛
1.4.1 苹果和三大定律
1.4.2 极限和微积分
1.5 高斯——高,实在是高
1.6 离经叛道的爱因斯坦
1.7 本章小结
第2章 什么是科学
2.1 科学之科
2.2 边界的迷茫
2.3 科学之殇
2.4 本章小结
第3章 数据与数学
3.1 什么是数据
3.2 数学的奥妙
3.2.1 《几何原本》
3.2.2 《九章算术》
3.2.3 高等数学
3.3 本章小结
第4章 数据科学的使命
4.1 走近数据科学
4.1.1 介质
4.1.2 从信息到数据
4.1.3 数据科学的本质
4.2 万能的数据科学
4.2.1 测量
4.2.2 统计计算
4.2.3 指标
4.3 使命必达
4.3.1 高效生产
4.3.2 破除迷信
4.3.3 目标一致与不一致
4.4 本章小结
第5章 矛盾的世界
5.1 古希腊——学者高产的国度
5.2 矛盾无处不在
5.3 世界究竟是否可知
5.4 薛定谔的“喵星人”
5.5 本章小结
第6章 实验和哲学
6.1 朴素的认知方法
6.1.1 眼见为实
6.1.2 归纳与总结
6.2 哲学靠谱吗
6.3 数学的尽头是哲学
6.4 本章小结
第7章 辩证思维
7.1 要不要辩证有多大区别
7.2 谁对谁错
7.3 做到客观不容易
7.4 观念的存弭
7.5 本章小结
分化篇
第8章 统计学
8.1 数理统计鼻祖——阿道夫·凯特勒
8.2 统计就是统共合计
8.3 数据来源
8.4 抽样
8.5 对照实验
8.6 误差
8.6.1 抽样误差
8.6.2 非抽样误差
8.7 概括性度量
8.7.1 集中趋势度量
8.7.2 离散程度度量
8.7.3 小结
8.8 概率与分布
8.8.1 数学期望
8.8.2 正态分布
8.8.3 其他分布
8.9 统计学与大数据
第9章 信息论
9.1 模拟信号
9.2 信息量与信息熵
9.3 香农公式
9.4 数字信号
9.5 编码与压缩
9.5.1 无损压缩
9.5.2 有损压缩
9.6 本章小结
第10章 混沌论
10.1 洛伦兹在想什么
10.2 罗伯特·梅的养鱼计划
10.3 有限的大脑,无限的维
10.4 “谋杀上帝”的拉普拉斯
10.5 庞加莱“不是省油的灯”
10.6 未知居然还能做预测
10.7 本章小结
第11章 算法学
11.1 离散的世界
11.2 成本的度量
11.3 穷举法——暴力破解
11.4 分治法——化繁为简
11.5 回溯法——能省则省
11.6 贪心法——局部最优
11.7 迭代法——步步逼近
11.7.1 牛顿法
11.7.2 梯度下降法
11.7.3 遗传算法
11.8 机器学习——自动归纳
11.8.1 非监督学习
11.8.2 监督学习
11.8.3 强化学习
11.9 神经网络——深度学习
11.9.1 神经元
11.9.2 BP神经网络
11.9.3 损失函数
11.9.4 非线性分类
11.9.5 激励函数
11.9.6 卷积神经网络
11.9.7 循环神经网络
11.9.8 小结
11.10 本章小结
实践篇
第12章 数据采集
12.1 数据的源头
12.2 日志的收集
12.2.1 实时上传
12.2.2 延时上传
12.2.3 加密问题
12.2.4 压缩问题
12.2.5 连接方式
12.2.6 消息格式
12.2.7 维度分解
12.3 这只是不靠谱的开始
12.4 本章小结
第13章 数据存储
13.1 读写不对等
13.1.1 读多写少
13.1.2 读少写多
13.1.3 读写都多
13.2 进快还是出快
13.2.1 最快写入
13.2.2 读出最快
13.3 文件还是数据库
13.4 要不要支持事务
13.5 表分区和索引
13.5.1 表分区
13.5.2 索引
13.6 稳定最重要
13.7 安全性和副本
13.7.1 RAID
13.7.2 软冗余
13.8 本章小结
第14章 数据统计
14.1 此“统计”恐非彼“统计”
14.2 要精确还是要简洁
14.3 统计是万能的吗
14.4 注意性能
14.5 本章小结
第15章 数据建模
15.1 模型是宝贵的财富
15.2 量化是关键
15.3 该算法出马了
15.3.1 统计学模型
15.3.2 线性关系
15.3.3 复杂的非线性关系
15.4 算法的哲学
15.5 本章小结
第16章 数据可视化与分析
16.1 看得见,摸得着
16.2 颜色很重要
16.3 别说布局没有用
16.3.1 由上而下,由简而繁
16.3.2 总-分,分-总,总-分-总
16.3.3 毗邻吸引
16.4 有图就别要表格
16.5 分析的内涵
16.5.1 相关性分析
16.5.2 预测分析
16.5.3 其他分析
16.6 有趣的统计应用
16.6.1 不规则图形的面积
16.6.2 套出你的实话
16.6.3 巧测圆周率
16.7 仁者见仁,智者见智
16.8 永恒的困惑
16.9 本章小结
第17章 数据决策
17.1 决策就是“拍脑袋”
17.2 哪里有物质,哪里就有数据
17.2.1 目的的统一
17.2.2 数据胜于雄辩
17.3 这是风险博弈
17.3.1 性价比优先
17.3.2 小迭代至上
17.3.3 不要“输不起”
17.3.4 留得青山在
17.4 本章小结
第18章 案例分析
18.1 K线图里的秘密
18.1.1 什么是市场
18.1.2 谁在控制价格
18.1.3 货币价格的形成
18.1.4 零和博弈
18.1.5 涨跌都盈利
18.1.6 价格的预测
18.1.7 形态
18.1.8 K线图周期
18.1.9 造市商与点差
18.1.10 科学分析
18.1.11 小结
18.2 数学能救命
18.2.1 阴云下的大西洋
18.2.2 护航船队的救星
18.2.3 数学家的天下
18.2.4 小结
18.3 人人都能运筹帷幄
第19章 与本书相关内容的问与答
后记
附录A
A.1 VMware Workstation的安装
A.1.1 VMware简介
A.1.2 安装准备工作
A.2 在VMware上安装CentOS
A.2.1 下载
A.2.2 安装
A.3 在VMware上安装Ubuntu
A.4 Python语言简介
A.4.1 安装Python
A.4.2 Hello Python
A.4.3 行与缩进
A.4.4 变量类型
A.4.5 循环语句
A.4.6 函数
A.4.7 模块
A.4.8 小结
A.5 Scikit-learn库简介
A.6 安装Theano
A.7 安装Keras
A.8 安装MySQL
A.9 安装MySQL-Python驱动
A.10 MT4平台简介
参考文献
📜 SIMILAR VOLUMES
<p>本书是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章,每章介绍一到两个Python数据科学中的重点工具包。首先从IPython和Jupyter开始,它们提供了数据科学家需要的计算环境;第2章讲解能提供ndarray对象的NumPy,它可以用Python高效地存储和操作大型数组;第3章主要涉及提供DataFrame对象的Pandas,它可以用Python高效地存储和操作带标签的/列式数据;第4章的主角是Matplotlib,它为Python提供了许多数据可视化功能;第5章以Scikit-Learn为主,这个程序库为最重要的机器学习算法提供了高效整洁的Pytho
本书的目标是教会读者使用最重要的数据科学工具,从而为实施数据科学奠定坚实的基础。读完本书后,你将掌握R语言的精华,并能够熟练使用多种工具来解决各种数据科学难题。每一章都按照这样的顺序组织内容:先给出一些引人入胜的示例,以便你可以整体了解这一章的内容,然后再深入细节。本书的每一节都配有习题,以帮助你实践所学到的知识。