Spark大数据处理: 原理、算法与实例

✍ Scribed by 刘军; 林文辉; 方澄

Publisher: 清华大学出版社
Year: 2016
Tongue: Chinese
Leaves: 207
Category: Library

No coin nor oath required. For personal study only.

✦ Synopsis

刘军，男，1976年生人，博士，副教授，硕士生导师，北京邮电大学数据科学中心主任。2003年至2007年任职于IBM中国研究院，担任高级研究员及部门经理，建立IBM中国研究院电信融合网络管理研究方向，主持研发Websphere及Tivoli电信产品线中多项关键技术，期间发表多篇国际会议及刊物论文，并申请获得多项美国专利。2007年至2012年创办欢城（北京）科技有限公司，开创中国无端网络游戏产业，并担任中国软件协会网页游戏专业委员会委员。公司产品多次荣获国内互联网业界奖项，2008年获中国互联网协会“运营价值Webgame”奖项。2012年至今在北京邮电大学信息与通信工程学院任教，研究方向为电信及互联网大数据分析、高速数据流挖掘算法，并牵头组建北京邮电大学数据科学中心。开设研究生课程“海量数据处理中的云计算”，发表大数据分析相关SCI／EI检索论文十余篇，并独著《Hadoop大数据处理》一书，该书被哈尔滨工业大学、中南大学等多所高校的相关课程作为教材使用。

林文辉，男，博士，高级工程师，航天信息股份有限公司研究院大数据技术总监。自2009年至今在航天信息研究院担任云平台事业部经理。承担过多个国家重大课题项目，包括国有资本金项目、科技部粮食信息化安全项目、国资委信息化建设等。主要研究方向：税务和公安行业大数据应用、云计算、云安全。

✦ Table of Contents

封面
扉页
内容简介
版权页
前言
目录
第1章　从Hadoop到Spark
1.1　Hadoop——大数据时代的火种
1.2　Hadoop的局限性
1.3　大数据技术新星——Spark
第2章　体验Spark
2.1　安装和使用Spark
2.2　编写和运行Spark程序
2.3　Spark Web UI
第3章　Spark原理
3.1　Spark工作原理
3.2　Spark架构及运行机制
第4章　RDD算子
4.1　创建算子
4.2　变换算子
4.3　行动算子
4.4　缓存算子
第5章　Spark算法设计
5.1　过滤
5.2　去重计数
5.3　相关计数
5.4　相关系数
5.5　数据联结
5.6　Top-K
5.7　K-means
5.8　关联规则挖掘
5.9　kNN
5.10　朴素贝叶斯分类
第6章　善用Spark
6.1　合理分配资源
6.2　控制并行度
6.3　利用持久化
6.4　选择恰当的算子
6.5　利用共享变量
6.6　利用序列化技术
6.7　关注数据本地性
6.8　内存优化策略
6.9　集成外部工具
正文结束
参考文献

📜 SIMILAR VOLUMES

实验误差原理与数据处理

📁 实验误差原理与数据处理

✍ 杨旭武 📂 Library 📅 2009 🏛 科学出版社 🌐 Chinese

本书根据实验误差的性质和数据处理的规律编写而成，去掉了繁而难的数学推演，深入浅出，通俗易懂，实用性强。本书包括误差理论、数据处理、附录、习题及其答案和研究生读书应用报告五部分，其主要内容包含实验误差的分类及其表示方法，实验误差原理，实验数据的期望值、方差及其估计，实验测量中误差的传递，实验数据的平均值及其误差，实验数据的统计检验，实验结果的正确报道，实验数据的表示法，实验数据处理中的插值法和量热实验数据的处理。书后附有配套的习题和答案，以及研究生读书应用报告实例。本书可供化学、化工专业本科生和研究生及教学工作者使用，亦可作为其他实验研究、数理统计及相关科技工作者的参考用书。

数据挖掘算法原理与实现

📁 数据挖掘算法原理与实现

✍ 王振武 📂 Library 📅 2015 🏛 清华大学大学出版社 🌐 Chinese

<p>王振武、徐慧编著的这本《数据挖掘算法原理与实现》对数据挖掘的基本算法进行了系统的介绍，每种算法不仅包括对算法基本原理的介绍，而且配有大量的例题以及源代码，并且对源代码进行了分析，这种理论和实践相结合的方式有助于读者较好地理解和掌握抽象的数据挖掘算法。　　全书共分11章，内容同时涵盖了数据预处理、关联规则挖掘算法、分类算法和聚类算法，具体章节包括绪论、数据预处理、关联规则挖掘、决策树分类算法、贝叶斯分类算法、人工神经网络算法、支持向量机、k－means聚类算法、k－中心点聚类算法、神经网络聚类算法以及数据挖掘的发展等内容。　　本书可作为高等院校数据挖掘课程的教材，也

实战Hadoop大数据处理

📁 实战Hadoop大数据处理

✍ 曾刚 📂 Library 📅 2015 🏛 清华大学出版社 🌐 Chinese

《实战Hadoop大数据处理》以“大数据”为起点，较详细地介绍了Hadoop的相关知识。全书共分为9章，介绍了大数据的基本理论、Hadoop生态系统、Hadoop的安装、HDFS分布式文件系统、MapReduce的原理及开发、HBase数据库、Hive数据仓库、Sqoop数据转换工具，最后结合实际介绍了大数据在智能交通和情报分析中的应用。本书力求用浅显的语言、生动的案例、详细的操作步骤向广大读者介绍Hadoop；力求深入浅出，把复杂的理论与实际案例相结合，用平实的语言把深奥的原理简单化；力求图文并茂，通过适当的图表把零乱的知识点有序地展现在读者面前；力求紧跟时代步伐，尽量结合较新版本的软件阐述

大数据处理框架Apache Spark设计与实现（全彩）

📁 大数据处理框架Apache Spark设计与实现（全彩）

✍ 许利杰; 方亚芬 📂 Library 📅 2020 🏛 电子工业出版社 🌐 Chinese

<p>近年来，以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心，总结了大数据处理框架的基础知识、核心理论、典型的Spark应用，以及相关的性能和可靠性问题。本书分9章，主要包含四部分内容。第一部分大数据处理框架的基础知识（第1～2章）：介绍大数据处理框架的基本概念、系统架构、编程模型、相关的研究工作，并以一个典型的Spark应用为例概述Spark应用的执行流程。第二部分 Spark大数据处理框架的核心理论（第3～4章）：介绍Spark框架将应用程序转化为逻辑处理流程，进而转化为可并行执行的物理执行计划的一般过程及方法。

云计算环境下Spark大数据处理技术与实践

📁 云计算环境下Spark大数据处理技术与实践

✍ 邓立国佟强 📂 Library 📅 2017 🏛 清华大学出版社 🌐 Chinese

本书围绕互联网重大的技术革命：云计算、大数据进行阐述。云计算环境下大数据处理构建是国民经济发展的信息基础设施，发展自主的云计算核心技术，拥有自己的信息基础设施，当前正处于重要的机遇期。本书重点在大数据与云计算的融合，给出了大数据与云计算的一些基本概念，并以Spark为开发工具，全面讲述云环境下的Spark大数据技术部署与典型案例算法实现，最后介绍了国内经典Spark大数据与云计算融合的架构与算法。本书适合云计算环境下Spark大数据技术人员、Spark MLlib机器学习技术人员，也适合高等院校和培训机构相关专业的师生教学参考。

大数据处理与存储技术

📁 大数据处理与存储技术

✍ 葛维春 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

本书归纳和总结了主流数据库软件和常用数据处理工具的常见问题与应用技巧，为大数据技术与传统数据存储和转换技术相结合提供了技术参考，为促进大数据技术的发展，为数据库和ETL开发人员、运维人员提供了技术支撑。本书分为3篇，共5章，主要内容包括Oracle数据库应用、MySQL数据库应用、Informatica PowerCenter 工具应用、Kettle工具应用、数据库调优与ETL工具应用技巧。本书分别从数据存储软件、数据抽取与清洗软件等方面，向读者展示了Oracle、MySQL、Informatica和Kettle的常见问题、优化与提升的技巧。本书所涉及的内容均为生产实践中必要的过程和