实战大数据

✍ Scribed by 鲍两; 李倩

Publisher: 清华大学出版社
Year: 2014
Tongue: Chinese
Leaves: 538
Category: Library

No coin nor oath required. For personal study only.

✦ Synopsis

“数据是重要资产”已成为大家的共识，众多公司都在争相分析、挖掘大数据背后的信息资源。本书在此背景下，对目前大数据及其相关技术的发展进行总结，理论联系实践，既不缺乏理论深度又具有实用价值。

本书共12章，内容包括大数据的概念、特点、发展历史，数据获取与存储，数据抽取和清洗，数据集成，数据的查询、分析与建模，异构数据采集，文档的存储与检索，异种数据的统一访问与转换，基于微博的股票市场预测系统实例，海量视频检索系统实例，HDFS云文件系统实例。

本书适合大数据技术初学者、大数据从业人员和研究人员，也可以作为高等院校相关专业师生的教学参考书。

✦ Table of Contents

封面
扉页
内容简介
版权页
前言
目录
第一篇　大数据基础篇
第1章　大数据介绍
第2章　数据存储技术
第3章　数据抽取和清洗
第4章　数据集成
第5章　数据查询、分析与建模技术
第二篇　大数据深入篇
第6章　采用OSGi框架构建可伸缩的异构数据采集平台
第7章　采用HBase实现海量小型XML文档的存储与检索
第8章　采用Map/Reduce进行大规模社交网络社团发现
第9章　数据统一访问与转换平台
第三篇　大数据应用篇
第10章　基于微博的股票市场预测系统
第11章　基于内容的海量视频检索系统
第12章　基于HDFS的云文件系统
正文结束

📜 SIMILAR VOLUMES

大数据项目实战

📁 大数据项目实战

✍ 黑马程序员 📂 Library 📅 2020 🏛 清华大学出版社 🌐 Chinese

本书讲解了一个大数据综合项目---招聘网站职位分析。全书共分为 6 章,内容分别是项目概述、搭建大数据集群环境、数据采集、数据预处理、数据分析与数据可视化。 本书附有配套资源,包括源代码、教学设计、教学课件等资源。同时为了帮助初学者更好地学习本书内容,还提供了在线管疑,欢迎读者关注。 本书适用于高等院校本、专科计算机相关专业大数据项目实训课程的教学,书中的具体项目,有助于读者综合运用大数据课程知识及各种工具软件,实现大数据分析全流程操作。

Hadoop大数据分析实战

📁 Hadoop大数据分析实战

✍ [美] 斯里达尔？奥拉著李垚译 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

本书详细阐述了与Hadoop 3大数据分析相关的基本解决方案，主要包括Hadoop简介、大数据分析概述、基于MapReduce的大数据处理、Python-Hadoop科学计算和大数据分析、R-Hadoop统计数据计算、Apache Spark批处理分析、Apache Spark实时数据分析、Apache Flink批处理分析、Apache Flink流式处理、大数据可视化技术、云计算简介、使用亚马逊Web服务等内容。此外，本书还提供了相应的示例、代码，以帮助读者进一步理解相关方案的实现过程。本书适合作为高等院校计算机及相关专业的教材和教学参考书，也可作为相关开发人员的自学教材和参考手册。

实战Hadoop大数据处理

📁 实战Hadoop大数据处理

✍ 曾刚 📂 Library 📅 2015 🏛 清华大学出版社 🌐 Chinese

《实战Hadoop大数据处理》以“大数据”为起点，较详细地介绍了Hadoop的相关知识。全书共分为9章，介绍了大数据的基本理论、Hadoop生态系统、Hadoop的安装、HDFS分布式文件系统、MapReduce的原理及开发、HBase数据库、Hive数据仓库、Sqoop数据转换工具，最后结合实际介绍了大数据在智能交通和情报分析中的应用。本书力求用浅显的语言、生动的案例、详细的操作步骤向广大读者介绍Hadoop；力求深入浅出，把复杂的理论与实际案例相结合，用平实的语言把深奥的原理简单化；力求图文并茂，通过适当的图表把零乱的知识点有序地展现在读者面前；力求紧跟时代步伐，尽量结合较新版本的软件阐述

Spark大数据分析与实战

📁 Spark大数据分析与实战

✍ 黑马程序员 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

本书从初学者角度详细介绍了Spark应用程序体系架构的核心技术，全书共9章。第1章详细介绍开发Spark框架的Scala编程语言；第2～4、7～8章主要讲解Spark核心基础、SparkRDD弹性分布式数据集、Spark SQL处理结构化数据、Spark Streaming实时计算框架、Spark MLlib机器学习库，并包含了搭建Spark集群、Spark集群的操作方式、利用Spark解决大数据工作中遇到的基本问题。第5～6章主要讲解大数据环境中常见的辅助系统，HBase数据库以及Kafka流处理平台，包含辅助系统的搭建方式、使用方法以及相关底层实现的基本原理；第9章是一个综合项目，利用Sp

数据科学实战

📁 数据科学实战

✍ Rachel Schutt, Cathy O’Neil 📂 Library 📅 2015 🏛 人民邮电出版社 🌐 Chinese

统计推断、探索性数据分析（EDA）及数据科学工作流程算法垃圾邮件过滤、朴素贝叶斯和数据清理逻辑回归金融建模推荐引擎和因果关系数据可视化社交网络与数据新闻数据工程、MapReduce、Pregel和Hadoop

数据新闻实战

📁 数据新闻实战

✍ 刘英华 📂 Library 📅 2016 🏛 电子工业出版社 🌐 Chinese

《数据新闻实战》紧密围绕数字媒体环境下新闻工作者在数据新闻制作中的实际需求，基于案例全面介绍了数据新闻制作的流程。《数据新闻实战》理论和实践结合，内容包括数据新闻的概念和制作流程，公开数据的获取、申请和搜索方法，数据转换和存储方法，“脏数据”的成因及其表现形式，常见的数据清理和分析工具，基于OpenRefine环境清理“脏数据”的过程和方法，数据清理原则，数据合理性分析，缺失数据的预测和时间序列预测等。《数据新闻实战》同时阐明了数据可视化的概念，详细介绍了Tableau制作数据新闻的方法和技巧，最后介绍了其他常用的数据新闻制作工具。 《数据新闻实战》通俗易懂、结构严谨、层