𝔖 Scriptorium
✦   LIBER   ✦

📁

实战大数据

✍ Scribed by 鲍两; 李倩


Publisher
清华大学出版社
Year
2014
Tongue
Chinese
Leaves
538
Category
Library

⬇  Acquire This Volume

No coin nor oath required. For personal study only.

✦ Synopsis


“数据是重要资产”已成为大家的共识,众多公司都在争相分析、挖掘大数据背后的信息资源。本书在此背景下,对目前大数据及其相关技术的发展进行总结,理论联系实践,既不缺乏理论深度又具有实用价值。

本书共12章,内容包括大数据的概念、特点、发展历史,数据获取与存储,数据抽取和清洗,数据集成,数据的查询、分析与建模,异构数据采集,文档的存储与检索,异种数据的统一访问与转换,基于微博的股票市场预测系统实例,海量视频检索系统实例,HDFS云文件系统实例。

本书适合大数据技术初学者、大数据从业人员和研究人员,也可以作为高等院校相关专业师生的教学参考书。

✦ Table of Contents


封面
扉页
内容简介
版权页
前言
目录
第一篇 大数据基础篇
第1章 大数据介绍
第2章 数据存储技术
第3章 数据抽取和清洗
第4章 数据集成
第5章 数据查询、分析与建模技术
第二篇 大数据深入篇
第6章 采用OSGi框架构建可伸缩的异构数据采集平台
第7章 采用HBase实现海量小型XML文档的存储与检索
第8章 采用Map/Reduce进行大规模社交网络社团发现
第9章 数据统一访问与转换平台
第三篇 大数据应用篇
第10章 基于微博的股票市场预测系统
第11章 基于内容的海量视频检索系统
第12章 基于HDFS的云文件系统
正文结束


📜 SIMILAR VOLUMES


大数据项目实战
✍ 黑马程序员 📂 Library 📅 2020 🏛 清华大学出版社 🌐 Chinese

<p>本书讲解了一个大数据综合项目---招聘网站职位分析。全书共分为 6 章,内容分别是项目概述、搭建大数据集群环境、数据采集、数据预处理、数据分析与数据可视化。</p> <p>本书附有配套资源,包括源代码、教学设计、教学课件等资源。同时为了帮助初学者更好地学习本书内容,还提供了在线管疑,欢迎读者关注。</p> <p>本书适用于高等院校本、专科计算机相关专业大数据项目实训课程的教学,书中的具体项目,有助于读者综合运用大数据课程知识及各种工具软件,实现大数据分析全流程操作。</p>

Hadoop大数据分析实战
✍ [美] 斯里达尔?奥拉 著 李垚 译 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

本书详细阐述了与Hadoop 3大数据分析相关的基本解决方案,主要包括Hadoop简介、大数据分析概述、基于MapReduce的大数据处理、Python-Hadoop科学计算和大数据分析、R-Hadoop统计数据计算、Apache Spark批处理分析、Apache Spark实时数据分析、Apache Flink批处理分析、Apache Flink流式处 理、大数据可视化技术、云计算简介、使用亚马逊Web服务等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。

实战Hadoop大数据处理
✍ 曾刚 📂 Library 📅 2015 🏛 清华大学出版社 🌐 Chinese

《实战Hadoop大数据处理》以“大数据”为起点,较详细地介绍了Hadoop的相关知识。全书共分为9章,介绍了大数据的基本理论、Hadoop生态系统、Hadoop的安装、HDFS分布式文件系统、MapReduce的原理及开发、HBase数据库、Hive数据仓库、Sqoop数据转换工具,最后结合实际介绍了大数据在智能交通和情报分析中的应用。本书力求用浅显的语言、生动的案例、详细的操作步骤向广大读者介绍Hadoop;力求深入浅出,把复杂的理论与实际案例相结合,用平实的语言把深奥的原理简单化;力求图文并茂,通过适当的图表把零乱的知识点有序地展现在读者面前;力求紧跟时代步伐,尽量结合较新版本的软件阐述

Spark大数据分析与实战
✍ 黑马程序员 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

本书从初学者角度详细介绍了Spark应用程序体系架构的核心技术,全书共9章。第1章详细介绍开发Spark框架的Scala编程语言;第2~4、7~8章主要讲解Spark核心基础、SparkRDD弹性分布式数据集、Spark SQL处理结构化数据、Spark Streaming实时计算框架、Spark MLlib机器学习库,并包含了搭建Spark集群、Spark集群的操作方式、利用Spark解决大数据工作中遇到的基本问题。第5~6章主要讲解大数据环境中常见的辅助系统,HBase数据库以及Kafka流处理平台,包含辅助系统的搭建方式、使用方法以及相关底层实现的基本原理;第9章是一个综合项目,利用Sp

数据科学实战
✍ Rachel Schutt, Cathy O’Neil 📂 Library 📅 2015 🏛 人民邮电出版社 🌐 Chinese

统计推断、探索性数据分析(EDA)及数据科学工作流程 算法 垃圾邮件过滤、朴素贝叶斯和数据清理 逻辑回归 金融建模 推荐引擎和因果关系 数据可视化 社交网络与数据新闻 数据工程、MapReduce、Pregel和Hadoop

数据新闻实战
✍ 刘英华 📂 Library 📅 2016 🏛 电子工业出版社 🌐 Chinese

<p>《数据新闻实战》紧密围绕数字媒体环境下新闻工作者在数据新闻制作中的实际需求,基于案例全面介绍了数据新闻制作的流程。《数据新闻实战》理论和实践结合,内容包括数据新闻的概念和制作流程,公开数据的获取、申请和搜索方法,数据转换和存储方法,“脏数据”的成因及其表现形式,常见的数据清理和分析工具,基于OpenRefine环境清理“脏数据”的过程和方法,数据清理原则,数据合理性分析,缺失数据的预测和时间序列预测等。《数据新闻实战》同时阐明了数据可视化的概念,详细介绍了Tableau制作数据新闻的方法和技巧,最后介绍了其他常用的数据新闻制作工具。</p> <p>《数据新闻实战》通俗易懂、结构严谨、层