𝔖 Scriptorium
✦   LIBER   ✦

📁

大数据项目实战

✍ Scribed by 黑马程序员


Publisher
清华大学出版社
Year
2020
Tongue
Chinese
Leaves
152
Series
大数据技术与应用丛书
Category
Library

⬇  Acquire This Volume

No coin nor oath required. For personal study only.

✦ Synopsis


本书讲解了一个大数据综合项目---招聘网站职位分析。全书共分为 6 章,内容分别是项目概述、搭建大数据集群环境、数据采集、数据预处理、数据分析与数据可视化。

本书附有配套资源,包括源代码、教学设计、教学课件等资源。同时为了帮助初学者更好地学习本书内容,还提供了在线管疑,欢迎读者关注。

本书适用于高等院校本、专科计算机相关专业大数据项目实训课程的教学,书中的具体项目,有助于读者综合运用大数据课程知识及各种工具软件,实现大数据分析全流程操作。

✦ Table of Contents


封面
扉页
内容简介
版权页
序言
前言
目录
第1章 项目概述
1.1 项目需求和目标
1.2 预备知识
1.3 项目架构设计及技术选取
1.4 开发环境和开发工具介绍
1.5 项目开发流程
小结
第2章 搭建大数据集群环境
2.1 安装准备
2.2 Hadoop集群搭建
2.3 Hive安装
2.4 Sqoop安装
小结
第3章 数据采集
3.1 知识概要
3.2 分析与准备
3.3 采集网页数据
小结
第4章 数据预处理
4.1 分析预处理数据
4.2 设计数据预处理方案
4.3 实现数据的预处理
4.4 将数据预处理程序提交到集群中运行
小结
第5章 数据分析
5.1 数据分析概述
5.2 Hive数据仓库
5.3 分析数据
小结
第6章 数据可视化
6.1 平台概述
6.2 数据迁移
6.3 平台环境搭建
6.4 实现图形化展示功能
小结
正文结束


📜 SIMILAR VOLUMES


大数据架构之道与项目实战
✍ 常耀斌 郑智民 周贤波 📂 Library 📅 2018 🏛 清华大学出版社 🌐 Chinese

<p>大数据和人工智能技术发展正当时,如何快速构建一个高水平的企业级大数据平台是撰写本书的出发点。本书从总体技术要求出发,深入分析了全栈技术的各自优势和应用场景,传授了三十多种主流技术的架构设计、技术原理和集成方法。第 1章介绍企业级大数据平台服务的总体设计,突出研究经典设计模式之美、吸纳分布式技术的精髓、深耕微架构的演变内涵。第 2章~第 9章是项目实战环节,介绍高并发采集、灵活转发、高可扩展海量存储、高并发海量存储、高可靠海量存储、实时计算、智能分析和自定义迁移等微服务,手把手传授架构设计和核心代码,让读者掌握商用微服务产品开发全流程。</p>

实战大数据
✍ 鲍两; 李倩 📂 Library 📅 2014 🏛 清华大学出版社 🌐 Chinese

<p>“数据是重要资产”已成为大家的共识,众多公司都在争相分析、挖掘大数据背后的信息资源。本书在此背景下,对目前大数据及其相关技术的发展进行总结,理论联系实践,既不缺乏理论深度又具有实用价值。</p> <p>本书共12章,内容包括大数据的概念、特点、发展历史,数据获取与存储,数据抽取和清洗,数据集成,数据的查询、分析与建模,异构数据采集,文档的存储与检索,异种数据的统一访问与转换,基于微博的股票市场预测系统实例,海量视频检索系统实例,HDFS云文件系统实例。</p> <p>本书适合大数据技术初学者、大数据从业人员和研究人员,也可以作为高等院校相关专业师生的教学参考书。</p>

Hadoop大数据分析实战
✍ [美] 斯里达尔?奥拉 著 李垚 译 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

本书详细阐述了与Hadoop 3大数据分析相关的基本解决方案,主要包括Hadoop简介、大数据分析概述、基于MapReduce的大数据处理、Python-Hadoop科学计算和大数据分析、R-Hadoop统计数据计算、Apache Spark批处理分析、Apache Spark实时数据分析、Apache Flink批处理分析、Apache Flink流式处 理、大数据可视化技术、云计算简介、使用亚马逊Web服务等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。

实战Hadoop大数据处理
✍ 曾刚 📂 Library 📅 2015 🏛 清华大学出版社 🌐 Chinese

《实战Hadoop大数据处理》以“大数据”为起点,较详细地介绍了Hadoop的相关知识。全书共分为9章,介绍了大数据的基本理论、Hadoop生态系统、Hadoop的安装、HDFS分布式文件系统、MapReduce的原理及开发、HBase数据库、Hive数据仓库、Sqoop数据转换工具,最后结合实际介绍了大数据在智能交通和情报分析中的应用。本书力求用浅显的语言、生动的案例、详细的操作步骤向广大读者介绍Hadoop;力求深入浅出,把复杂的理论与实际案例相结合,用平实的语言把深奥的原理简单化;力求图文并茂,通过适当的图表把零乱的知识点有序地展现在读者面前;力求紧跟时代步伐,尽量结合较新版本的软件阐述

Spark大数据分析与实战
✍ 黑马程序员 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

本书从初学者角度详细介绍了Spark应用程序体系架构的核心技术,全书共9章。第1章详细介绍开发Spark框架的Scala编程语言;第2~4、7~8章主要讲解Spark核心基础、SparkRDD弹性分布式数据集、Spark SQL处理结构化数据、Spark Streaming实时计算框架、Spark MLlib机器学习库,并包含了搭建Spark集群、Spark集群的操作方式、利用Spark解决大数据工作中遇到的基本问题。第5~6章主要讲解大数据环境中常见的辅助系统,HBase数据库以及Kafka流处理平台,包含辅助系统的搭建方式、使用方法以及相关底层实现的基本原理;第9章是一个综合项目,利用Sp

Django项目开发实战
✍ 黄索远 📂 Library 📅 2020 🏛 清华大学出版社 🌐 Chinese

本书将Django框架的特性和Web开发实战结合在一起,介绍如何使用Django框架进行Web应用的开发,帮助读者构建跨平台的应用程序,节省使用Django框架开发Web的宝贵时间。找到针对这些问题的解决方案,大多数编程难题都会迎刃而解。 本书内容涵盖表单处理、会话管理、数据库交互、安全防护及程序的部署维护等运维方面的知识,并且介绍了高可用的Web应用原理。在本书中,读者可以更加方便地找到各种编程问题的解决方案。 本书实用性强,特别适合使用Python/PHP等进行Web开发的IT从业者和对Web开发感兴趣的读者阅读。