<p>本书内容分为三个部分,第一部分为互联网大数据的概述;第二部分为互联网大数据的获取与存储,包括了静态或动态WEB页面内容获取技术、结构化或非结构化数据的存储、常见的开源系统等;第二部分为处理与分析技术,包括了文本数据预处理、数据内容的语义分析技术、文本内容分类技术、聚类分析、大数据中的隐私保护、大数据可视化等内容;第三部分为综合应用。</p>
大数据处理与存储技术
✍ Scribed by 葛维春
- Publisher
- 清华大学出版社
- Year
- 2019
- Tongue
- Chinese
- Leaves
- 412
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
本书归纳和总结了主流数据库软件和常用数据处理工具的常见问题与应用技巧,为大数据技术与传 统数据存储和转换技术相结合提供了技术参考,为促进大数据技术的发展,为数据库和ETL开发人员、 运维人员提供了技术支撑。 本书分为3篇,共5章,主要内容包括Oracle数据库应用、MySQL数据库应用、Informatica PowerCenter 工具应用、Kettle工具应用、数据库调优与ETL工具应用技巧。本书分别从数据存储软件、数据抽取与 清洗软件等方面,向读者展示了Oracle、MySQL、Informatica和Kettle的常见问题、优化与提升的技巧。 本书所涉及的内容均为生产实践中必要的过程和阶段,讲解由浅入深、通俗易懂,适合从事数据库 开发、维护、管理、优化任务和高可用设计的工程技术人员及从事ETL开发、优化的工程技术人员使用 或参考。
✦ Table of Contents
封面
扉页
内容简介
版权页
编委会名单
前言
目录
第一篇 数据库软件篇
第1章 Oracle数据库应用
第2章 MySQL数据库应用
第二篇 ETL工具篇
第3章 Informatica PowerCenter工具应用
第4章 Kettle工具应用
第三篇 高级调优篇
第5章 数据库调优与ETL工具应用技巧
正文结束
附录A Oracle错误信息表
附录B MySQL错误信息表
附录C Power Center错误信息表
📜 SIMILAR VOLUMES
本书围绕互联网重大的技术革命:云计算、大数据进行阐述。云计算环境下大数据处理构建是国民经济发展的信息基础设施,发展自主的云计算核心技术,拥有自己的信息基础设施,当前正处于重要的机遇期。本书重点在大数据与云计算的融合,给出了大数据与云计算的一些基本概念,并以Spark为开发工具,全面讲述云环境下的Spark大数据技术部署与典型案例算法实现,最后介绍了国内经典Spark大数据与云计算融合的架构与算法。本书适合云计算环境下Spark大数据技术人员、Spark MLlib机器学习技术人员,也适合高等院校和培训机构相关专业的师生教学参考。
本书是将大数据这一计算机前沿科学和基本应用有机结合的典范教材,全面介绍大数据和相关的基础知识,由浅入深地剖析大数据的分析处理方法和技术手段,突出介绍大数据最新的发展趋势和技术成果。本书的一大亮点是每章中都使用图表对大数据与传统数据处理方式进行对比。另外,本书注重启发式的学习策略,便于读者理解和掌握。全书每章均包括实际应用案例与关键词注释,方便读者查阅和自学,同时配备习题和参考答案。本书体系完整、内容丰富、注重应用、前瞻性强、适用性好,并有开放式的课程教学网站(http://www.cmu.edu.cn/computer)提供技术支持。本书既可以作为普通高校大数据技术的基础教材,也可以作为职业培
本书由斯坦福大学“Web 挖掘”课程的内容总结而成,主要关注极大规模数据的挖掘。主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统、社会网络图挖掘和大规模机器学习等。其中每一章节有对应的习题,以巩固所讲解的内容。读者更可以从网上获取相关拓展材料。
随着计算机技术的迅猛发展,人类社会进入到一个崭新的时代。相伴而来的电子存储技术正在改变人们的学习、生活和工作方式,U盘、固态硬盘、数码相机、手机等各类电子存储设备的广泛普及,其数据安全问题已经成为人们普遍关注的问题,数据恢复技术从业人员及相关专业学生以及广大电子设备使用者,应该了解掌握一定的电子设备的数据安全和数据恢复知识和一些基本技能。本书合理组织理论与实践内容,目的是为了使读者能够了解Flash设备数据存储及其数据恢复的基本知识,掌握相关的恢复技能等。本书构建了一个个鲜明的项目,层次清楚,概念精准,由浅入深,通俗易懂,既有基本知识、基本原理,又能够密切联系实际。
本书较为全面地论述了机器学习、深度学习、大数据技术与图像处理技术的基本概念、基础原理和基本方法,以农业为应用场景,力求通缩易懂,深入浅出的介绍了与机器学习、深度学习、大数据技术与图像处理技术问题联系密切的内容。全书主要分为4大部分:机器学习、大数据技术和图像处理技术的基础知识;经典的机器学习基本理论和方法,以及深度学习和大数据未来的发展;实践应用;机器学习和人工智能的数学基础与编程基础。