𝔖 Scriptorium
✦   LIBER   ✦

📁

Python+Spark 2.0+Hadoop机器学习与大数据实战

✍ Scribed by 林大贵


Publisher
清华大学出版社
Year
2018
Tongue
Chinese
Leaves
540
Category
Library

⬇  Acquire This Volume

No coin nor oath required. For personal study only.

✦ Synopsis


本书从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,如分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应用等。书中不仅加入了新近的大数据技术,还丰富了“机器学习”内容。 为降低读者学习大数据技术的门槛,书中提供了丰富的上机实践操作和范例程序详解,展示了如何在单机Windows系统上通过Virtual Box虚拟机安装多机Linux虚拟机,如何建立Hadoop集群,再建立Spark开发环境。书中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校,参照书中介绍的搭建过程,同样可以实现将自己的平台搭建在多台实体计算机上,以便更加接近于大数据和机器学习真实的运行环境。 本书非常适合于学习大数据基础知识的初学者阅读,更适合正在学习大数据理论和技术的人员作为上机实践用的教材。


📜 SIMILAR VOLUMES


Python大数据分析与机器学习商业案例实战
✍ 王宇韬; 钱妍竹 📂 Library 📅 2020 🏛 机械工业出版社 🌐 Chinese

<p>大数据分析与机器学习技术已成为各行各业实现数字化变革的关键驱动力。本书以功能强大且较易上手的Python语言为编程环境,全面讲解了大数据分析与机器学习技术的商业应用实战。</p> <p>全书共16章,讲解了线性回归模型、逻辑回归模型、决策树模型、朴素贝叶斯模型、K近邻算法模型、随机森林模型、AdaBoost与GBDT模型、XGBoost与LightGBM模型、PCA(主成分分析)模型、聚类与分群模型(KMeans与DBSCAN算法)、协同过滤算法模型、Apriori关联分析模型、神经网络模型等十余种机器学习模型的原理和代码实现,每种模型都配有一到两个典型案例,涵盖金融、营销、医疗、社会

大话数据科学——大数据与机器学习实战(基于R语言)
✍ 陈文贤 📂 Library 📅 2020 🏛 清华大学出版社 🌐 Chinese

本书以独特的方式讲解数据科学,不仅让读者可以轻松学习数据科学理论,又可以动手(手算和机算)进行数据科学实战。本书特色:全彩印刷,图形、表格、思维导图丰富;避免深奥的数学证明,采用简单的数学说明;用各种学习图将本书内容贯穿起来;实战计算,包含小型数据的演算和大型数据的实战程序。 本书共13章,内容涵盖丰富的数据科学模型,包含关联分析、聚类分析、贝叶斯分类、近邻法、决策树、降维分析、回归模型等算法。利用小数据例题介绍计算步骤,同时用R语言验证计算结果。另外,也有大数据的案例数据,例如:推荐系统、支持向量机、集成学习等。另外,本书只有大数据的案例数据用R语言计算。 本书适合各个专业领域(

白话大数据与机器学习
✍ 高扬; 卫峥; 尹会生 📂 Library 📅 2016 🏛 机械工业出版社 🌐 Chinese

<p>本书通俗易懂,有高中数学基础即可看懂,同时结合大量案例与漫画,将高度抽象的数学、算法与应用,与现实生活中的案例和事件一一做了关联,将源自生活的抽象还原出来,帮助读者理解后,又带领大家将这些抽象的规律与算法应用于实践,贴合读者需求。同时,本书不是割裂讲解大数据与机器学习的算法和应用,还讲解了其生态环境与关联内容,让读者更全面地知晓渊源与未来,是系统学习大数据与机器学习的不二之选:</p> <p>·大数据产业解读一一剖析产业情况,人才供需、职业选择与相应“武器”库;</p> <p>·步入大数据之门一一解读数据、信息、算法,以及与大数据应用的关系;</p> <p>·大数据基石一一结合大量

机器学习与大数据技术
✍ 牟少敏 📂 Library 📅 2018 🏛 电子工业出版社 🌐 Chinese

本书较为全面地论述了机器学习、深度学习、大数据技术与图像处理技术的基本概念、基础原理和基本方法,以农业为应用场景,力求通缩易懂,深入浅出的介绍了与机器学习、深度学习、大数据技术与图像处理技术问题联系密切的内容。全书主要分为4大部分:机器学习、大数据技术和图像处理技术的基础知识;经典的机器学习基本理论和方法,以及深度学习和大数据未来的发展;实践应用;机器学习和人工智能的数学基础与编程基础。

Spark大数据分析与实战
✍ 黑马程序员 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

本书从初学者角度详细介绍了Spark应用程序体系架构的核心技术,全书共9章。第1章详细介绍开发Spark框架的Scala编程语言;第2~4、7~8章主要讲解Spark核心基础、SparkRDD弹性分布式数据集、Spark SQL处理结构化数据、Spark Streaming实时计算框架、Spark MLlib机器学习库,并包含了搭建Spark集群、Spark集群的操作方式、利用Spark解决大数据工作中遇到的基本问题。第5~6章主要讲解大数据环境中常见的辅助系统,HBase数据库以及Kafka流处理平台,包含辅助系统的搭建方式、使用方法以及相关底层实现的基本原理;第9章是一个综合项目,利用Sp

Python+Tensorflow机器学习实战
✍ 李鸥 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

《Python+TensorFlow机器学习实战》通过开发实例和项目案例,详细介绍TensorFlow开发所涉及的主要内容。书中的每个知识点都通过实例进行通俗易懂的讲解,便于读者轻松掌握有关TensorFlow开发的内容和技巧,并能够得心应手地使用TensorFlow进行开发。 《Python+TensorFlow机器学习实战》内容共分为11章,首先介绍TensorFlow的基本知识,通过实例逐步深入地讲解线性回归、支持向量机、神经网络算法和无监督学习等常见的机器学习算法模型。然后通过TensorFlow在自然语言文本处理、语音识别、图形识别和人脸识别等方面的成功应用讲解TensorFlow的