Python大数据分析与机器学习商业案例实战

✍ Scribed by 王宇韬; 钱妍竹

Publisher: 机械工业出版社
Year: 2020
Tongue: Chinese
Leaves: 791
Category: Library

No coin nor oath required. For personal study only.

✦ Synopsis

大数据分析与机器学习技术已成为各行各业实现数字化变革的关键驱动力。本书以功能强大且较易上手的Python语言为编程环境，全面讲解了大数据分析与机器学习技术的商业应用实战。

全书共16章，讲解了线性回归模型、逻辑回归模型、决策树模型、朴素贝叶斯模型、K近邻算法模型、随机森林模型、AdaBoost与GBDT模型、XGBoost与LightGBM模型、PCA（主成分分析）模型、聚类与分群模型（KMeans与DBSCAN算法）、协同过滤算法模型、Apriori关联分析模型、神经网络模型等十余种机器学习模型的原理和代码实现，每种模型都配有一到两个典型案例，涵盖金融、营销、医疗、社会科学、企业办公与管理等多个领域。

本书适合具备一定数学知识和编程基础、希望快速在工作中应用大数据分析与机器学习技术的读者阅读，也适合Python编程爱好者或对大数据分析与机器学习技术感兴趣的读者参考。

✦ Table of Contents

前言
如何获取学习资源
第1章 Python与数据科学
1.1 大数据分析与机器学习概述
1.2 Python编程环境部署与基本操作
1.3 Python基础知识概要
第2章数据分析利器：NumPy、pandas与Matplotlib库
2.1 NumPy库基础
2.2 pandas库基础
2.3 Matplotlib库基础
2.4 案例实战：股票数据读取与K线图绘制
第3章线性回归模型
3.1 一元线性回归
3.2 线性回归模型评估
3.3 多元线性回归
第4章逻辑回归模型
4.1 逻辑回归模型的算法原理
4.2 案例实战：客户流失预警模型
4.3 模型评估方法：ROC曲线与KS曲线
第5章决策树模型
5.1 决策树模型的基本原理
5.2 案例实战：员工离职预测模型
5.3 参数调优：K折交叉验证与GridSearch网格搜索
第6章朴素贝叶斯模型
6.1 朴素贝叶斯模型的算法原理
6.2 案例实战：肿瘤预测模型
第7章 K近邻算法
7.1 K近邻算法的原理和代码实现
7.2 案例实战：手写数字识别模型
7.3 图像识别原理详解
第8章随机森林模型
8.1 随机森林模型的原理和代码实现
8.2 案例实战：股票涨跌预测模型
第9章 AdaBoost与GBDT模型
9.1 AdaBoost算法原理
9.2 AdaBoost算法案例实战：信用卡精准营销模型
9.3 GBDT算法原理
9.4 GBDT算法案例实战：产品定价模型
第10章机器学习神器：XGBoost与Light-GBM算法
10.1 XGBoost算法原理
10.2 XGBoost算法案例实战1：金融反欺诈模型
10.3 XGBoost算法案例实战2：信用评分卡模型
10.4 LightGBM算法原理
10.5 LightGBM算法案例实战1：客户违约预测模型
10.6 LightGBM算法案例实战2：广告收益回归预测模型
第11章特征工程之数据预处理
11.1 非数值类型数据处理
11.2 重复值、缺失值及异常值处理
11.3 数据标准化
11.4 数据分箱
11.5 特征筛选：WOE值与IV值
11.6 多重共线性的分析与处理
11.7 过采样和欠采样
第12章数据降维之PCA
12.1 数据降维
12.2 案例实战：人脸识别模型
12.3 人脸识别外部接口调用
第13章数据聚类与分群分析
13.1 KMeans算法
13.2 DBSCAN算法
13.3 案例实战：新闻聚类分群模型
第14章智能推荐系统
14.1 智能推荐系统的基本原理
14.2 计算相似度的常用方法
14.3 案例实战：电影智能推荐系统
第15章关联分析：Apriori算法
15.1 关联分析的基本概念和Apriori算法
15.2 案例实战：病症关联规则分析
第16章深度学习初窥之神经网络模型
16.1 深度学习基础：神经网络模型
16.2 案例实战：用户评论情感分析模型

📜 SIMILAR VOLUMES

Python+Spark 2.0+Hadoop机器学习与大数据实战

📁 Python+Spark 2.0+Hadoop机器学习与大数据实战

✍ 林大贵 📂 Library 📅 2018 🏛 清华大学出版社 🌐 Chinese

本书从浅显易懂的“大数据和机器学习”原理说明入手，讲述大数据和机器学习的基本概念，如分类、分析、训练、建模、预测、机器学习（推荐引擎）、机器学习（二元分类）、机器学习（多元分类）、机器学习（回归分析）和数据可视化应用等。书中不仅加入了新近的大数据技术，还丰富了“机器学习”内容。为降低读者学习大数据技术的门槛，书中提供了丰富的上机实践操作和范例程序详解，展示了如何在单机Windows系统上通过Virtual Box虚拟机安装多机Linux虚拟机，如何建立Hadoop集群，再建立Spark开发环境。书中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校，参照书中介绍的搭

零起点Python足彩大数据与机器学习实盘分析

📁 零起点Python足彩大数据与机器学习实盘分析

✍ 何海群著 📂 Library 📅 2017 🏛 电子工业出版社 🌐 Chinese

本书使用Python编程语言、Pandas数据分析模块、机器学习和人工智能算法对足彩大数据进行实盘分析，设计并发布了开源大数据项目tfbDat足彩数据包，汇总了2010—2017年全球近7万场足球比赛的赛事和赔率数据。此外，还介绍使用Python语言抓取网页数据、下载更新tfbDat足彩数据包、预测和分析比赛球队的取胜概率，同时提出了检测人工智能算法优劣的“足彩图灵”法则。

大话数据科学——大数据与机器学习实战（基于R语言）

📁 大话数据科学——大数据与机器学习实战（基于R语言）

✍ 陈文贤 📂 Library 📅 2020 🏛 清华大学出版社 🌐 Chinese

本书以独特的方式讲解数据科学，不仅让读者可以轻松学习数据科学理论，又可以动手（手算和机算）进行数据科学实战。本书特色：全彩印刷，图形、表格、思维导图丰富；避免深奥的数学证明，采用简单的数学说明；用各种学习图将本书内容贯穿起来；实战计算，包含小型数据的演算和大型数据的实战程序。本书共13章，内容涵盖丰富的数据科学模型，包含关联分析、聚类分析、贝叶斯分类、近邻法、决策树、降维分析、回归模型等算法。利用小数据例题介绍计算步骤，同时用R语言验证计算结果。另外，也有大数据的案例数据，例如：推荐系统、支持向量机、集成学习等。另外，本书只有大数据的案例数据用R语言计算。本书适合各个专业领域（

大数据商业实战三部曲: Spark大数据商业实战三部曲：内核解密|商业案例|性能

📁 大数据商业实战三部曲: Spark大数据商业实战三部曲：内核解密|商业案例|性能调优

✍ 王家林; 段智华; 夏阳 📂 Library 📅 2018 🏛 清华大学出版社 🌐 Chinese

本书基于Spark 2.2.0新版本（2017年7月11日发布），以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心，以Spark内核解密为基石，分为上篇、中篇、下篇，对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码，从一个动手实战案例入手，循序渐进地全面解析了Spark 2.2新特性及Spark内核源码；中篇选取Spark开发中具有代表的经典学习案例，深入浅出地介绍，在案例中综合应用Spark的大数据技术；下篇性能调优内容基本完全覆盖了Spark在生产环境下的所有调优技术。本书适合所有Spark学习者和从业人员使用。对于

大数据分析与营销完全攻略（案例实战版）

📁 大数据分析与营销完全攻略（案例实战版）

✍ 海天电商金融研究中心 📂 Library 📅 2016 🏛 清华大学出版社 🌐 Chinese

本书通过近100家平台和企业的近100个实战案例，由浅入深一步步诠释了大数据和营销的奥秘，从两条线帮助读者从入门到精通大数据营销，从新手成为大数据营销高手。一条是横向案例线，通过大数据营销做得最好的十多个行业：服装、餐饮、房产、汽车、社交、影视、游戏、电商、医疗、通信、体育、旅游、生产等，对大数据营销和运营进行充分讲解。一条是纵向技巧线，通过近100个成功案例讲解大数据营销技巧：模式、产品设计、用户体验、痛点痒点解决方案、运营、分享等，对大数据营销进行详细分析与说明。本书适合以上十多个热门行业，以及相关行业准备从事大数据营销的人员或者企业；从事大数据营销有一段时间却没有获得预期效果的人员或

白话大数据与机器学习

📁 白话大数据与机器学习

✍ 高扬; 卫峥; 尹会生 📂 Library 📅 2016 🏛 机械工业出版社 🌐 Chinese

本书通俗易懂，有高中数学基础即可看懂，同时结合大量案例与漫画，将高度抽象的数学、算法与应用，与现实生活中的案例和事件一一做了关联，将源自生活的抽象还原出来，帮助读者理解后，又带领大家将这些抽象的规律与算法应用于实践，贴合读者需求。同时，本书不是割裂讲解大数据与机器学习的算法和应用，还讲解了其生态环境与关联内容，让读者更全面地知晓渊源与未来，是系统学习大数据与机器学习的不二之选： ·大数据产业解读一一剖析产业情况，人才供需、职业选择与相应“武器”库； ·步入大数据之门一一解读数据、信息、算法，以及与大数据应用的关系； ·大数据基石一一结合大量