Python 3爬虫、数据清洗与可视化实战
✍ Scribed by 零一
- Publisher
- 电子工业出版社
- Year
- 2018
- Tongue
- Chinese
- Leaves
- 213
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
《Python 3爬虫、数据清洗与可视化实战》是一本通过实战教初学者学习采集数据、清洗和组织数据进行分析及可视化的Python 读物。《Python 3爬虫、数据清洗与可视化实战》案例均经过实战检验,笔者在实践过程中深感采集数据、清洗和组织数据的重要性,作为一名数据行业的“码农”,数据就是沃土,没有数据,我们将无田可耕。
《Python 3爬虫、数据清洗与可视化实战》共分11 章,6 个核心主题:其一是Python 基础入门,包括环境配置、基本操作、数据类型、语句和函数;其二是Python 爬虫的构建,包括网页结构解析、爬虫流程设计、代码优化、效率优化、容错处理、反防爬虫、表单交互和模拟页面点击;其三是Python 数据库应用,包括MongoDB、MySQL 在Python中的连接与应用;其四是数据清洗和组织,包括NumPy 数组知识、pandas 数据的读写、分组变形、缺失值异常值处理、时序数据处理和正则表达式的使用;其五是综合应用案例,帮助读者贯穿爬虫、数据清洗与组织的过程;最后是数据可视化,包括Matplotlib 和Pyecharts 两个库的使用,涉及饼图、柱形图、线图、
词云图、地图等图形,帮助读者进入可视化的殿堂。
《Python 3爬虫、数据清洗与可视化实战》以实战为主,适合Python 初学者及高等院校的相关专业学生,也适合Python 培训机构作为实验教材使用。
✦ Table of Contents
扉页
版权页
前 言
目 录
第1章 Python基础
1.1 安装Python环境
1.1.1 Python 3.6.2安装与配置
1.1.2 使用IDE工具——PyCharm
1.1.3 使用IDE工具——Anaconda
1.2 Python操作入门
1.2.1 编写第一个Python代码
1.2.2 Python基本操作
1.2.3 变量
1.3 Python数据类型
1.3.1 数字
1.3.2 字符串
1.3.3 列表
1.3.4 元组
1.3.5 集合
1.3.6 字典
1.4 Python语句与函数
1.4.1 条件语句
1.4.2 循环语句
1.4.3 函数
第2章 写一个简单的爬虫
2.1 关于爬虫的合法性
2.2 了解网页
2.2.1 认识网页结构
2.2.2 写一个简单的HTML
2.3 使用requests库请求网站
2.3.1 安装requests库
2.3.2 爬虫的基本原理
2.3.3 使用GET方式抓取数据
2.3.4 使用POST方式抓取数据
2.4 使用Beautiful Soup解析网页
2.5 清洗和组织数据
2.6 爬虫攻防战
第3章 用API爬取天气预报数据
3.1 注册免费API和阅读技术文档
3.2 获取API数据
3.3 存储数据到MongoDB
3.3.1 下载并安装MongoDB
3.3.2 在PyCharm中安装Mongo Plugin
3.3.3 将数据存入MongoDB
3.4 MongoDB数据库查询
第4章 大型爬虫案例:抓取某电商网站的商品数据
4.1 观察页面特征和解析数据
4.2 工作流程分析
4.3 构建类目树
4.4 获取产品列表
4.5 代码优化
4.6 爬虫效率优化
4.7 容错处理
第5章 Scrapy爬虫
5.1 Scrapy简介
5.2 Scrapy安装
5.3 案例:用Scrapy抓取股票行情
第6章 Selenium爬虫
6.1 Selenium简介
6.2 案例:用Selenium抓取电商网站数据
第7章 数据库连接和查询
7.1 使用PyMySQL
7.1.1 连接数据库
7.1.2 案例:某电商网站女装行业TOP100销量数据
7.2 使用SQLAlchemy
7.2.1 SQLAlchemy基本介绍
7.2.2 SQLAlchemy基本语法
7.3 MongoDB
7.3.1 MongoDB基本语法
7.3.2 案例:在某电商网站搜索“连衣裙”的商品数据
第8章 NumPy
8.1 NumPy简介
8.2 一维数组
8.2.1 数组与列表的异同
8.2.2 数组的创建
8.3 多维数组
8.3.1 多维数组的高效性能
8.3.2 多维数组的索引与切片
8.3.3 多维数组的属性
8.4 数组的运算
第9章 pandas数据清洗
9.1 数据读写、选择、整理和描述
9.1.1 从CSV中读取数据
说明
9.1.2 向CSV写入数据
说明
9.1.3 数据选择
9.1.4 数据整理
9.1.5 数据描述
9.2 数据分组、分割、合并和变形
9.2.1 数据分组
9.2.2 数据分割
9.2.3 数据合并
9.2.4 数据变形
9.2.5 案例:旅游数据的分析与变形
9.3 缺失值、异常值和重复值处理
9.3.1 缺失值处理
9.3.2 检测和过滤异常值
9.3.3 移除重复数据
9.3.4 案例:旅游数据的值检查与处理
9.4 时序数据处理
9.4.1 日期/时间数据转换
9.4.2 时序数据基础操作
9.4.3 案例:天气数据分析与处理
9.5 数据类型转换
9.6 正则表达式
9.6.1 元字符与限定符
9.6.2 案例:用正则表达式提取网页文本信息
第10章 综合应用实例
10.1 按性价比给用户推荐旅游产品
10.1.1 数据采集
10.1.2 数据清洗、建模
10.2 通过热力图分析为用户提供出行建议
10.2.1 某旅游网站热门景点爬虫代码(qunaer_sights.py)
10.2.2 提取CSV文件中经纬度和销量信息
10.2.3 创建景点门票销量热力地图HTML文件
第11章 数据可视化
11.1 matplotlib
11.1.1 画出各省份平均价格、各省份平均成交量柱状图
11.1.2 画出各省份平均成交量折线图、柱状图、箱形图和饼图
11.1.3 画出价格与成交量的散点图
11.2 pyecharts
11.2.1 Echarts简介
11.2.2 pyecharts简介
11.2.3 初识pyecharts,玫瑰相送
11.2.4 pyecharts基本语法
11.2.5 基于商业分析的pyecharts图表绘制
11.2.6 使用pyecharts绘制其他图表
11.2.7 pyecharts和Jupyter
📜 SIMILAR VOLUMES
<p>本书讲述了一个现代企业从最初的报表开发模式转向敏捷型分析模式的故事,通篇以对话的形式模拟职场人员在日常工作中使用数据分析解决问题并进行业务决策的过程。本书组织了一套全新的学习体系,内容由浅入深,从一开始就带入到实际的业务分析应用中,从最基本的时间序列分析开始发现销售模式和季节性波动规律,到通过热图来分析一线销售和服务人员的排班优化,再到深入分析客户的80/20 规律等,每一章都在使用Tableau 分析和解决实际商业中遇到的问题。</p>
本书以实用为设计理念,并结合数据分析相关理论,系统地介绍了数据分析的相关内容,包括电商数据分析概述、数据分析业务指标、数据准备与处理、数据分析常用方法、常用数据分析工具、数据可视化、数据图表专业化、撰写数据分析报告等,能够帮助读者掌握数据分析的整个流程。 全书共9章。第1章为电商数据分析概述,主要介绍数据分析基础概念;第2章为数据分析业务指标,主要介绍数据分析中涉及的分析指标;第3章为数据准备与处理,主要介绍如何准备和处理数据;第4章为数据分析常用方法,主要介绍数据分析中的方法论;第5章为常用数据分析工具,主要介绍运营中常用的数据分析工具;第6章为数据可视化,主要介绍如何通过图表展现数据;第
<p>全书共有16 章,分为4 篇。基础篇,阐述数据可视化的基础理论和概念,从人的感知和认知出发,介绍数据模型和可视化基础;时空数据篇,介绍带有空间坐标或时间信息的数据的可视化方法,此类数据通过设备在真实物理空间中采集得到或由科学计算模拟产生;非时空数据篇,描述非结构化和非几何的抽象数据的可视化,这些数据既存在于真实物理空间,又是社会空间和网络信息空间的基本表达形式;用户篇,介绍面向各类数据的可视化在实际应用中共同需要的方法、技术和工具,例如交互和可视化评测方法,以及在具体领域的可视化和应用系统。</p> <p>本书从研究者的角度,介绍数据可视化的定义、方法、效用和工具,既可作为初学者的领路
本书侧重于Tableau 软件的“企业应用”,以一个企业内CoE 的日常工作为主线,用对话的形式介绍了自助分析文化的推广过程。本书不仅详细描述了系统建设过程中的图表应用、仪表板设计、系统性能管理及系统架构等方面的内容,还深入阐述了数据分析文化的推广方法和一些*佳实践,包括CoE 在赋能、管控方面的职责定义和工作开展方法,企业提升全员数据素养的实践方法以及如何通过Tableau Day 等活动普及数据分析工作。