𝔖 Scriptorium
✦   LIBER   ✦

📁

玩转Python网络爬虫

✍ Scribed by 黄永祥


Publisher
清华大学出版社
Year
2018
Tongue
Chinese
Leaves
325
Category
Library

⬇  Acquire This Volume

No coin nor oath required. For personal study only.

✦ Synopsis


本书站在初学者的角度,从原理到实践,循序渐进地讲述了使用Python开发网络爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识,分别是网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网络做全面分析;数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识;数据清洗主要介绍字符串操作、正则和Beautiful Soup的使用;数据入库分别讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,实现企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件开发与应用、12306抢票程序和微博爬取,所举示例均来自于开发实践,可帮助读者快速提升技能,开发实际项目。框架篇主要讲述Scrapy的基础知识,并通过爬取QQ音乐为实例,让读者深层次了解Scrapy的使用。

本书内容丰富,注重实战,适用于从零开始学习网络爬虫的初学者,或者是已经有一些网络爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员。

✦ Table of Contents


封面
扉页
内容简介
版权页
前言
目录
第1章 理解网络爬虫
1.1 爬虫的定义
1.2 爬虫的类型
1.3 爬虫的原理
1.4 爬虫的搜索策略
1.5 反爬虫技术及解决方案
1.6 本章小结
第2章 爬虫开发基础
2.1 HTTP与HTTPS
2.2 请求头
2.3 Cookies
2.4 HTML
2.5 JavaScript
2.6 JSON
2.7 Ajax
2.8 本章小结
第3章 Chrome分析网站
3.1 Chrome开发工具
3.2 Elements标签
3.3 Network标签
3.4 分析QQ音乐
3.5 本章小结
第4章 Fiddler抓包工具
4.1 Fiddler介绍
4.2 Fiddler安装配置
4.3 Fiddler抓取手机应用
4.4 Toolbar工具栏
4.5 Web Session列表
4.6 View选项视图
4.7 Quickexec命令行
4.8 本章小结
第5章 Urllib数据抓取
5.1 Urllib简介
5.2 发送请求
5.3 复杂的请求
5.4 代理IP
5.5 使用Cookies
5.6 证书验证
5.7 数据处理
5.8 本章小结
第6章 Requests数据抓取
6.1 Requests简介及安装
6.2 请求方式
6.3 复杂的请求方式
6.4 下载与上传
6.5 本章小结
第7章 验证码识别
7.1 验证码类型
7.2 OCR技术
7.3 第三方平台
7.4 本章小结
第8章 数据清洗
8.1 字符串操作
8.2 正则表达式
8.3 Beautiful Soup介绍及安装
8.4 Beautiful Soup的使用
8.5 本章小结
第9章 文档数据存储
9.1 CSV数据写入和读取
9.2 Excel数据写入和读取
9.3 Word数据写入和读取
9.4 本章小结
第10章 ORM框架
10.1 SQLAlchemy介绍
10.2 安装SQLAlchemy
10.3 连接数据库
10.4 创建数据表
10.5 添加数据
10.6 更新数据
10.7 查询数据
10.8 本章小结
第11章 MongoDB数据库操作
11.1 MongoDB介绍
11.2 安装及使用
11.3 连接数据库
11.4 添加文档
11.5 更新文档
11.6 查询文档
11.7 本章小结
第12章 项目实战:爬取淘宝商品信息
12.1 分析说明
12.2 功能实现
12.3 数据存储
12.4 本章小结
第13章 项目实战:分布式爬虫——QQ音乐
13.1 分析说明
13.2 歌曲下载
13.3 歌手和歌曲信息
13.4 分类歌手列表
13.5 全站歌手列表
13.6 数据存储
13.7 分布式概念
13.8 并发库concurrent.futures
13.9 分布式爬虫
13.10 本章小结
第14章 项目实战:爬虫软件——淘宝商品信息
14.1 分析说明
14.2 GUI库介绍
14.3 Py Qt5安装及环境搭建
14.4 软件界面开发
14.5 MVC——视图
14.6 MVC——控制器
14.7 MVC——模型
14.8 扩展思路
14.9 本章小结
第15章 项目实战:12306抢票
15.1 分析说明
15.2 验证码验证
15.3 用户登录与验证
15.4 查询车次
15.5 预订车票
15.6 提交订单
15.7 生成订单
15.8 本章小结
第16章 项目实战:玩转微博
16.1 分析说明
16.2 用户登录
16.3 用户登录(带验证码)
16.4 关键字搜索热门微博
16.5 发布微博
16.6 关注用户
16.7 点赞和转发评论
16.8 本章小结
第17章 Scrapy爬虫框架
17.1 爬虫框架
17.2 Scrapy的运行机制
17.3 安装Scrapy
17.4 爬虫开发快速入门
17.5 Spiders介绍
17.6 Spider的编写
17.7 Items的编写
17.8 Item Pipeline的编写
17.9 Selectors的编写
17.10 文件下载
17.11 本章小结
第18章 项目实战:Scrapy爬取QQ音乐
18.1 分析说明
18.2 创建项目
18.3 编写setting
18.4 编写Items
18.5 编写Item Pipelines
18.6 编写Spider
18.7 本章小结
正文结束


📜 SIMILAR VOLUMES


用Python写网络爬虫
✍ 理查德 劳森 📂 Library 📅 2016 🏛 人民邮电出版社 🌐 Chinese

<p>作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用。使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站。</p> <p>《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南,讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外,本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫,并对一些真实的网站进行了爬取。</p> <

Python网络爬虫实战
✍ 吕云翔; 张扬 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

<p>本书介绍如何利用Python进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫开发的相关知识,涉及HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等内容。全书共分为14章,包括Python基础知识、网站分析、网页解析、Python文件的读写、Python与数据库、AJAX技术、模拟登录、文本与数据分析、网站测试、Scrapy爬虫框架、爬虫性能等多个主题,内容覆盖网络抓取与爬虫编程中的主要知识和技术,在重视理论基础的前提下从实用性和丰富度出发,结合实例演示了编写爬虫程序的核心流程。 本书适合Python语言初学者、网络爬虫技术爱

实战Python网络爬虫
✍ 黄永祥 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

<p>本书从原理到实践,循序渐进地讲述了使用Python开发网络爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识,包括网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析;数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识;数据清洗主要介绍字符串操作、正则和BeautifulSoup的使用;数据入库讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,进行企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件的开发、12

Python网络爬虫实战
✍ 吕云翔; 张扬 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

<p>本书介绍如何利用Python进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫开发的相关知识,涉及HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等内容。全书共分为14章,包括Python基础知识、网站分析、网页解析、Python文件的读写、Python与数据库、AJAX技术、模拟登录、文本与数据分析、网站测试、Scrapy爬虫框架、爬虫性能等多个主题,内容覆盖网络抓取与爬虫编程中的主要知识和技术,在重视理论基础的前提下从实用性和丰富度出发,结合实例演示了编写爬虫程序的核心流程。 本书适合Python语言初学者、网络爬虫技术爱

Python网络爬虫实战
✍ 胡松涛 📂 Library 📅 2016 🏛 清华大学出版社 🌐 Chinese

<p>本书从Python的安装开始,详细讲解了Python从简单程序延伸到Python网络爬虫的全过程。本书从实战出发,根据不同的需求选取不同的爬虫,有针对性地讲解了几种Python网络爬虫。本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源代码已上传网盘供读者下载。本书内容丰富,实例典型,实用性强。适合Python网络爬虫初学者、数据分析与挖掘技术初学者,以及高校及培训学校相关专业的