openelib.org 计算机技术

Python网络爬虫权威指南 - (EPUB全文下载)

文件大小：1.64 mb。
文件格式：epub 格式。
书籍内容：

版权信息
书名：Python网络爬虫权威指南（第2版）
作者：[美] 瑞安 • 米切尔
译者：神烦小宝
ISBN：978-7-115-50926-0
本书由北京图灵文化发展有限公司发行数字版。版权所有，侵权必究。
您购买的图灵电子书仅供您个人使用，未经授权，不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟，与我们共同保护知识产权。
如果购买者有侵权行为，我们可能对该用户实施包括但不限于关闭该帐号等维权措施，并可能追究法律责任。
图灵社区会员 mdx（248780476@qq.com）专享尊重版权
版权声明
O'Reilly Media, Inc. 介绍
业界评论
前言
什么是网页抓取
为什么要做网页抓取
关于本书
排版约定
使用代码示例
O'Reilly Safari
联系我们
致谢
电子书
第一部分　创建爬虫
第 1 章　初见网络爬虫
1.1　网络连接
1.2　BeautifulSoup简介
1.2.1　安装BeautifulSoup
1.2.2　运行BeautifulSoup
1.2.3　可靠的网络连接以及异常的处理
第 2 章　复杂 HTML 解析
2.1　不是一直都要用锤子
2.2　再端一碗BeautifulSoup
2.2.1　BeautifulSoup的find()和find_all()
2.2.2　其他BeautifulSoup对象
2.2.3　导航树
2.3　正则表达式
2.4　正则表达式和BeautifulSoup
2.5　获取属性
2.6　Lambda表达式
第 3 章　编写网络爬虫
3.1　遍历单个域名
3.2　抓取整个网站
收集整个网站的数据
3.3　在互联网上抓取
收集在网站上发现的所有外链列表 allExtLinks = set()
第 4 章　网络爬虫模型
4.1　规划和定义对象
4.2　处理不同的网站布局
4.3　结构化爬虫
4.3.1　通过搜索抓取网站
4.3.2　通过链接抓取网站
4.3.3　抓取多种类型的页面
4.4　关于网络爬虫模型的思考
第 5 章　Scrapy
5.1　安装Scrapy
蜘蛛初始化
5.2　创建一个简易爬虫
5.3　带规则的抓取
5.4　创建item
5.5　输出item
5.6　item管线组件
5.7　Scrapy日志管理
5.8　更多资源
第 6 章　存储数据
6.1　媒体文件
6.2　把数据存储到CSV
6.3　MySQL
6.3.1　安装MySQL
6.3.2　基本命令
6.3.3　与Python整合
6.3.4　数据库技术与最佳实践
6.3.5　MySQL里的“六度空间游戏”
6.4　Email
第二部分　高级网页抓取
第 7 章　读取文档
7.1　文档编码
7.2　纯文本
文本编码和全球互联网
7.3　CSV
读取CSV文件
7.4　PDF
7.5　微软Word和.docx
第 8 章　数据清洗
8.1　编写代码清洗数据
数据标准化
8.2　数据存储后再清洗
OpenRefine
第 9 章　自然语言处理
9.1　概括数据
9.2　马尔可夫模型
维基百科六度分隔：终结篇
9.3　自然语言工具包
9.3.1　安装与设置
9.3.2　用NLTK做统计分析
9.3.3　用NLTK做词性分析
9.4　其他资源
第 10 章　穿越网页表单与登录窗口进行抓取
10.1　Python Requests库
10.2　提交一个基本表单
10.3　单选按钮、复选框和其他输入
10.4　提交文件和图像
10.5　处理登录和cookie
HTTP基本接入认证
10.6　其他表单问题
第 11 章　抓取 JavaScript
11.1　JavaScript简介
常用JavaScript库
11.2　Ajax和动态HTML
11.2.1　在Python中用Selenium执行JavaScript
11.2.2　Selenium的其他webdriver
11.3　处理重定向
11.4　关于JavaScript的最后提醒
第 12 章　利用 API 抓取数据
12.1　API概述
12.1.1　HTTP方法和API
12.1.2　更多关于API响应的介绍
12.2　解析JSON数据
12.3　无文档的API
12.3.1　查找无文档的API
12.3.2　记录未被记录的API
12.3.3　自动查找和记录API
12.4　API与其他数据源结合
12.5　再说一点API
第 13 章　图像识别与文字处理
13.1　OCR库概述
13.1.1　Pillow
13.1.2　Tesseract
13.1.3　NumPy
13.2　处理格式规范的文字
13.2.1　自动调整图像
13.2.2　从网站图片中抓取文字
13.3　读取验证码与训练Tesseract
训练Tesseract
13.4　获取验证码并提交答案
第 14 章　避开抓取陷阱
14.1　道德规范
14.2　让网络机器人看着像人类用户
14.2.1　修改请求头
14.2.2　用JavaScript处理cookie
14.2.3　时间就是一切
14.3　常见表单安全措施
14.3.1　隐含输入字段值
14.3.2　避免蜜罐
14.4　问题检查表
第 15 章　用爬虫测试网站
15.1　测试简介
什么是单元测试
15.2　Python单元测试
测试维基百科
15.3　Selenium单元测试
与网站进行交互
15.4　单元测试与Selenium单元测试的选择
第 16 章　并行网页抓取
16.1　进程与线程
16.2　多线程抓取
16.2.1　竞争条件与队列
16.2.2　threading模块
16.3　多进程抓取
16.3.1　多进程抓取
16.3.2　进程间通信
16.4　多进程抓取的另一种方法
第 17 章　远程抓取
17.1　为什么要用远程服务器
17.1.1　避免IP地址被封杀
17.1.2　移植性与扩展性
17.2　Tor代理服务器
PySocks
17.3　远程主机
17 ............

书籍插图：
书籍《Python网络爬虫权威指南》 - 插图1
书籍《Python网络爬虫权威指南》 - 插图2

以上为书籍内容预览，如需阅读全文内容请下载EPUB源文件，祝您阅读愉快。

版权声明：书云(openelib.org)是世界上最大的在线非盈利图书馆之一，致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权，如您认为书云侵犯了您的合法权益，请参考版权保护声明，通过邮件openelib@outlook.com联系我们，我们将及时处理您的合理请求。数研咨询流芳阁研报之家 AI应用导航研报之家
 书云 Open E-Library » Python网络爬虫权威指南 - (EPUB全文下载)

分享到：

相关推荐