Python爬虫开发与项目实战 - (EPUB全文下载)
文件大小:0.49 mb。
文件格式:epub 格式。
书籍内容:
Python爬虫开发与项目实战
第1章 回顾Python编程
1.1 安装Python
1.2 搭建开发环境
1.3 IO编程
1.4 进程和线程
1.5 网络编程
1.6 小结
第2章 Web前端基础
2.1 W3C标准
2.2 HTTP标准
2.3 小结
第3章 初识网络爬虫
3.1 网络爬虫概述
3.2 HTTP请求的Python实现
3.3 小结
第4章 HTML解析大法
4.1 初识Firebug
4.2 正则表达式
4.3 强大的BeautifulSoup
4.4 小结
第5章 数据存储(无数据库版)
5.1 HTML正文抽取
5.2 多媒体文件抽取
5.3 Email提醒
5.4 小结
第6章 实战项目:基础爬虫
6.1 基础爬虫架构及运行流程
6.2 URL管理器
6.3 HTML下载器
6.4 HTML解析器
6.5 数据存储器
6.6 爬虫调度器
6.7 小结
第7章 实战项目:简单分布式爬虫
7.1 简单分布式爬虫结构
7.2 控制节点
7.3 爬虫节点
7.4 小结
中级篇
第8章 数据存储(数据库版)
8.1 SQLite
8.2 MySQL
8.3 更适合爬虫的MongoDB
8.4 小结
第9章 动态网站抓取
9.1 Ajax和动态HTML
9.2 动态爬虫1:爬取影评信息
9.3 PhantomJS
9.4 Selenium
9.5 动态爬虫2:爬取去哪网
9.6 小结
第10章 Web端协议分析
10.1 网页登录POST分析
10.2 验证码问题
10.3 www>m>wap
10.4 小结
第11章 终端协议分析
11.1 PC客户端抓包分析
11.2 App抓包分析
11.3 API爬虫:爬取mp3资源信息
11.4 小结
第12章 初窥Scrapy爬虫框架
12.1 Scrapy爬虫架构
12.2 安装Scrapy
12.3 创建cnblogs项目
12.4 创建爬虫模块
12.5 选择器
12.6 命令行工具
12.7 定义Item
12.8 翻页功能
12.9 构建Item Pipeline
12.10 内置数据存储
12.11 内置图片和文件下载方式
12.12 启动爬虫
12.13 强化爬虫
12.14 小结
第13章 深入Scrapy爬虫框架
13.1 再看Spider
13.2 Item Loader
13.3 再看Item Pipeline
13.4 请求与响应
13.5 下载器中间件
13.6 Spider中间件
13.7 扩展
13.8 突破反爬虫
13.9 小结
第14章 实战项目:Scrapy爬虫
14.1 创建知乎爬虫
14.2 定义Item
14.3 创建爬虫模块
14.4 Pipeline
14.5 优化措施
14.6 部署爬虫
14.7 小结
深入篇
第15章 增量式爬虫
15.1 去重方案
15.2 BloomFilter算法
15.3 Scrapy和BloomFilter
15.4 小结
第16章 分布式爬虫与Scrapy
16.1 Redis基础
16.2 Python和Redis
16.3 MongoDB集群
16.4 小结
第17章 实战项目:Scrapy分布式爬虫
17.1 创建云起书院爬虫
17.2 定义Item
17.3 编写爬虫模块
17.4 Pipeline
17.5 应对反爬虫机制
17.6 去重优化
17.7 小结
第18章 人性化PySpider爬虫框架
18.1 PySpider与Scrapy
18.2 安装PySpider
18.3 创建豆瓣爬虫
18.4 选择器
18.5 Ajax和HTTP请求
18.6 PySpider和PhantomJS
18.7 数据存储
18.8 PySpider爬虫架构
18.9 小结
第1章 回顾Python编程
本书所要讲解的爬虫技术是基于Python语言进行开发的,拥有Python编程能力对于本书的学习是至关重要的,因此本章的目标是帮助之前接触过Python语言的读者回顾一下Python编程中的内容,尤其是与爬虫技术相关的内容。
1.1 安装Python
Python是跨平台语言,它可以运行在Windows、Mac和各种Linux/Unix系统上。在Windows上编写的程序,可以在Mac和Linux上正常运行。Python是一种面向对象、解释型计算机程序设计语言,需要Python解释器进行解释运行。目前,Python有两个版本,一个是2.x版,一个是3.x版,这两个版本是不兼容的。现在Python的整体方向是朝着3.x发展的,但是在发展过程中,大量针对2.x版本的代码都需要修改才能运行,导致现在许多第三方库无法在3.x版本上直接使用,因此现在大部分的云服务器默认的Python版本依然是2.x版。考虑到上述原因,本书采用的Python版本为2.x,确切地说是2.7版本。
1.1.1 Windows上安装Python
首先,从Python的官方网站www.python.org下载最新的2.7.12版本,地址是https://www.python.org/ftp/python/2.7.12/python-2.7.12.msi。然后,运行下载的MSI安装包,在选择安装组件时,勾选上所有的组件,如图1-1所示。
图1-1 Python安装界面
特别要注意勾选pip和Add python.exe to Path,然后一路点击Next即可完成安装。
pip是Python安装扩展模块的工具,通常会用pip下载扩展模块的源代码并编译安装。
Add python.exe to Path是将Python添加到Windows环境中。
安装完成后,打开命令提示窗口,输入python后出现如图1-2情况,说明Python安装成功。
当看到提示符“>>>”就表示我们已经在Python交互式环境中了,可以输入任何Python代码,回车后会立刻得到执行结果。现在,输入exit()并回车,就可 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » Python爬虫开发与项目实战 - (EPUB全文下载)