Python数据处理 - (EPUB全文下载)
文件大小:2.35 mb。
文件格式:epub 格式。
书籍内容:
版权信息
书名:Python数据处理
作者:[美] Jacqueline Kazil Katharine Jarmul
译者:张亮 吕家明
ISBN:978-7-115-45919-0
本书由北京图灵文化发展有限公司发行数字版。版权所有,侵权必究。
您购买的图灵电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
图灵社区会员 爱看书(pp2236@163.com) 专享 尊重版权
版权声明
O'Reilly Media, Inc.介绍
业界评论
本书赞誉
前言
目标读者
不适合阅读本书的读者
本书结构
什么是数据处理
遇到困难怎么办
排版约定
使用代码示例
Safari® Books Online
联系我们
致谢
电子书
第 1 章 Python简介
1.1 为什么选择Python
1.2 开始使用Python
1.2.1 Python版本选择
1.2.2 安装Python
1.2.3 测试Python
1.2.4 安装pip
1.2.5 安装代码编辑器
1.2.6 安装IPython(可选)
1.3 小结
第 2 章 Python基础
2.1 基本数据类型
2.1.1 字符串
2.1.2 整数和浮点数
2.2 数据容器
2.2.1 变量
2.2.2 列表
2.2.3 字典
2.3 各种数据类型的用途
2.3.1 字符串方法:字符串能做什么
2.3.2 数值方法:数字能做什么
2.3.3 列表方法:列表能做什么
2.3.4 字典方法:字典能做什么
2.4 有用的工具:type、dir和help
2.4.1 type
2.4.2 dir
2.4.3 help
2.5 综合运用
2.6 代码的含义
2.7 小结
第 3 章 供机器读取的数据
3.1 CSV数据
3.1.1 如何导入CSV数据
3.1.2 将代码保存到文件中并在命令行中运行
3.2 JSON数据
如何导入JSON数据
3.3 XML数据
如何导入XML数据
3.4 小结
第 4 章 处理 Excel 文件
4.1 安装Python包
4.2 解析Excel文件
4.3 开始解析
4.4 小结
第 5 章 处理 PDF 文件,以及用 Python解决问题
5.1 尽量不要用PDF
5.2 解析PDF的编程方法
5.2.1 利用slate库打开并读取PDF
5.2.2 将PDF转换成文本
5.3 利用pdfminer解析PDF
5.4 学习解决问题的方法
5.4.1 练习:使用表格提取,换用另一个库
5.4.2 练习:手动清洗数据
5.4.3 练习:试用另一种工具
5.5 不常见的文件类型
5.6 小结
第 6 章 数据获取与存储
6.1 并非所有数据生而平等
6.2 真实性核查
6.3 数据可读性、数据清洁度和数据寿命
6.4 寻找数据
6.4.1 打电话
6.4.2 美国政府数据
6.4.3 全球政府和城市开放数据
6.4.4 组织数据和非政府组织数据
6.4.5 教育数据和大学数据
6.4.6 医学数据和科学数据
6.4.7 众包数据和API
6.5 案例研究:数据调查实例
6.5.1 埃博拉病毒危机
6.5.2 列车安全
6.5.3 足球运动员的薪水
6.5.4 童工
6.6 数据存储
6.7 数据库简介
6.7.1 关系型数据库:MySQL和PostgreSQL
6.7.2 非关系型数据库:NoSQL
6.7.3 用Python创建本地数据库
6.8 使用简单文件
6.8.1 云存储和Python
6.8.2 本地存储和Python
6.9 其他数据存储方式
6.10 小结
第 7 章 数据清洗:研究、匹配与格式化
7.1 为什么要清洗数据
7.2 数据清洗基础知识
7.2.1 找出需要清洗的数据
7.2.2 数据格式化
7.2.3 找出离群值和不良数据
7.2.4 找出重复值
7.2.5 模糊匹配
7.2.6 正则表达式匹配
7.2.7 如何处理重复记录
7.3 小结
第 8 章 数据清洗:标准化和脚本化
8.1 数据归一化和标准化
8.2 数据存储
8.3 找到适合项目的数据清洗方法
8.4 数据清洗脚本化
8.5 用新数据测试
8.6 小结
第 9 章 数据探索和分析
9.1 探索数据
9.1.1 导入数据
9.1.2 探索表函数
9.1.3 联结多个数据集
9.1.4 识别相关性
9.1.5 找出离群值
9.1.6 创建分组
9.1.7 深入探索
9.2 分析数据
9.2.1 分离和聚焦数据
9.2.2 你的数据在讲什么
9.2.3 描述结论
9.2.4 将结论写成文档
9.3 小结
第 10 章 展示数据
10.1 避免讲故事陷阱
10.1.1 怎样讲故事
10.1.2 了解听众
10.2 可视化数据
10.2.1 图表
10.2.2 时间相关数据
10.2.3 地图
10.2.4 交互式元素
10.2.5 文字
10.2.6 图片、视频和插画
10.3 展示工具
10.4 发布数据
10.4.1 使用可用站点
10.4.2 开源平台:创建一个新网站
10.4.3 Jupyter(曾名IPython notebook)
10.5 小结
第 11 章 网页抓取:获取并存储网络数据
11.1 抓取什么和如何抓取
11.2 分析网页
11.2.1 检视:标记结构
11.2.2 网络/时间线:页面是如何加载的
11.2.3 控制台:同JavaScript交互
11.2.4 页面的深入分析
11.3 得到页面:如何通过互联网发出请求
11.4 使用Beautiful Soup读取网页
11.5 使用lxml读取网页
一个XPath案例
11.6 小结
第 12 章 高级网页抓取:屏幕抓取器与爬虫
12.1 基于浏览器的解析
12.1.1 使用Selenium进行屏幕 ............
书籍插图:
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » Python数据处理 - (EPUB全文下载)