干净的数据:数据清洗入门与实践 - (EPUB全文下载)
文件大小:3.02 mb。
文件格式:epub 格式。
书籍内容:
版权信息
书名:干净的数据:数据清洗入门与实践
作者:[美] Megan Squire
译者:任政委
ISBN:978-7-115-42047-3
本书由北京图灵文化发展有限公司发行数字版。版权所有,侵权必究。
您购买的图灵电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
图灵社区会员 麦嘉豪(852245696@qq.com) 专享 尊重版权
版权声明
前言
本书内容
你需要准备些什么
本书的目标读者
本书排版约定
读者反馈
客户支持
彩色图片下载
勘误表
关于盗版
问题反馈
第 1 章 为什么需要清洗数据
1.1 新视角
1.2 数据科学过程
1.3 传达数据清洗工作的内容
1.4 数据清洗环境
1.5 入门示例
1.6 小结
第 2 章 基础知识——格式、类型与编码
2.1 文件格式
2.1.1 文本文件与二进制文件
2.1.2 常见的文本文件格式
2.1.3 分隔格式
2.2 归档与压缩
2.2.1 归档文件
2.2.2 压缩文件
2.3 数据类型、空值与编码
2.3.1 数据类型
2.3.2 数据类型间的相互转换
2.3.3 转换策略
2.3.4 隐藏在数据森林中的空值
2.3.5 字符编码
2.4 小结
第 3 章 数据清洗的老黄牛——电子表格和文本编辑器
3.1 电子表格中的数据清洗
3.1.1 Excel的文本分列功能
3.1.2 字符串拆分
3.1.3 字符串拼接
3.2 文本编辑器里的数据清洗
3.2.1 文本调整
3.2.2 列选模式
3.2.3 加强版的查找与替换功能
3.2.4 文本排序与去重处理
3.2.5 Process Lines Containing
3.3 示例项目
3.3.1 第一步:问题陈述
3.3.2 第二步:数据收集
3.3.3 第三步:数据清洗
3.3.4 第四步:数据分析
3.4 小结
第 4 章 讲通用语言——数据转换
4.1 基于工具的快速转换
4.1.1 从电子表格到CSV
4.1.2 从电子表格到JSON
4.1.3 使用phpMyAdmin从SQL语句中生成CSV或JSON
4.2 使用PHP实现数据转换
4.2.1 使用PHP实现SQL到JSON的数据转换
4.2.2 使用PHP实现SQL到CSV的数据转换
4.2.3 使用PHP实现JSON到CSV的数据转换
4.2.4 使用PHP实现CSV到JSON的数据转换
4.3 使用Python实现数据转换
4.3.1 使用Python实现CSV到JSON的数据转换
4.3.2 使用csvkit实现CSV到JSON的数据转换
4.3.3 使用Python实现JSON到CSV的数据转换
4.4 示例项目
4.4.1 第一步:下载GDF格式的Facebook数据
4.4.2 第二步:在文本编辑器中查看GDF文件
4.4.3 第三步:从GDF格式到JSON格式的转换
4.4.4 第四步:构建D3图
4.4.5 第五步:把数据转换成Pajek格式
4.4.6 第六步:简单的社交网络分析
4.5 小结
第 5 章 收集并清洗来自网络的数据
5.1 理解HTML页面结构
5.1.1 行分隔模型
5.1.2 树形结构模型
5.2 方法一:Python和正则表达式
5.2.1 第一步:查找并保存实验用的Web文件
5.2.2 第二步:观察文件内容并判定有价值的数据
5.2.3 第三步:编写Python程序把数据保存到CSV文件中
5.2.4 第四步:查看文件并确认清洗结果
5.2.5 使用正则表达式解析HTML的局限性
5.3 方法二:Python和BeautifulSoup
5.3.1 第一步:找到并保存实验用的文件
5.3.2 第二步:安装BeautifulSoup
5.3.3 第三步:编写抽取数据用的Python程序
5.3.4 第四步:查看文件并确认清洗结果
5.4 方法三:Chrome Scraper
5.4.1 第一步:安装Chrome扩展Scraper
5.4.2 第二步:从网站上收集数据
5.4.3 第三步:清洗数据
5.5 示例项目:从电子邮件和论坛中抽取数据
5.5.1 项目背景
5.5.2 第一部分:清洗来自Google Groups电子邮件的数据
5.5.3 第二部分:清洗来自网络论坛的数据
5.6 小结
第 6 章 清洗PDF文件中的数据
6.1 为什么PDF文件很难清洗
6.2 简单方案——复制
6.2.1 我们的实验文件
6.2.2 第一步:把我们需要的数据复制出来
6.2.3 第二步:把复制出来的数据粘贴到文本编辑器中
6.2.4 第三步:轻量级文件
6.3 第二种技术——pdfMiner
6.3.1 第一步:安装pdfMiner
6.3.2 第二步:从PDF文件中提取文本
6.4 第三种技术——Tabula
6.4.1 第一步:下载Tabula
6.4.2 第二步:运行Tabula
6.4.3 第三步:用Tabula提取数据
6.4.4 第四步:数据复制
6.4.5 第五步:进一步清洗
6.5 所有尝试都失败之后——第四种技术
6.6 小结
第 7 章 RDBMS清洗技术
7.1 准备
7.2 第一步:下载并检查Sentiment140
7.3 第二步:清洗要导入的数据
7.4 第三步:把数据导入MySQL
7.4.1 发现并清洗异常数据
7.4.2 创建自己的数据表
7.5 第四步:清洗&字符
7.6 第五步:清洗其他未知字符
7.7 第六步:清洗日期
7.8 第七步:分离用户提及、标签和URL
7.8.1 创建一些新的数据表
7.8.2 提取用户提及
7.8.3 提取标签
7.8.4 提取URL
7.9 第八步:清洗查询表
7.10 第九步:记录操作步骤
7.11 小结
第 8 章 数据分享的最佳实 ............
书籍插图:
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 干净的数据:数据清洗入门与实践 - (EPUB全文下载)