数据整理实践指南 - (EPUB全文下载)
文件大小:3.27 mb。
文件格式:epub 格式。
书籍内容:
目录
版权信息
作者简介
封面简介
版权声明
内容提要
前言
本书使用的体例
代码范例的使用
Safari®图书在线
如何联系我们
致谢
第1章 从头说起:什么是噪音数据
第2章 是我的问题还是数据的问题
2.1 理解数据结构
2.2 校验
2.2.1 字段校验
2.2.2 值校验
2.2.3 简单统计的物理解释
2.3 可视化
2.3.1 关键词竞价排名示例
2.3.2 搜索来源示例
2.3.3 推荐分析
2.3.4 时间序列数据
2.4 小结
第3章 数据是给人看的不是给机器看的
3.1 数据
3.1.1 问题:数据是给人看的
3.1.2 对数据的安排
3.1.3 数据分散在多个文件中
3.2 解决方案:编写代码
3.2.1 从糟糕的数据格式中读取数据
3.2.2 从多个文件中读取数据
3.3 附言
3.4 其他格式
3.5 小结
第4章 纯文本中潜在的噪音数据
4.1 使用哪种纯文本编码
4.2 猜测文本编码格式
4.3 对文本规范化处理
4.4 问题:在纯文本中掺入了特定应用字符
4.5 通过Python处理文本
4.6 实践练习题
第5章 重组Web数据
5.1 你能获得数据吗
5.1.1 一般工作流程示例
5.1.2 Robots 协议
5.1.3 识别数据组织模式
5.1.4 存储离线版本
5.1.5 网页抓取信息
5.2 真正的困难
5.2.1 下载原始内容
5.2.2 表单、对话框和新建窗口
5.2.3 Flash
5.3 不利情况的解决办法
5.4 小结
第6章 检测撒谎者以及相互矛盾网上评论的困惑
6.1 Weotta公司
6.2 获得评论
6.3 情感分类
6.4 极化语言
6.5 创建语料库
6.6 训练分类器
6.7 分类器验证
6.8 用数据设计
6.9 经验教训
6.10 小结
6.11 信息资源
第7章 请噪音数据站出来
7.1 实例1:在制造业中减少缺陷
7.2 实例2:谁打来的电话
7.3 实例3:当“典型”不等于“平均”
7.4 经验总结
7.5 到工厂参观能成为试验的一部分吗
第8章 血、汗和尿
8.1 书呆子戏剧性工作交换
8.2 化学家如何整理数字
8.3 数据库都是我们的
8.4 仔细检查
8.5 生命短暂的漂亮代码库
8.6 改变化学家(和其他电子表单滥用者)
8.7 传递线(tl)和数据记录器(dr)
第9章 当数据与现实不匹配
9.1 到底是谁的报价机
9.2 股票分割、股利和调整
9.3 糟糕的现实
9.4 小结
第10章 偏差和误差的来源
10.1 估算上的偏差:一般性的问题
10.2 报告上的误差:一般性的问题
10.3 其他偏差来源
10.3.1 顶层编码/底部编码
10.3.2 Seam偏差
10.3.3 代理报告
10.3.4 样本选择
10.4 小结
参考文献
第11章 不要把完美和正确对立起来:噪音数据真是噪音吗
11.1 回忆学校生活
11.2 向着专业领域前进
11.2.1 政府工作
11.2.2 政府数据非常真实
11.3 应用实例——服务电话
11.4 继续前进
11.5 经验与未来展望
第12章 数据库攻击:什么时候使用文件
12.1 历史
12.2 建立我的工具箱
12.3 数据存储——我的路障
12.4 将文件作为数据存储器
12.4.1 文件简单
12.4.2 文件处理一切
12.4.3 文件可包含任何数据形式
12.4.4 局部数据破坏
12.4.5 文件拥有很棒的工具
12.4.6 没有安装税
12.5 文件的概念
12.5.1 编码
12.5.2 文本文件
12.5.3 二进制数据
12.5.4 内存映射文件
12.5.5 文件格式
12.5.6 分隔符
12.6 文件支持的网络框架
12.6.1 动机
12.6.2 实现
12.7 反馈
第13章 卧库表,隐网络
13.1 关系成本分配模型
13.2 组合展开微妙的作用
13.3 隐藏网络的浮现
13.4 存储图表
13.5 利用Gremlin遍历图表
13.6 在网络属性里寻找价值
13.7 从多重数据模型角度考虑并使用正确的工具
13.8 致谢
第14章 云计算神话
14.1 关于“云”的介绍
14.2 何谓“云”
14.3 云和大数据
14.4 Fred的故事
14.4.1 起初一切都好
14.4.2 基础结构全部放在云端
14.4.3 随着规模增长,最初的扩展很轻松
14.4.4 麻烦出现了
14.4.5 需要提高性能
14.4.6 关键要提高RAID 10性能
14.4.7 重要的局部运行中断引发长期停机
14.4.8 有代价的RAID 10
14.4.9 数据规模增大
14.4.10 地理冗余成为首选
14.4.11 水平扩展并不像想像得那么简单
14.4.12 成本显著增长
14.5 Fred的荒唐事
14.5.1 神话1:云是所有基础设施组件的解决方案
14.5.2 神话2:云可以节约成本
14.5.3 神话3:通过RAID可以将cloud 10的性能提高至可接受的水平
14.5.4 神话4:云计算使水平扩展轻松
14.6 结论和推荐
第15章 数据科学的阴暗面
15.1 避开这些陷阱
15.1.1 对数据一无所知
15.1.2 应该只为数据科学家提供一种工具来解决所有问题
15.1.3 应该为了分析而分析
15.1.4 应该学会分享
15.1.5 应该期望数据科学家无所不能
15.2 数据学家在机构中的位置
15.3 最后的想法
第16章 如何雇佣机器学习专家
16.1 确定问题
16.2 模型测试
16.3 创建训练集
16.4 选择特征
16.5 数据编码
16.6 训练集、测试集和解决方案集
16.7 问题描述
16.8 回答问题
16.9 整合解决方案
16.10 小结
第17章 数据的可追踪性
17.1 原因
17.2 个人经验
17.2.1 快照
17.2.2 保存数据源
17.2.3 衡量数据源
17.2.4 逆向恢复数据
17.2. ............
书籍插图:
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 数据整理实践指南 - (EPUB全文下载)