命令行中的数据科学 - (EPUB全文下载)

文件大小:1.1 mb。
文件格式:epub 格式。
书籍内容:

版权信息
书名:命令行中的数据科学
作者:Jeroen Janssens
译者: 王晓伟 刘峰
ISBN:978-7-115-39168-1
本书由北京图灵文化发展有限公司发行数字版。版权所有,侵权必究。
您购买的图灵电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
图灵社区会员 ptpress(libowen@ptpress.com.cn) 专享 尊重版权
版权声明
O'Reilly Media, Inc.介绍
业界评论
前言
从本书可以学到的
怎样阅读本书
本书面向的读者
排版约定
使用代码示例
Safari® Books Online
联系我们
致谢
第1章 简介
1.1 概述
1.2 数据科学就是OSEMN
1.2.1 数据获取
1.2.2 数据清洗
1.2.3 数据探索
1.2.4 数据建模
1.2.5 数据解释
1.3 插入的几章
1.4 什么是命令行
1.5 为什么用命令行做数据科学工作
1.5.1 命令行的灵活性
1.5.2 命令行可增强
1.5.3 命令行可扩展
1.5.4 命令行可扩充
1.5.5 命令行无处不在
1.6 一个现实用例
1.7 延伸阅读
第2章 入门指南
2.1 概述
2.2 设置数据科学工具箱
2.2.1 步骤1:下载和安装VirtualBox
2.2.2 步骤2:下载和安装Vagrant
2.2.3 步骤3:下载并启动数据科学工具箱
2.2.4 步骤4:登录(Linux和Mac OS X)
2.2.5 步骤4:登录(微软Windows)
2.2.6 步骤5:关闭或重启
2.3 必要的概念和工具
2.3.1 环境
2.3.2 运行命令行工具
2.3.3 五类命令行工具
2.3.4 命令行工具的组合
2.3.5 输入和输出重定向
2.3.6 处理文件
2.3.7 寻求帮助
2.4 延伸阅读
第3章 数据获取
3.1 概述
3.2 将本地文件复制到数据科学工具箱
3.2.1 本地数据科学工具箱
3.2.2 远程数据科学工具箱
3.3 解压缩文件
3.4 微软Excel电子表格的转换
3.5 查询关系数据库
3.6 从互联网下载
3.7 调用Web API
3.8 延伸阅读
第4章 创建可重用的命令行工具
4.1 概述
4.2 将单行转变为shell脚本
4.2.1 步骤1:复制和粘贴
4.2.2 步骤2:添加执行权限
4.2.3 步骤3:定义shebang
4.2.4 步骤4:删除固定的输入
4.2.5 步骤5:参数化
4.2.6 步骤6:扩展PATH
4.3 用Python和R创建命令行工具
4.3.1 移植shell脚本
4.3.2 处理来自标准输入的流数据
4.4 延伸阅读
第5章 数据清洗
5.1 概述
5.2 纯文本的常见清洗操作
5.2.1 行过滤
5.2.2 值提取
5.2.3 值替换和删除
5.3 处理CSV
5.3.1 主体、头部和列
5.3.2 对CSV执行SQL查询
5.4 处理HTML/XML和JSON
5.5 CSV的常见清洗操作
5.5.1 列的提取和重排序
5.5.2 行过滤
5.5.3 列合并
5.5.4 多个CSV文件的合并
5.6 延伸阅读
第6章 管理数据工作流
6.1 概述
6.2 Drake简介
6.3 Drake的安装
6.4 获取古腾堡计划中下载最多的电子书
6.5 所有工作流都从单个步骤开始
6.6 具体情况具体对待
6.7 重新构建具体目标
6.8 讨论
6.9 延伸阅读
第7章 数据探索
7.1 概述
7.2 检查数据及其属性
7.2.1 确定有无数据头
7.2.2 检查所有数据
7.2.3 特征名称和数据类型
7.2.4 唯一标识、连续变量和因子
7.3 计算描述性统计信息
7.3.1 使用csvstat
7.3.2 在命令行中通过Rio使用R
7.4 生成可视化图形
7.4.1 介绍Gunplot和feedgnuplot
7.4.2 介绍ggplot2
7.4.3 直方图
7.4.4 条形图
7.4.5 密度图
7.4.6 箱线图
7.4.7 散点图
7.4.8 折线图
7.4.9 总结
7.5 延伸阅读
第8章 并行管道
8.1 概述
8.2 串行处理
8.2.1 对数字进行遍历
8.2.2 对行进行遍历
8.2.3 对文件进行遍历
8.3 并行处理
8.3.1 GNU Parallel介绍
8.3.2 指定输入
8.3.3 控制并发任务的个数
8.3.4 记录日志和输出
8.3.5 创建并行工具
8.4 分布式处理
8.4.1 获得运行中的AWS EC2实例列表
8.4.2 在远程机器上运行命令
8.4.3 在远程机器间分发本地数据
8.4.4 在远程机器上处理文件
8.5 讨论
8.6 延伸阅读
第9章 数据建模
9.1 概述
9.2 更多的酒,来吧!
9.3 用Tapkee降维
9.3.1 介绍Tapkee
9.3.2 安装Tapkee
9.3.3 线性和非线性映射
9.4 用Weka聚类
9.4.1 介绍Weka
9.4.2 在命令行里改进Weka
9.4.3 在CSV和ARFF格式之间转换
9.4.4 比较三种聚类算法
9.5 通过SciKit-Learn Laboratory进行回归
9.5.1 准备数据
9.5.2 运行实验
9.5.3 解析结果
9.6 用BigML分类
9.6.1 生成均衡的训练和测试数据集
9.6.2 调用API
9.6.3 检查结果
9.6.4 小结
9.7 延伸阅读
第10章 总结
10.1 让我们回顾一下
10.2 三条建议
10.2.1 有耐心
10.2.2 有所创新
10.2.3 肯于实践
10.3 接下来做什么
10.3.1 API
10.3.2 shell编程
10.3.3 Python、R ............

书籍插图:
书籍《命令行中的数据科学》 - 插图1
书籍《命令行中的数据科学》 - 插图2

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » 命令行中的数据科学 - (EPUB全文下载)