openelib.org 计算机技术

数据科学实战 - (EPUB全文下载)

文件大小：3.95 mb。
文件格式：epub 格式。
书籍内容：

版权信息
书名：数据科学实战
作者：Rachel Schutt , Cath O'Neil
译者：冯凌秉王群锋
ISBN：978-1-449-35865-5
本书由北京图灵文化发展有限公司发行数字版。版权所有，侵权必究。
您购买的图灵电子书仅供您个人使用，未经授权，不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟，与我们共同保护知识产权。
如果购买者有侵权行为，我们可能对该用户实施包括但不限于关闭该帐号等维权措施，并可能追究法律责任。
图灵社区会员 ptpress（libowen@ptpress.com.cn）专享尊重版权
版权声明
O'Reilly Media, Inc.介绍
业界评论
作者介绍
关于封面图
前言
初衷
课程的起源
本书的起源
本书内容
组织结构
阅读须知
书中的代码
目标读者
基础知识要求
补充阅读
关于本书其他贡献者
排版约定
使用代码示例
Safari® Books Online
联系我们
致谢
第 1 章　简介：什么是数据科学
1.1　大数据和数据科学的喧嚣
1.2　冲出迷雾
1.3　为什么是现在
数据化
1.4　数据科学的现状和历史
数据科学的职位
1.5　数据科学的知识结构
1.6　思维实验：元定义
1.7　什么是数据科学家
1.7.1　学术界对数据科学家的定义
1.7.2　工业界对数据科学家的定义
第 2 章　统计推断、探索性数据分析和数据科学工作流程
2.1　大数据时代的统计学思考
2.1.1　统计推断
2.1.2　总体和样本
2.1.3　大数据的总体和样本
2.1.4　大数据意味着大胆的假设
2.1.5　建模
2.2　探索性数据分析
2.2.1　探索性数据分析的哲学
2.2.2　练习：探索性数据分析
2.3　数据科学的工作流程
数据科学家在数据科学工作流程中的角色
2.4　思维实验：如何模拟混沌
2.5　案例学习：RealDirect
2.5.1　RealDirect是如何赚钱的
2.5.2　练一练：RealDirect公司的数据策略
第 3 章　算法
3.1　机器学习算法
3.2　三大基本算法
3.2.1　线性回归模型
3.2.2　k近邻模型（k-NN）
3.2.3　k均值算法
3.3　练习：机器学习算法基础
答案
3.4　总结
3.5 思维实验：关于统计学家的自动化
第 4 章　垃圾邮件过滤器、朴素贝叶斯与数据清理
4.1　思维实验：从实例中学习
4.1.1　线性回归为何不适用
4.1.2　k近邻效果如何
4.2　朴素贝叶斯模型
4.2.1　贝叶斯法则
4.2.2　个别单词的过滤器
4.2.3　直通朴素贝叶斯
4.3　拉普拉斯平滑法
4.4　对比朴素贝叶斯和k 近邻
4.5　Bash代码示例
4.6　网页抓取：API和其他工具
4.7　Jake的练习题：文章分类问题中的朴素贝叶斯模型
使用《纽约时报》的API： R代码示例
第 5 章　逻辑回归
5.1　思维实验
5.2　分类器
5.2.1　运行时间
5.2.2　你自己
5.2.3　模型的可解释性
5.2.4　可扩展性
5.3　逻辑回归：一个来自M6D的真实案例研究
5.3.1　点击模型
5.3.2　模型背后
5.3.3　和的参数估计
5.3.4　牛顿法
5.3.5　随机梯度下降法
5.3.6　操练
5.3.7　模型评价
5.4　练习题
示例R代码
第 6 章　时间戳数据与金融建模
6.1　Kyle Teague与GetGlue公司
6.2　时间戳
6.2.1　探索性数据分析（EDA）
6.2.2　指标和新变量
6.2.3　下一步怎么做
6.3　轮到Cathy O'Neill了
6.4　思维实验
6.5　金融建模
6.5.1　样本期内外以及因果关系
6.5.2　金融数据处理
6.5.3　对数收益率
6.5.4　实例：标准普尔指数
6.5.5　如何衡量波动率
6.5.6　指数平滑法
6.5.7　金融模型的反馈
6.5.8　聊聊回归模型
6.5.9　先验信息量
6.5.10　一个小例子
6.6　练习：GetGlue提供的时间戳数据
练习：金融建模
第 7 章　从数据到结论
7.1　William Cukierski
7.1.1　背景介绍：数据科学竞赛
7.1.2　背景介绍：众包模式
7.2　Kaggle模式
7.2.1　Kaggle的参赛者
7.2.2　Kaggle的客户
7.3　思维实验：关于作业自动评分系统
7.4　特征选择
7.4.1　例子：留住用户
7.4.2　过滤型
7.4.3　包装型
7.4.4　决策树与嵌入型变量选择
7.4.5　熵
7.4.6　决策树算法
7.4.7　如何在决策树模型中处理连续性变量
7.4.8　随机森林
7.4.9　用户黏性：模型的预测能力与可解释性
7.5　David Huffaker：谷歌社会学研究的新方法
7.5.1　从描述性统计到预测模型
7.5.2　谷歌的社交研究
7.5.3　隐私保护
7.5.4　思维实验：如何消除用户的顾虑
第 8 章　构建面向大量用户的推荐引擎
8.1　一个真实的推荐引擎
8.1.1　最近邻算法回顾
8.1.2　最近邻模型的已知问题
8.1.3　超越近邻模型：基于机器学习的分类模型
8.1.4　高维度问题
8.1.5　奇异值分解（SVD）
8.1.6　关于SVD的重要特性
8.1.7　主成分分析（PCA）
8.1.8　交替最小二乘法
8.1.9　固定矩阵V，更新矩阵U
8.1.10　关于这些算法的一点思考
8.2　思维实验：如何过滤模型中的泡沫
8.3　练习：搭建自己的推荐系统
Python示例代码
第 9 章　数据可视化与欺诈侦测
9.1　数据可视化的历史
9.1.1　Gabriel Tarde
9.1.2　Mark的思维实验
9.2　到底什么是数据科学
9.2.1　Processing
9.2.2　Franco Moretti
9.3　一个数据可视化的方案实例
9.4　Mark的数据可视化项目
9.4.1　《纽约时报》大厅 ............

书籍插图：
书籍《数据科学实战》 - 插图1
书籍《数据科学实战》 - 插图2

以上为书籍内容预览，如需阅读全文内容请下载EPUB源文件，祝您阅读愉快。

版权声明：书云(openelib.org)是世界上最大的在线非盈利图书馆之一，致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权，如您认为书云侵犯了您的合法权益，请参考版权保护声明，通过邮件openelib@outlook.com联系我们，我们将及时处理您的合理请求。数研咨询流芳阁研报之家 AI应用导航研报之家
 书云 Open E-Library » 数据科学实战 - (EPUB全文下载)

分享到：

相关推荐