机器学习与数据科学 - (EPUB全文下载)
文件大小:7.86 mb。
文件格式:epub 格式。
书籍内容:
目 录
版权信息
版权声明
内容提要
前言
第1章 机器学习综述
1.1 机器学习的分类
1.2 机器学习的实际案例
1.2.1 预测回头客挑战赛
1.2.2 Netflix公司
1.2.3 算法交易挑战赛
1.2.4 Heritage健康奖
1.3 机器学习的过程
1.4 机器学习背后的数学
1.5 成为一名数据科学家
1.6 统计计算的R工程
1.7 RStudio
1.8 使用R包
1.9 数据集
1.10 在生产中使用R
1.11 小结
第2章 连接数据
2.1 管理你的工作目录
2.2 数据文件的种类
2.3 数据的来源
2.4 从网络中下载数据集
2.5 读取CSV文件
2.6 读取Excel文件
2.7 使用文件连接
2.8 读取JSON文件
2.9 从网站中抓取数据
2.10 SQL数据库
2.11 R中的SQL等价表述
2.12 读取Twitter数据
2.13 从谷歌分析中读取数据
2.14 写数据
2.15 小结
第3章 数据处理
3.1 特征工程
3.2 数据管道
3.3 数据采样
3.4 修正变量名
3.5 创建新变量
3.6 数值离散化
3.7 日期处理
3.8 将类变量二值化
3.9 合并数据集
3.10 排列数据集
3.11 重塑数据集
3.12 使用dplyr进行数据操作
3.13 处理缺失数据
3.14 特征缩放
3.15 降维
3.16 小结
第4章 探索性数据分析
4.1 数据统计
4.2 探索性可视化
4.3 直方图
4.4 箱形图
4.5 条形图
4.6 密度图
4.7 散点图
4.8 QQ图
4.9 热图
4.10 缺失值的图表
4.11 解释性图表
4.12 小结
第5章 回归
5.1 一元线性回归
5.2 多元线性回归
5.3 多项式回归
5.4 小结
第6章 分类
6.1 一个简单的例子
6.2 逻辑回归
6.3 分类树
6.4 朴素贝叶斯
6.5 K-最近邻
6.6 支持向量机
6.7 神经网络
6.8 集成
6.9 随机森林
6.10 梯度提升机
6.11 小结
第7章 评估模型性能
7.1 过拟合
7.2 偏差和方差
7.3 干扰因子
7.4 数据泄漏
7.5 测定回归性能
7.6 测定分类性能
7.7 交叉验证
7.8 其他机器学习诊断法
7.8.1 获取更多的训练观测数据
7.8.2 特征降维
7.8.3 添加新特征
7.8.4 添加多项式特征
7.8.5 对正则化参数进行微调
7.9 小结
第8章 非监督学习
8.1 聚类
8.2 模拟聚类
8.3 分级聚类
8.4 K-均值聚类
8.5 主成分分析
8.6 小结
术语表
欢迎来到异步社区!
版权信息
书名:机器学习与数据科学(基于R的统计学习方法)
ISBN:978-7-115-45240-5
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
• 著 [美] Daniel D. Gutierrez
译 施 翊
责任编辑 陈冀康
• 人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
• 读者服务热线:(010)81055410
反盗版热线:(010)81055315
版权声明
Simplified Chinese translation copyright ©2017 by Posts and Telecommunications Press
ALL RIGHTS RESERVED
Machine Learning and Data Science, an Introduction to Statistical Learning Methods with R, by Daniel D. Gutierrez ISBN 9781634620963
Copyright © 2016 by Technics Publications, LLC
本书中文简体版由Technics Publications授权人民邮电出版社出版。未经出版者书面许可,对本书的任何部分不得以任何方式或任何手段复制和传播。
版权所有,侵权必究。
内容提要
当前,机器学习和数据科学都是很重要和热门的相关学科,需要深入地研究学习才能精通。
本书试图指导读者掌握如何完成涉及机器学习的数据科学项目。本书将为数据科学家提供一些在统计学习领域会用到的工具和技巧,涉及数据连接、数据处理、探索性数据分析、监督机器学习、非监督机器学习和模型评估。本书选用的是R统计环境,书中所有代码示例都是用R语言编写的,涉及众多流行的R包和数据集。
本书适合数据科学家、数据分析师、软件开发者以及需要了解数据科学和机器学习方法的科研人员阅读参考。
前言
在我的童年时代,我十分喜爱著名科幻作家、教授艾萨克·阿西莫夫(Asimov Isaac)的《基地三部曲》。故事的主角叫作Hari Seldon,他是一位开创了“心理历史学”的数学教授,这门学科涉及历史学、社会学和数理统计,可以用来预测未来事件发生的概率。因此,我从小就迷上了预测这一概念。很自然地,我长大后成为了一名数据科学家。我把机器学习类比为Seldon的素数辐射法(Prime Radiant),是一个存储“心理历史学方程”的工具,可以用来展示人类未来发展前景。
远在“数据科学”这一概念问世之前,我就已经成为(或者假装成为)一名数据科学家(data scientist)很多年了。“数据科学家”这一头衔经历了数十年职业演化才建立,对此我表示十分欣喜。最近在业内 ............
书籍插图:
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 机器学习与数据科学 - (EPUB全文下载)