Spark机器学习进阶实战 - (EPUB全文下载)
文件大小:0.49 mb。
文件格式:epub 格式。
书籍内容:
Spark机器学习进阶实战
第1章 机器学习概述
1.1 机器学习概述
1.2 机器学习算法
1.3 机器学习分类
1.4 机器学习综合应用
1.5 本章小结
第2章 数据分析流程和方法
2.1 数据分析概述
2.2 数据分析流程
2.3 数据分析的基本方法
2.4 简单的数据分析实践
2.5 本章小结
第二篇 算法篇
第3章 构建分类模型
3.1 分类模型概述
3.2 分类模型算法
3.3 分类效果评估
3.4 App数据的分类实现
3.5 其他分类模型
3.6 本章小结
第4章 构建聚类模型
4.1 聚类概述
4.2 聚类模型
4.3 聚类效果评价
4.4 使用KMeans对鸢尾花卉数据集聚类
4.5 使用DBSCAN对GPS数据进行聚类
4.6 其他模型
4.7 本章小结
第5章 构建回归模型
5.1 常用回归模型
5.2 评估指标
5.3 回归模型优化
5.4 构建UCI裙子销售数据回归模型
5.5 其他回归模型案例
5.6 本章小结
第6章 构建关联规则模型
6.1 关联规则概述
6.2 常用关联规则算法
6.3 效果评估和优化
6.4 使用FP-Growth对豆瓣评分数据进行挖掘
6.5 其他应用场景
6.6 本章小结
第7章 协同过滤
7.1 协同过滤概述
7.2 常用的协同过滤算法
7.3 评估标准
7.4 使用电影评分数据进行协同过滤实践
7.5 本章小结
第8章 数据降维
8.1 降维概述
8.2 常用降维算法
8.3 降维评估标准
8.4 使用PCA对Digits数据集进行降维
8.5 其他降维方法
8.6 本章小结
第三篇 综合应用篇
第9章 异常检测
9.1 异常概述
9.2 异常检测方法
9.3 异常检测系统
9.4 应用场景
9.5 新闻App数据异常检测实践
9.6 本章小结
第10章 用户画像
10.1 用户画像概述
10.2 用户画像流程
10.3 构建用户画像
10.4 用户画像评估和使用
10.5 新闻App用户画像实践
10.6 本章小结
第11章 广告点击率预估
11.1 点击率预估概述
11.2 点击率预估技术
11.3 模型效果评估
11.4 新闻App点击率预估实践
11.5 本章小结
第12章 企业征信大数据应用
12.1 征信概述
12.2 企业征信大数据平台
12.3 企业征信大数据应用
12.4 企业法人资产建模实践
12.5 本章小结
第13章 智慧交通大数据应用
13.1 智慧交通大数据概述
13.2 人群生活模式划分
13.3 道路拥堵模式聚类
13.4 本章小结
第1章 机器学习概述
慎终如始,则无败事。
——《道德经》第六十四章
谨慎地做到最终,就像开始时一样,就不会有失败和差错。
但凡人们办事时,容易虎头蛇尾,开始时认真﹑细致、谨慎、严肃,久后则敷衍、马虎、粗心、草率,这样往往事倍功半。办任何事情,自始至终都应慎之又慎,这样才不会出现差错。故老子用“慎终如始”告诫人们办事应有始有终,始终如一,这样才不至于把事情办糟,大数据机器学习实践之路也是如此。
本章从机器学习的相关基本概念讲起,包括大数据、机器学习、大数据生态中的机器学习,并针对机器学习算法进行分类归纳,总结机器学习的综合应用场景。
1.1 机器学习概述
随着大数据的发展,机器学习进入了最美好的时代,通过“涟漪效应”逐步迭代,大数据推动机器学习真正实现落地。
接下来,我们从大数据讲起,扩展到机器学习的发展和大数据生态。
1.1.1 理解大数据
提起大数据,人们会不由地想起盲人摸象的故事。
从前,有四个盲人很想知道大象是什么样子,可他们看不见,只好用手摸。胖盲人摸到大象的牙齿,认为大象就像一个又大、又粗、又光滑的大萝卜;高个子盲人摸到大象的耳朵,认为大象是一把大蒲扇;矮个子盲人摸到了大象的腿,认为大象只是根大柱子;年老的盲人摸到大象的尾巴,认为大象只是一根草绳。如图1-1所示,四个盲人争吵不休,都说自己摸到的才是大象真正的样子。
图1-1 “盲人摸象”故事
从这个故事可以看出,数据源越多越精确,越能无限逼近事实和真相,越能获得更深邃的智慧和洞察,这就是大数据的价值。
“大数据(Big Data,BD)”的概念早已有之,1980年著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。近几年,“大数据”和“物联网”“云计算”“人工智能”一道成为信息技术行业的流行词汇,理清楚它们的关系是理解大数据的前提,但是和大数据概念一样,每个人都有自己的理解。
徐宗本院士在“再论大数据——在人工智能的浪潮下对大数据的再认识”报告中提出大数据与其他信息技术的关系:物联网是“交互方式”,云计算是“基础设施”,人工智能是“场景应用”,大数据是“交互内容”。大数据使用物联网交互方式、存储在云计算基础设施、支持人工智能场景应用,生成完整的价值链。
图1-2 物联网、云计算、大数据生态链
陈国良院士在“大数据与高性能计算”报告中提出了物联网(IoT)、大数据(BD)、云计算(CC)生态链,如图1-2所示。①IoT通过采集与捕获产生了BD;②BD为CC找到了更多的实际应用;③CC为BD提供了弹性可扩展的存储和并行处理;④BD为IoT产生了大价值,云计算与高性能计算是一对在出生时被分开的兄弟,两者相结合得到的高性能云计算能产生更大的价值。
总之,大数据的存储、处理需要云计算基础设施的支撑,云计算需要海量数据的处理能力证明自身的价值;人工智能技术的进步离不开云计算能力的不断增长,云计算让人工智能服务无处不在、触手可及;大数据的价值发现需要高效的人工智能方法,人工智能的自我学习需要海量数据的输入。随着大数据和人工智能的深度融合,高度数据化的AI(人工智能)和高度智能化的DT(大数据技术)并存将是时代新常态。
1.1.2 机器学习发展过程
机器学习(Machine Learning,ML)是人工智能的核心,涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » Spark机器学习进阶实战 - (EPUB全文下载)