openelib.org 计算机技术

机器学习在线：解析阿里云机器学习平台 - (EPUB全文下载)

文件大小：0.13 mb。
文件格式：epub 格式。
书籍内容：

机器学习在线：解析阿里云机器学习平台
第1章　阿里云机器学习
第2章　商家作弊行为检测
第3章　生存预测
第4章　信用风险预测
第5章　用户购买行为预测
第6章　聚类与分类
第7章　葡萄酒品质预测
第9章　基于用户退货描述的赔付预测
第10章　情感分析
第11章　影片推荐
第12章　支持深度学习框架
附录A
第1章　阿里云机器学习
阿里云机器学习平台是构建在阿里云MaxCompute计算平台之上，集数据处理、建模、离线预测、在线预测为一体的机器学习算法平台。用户通过拖曳可视化的操作组件来进行试验，使得没有机器学习背景的工程师也可以轻易上手玩转数据挖掘。平台提供了丰富的组件，包括数据预处理、特征工程、算法组件、预测与评估。平台目前整合了阿里集团内最先进的算法，为集团内、外不同用户提供算法服务。
欢迎访问阿里云机器学习的网址：https://data.aliyun.com/product/learn。用户可在阿里云网站申请公测，进行免费试用，相关内容详见本书附录。
1.1　产品特点
· 简单、易用
将各个复杂的机器学习算法抽象为算法组件，通过拖曳组件的方式即可完成机器学习流程的搭建，大大降低了机器学习算法学习和使用的门槛。
· 算法丰富、完整
不但包括了机器学习核心的分类、聚类、回归模型，还包括了数据探索、预处理、特征工程、深度学习、文本分析等方面的组件，可以一站式地完成不同场景的解决方案。
· 支持处理大数据
提供高性能的机器学习算法实现，并根据数据量的大小及计算的复杂程度自动获取适合的计算资源，再多的数据也能及时处理。
图1-1　阿里云机器学习
1.2　名词解释
为便于读者阅读，将阿里云机器学习平台中涉及的一些名词进行了解释，详见表1-1。
表1-1　名词解释
续表
1.3　构建机器学习实验
1.3.1　新建实验
如图1-2所示，点击左侧“实验”按钮，右击“我的实验”选项，选择“新建空白实验”或“从模板新建实验”选项，然后系统会自动进入新建的实验操作空间。
图1-2　新建实验
1.3.2　使用组件搭建工作流
如图1-3所示，拉入数据表和算法组件，进行实验流搭建。具体操作是：点击左侧“数据源”按钮搜索选择需要的数据表，拖曳到右侧空白处；点击左侧“组件”按钮，选择需要的组件，并拖曳到右侧空白处；并根据实验流程，连接组件的输入、输出桩。
图1-3　搭建工作流
1.3.3　运行实验、查看结果
如图1-4所示，点击工作区下方的“运行”按钮，依次运行实验的各个组件，组件运行完成后，其右端会显示绿色的对号标记，然后，单击鼠标右键，就可选择查看结果数据及图表。
图1-4　运行实验、查看结果
1.3.4　模型部署、在线预测
1）模型部署。
如图1-5所示，点击左侧“模型”按钮，找到当前实验名称，选择模型，然后在右键菜单选择“在线模型部署”选项。注意，第一次使用此功能，需要按提示申请相应的权限。部署完成后，会显示预测服务的访问路径、所在project的名称、在线模型名称。
图1-5　在线模型部署
2）在线预测。
预测API请求地址：$访问路径/projects/$project名称/onlinemodels/$模型名称。
请求Body内容需要填上对应算法所输入的json格式文件，包括字段名、字段的type和具体数值。
第2章　商家作弊行为检测
电子商务领域，就像一块巨大的蛋糕，商家们各显神通，希望占据更多的市场份额，获得更大的利润。个别商家通过作弊手段希望获得更多利益，譬如：虚假交易就是一种重要的作弊方式，借此提升商家的等级，骗取用户的信任。不打击这些作弊的行为，就会极大地损害整个市场的信用体系，让诚信的商家蒙受损失，进而会有更多的商家尝试通过作弊来获取利益。作弊与反作弊的斗争一直在进行中，不断有新的方法出现，也不断有新的对策出台。
这里我们介绍一个例子，通过对交易行为的分析，预测商家作弊情况。注意：所使用的建模数据经过特殊处理，分析结论不能反映真实的交易情况。从机器学习方法的角度来看，这是典型的分类问题，而且分类目标为两个，使用的数据特征已经被很好地数字化，可以直接套用一些常用的分类模型进行训练、预测。
使用的数据表名为business_fraud，有1个ID列，6个属性列和1个标签列，各列的介绍如表2-1所示，各属性列如何变换到0~1区间，不是本节的重点，不展开讨论。
表2-1　交易信息字段
数据如图2-1所示，很明显，字段 b_score、r_score和p_score中0值的个数较多。
图2-1　交易信息数据表
2.1　数据探索
首先使用最常用的组件，“全表统计”和“直方图（多字段）”，关注最基本的统计信息。各组件的连接方式如图2-2所示。
图2-2　数据探索流程图
其中，“全表统计”组件可以使用默认参数，即对所有数据列进行统计；“直方图（多字段）”组件需要选择字段，如图2-3所示，在弹出的“选择字段”窗口选择所有特征属性列。
图2-3　直方图组件设置
“全表统计”的计算结果如图2-4所示，每个字段的统计值占一行，第一列是字段名称，随后是各种统计指标。
图2-4　全表统计结果
由图2-4 的统计结果截图可以看出：
· 数据集的样本数量为34727，各列没有缺失值。
· 6个属性列的取值都在0~1之间。
· a_score列、ri_score列和v_score列的最大值没有达到1；ri_score列的最小值为0.021，略大于0。
· 有两列（p_score与v_score）的方差非常小，则这两列的数据会比较集中；特别地，p_score列的均值为0.0504861，则该列的数据绝大部分在0点附近。
· 标签列label的取值只能为0或1，该列的均值为0.4240792，说明label=0的标签占总体的42.4%，而label=1的标签占总体的57.6%。
进一步，我们通过直方图查看分布情况，各字段直方图及相应的分析如表2-2所示。
表2-2　各字段直方图
续表
接下来，我们考察各属性列间，以及特征属性列与分类标签列之间的 ............

以上为书籍内容预览，如需阅读全文内容请下载EPUB源文件，祝您阅读愉快。

版权声明：书云(openelib.org)是世界上最大的在线非盈利图书馆之一，致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权，如您认为书云侵犯了您的合法权益，请参考版权保护声明，通过邮件openelib@outlook.com联系我们，我们将及时处理您的合理请求。数研咨询流芳阁研报之家 AI应用导航研报之家
 书云 Open E-Library » 机器学习在线：解析阿里云机器学习平台 - (EPUB全文下载)

分享到：

相关推荐