机器学习在线:解析阿里云机器学习平台 - (EPUB全文下载)
文件大小:0.13 mb。
文件格式:epub 格式。
书籍内容:
机器学习在线:解析阿里云机器学习平台
第1章 阿里云机器学习
第2章 商家作弊行为检测
第3章 生存预测
第4章 信用风险预测
第5章 用户购买行为预测
第6章 聚类与分类
第7章 葡萄酒品质预测
第9章 基于用户退货描述的赔付预测
第10章 情感分析
第11章 影片推荐
第12章 支持深度学习框架
附录A
第1章 阿里云机器学习
阿里云机器学习平台是构建在阿里云MaxCompute计算平台之上,集数据处理、建模、离线预测、在线预测为一体的机器学习算法平台。用户通过拖曳可视化的操作组件来进行试验,使得没有机器学习背景的工程师也可以轻易上手玩转数据挖掘。平台提供了丰富的组件,包括数据预处理、特征工程、算法组件、预测与评估。平台目前整合了阿里集团内最先进的算法,为集团内、外不同用户提供算法服务。
欢迎访问阿里云机器学习的网址:https://data.aliyun.com/product/learn。用户可在阿里云网站申请公测,进行免费试用,相关内容详见本书附录。
1.1 产品特点
· 简单、易用
将各个复杂的机器学习算法抽象为算法组件,通过拖曳组件的方式即可完成机器学习流程的搭建,大大降低了机器学习算法学习和使用的门槛。
· 算法丰富、完整
不但包括了机器学习核心的分类、聚类、回归模型,还包括了数据探索、预处理、特征工程、深度学习、文本分析等方面的组件,可以一站式地完成不同场景的解决方案。
· 支持处理大数据
提供高性能的机器学习算法实现,并根据数据量的大小及计算的复杂程度自动获取适合的计算资源,再多的数据也能及时处理。
图1-1 阿里云机器学习
1.2 名词解释
为便于读者阅读,将阿里云机器学习平台中涉及的一些名词进行了解释,详见表1-1。
表1-1 名词解释
续表
1.3 构建机器学习实验
1.3.1 新建实验
如图1-2所示,点击左侧“实验”按钮,右击“我的实验”选项,选择“新建空白实验”或“从模板新建实验”选项,然后系统会自动进入新建的实验操作空间。
图1-2 新建实验
1.3.2 使用组件搭建工作流
如图1-3所示,拉入数据表和算法组件,进行实验流搭建。具体操作是:点击左侧“数据源”按钮搜索选择需要的数据表,拖曳到右侧空白处;点击左侧“组件”按钮,选择需要的组件,并拖曳到右侧空白处;并根据实验流程,连接组件的输入、输出桩。
图1-3 搭建工作流
1.3.3 运行实验、查看结果
如图1-4所示,点击工作区下方的“运行”按钮,依次运行实验的各个组件,组件运行完成后,其右端会显示绿色的对号标记,然后,单击鼠标右键,就可选择查看结果数据及图表。
图1-4 运行实验、查看结果
1.3.4 模型部署、在线预测
1)模型部署。
如图1-5所示,点击左侧“模型”按钮,找到当前实验名称,选择模型,然后在右键菜单选择“在线模型部署”选项。注意,第一次使用此功能,需要按提示申请相应的权限。部署完成后,会显示预测服务的访问路径、所在project的名称、在线模型名称。
图1-5 在线模型部署
2)在线预测。
预测API请求地址:$访问路径/projects/$project名称/onlinemodels/$模型名称。
请求Body内容需要填上对应算法所输入的json格式文件,包括字段名、字段的type和具体数值。
第2章 商家作弊行为检测
电子商务领域,就像一块巨大的蛋糕,商家们各显神通,希望占据更多的市场份额,获得更大的利润。个别商家通过作弊手段希望获得更多利益,譬如:虚假交易就是一种重要的作弊方式,借此提升商家的等级,骗取用户的信任。不打击这些作弊的行为,就会极大地损害整个市场的信用体系,让诚信的商家蒙受损失,进而会有更多的商家尝试通过作弊来获取利益。作弊与反作弊的斗争一直在进行中,不断有新的方法出现,也不断有新的对策出台。
这里我们介绍一个例子,通过对交易行为的分析,预测商家作弊情况。注意:所使用的建模数据经过特殊处理,分析结论不能反映真实的交易情况。从机器学习方法的角度来看,这是典型的分类问题,而且分类目标为两个,使用的数据特征已经被很好地数字化,可以直接套用一些常用的分类模型进行训练、预测。
使用的数据表名为business_fraud,有1个ID列,6个属性列和1个标签列,各列的介绍如表2-1所示,各属性列如何变换到0~1区间,不是本节的重点,不展开讨论。
表2-1 交易信息字段
数据如图2-1所示,很明显,字段 b_score、r_score和p_score中0值的个数较多。
图2-1 交易信息数据表
2.1 数据探索
首先使用最常用的组件,“全表统计”和“直方图(多字段)”,关注最基本的统计信息。各组件的连接方式如图2-2所示。
图2-2 数据探索流程图
其中,“全表统计”组件可以使用默认参数,即对所有数据列进行统计;“直方图(多字段)”组件需要选择字段,如图2-3所示,在弹出的“选择字段”窗口选择所有特征属性列。
图2-3 直方图组件设置
“全表统计”的计算结果如图2-4所示,每个字段的统计值占一行,第一列是字段名称,随后是各种统计指标。
图2-4 全表统计结果
由图2-4 的统计结果截图可以看出:
· 数据集的样本数量为34727,各列没有缺失值。
· 6个属性列的取值都在0~1之间。
· a_score列、ri_score列和v_score列的最大值没有达到1;ri_score列的最小值为0.021,略大于0。
· 有两列(p_score与v_score)的方差非常小,则这两列的数据会比较集中;特别地,p_score列的均值为0.0504861,则该列的数据绝大部分在0点附近。
· 标签列label的取值只能为0或1,该列的均值为0.4240792,说明label=0的标签占总体的42.4%,而label=1的标签占总体的57.6%。
进一步,我们通过直方图查看分布情况,各字段直方图及相应的分析如表2-2所示。
表2-2 各字段直方图
续表
接下来,我们考察各属性列间,以及特征属性列与分类标签列之间的 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 机器学习在线:解析阿里云机器学习平台 - (EPUB全文下载)