并行数据挖掘及性能优化:关联规则与数据相关性分析 - (EPUB全文下载)

文件大小:3.55 mb。
文件格式:epub 格式。
书籍内容:

并行数据挖掘及性能优化:关联规则与数据相关性分析
第1章 绪论
第2章 MapReduce集群环境下的数据放置策略
第二篇 关联规则并行挖掘及性能优化篇
第3章 压缩后缀链表与并行频繁项集挖掘算法
第4章 FIUT算法与频繁项集并行挖掘
第5章 MapReduce编程模型下的约束频繁项集并行挖掘算法
第6章 支持并行频繁项集挖掘的数据划分策略
第7章 频繁项集并行化过程中的重定向任务调度
第8章 基于Spark内存计算的并行频繁项集挖掘及优化
第三篇 应用篇
第9章 冷轧辊加工质量管理过程相关性分析
附录A 冷轧辊加工数据
附录B 冷轧辊加工数据预处理格式
参考文献
反侵权盗版声明
第1章 绪论
1.1 数据挖掘
1.1.1 数据挖掘的产生和定义[1]
计算机技术、网络技术和移动通信技术等现代先进技术的飞速发展和普及应用,使得人们获取数据的途径和手段迅猛增多。随着行业应用系统的规模的不断扩大,其所产生的数据爆炸性增长,人们还未来得及适应信息时代的发展就又步入了信息爆炸的大数据时代。正如麦肯锡公司在2011年6月发表的一份报告中指出的那样:数据是新时期的基础生活资料与市场要素,重要程度不亚于物质资产和人力资本,大数据将成为企业提高生产力和竞争力的主要方式与关键要素。然而,数据本身并没有价值,研究大数据的意义在于发现和理解隐藏在其背后的信息内容及信息与信息之间的联系。大数据相当于一个“富饶的矿藏”,有价值的信息就隐藏在其中,包括关联、聚类、分类、趋势、异常等。跨越数据与知识之间的鸿沟需要强有力的分析工具的支撑。对大数据而言,传统的数据统计分析技术和数据库技术已不能满足需求,因此,人们结合机器学习、知识工程、统计学、数据库技术及数据可视化技术,提出了一种强有力的“采矿工具”——数据挖掘技术。
数据挖掘(Data Mining,DM)的概念在1995年由美国计算机协会(ACM)提出。数据挖掘就是从大量的、模糊的、有噪声的、不完全的、随机的数据中,提取隐含的、未知的、非平凡的及有潜在应用价值的信息或者模式的过程。数据挖掘的两个高层次目标是预测和描述。其中,预测是指用一些数据集中已知的变量或字段预测用户感兴趣的变量或字段的值,如各大网站上的推送广告、购物网站上的商品推荐等;而描述则是要找到被描述数据可以被理解的模式,如将杂乱无章的数据进行分类或聚类等。如图1-1所示,完整的数据挖掘过程包含三大阶段:数据准备、数据挖掘和结果输出。
图1-1 完整的数据挖掘过程
目前,国内外学者已研究和开发出了一些数据挖掘系统,比较有代表性的通用数据挖掘系统有IBM公司开发的Intelligent Miner、加拿大西蒙弗雷泽大学开发的DBMiner和SGI公司与美国斯坦福大学联合开发的MineSet等。一个结构合理的数据挖掘系统应该具有以下几个特点:①系统功能和辅助工具具有完备性;②系统具有可扩展性;③支持多种数据源;④具有大数据处理能力;⑤具有良好的用户界面和结果展示能力。目前数据挖掘系统主要有集中式数据挖掘系统和分布式数据挖掘系统。
集中式数据挖掘系统是当前发展得较为成熟的数据挖掘系统,其体系结构如图1-2所示,许多商业性的数据挖掘应用软件都是基于该结构的,但不同产品的具体实现技术又不尽相同。控制层用于控制系统的执行流程,协调各功能部件间的关系和执行顺序,其任务主要包括对数据挖掘任务进行解析,并根据解析结果确定数据范围和应该采用的数据挖掘算法。数据源层负责在数据挖掘前将分散存储在多个数据源中的数据通过数据清理和数据集成等预处理操作集成到一个统一的数据库/数据仓库中。待挖掘数据层为挖掘层提供符合数据挖掘算法要求的待挖掘数据集。挖掘层是集中式数据挖掘系统的核心,用来运行各种数据挖掘算法。知识评价及知识库层在将挖掘结果呈现给用户之前通过知识评价有效地去除冗余的、无用的挖掘结果。用户界面及知识展示层通过友好的用户界面及数据可视化技术展示挖掘结果,其可以大大提高系统的易用性。
图1-2 集中式数据挖掘系统的体系结构
随着网络技术和分布式数据库技术的发展和成熟,分布式数据库已经得到越来越广泛的应用,原来数据的集中式存储和管理方式也逐渐转变为分布式存储和管理方式。与集中式数据挖掘系统不同,分布式数据挖掘系统当前主要处在研究阶段,还没有出现成熟的商业产品。分布式数据挖掘的研究热点当前主要集中在对超大规模数据集的处理及提高分布式挖掘系统的整体性能上。Grossman等人提出了一种称为PDS的集成框架,该框架首次集成了支持远程数据分析和分布式数据挖掘的数据服务,该框架可用于进行GB级大数据的分布式数据挖掘。
1.1.2 数据挖掘的任务与分类[2,3]
根据发现知识类型的方法的不同,可将数据挖掘的任务类型归纳为以下几类。
(1)数据特征化与数据区分
数据特征化是指从与学习任务相关的样本数据集中提取这些数据的特征,从而获取该数据集的总体特征。而数据区分则是发现或提取与学习任务相关的数据的特征,使之与对比数据能够区分开来。
(2)分类
分类就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某一种离散的类别上。分类模型(或函数)可以通过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得。典型的分类算法有:决策树算法、神经网络算法、遗传算法和贝叶斯算法等。
(3)聚类
聚类就是把源数据按照某个规则划分成若干类的过程,该过程使得属于同一类别的个体之间的差别尽可能小,而不同类别上的个体间的差别尽可能大。聚类和分类方法的不同之处在于:分类是在特定的类标识下指导新元素的分类,而聚类则是通过对数据的分析生成新的类标识。典型的聚类算法有基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法和基于网格的聚类算法。
(4)关联分析
关联分析是发现大量数据中项集之间“有趣的”关联或联系的过程。通过对项集进行关联分析,可以找出关联规则。支持度和置信度是两个对关联规则兴趣度进行度量的指标,满足最小支持度或最小置信 ............

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » 并行数据挖掘及性能优化:关联规则与数据相关性分析 - (EPUB全文下载)