实战大数据:MATLAB数据挖掘详解与实践 - (EPUB全文下载)
文件大小:1.75 mb。
文件格式:epub 格式。
书籍内容:
实战大数据:MATLAB数据挖掘详解与实践
第1篇 关于数据挖掘
第1章 绪论
第2篇 数据挖掘算法
第2章 决策树算法
第3章 人工神经网络算法
第4章 进化算法
第5章 统计分析方法
第6章 贝叶斯网络方法
第7章 支持向量机
第8章 关联分析
第9章 其他数据挖掘方法
第3篇 数据挖掘相关技术
第10章 数据仓库
第11章 模糊集理论
第12章 粗糙集技术
第13章 目标优化技术
第14章 可视化技术
第15章 公式发现
第16章 多媒体数据挖掘技术
第17章 Web数据挖掘技术
第4篇 数据挖掘应用实战
第18章 数据统计特性
第19章 数据预处理
第20章 分类
第21章 预测
第22章 聚类
第23章 时序数据挖掘
第24章 关联规则挖掘
参考文献
第1篇 关于数据挖掘
第1章绪论
1.1 数据挖掘概述
随着通信、计算机、网络技术和数据库技术的快速发展,以及日常生活自动化技术的普遍应用,如超市POS机、自动售货机、信用卡和借记卡、在线购物、自动订单处理、自动售票等,数据正在以空前的速度产生和被收集,而且随着大容量、高速度、低价格的存储设备的相继问世,人们获取数据、存储数据变得越来越容易,数据量急剧增大。在各行各业,许多公司已经认识到信息的重要性,信息即为财富,信息即为竞争优势、信息就是产品正逐渐成为共识……
大量信息在给人们带来方便的同时也带来了大量问题:信息冗余;信息真伪难辨,给信息的正确应用带来困难;网络上的信息安全难以保障;不能搜索到数据中的深层次或隐藏的规律;信息组织形式的不一致,增加了对信息进行有效统一处理的难度等。
缺少如何从海量的数据中提取出有价值知识方法的现状,促使人们产生了对海量数据分析工具的强烈需求。人们期望通过数据分析工具去寻找隐藏在海量数据之后或网络上的更深层次、更重要的信息,理解已有的历史数据并用以预测未来的行为;获得有价值的网络信息和网络服务,为用户提供重要的、未知的信息或知识,指导政府决策、企业决策以获取更大的经济效益和社会效益。为了满足人们对数据分析工具的需求,20世纪80年代后期至今,高级数据分析——基于数据库的知识发现(Knowledge Discovery in Database,KDD)及相应的数据挖掘(Data Mining,DM)理论和技术应运而生。
KDD是指从数据中发现有用知识的信息和模式的过程,包含数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评价等步骤,最终得到知识。这个过程的输入是数据,输出则是用户期望的有用信息。而MD是指使用算法来抽取信息和模式,是KDD过程的一个步骤,也是发现中的核心工作。虽然本质上这两者有所不同,事实上在现今的文献中经常把它们等同看待。
数据挖掘可以从技术和商业两个层面上来理解。从技术层面上看,数据挖掘是探查和分析大量数据以发现有意义的模式和规则的过程。从商业层面上看,数据挖掘就是一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中抽取辅助商业决策的关键性数据。
数据挖掘与传统数据分析方法(如查询、报表、联机应用处理等)有着本质区别:数据挖掘是在没有明确假设的前提下挖掘信息和发现知识。数据挖掘所得到的信息具有先前未知、有效和实用三个特征。先前未知的信息是指该信息是事先未曾预料到的,即数据挖掘是要发现那些不能靠直觉或是经验而发现的信息或知识,甚至是违背直觉的信息或知识。挖掘出的信息越是出乎意料,就可能越有价值。
KDD过程可以概括为三部分:数据准备、数据挖掘及结果的解释和评估。
数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换。数据选取是指确定目标数据,即根据用户的需要从原始数据库中抽取一组数据。数据预处理一般包括消除噪声、计算补齐缺值数据、消除重复记录、完成数据类型转换等。数据变换是指消减数据维数或降维,即通过一定的方法,减少原始特征或变量的个数(降维),以减少计算工作量。
数据挖掘阶段首先要确定挖掘的任务或目的,即KDD要发现的知识类型,如数据分类、聚类、关联规则发现等,然后再确定挖掘算法。在选择算法时既要考虑数据的特点,也要考虑用途或实际运行系统的要求。同样的目标可以选用不同的算法来解决,要做到算法与整个KDD过程的评判标准相一致。
数据挖掘发现的模式,可能存在冗余或无关的模式,或者是不能满足用户的模式,这时需要进行模式的解释和评估,甚至重新开始一个KDD过程,以消除冗余或无关的模式,或产生新的模式。有两个影响因素决定数据挖掘过程的质量:一是数据挖掘技术的有效性;二是用于挖掘的数据的质量和数量。错误的数据或不适当的属性,以及数据不适当的转换都不可能发现有效的模式。
可视化技术在数据挖掘的各个阶段都扮演着重要的角色。在数据准备阶段,用户可以使用散点图、直方图等统计可视化技术来显示有关数据,以期对数据有一个初步的了解,从而为更好地选取数据打下基础。在挖掘阶段,用户则要使用一些专业的可视化工具,以显示数据挖掘过程。在表示结果阶段,则要用可视化技术以使发现的知识更易于理解。
在上述步骤中,数据挖掘占据非常重要的地位,它主要是利用某些特定的知识发现算法,在一定的运算效率范围内,从数据中发现有关知识,从而帮助人们在数据库中找到最重要的信息,预测未来的趋势和行为,并做出具有知识驱动的决策,可以说,它决定了整个KDD过程的效果与效率。
很显然,数据挖掘有别于传统的数据查询、报表及全文检索等数据分析工作,它常常是在没有前提假设的情况下,从事信息的挖掘与知识的提取。数据挖掘所得到的信息结果,当然不一定全都是先前未知的。
根据数据挖掘的定义,典型的数据挖掘系统具有如下组成部分。
数据库、数据仓库或其他信息库:这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库,可以在此数据集上进行数据预处理和选取。
数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。
知识库:存放领域知识,用于指导搜索或评估结果模式的兴趣度。这种知识可能包括概念分层及用户确信度 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 实战大数据:MATLAB数据挖掘详解与实践 - (EPUB全文下载)