软计算原理与实现 - (EPUB全文下载)
文件大小:0.19 mb。
文件格式:epub 格式。
书籍内容:
软计算原理与实现
第1章 绪 论
第2章 基于智能Agent的知识发现模型研究与设计
第3章 基于软计算的知识表示方法研究
第4章 数据挖掘中的小波神经网络方法研究
第5章 基于用户需求模型的中英文WWW搜索引擎
第6章 基于Web的文本挖掘技术研究
第7章 聚类分析与应用
第8章 软计算中的算法及其应用
第1章 绪 论
1.1 数据挖掘概述
1.1.1 数据挖掘的发展状况
技术进步已经使得存储大量的数据不是问题,数据库存储的数据量呈指数级增长,随之而来的是按传统方法对众多的数据进行利用和管理已经达不到人们的要求。数据本身是对某个现象、事件、企业或部门的活动的记载,它们是有意义的,巨大的数据量使人工用传统的方法去发现数据中有价值的关系成为难事,而往往隐藏在数据中的本质性知识和关系,以及关于数据的整体特征的描述及对其发展趋势的预测,对于数据拥有者进行决策及获得利益非常重要或有参考价值,因此需要新的技术去解决信息超载带来的问题。这样就导致了数据库中的知识发现(Knowledge Discovery in Database,KDD)及数据挖掘工具的出现。KDD是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的高级处理过程。一般将KDD中进行知识学习的阶段称为数据挖掘(Data Mining)[1]。数据挖掘是从存储在传统数据库的数据中抽取先前没有被识别出的信息,数据挖掘也是使存储的大量没有被使用的数据变成有用信息的手段。
事实上,KDD是一门交叉学科,它融合了数据库、机器学习、人工智能、模糊逻辑、统计学、知识工程、认知科学等学科的方法。在不同的研究群体中,对其给予了不同的名称,如在人工智能和机器学习界称为KDD,在统计、数据库及管理界称为数据挖掘,还有其他一些说法,如信息抽取、信息发现、知识发现、信息收获、数据考古等。本书采用与文献[1]一致的说法,把KDD看成一个过程,数据挖掘是其中的一个阶段,在有些情况下,并不加以严格区别。
20世纪90年代,人们对数据挖掘越来越关注。KDD这个术语首先出现在1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上,1991年、1993年和1994年举行了KDD专题讨论会。随着参加会议人数的增多,从1995年开始,每年都要举办一次KDD国际会议。1997年,KDD拥有了自己的专业杂志Knowledge Discovery and Data Mining。除研究外,也出现了相当数量的KDD产品和应用系统,如由IBM Almaden研究所的R.Agrawal等人研究开发的面向大型数据库的Quest系统,其中包括挖掘关联规则、分类规则、序列模式和相似序列等;由加拿大Simon Fraser大学的J.Han等人研究开发的DBMiner系统,是一个交互式多层次裁决系统,主要挖掘关联规则、分类规则、预测等;Angoss International公司的KnowledgeSEEKER系统;SAS Institute公司的Enterprise Miner系统等[2]。
数据挖掘已经有许多成功的案例[3]。贝尔大西洋公司(Bell Atlantic)通过对客户电话问题的收集,采用数据挖掘创建的一组规则取代专家系统,这些学习得到的规则可以减少公司做出错误决定,每年为公司节省1000多万美元,由于学习规则通过在实例上训练而得到,因此容易维护,并且可以适应不同的地区和开销的变化。美国万国宝通银行(American Express)通过机器学习产生的规则对贷款申请者进行预测,预测贷款者是否会拖欠贷款的准确率可达到70%。英国石油公司(British Petroleum Corporation)通过使用机器学习创建了一组设定控制参数的规则,可以对从地下抽取出的原油和天然气的分离进行控制,专家需要一天多才能完成的任务,用机器学习的规则只需要10分钟。R.R.Donnelly(一家美国大型印刷公司)对凹版印刷滚筒上出现凹槽的情况,使用机器学习为控制过程参数(如油墨、温度等)创建规则,减少条带,学习得到的规则更适合具体的工厂,在某工厂中可以将条带出现的次数从538次降低到26次。新西兰奶牛场每年都需要决定哪些牛用于产奶、哪些牛送去屠宰,他们用机器学习来研究奶牛的血统、产奶史、健康状况、脾气等属性,然后做出决定。制药业采用序列相似性及药物机理,进行归纳逻辑规则的提取,以发现新药。医学界采用概率关系模型来进行流行病学的排查。天文学中采用机器学习开发的完全自动的天体分类系统,准确率可以达到92%。美国政府进行的数据挖掘研究计划在人们日常生活中产生的大量信息(如购物、电话记录、出行等)中寻找恐怖活动的警告模式。
1.1.2 数据挖掘的概念
数据挖掘从字面意义上可以理解为从众多的数据中挖掘出有用的知识或信息。自从数据挖掘开始盛行,对于数据挖掘的定义就众说纷纭。有说这种说法词不达意的,建议把其改成“从数据中挖掘知识”,或改成“数据中的知识发现”[4]。我们认同把数据挖掘看成知识发现过程的一个特定的基本步骤,即人们面对大量数据的时候,从数据中抽取和挖掘新的模式。
Fayyad[1]给出的知识发现的定义:KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。文献[5]对此定义中的概念给出了解释,“数据集”是一组事实F(如关系数据库中的记录)。“模式”是一个用语言L来表示的表达式E,它可用来描述数据集F的某个子集FE。E作为一个模式,要求它比对数据子集FE的枚举要简单(所用的描述信息量要少)。“过程”在KDD中通常指多阶段的处理,涉及数据准备、模式搜索、知识评价及反复的修改求精;该过程要求是非平凡的,意思是要有一定程度的智能性、自动性(仅仅给出所有数据的总和不能算作一个发现过程)。“有效”是指发现的模式对于新的数据仍保持一定的可信度。“新颖”要求发现的模式是新的。“潜在有用”是指发现的知识将来有实际效用,如用于决策支持系统可提高经济效益。“最终可理解”要求发现的模式 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 软计算原理与实现 - (EPUB全文下载)