大数据、数据挖掘与智慧运营 - (EPUB全文下载)
文件大小:1.24 mb。
文件格式:epub 格式。
书籍内容:
大数据、数据挖掘与智慧运营
第1章 大数据、数据挖掘与智慧运营综述
第2章 数据统计与数据预处理
第3章 聚类分析
第4章 分类分析
第5章 回归分析
第6章 关联分析
第7章 增强型数据挖掘算法
第8章 数据挖掘在运营商智慧运营中的应用
第9章 面向未来大数据的数据挖掘与机器学习发展趋势
第1章 大数据、数据挖掘与智慧运营综述
近年来,大数据、数据挖掘、机器学习、云计算和人工智能等词语日渐为人们所熟悉。本章将围绕上述基本概念和话题展开讨论。本章1.1节介绍数据挖掘的概念和发展史,1.2节介绍数据挖掘的主要流程和金字塔模型,1.3节介绍数据挖掘对企业智慧运营的重要意义,1.4节介绍大数据的基本概念、特征和挑战,1.5节介绍非结构化数据挖掘的概念和研究进展,1.6节介绍结构化数据挖掘与机器学习、深度学习和人工智能之间的关联关系,1.7节介绍常见的数据挖掘分析软件与系统。
1.1 数据挖掘的发展史
1.1.1 数据挖掘的定义与起源
什么是数据挖掘,数据挖掘包括哪些范畴?迄今为止不同的学者和公司仍有着不同的理解和定义。例如有的学者认为:数据挖掘即指摆脱传统的经验式、规律式的分析方法,转变为纯粹从数据出发来探索问题的本质。又例如有的公司认为:数据挖掘是一种从数据中榨取价值,提升公司运营效率的重要手段。然而,绝大部分学者和公司都认同数据挖掘的最基本定义:从数据中获取知识。
数据挖掘具体起源于什么年代现在已无从考证。自从有了数据,人类就开始尝试对数据进行分析。随着时代的发展,特别是计算机技术的诞生和发展,人类拥有的数据越来越多,种类越来越复杂,之前传统的浅层次的、以经验式、观察式为主的数据分析方法已不再适用,人类急需一整套深层次的、科学的数据分析方法,这些方法的总和被称为“数据挖掘”。
随着移动互联网时代的来临,我们每天都生活在数据中,时时刻刻都接触着来自生活各个方面的各种数据:早高峰各个十字路口的车流量,各个公司的股市行情、销售票务、产品描述、用户反馈,科学实验记录着的种种信息……数据的产生无时不在,无处不在。爆炸式增长、广泛可用的巨量数据急需功能强大和通用的工具,以便发现它们潜在的巨大价值。交警部门需要通过对车流量数据的观察来决定警力支配;公司需要通过对方方面面商业数据的分析来制订合理的发展计划;科学研究工作者需要对来自实验的种种数据研究来实现实验目的……人们越来越关注如何把海量的数据变为直观、有用的信息。人类的需求是发明之母,人们对数据所蕴含的潜在知识的需求促使了数据挖掘的诞生。
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以被广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。
数据挖掘利用了来自如下领域的思想:
(1)来自统计学的抽样、估计和假设检验。
(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。
数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别的,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。
1.1.2 数据挖掘的早期发展
数据挖掘起始于20世纪下半叶,是在多个学科发展的基础上逐步发展起来的。随着大数据与数据库技术的发展应用,数据量不断积累与膨胀,这导致基础的查询和统计操作已经无法满足企业的商业需求。如何挖掘出数据隐含的信息是当前亟须解决的难题。与此同时,计算机领域的人工智能(Artificial Intelligence)方向也取得了巨大进展,进入了机器学习的阶段。因此,人们将两者结合起来,用数据库管理系统存储数据,用计算机分析数据,并且尝试挖掘数据背后的信息。这两者的结合促生了一门新的学科,即数据库中的知识发现(Knowledge Discovery in Databases, KDD)。1989年8月召开的第11届国际人工智能联合会议的专题讨论会上首次出现了“知识发现”这个术语,到目前为止,知识发现的重点已经从发现方法转向了实践应用。
数据挖掘(Data Mining)则是KDD的核心部分,它指的是从数据集合中自动抽取隐藏在数据中那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。进入21世纪,数据挖掘已经成为一门比较成熟的交叉学科,并且数据挖掘技术也伴随着信息技术的发展日益成熟起来。总体来说,数据挖掘融合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术,是21世纪初期对人类产生重大影响的十大新兴技术之一。
1.1.3 数据挖掘的算法前传
如果把数据比作海洋,数据挖掘是在数据大海中航行,那么算法就是航行中指明方向的指南针。从广义来说,任何定义明确的计算步骤都可称为算法,接受一个或一组值为输入,输出一个或一组值。可以这样理解,算法是用来解决特定问题的一系列步骤(不仅计算机需要算法,我们在日常生活中也在使用算法)。算法必须具备如下3个重要特性:
(1)有穷性,有限的步骤后就必须结束。
(2)确切性,算法的每个步骤都必须确切定义。
(3)可行性,特定算法须可以在特定的时间内解决特定问题。
其实,算法虽然广泛应用在计算机领域,但却完全源自数学。据称,人类已知最早的算法可追溯到公元前1600年巴比伦人(Babylonians)有关求因式分解和平方根的算法。
20世纪末以来,随着科学技术的发展、通信技术的改进和计算机性能的提升,如何快速处理数据,提高解决问题的效率,显得尤为重要。各类算法的提出与优化为一系列难题的解决提供了切实可行的方案。早前影响较为广泛的十大算法如下。
1.归并排序(Merge Sort)、快速排序(Quick So ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 大数据、数据挖掘与智慧运营 - (EPUB全文下载)