大数据架构详解:从数据获取到深度学习 - (EPUB全文下载)

文件大小:1.3 mb。
文件格式:epub 格式。
书籍内容:

大数据架构详解:从数据获取到深度学习
第1章 大数据是什么
第2章 运营商大数据架构
第3章 运营商大数据业务
第二部分 大数据技术
第4章 数据获取
第5章 流处理
第6章 交互式分析
第7章 批处理技术
第8章 机器学习和数据挖掘
第9章 资源管理
第10章 存储是基础
第11章 大数据云化
第三部分 大数据文化
第12章 大数据技术开发文化
反侵权盗版声明
第1章 大数据是什么
首先提一个问题:“大数据”是一项专门的技术吗?有的人可能会以为大数据是一项专门的技术,其实不是。“大数据”这三个字只是一门市场语言(Marketing Language),其背后是硬件、数据库、操作系统、Hadoop等一系列技术的综合应用,所以本书我们希望从一个端到端的架构展开讲解典型的大数据技术。
1.1 大数据导论
1.1.1 大数据简史①
大数据(Big Data)现在可以说是人尽皆知,其实真正回溯起来,其是由 SGI 的首席科学家JohnR.Masey于1998年在USENIX大会上首次提出的。他在其发表的一篇名为Big Data and the Next Wave of Infrastress[1]的论文中首次提出这个词,用来描述数据爆炸的现象。估计他当时未必能想到十几年后Big Data能这么火。
如果追溯大数据的概念,则是阿尔文·托夫勒(Alvin Toffler)于1980年在《第三次浪潮》一书中预言了信息时代的到来会带来数据爆发,所以科学家很早就预见到了大数据。大数据的历史由来已久,但是技术需要持续积累,才能由量变到质变。
对于工业界来说,不得不提Google在2003—2006年公布的关于GFS、MapReduce和BigTable的三篇技术论文,正是这三篇论文奠定了大数据发展的基石。Hadoop之父——Doug Cutting[2]正是参考论文,后来才实现了当前鼎鼎大名的Hadoop,而Hadoop的诞生极大地促进了大数据技术的蓬勃发展。
当然,这里特别要指出,Hadoop并不等同于大数据,大数据也并不特指Hadoop,大数据只是一门市场语言,代表的是一种理念、一种问题解决思路、一系列技术的集合,Hadoop只是其中一种具体的处理数据的框架技术。
1.1.2 大数据现状
Gartner发布的2016技术成熟度曲线(见图1.1)首次将云计算、大数据及相关技术移除。Gartner指出这些技术不是不重要,而是不再“新兴”,大家虽然对大数据的兴趣依然不减,但是这个市场已经安定下来,有了一整套合理的方法,新的技术和实践被添加进现有方案。所以大数据度过了技术的期望膨胀高峰期,到了真正使用大数据解决问题的时候。未来大数据相关技术的演进在很长一段时间仍将展现出强大的生命力,相关市场的营收也将不断放大。
图1.1
1.1.3 大数据与BI①
前面说了大数据是一种理念、一种问题解决思路和一系列技术的集合,它与传统的BI既有相同之处,也有不同之处。
相同之处,都是从数据中挖掘价值,促进商业成功。不同之处,核心是分布式技术的发展、处理能力的极大提高,以前想都不敢想的处理变成了可能。所以在对数据的处理理念上也得到了扩展:(1)不局限于传统的 BI 从数据中抽样建模,再回 DW[4]实施,大数据可以直接从全量数据中找出规律,通过数据的样本多样化弥补模型的准确性。
(2)不局限于传统的BI简单地通过汇总、统计分析找出群体共性从而输出报表,大数据可以直接通过足够多的数据对个体进行刻画。
虽然有种种不同,但未来大数据和BI的界限会模糊,企业的核心驱动目标是从数据资产中找出商业价值,而不关心构建和分析的方法论。
1.2 企业数据资产
有了大数据的光环,有了从数据中挖掘商业价值的方法和工具之后,那些原本存放在服务器上平淡无奇的陈年旧数一夜之间身价倍增。按照世界经济论坛报告的看法,“大数据为新财富,价值堪比石油”。《大数据时代》一书的作者维克托则乐观地预测,数据列入企业资产负债表只是时间问题。
本质上,任何企业在生产活动中都会产生数据,数据都有分析的价值。我们来看看典型的运营商会产生哪些数据。
图1.2是典型的运营商产生的数据,从下到上分为如下几类。
· Network Raw Data:电信网络里任何一个呼叫或者上网行为都会引起电信设备之间的数据进行交换,这个数据就是网络底数据。
· User Plane Detail Record Data:从网络原始数据里面提取出来的用户行为数据,如打电话数据、上网行为等。
· MR/CHR Type Data:无线测量数据、呼叫历史记录单据数据。用户的位置信息就是从MR/CHR数据里面通过算法得出的。
· Signaling Data:信令数据。电信网络分控制面、数据面、用户面。在控制面上设备之间相互按照协议协商通信的数据叫信令数据。
· CRM Billing:电信设备厂商登记的开户信息、账单信息。
上面的划分是从非常专业化的角度进行的,其实通俗一点可以简单归类为设备数据和用户数据两类。设备数据用来分析设备的正常与否,用于设备的维护、规划等。用户数据包括如下数据。
· 位置数据:无线是用一个个蜂窝来划分区域的,一个蜂窝叫一个小区,所以只要电话在线,就需要注册到一个个小区中去,知道了小区就知道了用户所在的位置。通过小区切换就能计算出用户移动的轨迹,这就是用户的位置数据。
· 上网数据:用户通过运营商的设备上网,所有的行为数据都可以被记录下来,如上了什么网站、网速是多少、上了多长时间。这些通过通信协议的包头就可以获取。如果继续分析内容,就可以获取更多的数据,就可以完全知道用户在干什么。
图1.2①
· 用户兴趣数据:通过用户的上网记录,就可以衍生出用户的兴趣爱好、常上什么网站、最近关注什么东西等。
· 通信数据和社交数据:例如,用户给谁打了电话、打了多长时间、给谁发了短信,这些信息都可以被记录下来。通过电话联系又可以衍生出用户的社交关系数据,如和谁是熟人、常联系谁等。
· 身份信息数据:用户到运营商开户, ............

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » 大数据架构详解:从数据获取到深度学习 - (EPUB全文下载)