现实挖掘 - (EPUB全文下载)
文件大小:0.67 mb。
文件格式:epub 格式。
书籍内容:
序言
大数据正在席卷全球。这个话题如今频繁见诸各种会议、专著、论文和企业的讨论中。这当然是事出有因的:对以往深不可测的大量数据进行挖掘,从而发现趋势甚至预测未来,这样的想法的确非常具有吸引力。但是正如这些会议、专著、论文和商业计划中所阐述的,弄明白如何处理巨大体量的数据,并使其发挥更好的作用并不是一件简单的事情。
我们将大数据定义为人或物与数字网络世界之间相互作用而产生的信息集合。它可以是数年间采集的关于一个人的单一变量的数据,也可以是在某一瞬间采集的关于数亿人的多变量数据。大数据可能涉及的时间长、囊括的主题多或者涵盖的范畴广,也可能是这三种特征间的组合。
由于各种技术因素的汇集,大数据已经成为我们现代世界的一个特征。高性能的移动互联智能设备就在你的口袋中采集数据、进行运算,然后发送给远程服务器。云计算和日益增长的高密度数据存储设备,为一切信息提供了安身之所。并且,流处理范式使数据可以通过分布式设备进行处理。一些针对大规模数据集设计的编程模型,如MapReduce以及开源的Hadhoop的出现,使人们了解即将到来的信息流是可能的。
大数据被定义为我们日常活动产出的数字记录或留下的数字足迹,它是我们生活的元数据。一些人害怕这会带来一个没有隐私的世界:企业对我们的了解比我们自己还多,政府可以监控那些它们认为危险的人。另一些人则认为大数据是数据库这抹彩虹末端的一罐金子,是抓住下一波信息技术趋势的机遇。他们还相信,从这些全世界人们日常生活中产生的海量数据中可以获得有益的东西。
作为本书作者,我们是技术专家,属于后者。我们认为,如果从负责任的、审慎的以及对环境敏感的角度来看,大数据可以帮助改善公共卫生、引导个人更好地决策、促进知识的共享以及提升创新速度。大数据的时代已经来临,而且看起来也不会很快结束。因此,保证个人自由和隐私不被侵犯,告知消费者谁在什么时间、以什么为目的获得了他们的数据就很重要。我们相信,在小心谨慎进行数据采集的前提下,大数据就可以被用来设计成更好的系统,以及一个可能的更好的世界。我们采用了一个被称为“现实挖掘”(Reality Mining)的方式,不仅对大数据进行分析,而且确保分析能够反映参与人的现实状况,同时在整个过程中始终保持谨慎的数据采集态度。
本书的目标是探讨大数据可能的积极方面,特别是展现如何利用对现实的挖掘来设计更好的社会系统。这意味着本书所介绍的理念,将会超越那些简单的描述性分析,如计步数据的柱状图等。我们所探讨的是针对一些可视化的数据表达,比如犯罪行为或疾病暴发的空间分布图等,如何将其转化为具有实际操作意义的行动或政策。我们还考虑了可以使用全球的匿名数据系统的构想。提出诸如“如何在缺乏公共卫生资源的发展中国家,配置疾病传染的预警系统?”这样的问题。根本上,我们希望探寻如何利用大数据让人们的生活变得更加美好。
本书分为5个部分,每个部分分别关注不同的数据采集尺度,大数据的内在挑战和机遇。大致同查尔斯·伊姆斯和蕾·伊姆斯夫妇在1977年制作的电影短片《十的力量》中分别观察了宇宙的极大部分和极小部分一样,本书对大数据的讨论也是从小样本渐增到较大的样本。
本书的现实挖掘旅程将从个体层面开始,即单个人所产生的数据和应用于单个人的数据。接着,我们升级到邻里和组织层面,再扩展到城市层面,之后是国家层面,最后到达全球层面。诚然,这样的分层框架并不是绝对的,也无法囊括所有的场景类型。当然,在某一层面获取的大数据也可以应用于其他不同层面。我们适时地提及了一些这类多样化应用的例子。不过,5个层次的结构更易把握,也更有助于我们思考在大数据获取和利用过程中面临的种种挑战。
这5个部分又分别各有两章。每个部分的第一章详细描述了该层面的数据采集种类、数据采集方式,以及读者在可能的情况下可以如何获得这些数据;第二章则阐释在这些数据的基础上,已经建立或者我们相信可以建立的应用和系统。
因此,每部分的第一章作为向导,带领读者对可以挖掘的多种数据类型以及可能的获取途径进行思考。这些途径可能是编写一个手机应用程序来采集使用者的睡眠数据,或是订阅服务商提供的航班数据,又或是基于谷歌进行检索的数据分析。有些多数人不太容易获取的数据,比如移动电话的通话记录,我们也提供了如何有限获取或者寻找其他可能来替代实际数据的建议。
在充分理解哪些数据类型可以被挖掘之后,我们接着讨论可以使用这些数据进行现实挖掘的程序。有些系统较为成熟,一些则还处于早期阶段,其他则尚未被开发出来。我们在本书中仅提供了一小部分可用程序的信息,同时也展现了机遇之所在。
隐私问题是大数据采集和使用过程中的大麻烦,在本书写作过程中,我们曾考虑用单独的一章来讨论它,但最终放弃了这个想法。工程师和企业往往在最初的产品构想已经基本完成时,才开始考虑用户或客户的隐私问题。这样的话,隐私特性便成为几近完成的主要设计的添头。我们不希望这本书也变成这样。我们认为,人们对隐私的期望和分享数据的意愿度应该从一开始就被考虑,并烙在每一个应用程序或产品设计中。故依据需要,我们通过探讨隐私问题、人们对数据采集和共享方式的了解程度、人们对这些方式的适应度(适应度往往受到多种因素的影响而不断变动)以及在注重隐私的前提下开发应用来反映这种情绪。
需要特别指出的是,本书没有涉及特定的分析方法论,而是将这些留给了其他文章、论文和讨论。大数据技术还在不断发展,现实挖掘的实践者们很快会发现将有更多分析技术可用于他们的数据集。在本书中我们没有排斥某些特定的数据和应用程序的分析,而是选择聚焦于更宽泛的现实挖掘问题:如何安全、不侵犯隐私而又有意义地进行数据采集?如何设计实用、以人为本的系统?
关于大数据的很多讨论都围绕挖掘“知识”这一主题,似乎“知识”就是人们唯一能够且应该从中获得的。本书从另一个视角来看待大数据,在描述性分析的基础上前进了一大步,从知识走向行动。“现实挖掘”是为了使用大数据来开发系统,从而对从个体到全球的所有层面都产生积极影响,它将提升我们的生活品质,让我们变得更健康,并让我们与70亿地球邻 ............
书籍插图:
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 现实挖掘 - (EPUB全文下载)