数据可视化(第2版) - (EPUB全文下载)

文件大小:0.86 mb。
文件格式:epub 格式。
书籍内容:

数据可视化(第2版)
基础篇
时空数据篇
非时空数据篇
用户篇
开始阅读
书名页
正文
基础篇
第1章 数据可视化简介
1.1 可视化释义
人眼是一个高带宽的巨量视觉信号输入并行处理器,最高带宽为每秒100MB,具有很强的模式识别能力,对可视符号的感知速度比对数字或文本快多个数量级,且大量的视觉信息的处理发生在潜意识阶段。其中的一个例子是视觉突变:在一大堆灰色物体中能瞬时注意到红色的物体。由于在整个视野中的视觉处理是并行的,无论物体所占区间大小,这种突变都会发生。视觉是获取信息的最重要通道,超过50%的人脑功能用于视觉的感知,包括解码可视信息、高层次可视信息处理和思考可视符号 [Ward2010]。
可视化对应两个英文单词:Visualize和Visualization。Visualize是动词,意即“生成符合人类感知”的图像;通过可视元素传递信息。Visualization是名词,表达“使某物、某事可见的动作或事实”;对某个原本不可见的事物在人的大脑中形成一幅可感知的心理图片的过程或能力。Visualization也可用于表达对某目标进行可视化的结果,即一帧图像或动画 [Hansen2004]。在计算机学科的分类中,利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术,称为可视化 [唐泽圣2011]。它将不可见或难以直接显示的数据转化为可感知的图形、符号、颜色、纹理等,增强数据识别效率,传递有效信息。例如,表1.1中的4个二维数据点集,它们的单维度均值、最小二乘法回归线方程、误差的平方和、方差的回归和、均方误差的误差和、相关系数等统计属性均相同,因此,通过这些传统的统计方法难以对它们直接进行区分。当将实际的数据分布情况用二维可视化呈现(见图1.1)时,观察者可迅速地从数据中发现它们的不同模式和规律。
表1.1 4个二维数据点集
图1.1 Anscombe实验 [Anscombe1973]的4个二维数据点集的可视化。
可视化与山岳一样古老。中世纪时期,人们就开始使用包含等值线的地磁图、表示海上主要风向的箭头图和天象图。可视化通常被理解为一个生成图形图像的过程。更深刻的认识是,可视化是认知的过程,即形成某个物体的感知图像,强化认知理解。因此,可视化的终极目的是对事物规律的洞悉,而非所绘制的可视化结果本身。这包含多重含义:发现、决策、解释、分析、探索和学习 [Ward2010]。因此,可视化可简明地定义为“通过可视表达增强人们完成某些任务的效率”。
从信息加工的角度看,丰富的信息将消耗大量的注意力,需要有效地分配注意力。精心设计的可视化可作为某种外部内存,辅助人们在人脑之外保存待处理信息,从而补充人脑有限的记忆内存,有助于将认知行为从感知系统中剥离,提高信息认知的效率。另一方面,视觉系统的高级处理过程中包含一个重要部分,即有意识地集中注意力。人类执行视觉搜索的效率通常只能保持几分钟,无法持久。图形化符号可高效地传递信息,将用户的注意力引导到重要的目标上。
可视化的作用体现在多个方面,如揭示想法和关系、形成论点或意见、观察事物演化的趋势、总结或积聚数据、存档和汇整、寻求真相和真理、传播知识和探索性数据分析等。从宏观的角度看,可视化包括三个功能。
信息记录
将浩瀚烟云的信息记录成文、世代传播的有效方式之一是将信息成像或采用草图记载。图1.2左图展示了意大利科学家伽利略的手绘月亮周期可视化图,右图是达芬奇绘制的描绘科学发现的作品之一。
图1.2 左:1616年伽利略关于月亮周期的绘图;右:达芬奇绘制的人头盖骨可视化。
不仅如此,可视化图绘能极大地激发智力和洞察力,帮助验证科学假设。例如,20世纪自然科学最重要的三个发现之一,DNA分子结构的发现起源于对DNA结构的X射线照片的分析:从图像形状确定DNA是双螺旋结构,且两条骨架是反平行的,骨架是在螺旋的外侧等这些重要的科学事实。
支持对信息的推理和分析
数据分析的任务通常包括定位、识别、区分、分类、聚类、分布、排列、比较、内外连接比较、关联、关系等。通过将信息以可视的方式呈现给用户,将直接提升对信息认知的效率,并引导用户从可视化结果分析和推理出有效信息。这种直观的信息感知机制,极大降低了数据理解的复杂度,突破了常规统计分析方法的局限性。
可视化能显著提高分析信息的效率,其重要原因是扩充了人脑的记忆,帮助人脑形象地理解和分析所面临的任务。图1.3展示了两个图形化计算的例子。
图1.3 可视化可有效地扩充记忆和内存空间,从而辅助图形化计算。左:对奇数的和的可视化,1+3+5+7+9=25;右:中国古代用于证明勾股定理的图形化证明方法,c2=a2+b2。
由于可视化可以清晰地展示证据,它在支持上下文的理解和数据推理方面也有独到的作用。1831年起,欧洲大陆暴发霍乱,当时的主流理论是毒气或瘴气引起了霍乱。英国医生John Snow着手研究1854年8月底伦敦布拉德街附近居民区爆发的一场霍乱。Snow调查病例发生的地点和取水的关系,发现73个病例离布拉德街水井的距离比附近其他任何一个水井的距离都更近。在拆除布拉德街水井的摇把后不久,霍乱停息。Snow绘制了一张布拉德街区的地图(见图1.4),标记了水井的位置,每个地址(房子)里的病例用图符显示。图符清晰地显示了病例集中在布拉德街水井附近,这就是著名的鬼图(Ghost Map)。
图1.4 “鬼图”帮助发现霍乱流行原因。
图片来源:http://www.datavis.ca/gallery/historical.php
信息传播与协同
人的视觉感知是最主要的信息界面,它输入了人从外界获取的70%信息。因此,俗语说“百闻不如一见”“一图胜千言”。面向公众用户,传播与发布复杂信息的最有效途径是将数据可视化,达到信息共享与论证、信息协作与修正、重要信息过滤等目的。下面以1986年1月28日美国“挑战者”号航天飞机事故为例,说明可视化在信息传播中的重要性。
“挑战者”号爆炸事故的直接起因是两个O形密封圈的故障。事后调查总统委员会的报告 ............

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » 数据可视化(第2版) - (EPUB全文下载)