bigdata《大数据时代》读书笔记——精华观点和核心语句 - (EPUB全文下载)
文件大小:0.32 mb。
文件格式:epub 格式。
书籍内容:
big data《大数据时代》
精华观点和核心语句
不再追求精确度,不再追求因果关系,而是承认混杂性,探索相关关系。
如同工业革命要开放物质交易、流通一样,开放、流通的数据是时代趋势的要求。开放
所带来的改变远远大于拥有权和隐私性保护所带来的问题。
要全体不要抽样,要效率不要绝对精确,要相关不要因果。
作者认为相关关系比因果关系重要,译者表示反对,认为放弃因果等于放弃人类的智力
优势,是末日之始。导致相关关系比因果关系重要的原因在于,我们机器学习和以结果
为导向的研究思路误导人类。
公共医疗: Google 通过分析 03 到 08 的流感相关搜索词条,将 45 中词条组合输入一个
数学模型之后,得到的流感预测数据和官方统计数据有 97%吻合。09 年判断准确,及
时预报流感。
商业: farecast 利用十万亿条飞机票价记录,预测飞机票价准确度高达 75%,利用
farecast 购买机票的旅客平均每张机票节省 50 美元。
不再需要一致性的数据库和僵化的层次结构,不再需要结构化查询语言 sql,最新的数
据库为非关系型数据库 nosql。
美国股市每天成交量高达 70 亿股,其中三分之二都是由数学模型和算法之上的计算机
程序自动完成的,这些程序利用海量数据来预测利益和降低风险。
数据爆炸式增长,绝大部分为数字信息,极少部分为模拟数据。数据每三年多翻一番。
数据规模的量变产生质变,就比如万有引力对生物体大小的关系,纳米技术对现实生活
物质的性质有所改变一样,空气阻力和重量和形状关系一样。
大数据的核心在于预测,把数学算法运用到海量数据中来预测事情发生的可能性。
不再依赖于随机采样,不在热衷于追求精确度。并非完全放弃精确度,只是不再沉迷于
此。不在热衷于寻找因果关系,而是寻找事物之间的相关性。
数据化意味着从一切事物中汲取数据,甚至包括我们以前认为和“信息”搭不上边的事
情。比方说,一个人所在的位置、引擎的振动、桥梁的承重等等。
如同电影《点石成金》中,棒球球探们在统计学家面前相形见绌——直觉的判断被迫让
位于精准的数据分析。
正文:
第一章:样本 =全体
统计学家证明,采样分析的精确性随着采样随机性的增加而大幅度提高,但与样本数量
的增加关系不大。随机采样取得了巨大的成功,但是他的成功利亚与采样的绝对随机性,
实现采样的随机性非常困难,一旦采样过程中存在任何偏见,分析结果就会相去甚远。
搜集的数据越来越多,分析和预测结果就会越来越准确,并发现一些细节和微乎其微的
重要问题。
有些情况下,异常值才是重要的信息,大数据的处理方法就不会错过这个异常值。商务
是即时的,因此数据分析也应该是即时的。
《魔鬼经济学》
大数据是指不用随机分析法这样的捷径,而是通过采用所有数据的方法。数据量不一定
很大,但需要全部,包含了所有的信息。
Lytro 相机记录整个光场的信息,搜集了所有的数据,拍摄完之后再对焦,而且有“可
循环利用性”。
《爆发》
第二章:混杂性。
只有 5%的数据是结构化的,可以适用于传统数据库,如果不接受混乱,剩下 95%的非
结构化数据都无法被利用。
少量数据下运行最佳的算法,可能在大数据下可能会表现差强人意,在少量数据下表现
差的算法,可能在大数据下惊呆小伙伴们。大数据的简单算法比小数据的复杂算法更有
效,混杂是关键。
谷歌翻译之所以好,除了数据量庞大以外,还接受了有错误的数据,即来自互联网的废
弃内容。
Hadoop 超大量数据下的分布式处理,假设系统瘫痪而建立数据副本,假定数据量巨大
无法移动,人们必须在本地进行数据分析。它的输出结果不想关系型数据库那般精确,
无法用于卫星发射、开具银行账户明细,但是运行却快很多。
第三章 不是因果关系,而是相关关系
通过数据推荐产品所增加的销售远远超过书评家的贡献。计算机可能不知道为什么喜欢
海明威作品的客户会购买菲茨吉拉德的书,但是他只要通过算法统计分析,得知这个结
果就可以了。
沃尔玛领导了零售链的革命,让供应商监控销售速率、数量、以及存货情况。这个数据
库不仅包含了每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时
间,甚至购买当天的天气。
在大数据时代,通过建立在人的偏见上的关联物检测法已经不再可行,因为数据库太大
而且需要考虑的领域太复杂。幸运的是,许多迫使我们选择假想分析法的限制条件也逐
渐消失了。现在我们拥有如此多的数据,这么好的机器计算能力,因而不再需要人工选
择一个关联物或者一小部分相似的数据来逐一分析了。大数据的相关关系分析法,取代
了基于假想的易出错的方法。大数据的相关关系法更准确、更快,而且不易受偏见的影
响。
塔基特公司在完全不合准妈妈对话的前提下预测一个女性会在什么时候怀孕。她们会光
顾以前不会去的商店,渐渐对新的品牌建立忠诚。
ups 与汽车修理预测,车辆处故障后,造成延误和在装载的负担,消耗大量人力物力。
通过检测汽车的每个部位,及时更换需要更换的零件,免除了可能会造成的困扰。同样
的方法也可以用在人的身上,,检测病人的即时信息。
第四章 数据化 一切皆可量化
莫里整合美国海军的航海日志,绘制更安全和快速的航海图表,其他商船需要使用图表,
必须(病毒式传染)按照要求撰写航海日志并提交给莫里。将海上的船只都变成一个个
科学站和天文台。
数据化不是数字化,数字化只是把模拟数据变成 1 和 0 来表示。
gps 全球定位系统的地理定位能精确到米,实现了自古以来无数航海家、制图家和数学
家的梦想。
airsage 每天通过处理上百万手机用户的 150 亿条位置信息,为超过 100 个美国城市提
供实时交通信息。
facebook,twitter 等社交网络将我们的关系、经历和情感进行数据化。他们不仅提供我
们寻找和维持朋友、同事关系的场所,也将我们日常生活中的无形元素提取出来,转化
为可用作新用途的数据。华尔街的数学奇才们将数据传输到他们的算法模式当中,寻找
能被有效利用的关系模式当中。社交网络分析之父写了一个程序,能通过 ............
书籍插图:
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » bigdata《大数据时代》读书笔记——精华观点和核心语句 - (EPUB全文下载)