深入浅出数据科学 - (EPUB全文下载)
文件大小:0.29 mb。
文件格式:epub 格式。
书籍内容:
深入浅出数据科学
第1章 如何听起来像数据科学家
第2章 数据的类型
第3章 数据科学的5个步骤
第4章 基本的数学知识
第5章 概率论入门:不可能,还是不太可能
第6章 高等概率论
第7章 统计学入门
第8章 高等统计学
第9章 交流数据
第10章 机器学习精要:你的烤箱在学习吗
第11章 树上无预言,真的吗
第12章 超越精要
第13章 案例
第1章 如何听起来像数据科学家
不管你从事哪个行业——IT、时尚、食品或者金融,数据都在影响着你的生活和工作。在本周的某个时刻,你也许会参与一场关于数据的讨论。新闻媒体正在越来越多地报道数据泄露、网络犯罪,以及如何利用数据窥视我们的生活。但为什么是现在?为什么今天这个时代是数据相关产业的温床?
在19世纪,世界处于工业时代(industrial age)。人类通过伟大的机械发明和工业探索世界。工业时代的领袖们,比如亨利·福特,认识到通过这些机器可以创造巨大的市场机会,赚取前所未有的利润。当然,工业时代有利也有弊。在我们将大量商品送到消费者手中时,人类也开始了和污染的斗争。
在19世纪,我们非常擅长制造大型机器。但到了20世纪,我们的目标是让机器变得更小、更快。工业时代已经结束,取而代之的是信息时代(information age)。为了更好地理解事物的运转情况,我们开始使用机器收集和存储我们自身与周围环境的各种信息(数据)。
从1940年开始,像ENIAC(被认为是最早的计算机之一)这样的机器被用来计算和运行之前从未计算过的数学方程、运行模型和模拟,如图1.1所示。
图1.1 ENIAC计算机
我们终于有了比人类更擅长运算数字的像样的实验室助手!和工业时代一样,信息时代也有利有弊。信息时代的好处是人类取得了科技发明的非凡成就,比如电视和移动电话;坏处虽然没有全球性污染那样严重,但仍然留给我们一个21世纪的难题——过多的数据。
是的,信息时代在数据收集领域的高速发展,让电子化数据的产量爆炸式增长!据估算,在2011年,我们产生了1.28×1012 GB的数据(好好想一下有多大吧)。仅仅1年之后,在2012年,我们产生了超过2.8×1012 GB的数据!这个数字只会继续爆炸或增长。预计2020年产生的数据量将达到4×1013 GB。每当我们发布推文,张贴脸书,用微软Word软件保存简历,或者用短信给妈妈发送一张照片,都促进了这个数字的增长。
我们不仅以前所未有的速度生产数据,我们消费数据的速度也在加快。在2013年,手机用户平均每月使用的流量在1GB以内。据估算,今天这一数字已经远超每月2GB。我们希望从数据中探寻的是洞察(insight),而不仅仅用于性格测试。数据就在那里,总有一些对我们有价值!肯定有!
我们拥有如此多的数据,而且正在生产更多数据,我们甚至制造了很多疯狂的小机器24×7不间断的收集数据,在21世纪,我们面对的真正问题是如何搞懂这些数据。先辈们在19世纪发明了机器,在20世纪生产和收集了数据,在数据时代(data age)则要从数据中探寻洞察和知识,让地球上每个人都受益。美国政府已新设立了“首席数据科学家(chief data scientist)”的职务。那些到现在还没有数据科学家的科技公司,比如Reddit,已经开始招募数据科学家。这样做的好处显而易见——用数据做精准的预测和模拟,可以让我们以前所未有的方式观察世界。
这听起来很不错,但究竟是什么意思呢?
本章我们将研究现代数据科学家们使用的专业术语。我们将学习贯穿全书的数据科学关键词和用语。在开始接触Python代码之前,我们还将讨论为什么使用数据科学,以及催生数据科学的3个重要领域:
数据科学基本的专业术语。
数据科学的3个领域。
基本的Python语法。
1.1 什么是数据科学
在我们进行更深入的讨论之前,先熟悉一下本书将涉及的基本定义。数据科学领域让人激动或者讨厌的都是太年轻,以至于很多定义在教科书、新闻媒体和企业白皮书上各不相同。
1.1.1 基本的专业术语
以下对专业术语的定义较为通用,足够日常工作和讨论之用,也符合本书对数据科学原理的定位。
我们先从什么是数据(data)开始。给“数据”下定义可能有些可笑,但确实非常重要。当使用“数据”这个词时,我们指的是以有组织(organized)和无组织(unorganized)格式聚集在一起的信息。
有组织数据(organized data:):指以行列结构分类存储的数据,每一行代表一个观测对象(observation),每一列代表一个观测特征(characteristic)。
无组织数据(unorganized data:):指以自由格式存储的数据,通常指文本、原始音频/信号和图片等。这类数据必须进行解析才能成为有组织的数据。
每当你打开Excel(或者其他电子制表软件)时,你面对的是等待输入有组织数据的空白行或列。这类程序并不能很好地处理无组织数据。虽然大部分时候我们处理的都是有组织数据,因为它最容易发现洞察,但我们并不畏惧原始的文本数据和处理无组织数据的各种方法。
数据科学是从数据中获取知识的艺术和科学。这个定义虽小,却非常准确地描述了这一宏大课题的真正目的!数据科学涉及的范围非常广,需要好几页纸才能列出全部内容(我确实尝试编写过)。
数据科学是关于如何处理数据、获取知识,并用知识完成以下任务的过程:
决策。
预测未来。
理解过去或现在。
创造新产业或新产品。
本书将讨论数据科学的各种方法,包括如何处理数据、探寻洞察,并利用这些洞察做准确的决策和预测。
数据科学也是利用数据获取之前未曾想到的新见解的科学。
举个例子,假设你和其他3个人坐在会议室,你们需要根据数据做出一个决定。目前已经有4种观点,你需要使用数据科学的方法提出第5个、第6个,甚至第7个观点。
数据科学不是取代人类大脑,而是和人类大脑一起工作。数据科学也不应该被认为是终极解决方案,它仅仅提供了一个富有见地的观点,也仅仅是一个观点而已,但它值得在会议桌上拥有一席之地。
1.1. ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 深入浅出数据科学 - (EPUB全文下载)