openelib.org 计算机技术

深入浅出数据科学 - (EPUB全文下载)

文件大小：0.29 mb。
文件格式：epub 格式。
书籍内容：

深入浅出数据科学
第1章如何听起来像数据科学家
第2章数据的类型
第3章数据科学的5个步骤
第4章基本的数学知识
第5章概率论入门：不可能，还是不太可能
第6章高等概率论
第7章统计学入门
第8章高等统计学
第9章交流数据
第10章机器学习精要：你的烤箱在学习吗
第11章树上无预言，真的吗
第12章超越精要
第13章案例
第1章　如何听起来像数据科学家
不管你从事哪个行业——IT、时尚、食品或者金融，数据都在影响着你的生活和工作。在本周的某个时刻，你也许会参与一场关于数据的讨论。新闻媒体正在越来越多地报道数据泄露、网络犯罪，以及如何利用数据窥视我们的生活。但为什么是现在？为什么今天这个时代是数据相关产业的温床？
在19世纪，世界处于工业时代（industrial age）。人类通过伟大的机械发明和工业探索世界。工业时代的领袖们，比如亨利·福特，认识到通过这些机器可以创造巨大的市场机会，赚取前所未有的利润。当然，工业时代有利也有弊。在我们将大量商品送到消费者手中时，人类也开始了和污染的斗争。
在19世纪，我们非常擅长制造大型机器。但到了20世纪，我们的目标是让机器变得更小、更快。工业时代已经结束，取而代之的是信息时代（information age）。为了更好地理解事物的运转情况，我们开始使用机器收集和存储我们自身与周围环境的各种信息（数据）。
从1940年开始，像ENIAC（被认为是最早的计算机之一）这样的机器被用来计算和运行之前从未计算过的数学方程、运行模型和模拟，如图1.1所示。
图1.1　ENIAC计算机
我们终于有了比人类更擅长运算数字的像样的实验室助手！和工业时代一样，信息时代也有利有弊。信息时代的好处是人类取得了科技发明的非凡成就，比如电视和移动电话；坏处虽然没有全球性污染那样严重，但仍然留给我们一个21世纪的难题——过多的数据。
是的，信息时代在数据收集领域的高速发展，让电子化数据的产量爆炸式增长！据估算，在2011年，我们产生了1.28×1012 GB的数据（好好想一下有多大吧）。仅仅1年之后，在2012年，我们产生了超过2.8×1012 GB的数据！这个数字只会继续爆炸或增长。预计2020年产生的数据量将达到4×1013 GB。每当我们发布推文，张贴脸书，用微软Word软件保存简历，或者用短信给妈妈发送一张照片，都促进了这个数字的增长。
我们不仅以前所未有的速度生产数据，我们消费数据的速度也在加快。在2013年，手机用户平均每月使用的流量在1GB以内。据估算，今天这一数字已经远超每月2GB。我们希望从数据中探寻的是洞察（insight），而不仅仅用于性格测试。数据就在那里，总有一些对我们有价值！肯定有！
我们拥有如此多的数据，而且正在生产更多数据，我们甚至制造了很多疯狂的小机器24×7不间断的收集数据，在21世纪，我们面对的真正问题是如何搞懂这些数据。先辈们在19世纪发明了机器，在20世纪生产和收集了数据，在数据时代（data age）则要从数据中探寻洞察和知识，让地球上每个人都受益。美国政府已新设立了“首席数据科学家（chief data scientist）”的职务。那些到现在还没有数据科学家的科技公司，比如Reddit，已经开始招募数据科学家。这样做的好处显而易见——用数据做精准的预测和模拟，可以让我们以前所未有的方式观察世界。
这听起来很不错，但究竟是什么意思呢？
本章我们将研究现代数据科学家们使用的专业术语。我们将学习贯穿全书的数据科学关键词和用语。在开始接触Python代码之前，我们还将讨论为什么使用数据科学，以及催生数据科学的3个重要领域：
数据科学基本的专业术语。
数据科学的3个领域。
基本的Python语法。
1.1　什么是数据科学
在我们进行更深入的讨论之前，先熟悉一下本书将涉及的基本定义。数据科学领域让人激动或者讨厌的都是太年轻，以至于很多定义在教科书、新闻媒体和企业白皮书上各不相同。
1.1.1　基本的专业术语
以下对专业术语的定义较为通用，足够日常工作和讨论之用，也符合本书对数据科学原理的定位。
我们先从什么是数据（data）开始。给“数据”下定义可能有些可笑，但确实非常重要。当使用“数据”这个词时，我们指的是以有组织（organized）和无组织（unorganized）格式聚集在一起的信息。
有组织数据（organized data:）：指以行列结构分类存储的数据，每一行代表一个观测对象（observation），每一列代表一个观测特征（characteristic）。
无组织数据（unorganized data:）：指以自由格式存储的数据，通常指文本、原始音频/信号和图片等。这类数据必须进行解析才能成为有组织的数据。
每当你打开Excel（或者其他电子制表软件）时，你面对的是等待输入有组织数据的空白行或列。这类程序并不能很好地处理无组织数据。虽然大部分时候我们处理的都是有组织数据，因为它最容易发现洞察，但我们并不畏惧原始的文本数据和处理无组织数据的各种方法。
数据科学是从数据中获取知识的艺术和科学。这个定义虽小，却非常准确地描述了这一宏大课题的真正目的！数据科学涉及的范围非常广，需要好几页纸才能列出全部内容（我确实尝试编写过）。
数据科学是关于如何处理数据、获取知识，并用知识完成以下任务的过程：
决策。
预测未来。
理解过去或现在。
创造新产业或新产品。
本书将讨论数据科学的各种方法，包括如何处理数据、探寻洞察，并利用这些洞察做准确的决策和预测。
数据科学也是利用数据获取之前未曾想到的新见解的科学。
举个例子，假设你和其他3个人坐在会议室，你们需要根据数据做出一个决定。目前已经有4种观点，你需要使用数据科学的方法提出第5个、第6个，甚至第7个观点。
数据科学不是取代人类大脑，而是和人类大脑一起工作。数据科学也不应该被认为是终极解决方案，它仅仅提供了一个富有见地的观点，也仅仅是一个观点而已，但它值得在会议桌上拥有一席之地。
1.1. ............

以上为书籍内容预览，如需阅读全文内容请下载EPUB源文件，祝您阅读愉快。

版权声明：书云(openelib.org)是世界上最大的在线非盈利图书馆之一，致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权，如您认为书云侵犯了您的合法权益，请参考版权保护声明，通过邮件openelib@outlook.com联系我们，我们将及时处理您的合理请求。数研咨询流芳阁研报之家 AI应用导航研报之家
 书云 Open E-Library » 深入浅出数据科学 - (EPUB全文下载)

分享到：

相关推荐