数据科学实战手册(第2版) - (EPUB全文下载)
文件大小:0.29 mb。
文件格式:epub 格式。
书籍内容:
数据科学实战手册(第2版)
第1章 准备数据科学环境
第2章 基于R的汽车数据可视化分析
第3章 基于Python的税收数据应用导向分析
第4章 股市数据建模
第5章 就业数据可视化探索
第6章 汽车数据可视化(基于Python)
第7章 社交网络分析(基于Python)
第8章 大规模电影推荐(基于Python)
第9章 获取和定位Twitter数据(基于Python)
第10章 预测新西兰的海外游客
第11章 德国信用数据分析
第1章 准备数据科学环境
传统的食谱书籍包含作者擅长的烹饪秘诀,可以帮助读者丰富可做食物的种类。许多人相信,一份食谱的最终收获就是菜品本身。类似于此,读者可以用同样的观点来阅读本书。本书中每一章都伴随着不同目标、针对不同数据集、应用数据科学管道(pipeline)的各个阶段进行分析,进而展示给读者。同时,正如烹饪一样,最后结果可以仅仅是对某一个特定数据集的分析。
然而,我们希望读者能有更广阔的视角。数据科学工作者通过实践进行学习,确保每一次重复和假设验证都能增进实践知识。通过使用两种不同的编程语言(R和Python)结合数据科学管道对多个数据集进行处理,我们希望读者可以学会抽象出分析模式,能够看到更广阔的图景,并能对数据科学这一尚未完善的领域有更深刻的理解。
我们同时也希望读者认识到,数据科学食谱并不像传统烹饪食谱那样清晰明确。当厨师开始做某道菜时,他们在脑海中对最后成品的样子是很明确的。然而对数据科学工作者来说情形则完全不同。人们对要分析的数据集的内容可能并不是很清楚,在不同时间和资源限制下,分析结果可能是这样也可能是那样。数据科学工作者的菜谱本质上只是深入挖掘数据的一条路径,是朝着正确的问题并最终完成可能的最好的菜肴之路前行的开始。
如果读者具有统计学或数学背景,那么本书所展现的建模技术本身可能并不会让你兴奋。你可以把注意力集中在数据科学管道中那些偏重于解决实践问题的方法,如加载一个大数据集、使用可扩展工具结合已有技术完成数据应用、交互式可视化展示及Web应用等,而略过那些报告和论文。我们希望可以提升你对数据科学的欣赏和理解,帮助你在你自己的领域用好数据科学。
实践中数据科学工作者需要丰富多样的工具才能完成他们的工作。数据分析人员利用各种工具完成抓取、清洗、可视化、建模以及展示数据等大量任务。如果你与许多数据工作者交流过,那么你将发现他们的工具中最重要的部分是进行数据分析和建模的语言。回答哪种编程语言对某个任务是最合适的这种问题堪比回答世界上最难回答的问题。
本书中,我们将同时关注两种应用广泛且用于数据分析的不同的语言——R和Python,读者可以根据自己的喜好选择用哪一种。我们将提示读者每种语言所适用的任务,我们也会对每种语言针对同一数据集分析的结果进行对比。
在学习新的概念和技术时,深度和广度总是需要权衡的问题。时间和精力有限,应该同时学习R和Python达到中等程度,还是全力学习一种语言?从我们的职业经验看,强烈建议读者精通一种语言,同时酌情了解另一种。这是否意味着可以跳过关于某种语言的某些章节呢?当然不是!在你阅读本书时,确实应该选择一种语言并深入下去,不仅掌握这种语言,而且能熟练地使用它。
为继续本章的内容,应确保你有足够的带宽能在合理的时间内下载几个数GB大小的软件。
1.1 理解数据科学管道
开始安装各种软件之前,我们需要对贯穿本书的数据分析过程所要用到的重复性步骤有所了解。
1.1.1 操作流程
下面是数据分析的5个关键步骤。
1.获取:数据科学管道的第一步是获取不同来源的数据,它包括关系型数据库、NoSQL和文档、网页抓取、分布式数据库(如Hadoop平台上的HDFS、RESTful API和文本文件)以及PDF文档(当然我们不希望看到这种格式)。
2.探索和理解:第二步是理解你要分析的数据以及数据是如何收集的。这一步通常需要进行有意义的探索分析。
3.修改、整合和处理:这一步通常是数据科学管道中最耗时也是最重要的一步。数据几乎从来不会以你分析需要的形式出现。
4.分析和建模:这一步是最有意思的部分。数据科学家开始探索数据变量间的统计关系,施展他们掌握的机器学习技巧来对数据进行聚类、分类、归类,进一步创建预测模型以便对未来的数据进行分析。
5.沟通和实施:在管道的最后一步,我们需要以吸引人的形式和结构展示结果,有时是对我们自己展示从而进行下一轮分析,有时是对各种不同的用户。展示的数据产品可以是一次性报告,也可以是可扩展的成千上万人使用的Web产品。
1.1.2 工作原理
虽然上述步骤是按顺序列出的,但并不是每一个分析项目都要严格按照上面的顺序一步一步地实施。事实上,灵活的数据科学工作者知道这些步骤是相互交织的。通常,数据探索分析会提示你数据是如何清洗的,然后对清洗过的数据进行进一步的探索分析进而更深入地理解。上述步骤中哪一步先来通常依赖于你开始时对数据的熟悉程度。如果你使用每天产生和获取数据的系统,那么初始的数据探索和理解过程可能不需要太长时间,当然这需要假设前述系统不出问题。相反,如果你对手头要处理的数据没有任何背景知识,那么数据探索和理解过程将需要非常多的时间(很多是非编程时间,比如与系统开发者的沟通等)。
下图展示了数据科学管道的整个流程。
正如你可能已经知道的,数据改写、整合和处理可能消耗项目时间和资源的80%甚至更多。在完美的世界里,我们总是拥有完美的数据。但不幸的是,现实并非如此,你能遇到的数据问题几乎是无限的。有时候,数据字典可能会改变,也可能会丢失,所以在这种情况下理解字段值是不可能的。有些数据字段可能包含垃圾信息或者包含一些与别的字段混淆了的值。升级一个Web应用产品可能产生一些漏洞,导致之前的数据无法收集,从而丢失成百上千行的数据。如果发生了这些问题,你所分析的数据就可能会包含所有这些错误。
最后一步,沟通和实施是非常关键的,但这一步错综复杂,通常不受重视。注意管道中的最后一步并不是数据可视化,也不是仅画一些漂亮的或引人入胜的图形,这本身 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 数据科学实战手册(第2版) - (EPUB全文下载)