R 语言数据分析项目精解:理论、方法、实战 - (EPUB全文下载)
文件大小:0.41 mb。
文件格式:epub 格式。
书籍内容:
R 语言数据分析项目精解:理论、方法、实战
第1章 互联网+统计学+R语言
第2章 R语言基础
第3章 互联网运营指标的建立
第4章 指标监控系统
第5章 用数据驱动业务——AB测试
第6章 变量筛选技术
第7章 构建用户画像系统
第8章 从数据中寻找优质用户
第9章 文本挖掘——点评数据展示策略
第1章 互联网+统计学+R语言
1.1 互联网中的统计学
1.1.1 “互联网+”的发展
2015年3月5日,李克强总理在第十二届全国人民代表大会第三次会议上提出制定“互联网+”行动计划,着手推动移动互联网、云计算、大数据、物联网等与现代制造业相结合,促进电子商务、工业互联网和互联网金融健康发展,引导互联网企业拓展国际市场(引自政府新闻网的相关报道)。此后,“互联网+”这个词便频频出现在各大新闻报道中。互联网能给我们带来什么?优化社会资源配置、提升全社会的创新力和生产力,另外还有大家耳熟能详的大数据。在互联网时代,数据技术成为各个行业中一项重要的技能,大数据是构成信息化世界的基本元素。早在 1980 年,阿尔文·托夫勒就将大数据称做“第三次浪潮的华彩乐章”。随着 2005 年Hadoop的诞生,大数据应用真正从技术上成为了可能,电子商务平台这个近十年发展起来的行业成为大数据的先驱并且从中得到了丰厚的回报。此后,医疗行业、能源行业、通信行业、制造业等纷纷加入了大数据的家庭,如今世界上每天产生的数据用EB(Exabytes,艾字节)计算,互联网上的数据每年增长 50%,每两年便可翻一番,90%的数据是近几年产生的,真正的“大数据”时代已经来临。大数据时代的主要特点有以下四项。
(1)数据量庞大。
(2)数据类型众多。除了结构型数据外,还有非结构型数据,如网络日志、音频、视频和图片等。
(3)处理速度快。数据在这个时代更新替换频繁,若处理时间太长,就算分析出结果也失去了意义,所以需要更快的响应速度。
(4)价值密度低。虽然每天会产生巨大的数据量,但是真正有用的数据却相对较少,我们更多地是从海量的数据中找出那一丝微光,这一丝微光就足以让我们收获很多。
1.1.2 统计学的发展
有了足够的原材料即大数据之后,如何从中寻找有价值的线索呢?这就需要我们拿起统计学的武器进行挖掘。统计学是数学的一个分支,它通过对数据进行搜索、整理、分析和描述等,以推断所测对象的本质,甚至预测对象的未来。统计学作为一门科学至今已有三百多年的历史。在17世纪至19世纪中叶,诞生了古典记录统计学,这个时期的统计学意义和范围都不太明确,直到概率论的引进使得统计学有了较大的发展。此后100年左右的时间,在卡尔·皮尔逊等人的努力下,创建了近代描述性统计学。在20世纪初至20世纪中叶,社会和自然领域对统计学都提出了较高的要求,于是现代推断统计学应运而生,其中哥塞特和费雪做出了巨大的贡献,统计学也完成了从描述性统计到推断统计的大跃进。
1.1.3 大数据时代的统计学
在大数据时代,由于数据的多样性和全面性,使得很多人认为传统统计学已经不再适用了,转而使用数据挖掘、机器学习和近期相当“火”的深度学习来进行分析研究。其背后基于的理论是:在大数据时代,可以收集到全量数据,传统统计学基于样本进行分析,样本数据不足以呈现某些规律,而大数据可以体现,样本中被认为异常的值大数据可以认可。此外,人们不再关注因果关系转而关心相关关系,即从之前关心“为什么”转变成关心“是什么”。机器学习、深度学习通过分析全量数据可以得到全量数据中隐藏的规律性。这些想法初步看起来无可厚非,但事实上往往经不起推敲。
首先,大数据可以告诉你发生了什么事情,但它不会跟你解释为什么会发生这些事情。举个例子:在证券市场投资领域,就算把所有信息都公开,不懂的人依然不知道数据代表的信息,虽然数据量庞大,但是不能直接拿来使用。虽然通过全量数据分析出结果,但你永远不知道当全量数据发生微小变化时结果会怎样。用统计学的话术说则是模型看上去拟合效果很好,但是稳定性较差,一点细微的变化就会导致结论的错误。加州大学迈克尔·乔丹教授曾说过:“没有系统的数据科学作为指导的大数据研究,就如同没有利用工程学的知识来建造的桥梁,很多桥梁可能会坍塌,并带来严重后果”。
其次,全量数据仍然具有很多的不确定性。同一个事物,在不同时刻、不同条件下会发生不同的变化,数据分析人员得到的数据都是历史数据,谁也不知道未来会有什么新情况。如果不搞清背后的因果关系,将来结论的可靠性往往也是未知的。全量数据所谓的“全”是有边界的,超出边界就不再是“全”了。任何事物在时间的长河中都有很多不确定性,若想把信息和规律从数据中提取出来,或者想把数据中的不确定性量化出来,只有依靠统计学才能做到。
所以,即便在大数据时代,很多数据分析问题和小数据时代并没有本质区别,统计学依然是数据分析的灵魂。当然,在大数据时代,传统统计学也会受到很多挑战,比如存储空间、计算复杂度等。相信这些挑战会促使传统统计学更进一步地发展,任何创新和发展都是为了解决问题并突破自我。统计学有着强大的生命力,在这场大数据革命中一定会有更大的进步。
本书以互联网电商企业为背景,结合实际工作中的具体问题,重点介绍几个统计学方法,如层次分析法、时间序列模型、基于正态分布的一元离群点探测方法、局部异常因子、假设检验、主成分分析、因子分析、模糊聚类和逻辑回归模型等。
1.2 R语言——互联网与统计学的桥梁
前面介绍了互联网和统计学,并且阐述了在大数据时代统计学依然是数据分析的灵魂。本节将讨论另一个内容——统计学可以通过哪些工具发挥其优势,为大数据服务。
随着数据量的增加及业务场景复杂度的加大,数据分析人员已经不可能手动计算各个统计指标,有些统计理论也没有现成的公式可以套用。随着计算机技术的发展,统计软件陆续被开发出来,它们的出现大大减轻了数据分析师的工作,使得数据分析师只需专注如何解决业务问题,而不需要更多地考虑如何实现算法。目前,市面上的统计软件有很多,下面简单介绍几个主要的统计软件及它们的优缺点。
1.SA ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » R 语言数据分析项目精解:理论、方法、实战 - (EPUB全文下载)