对比Excel,轻松学习Python数据分析 - (EPUB全文下载)
文件大小:0.18 mb。
文件格式:epub 格式。
书籍内容:
对比Excel,轻松学习Python数据分析
入门篇
实践篇
进阶篇
入门篇
通过入门篇的学习,你会对数据分析有一个宏观的认识,知道数据分析到底在分析什么,为什么要做数据分析,以及做了数据分析有什么好处。
第1章 数据分析基础
1.1 数据分析是什么
数据分析是指利用合适的工具在统计学理论的支撑下,对数据进行一定程度的预处理,然后结合具体业务分析数据,帮助相关业务部门监控、定位、分析、解决问题,从而帮助企业高效决策,提高经营效率,发现业务机会点,让企业获得持续竞争的优势。
1.2 为什么要做数据分析
在做一件事情之前我们首先得弄清楚为什么要做,或者说做了这件事以后有什么好处,这样我们才能更好地坚持下去。
啤酒和尿布的问题大家应该都听过,如果没有数据分析,相信大家是怎么也不会发现买尿布的人一般也会顺带买啤酒,现在各大电商网站都会卖各种套餐,相关商品搭配销售能大大提高客单价,增加收益,这些套餐的搭配都是基于历史用户购买数据得出来的。如果没有数据分析,可能很难想到要把商品搭配销售,或者不知道该怎么搭配。
谷歌曾经推出一款名为“谷歌流感趋势”的产品,这款产品能够很好地预测流感这种传染疾病的发生时间。这款产品预测的原理就是,某一段时间内某些关键词的检索量会异常高,谷歌通过分析这些检索量高的关键词发现,这些关键词,比如咳嗽、头痛、发烧都是一些感冒/流感症状,当有许多人都搜索这些关键词时,说明这次并非一般性感冒,极有可能是一场带有传染性的流感,这个时候就可以及时采取一些措施来防止流感的扩散。
虽然谷歌流感趋势预测最终以失败告终,但是这个产品的整体思路是值得借鉴的。感兴趣的读者可以上网查一下它的始末。
数据分析可以把隐藏在大量数据背后的信息提炼出来,总结出数据的内在规律。代替了以前那种拍脑袋、靠经验做决策的做法,因此越来越多的企业重视数据分析。具体来说,数据分析在企业日常经营分析中有三大作用,即现状分析、原因分析、预测分析。
1.2.1 现状分析
现状分析可以告诉你业务在过去发生了什么,具体体现在两个方面。
第一,告诉你现阶段的整体运营情况,通过各个关键指标的表现情况来衡量企业的运营状况,掌握企业目前的发展趋势。
第二,告诉你企业各项业务的构成,通常公司的业务并不是单一的,而是由很多分支业务构成的,通过现状分析可以让你了解企业各项分支业务的发展及变动情况,对企业运营状况有更深入的了解。
现状分析一般通过日常报表来实现,如日报、周报、月报等形式。
例如,电商网站日报中的现状分析会包括订单数、新增用户数、活跃率、留存率等指标同比、环比上涨/下跌了多少。如果将公司的业务划分为华北、东北、华中、华东、华南、西南、西北几个片区,那么通过现状分析,你可以很清楚地知道哪些区域做得比较好,哪些区域做得比较差。
1.2.2 原因分析
原因分析可以告诉你某一现状为什么会存在。
经过现状分析,我们对企业的运营情况有了基本了解,知道哪些指标呈上升趋势,哪些指标呈下降趋势,或者是哪些业务做得好,哪些做得不好。但是我们还不知道那些做得好的业务为什么会做得好,做得差的业务的原因又是什么?找原因的过程就是原因分析。
原因分析一般通过专题分析来完成,根据企业运营情况选择针对某一现状进行原因分析。
例如,在某一天的电商网站日报中,某件商品销量突然大增,那么就需要针对这件销量突然增加的商品做专题分析,看看是什么原因促成了商品销量大增。
1.2.3 预测分析
预测分析会告诉你未来可能发生什么。
在了解企业经营状况以后,有时还需要对企业未来发展趋势做出预测,为制订企业经营目标及策略提供有效的参考与决策依据,以保证企业的可持续健康发展。
预测分析一般是通过专题分析来完成的,通常在制订企业季度、年度计划时进行。
例如,通过上述的原因分析,我们就可以有针对性地实施一些策略。比如通过原因分析,我们得知在台风来临之际面包的销量会大增,那么我们在下次台风来临之前就应该多准备一些面包,同时为了获得更多的销量做一系列准备。
1.3 数据分析究竟在分析什么
数据分析的重点在分析,而不在工具,那么我们究竟该分析什么呢?
1.3.1 总体概览指标
总体概览指标又称统计绝对数,是反映某一数据指标的整体规模大小,总量多少的指标。
例如,当日销售额为60万元,当日订单量为2万,购买人数是1.5万人,这些都是概览指标,用来反映某个时间段内某项业务的某些指标的绝对量。
我们把经常关注的总体概览指标称为关键性指标,这些指标的数值将会直接决定公司的盈利情况。
1.3.2 对比性指标
对比性指标是说明现象之间数量对比关系的指标,常见的就是同比、环比、差这几个指标。
同比是指相邻时间段内某一共同时间点上指标的对比,环比就是相邻时间段内指标的对比;差就是两个时间段内的指标直接做差,差的绝对值就是两个时间段内指标的变化量。
例如,2018年和2017年是相邻时间段,那么2018年的第26周和2017年的第26周之间的对比就是同比,而2018年的第26周和第25周的对比就是环比。
1.3.3 集中趋势指标
集中趋势指标是用来反映某一现象在一定时间段内所达到的一般水平,通常用平均指标来表示。平均指标分为数值平均和位置平均。例如,某地的平均工资就是一个集中趋势指标。
数值平均是统计数列中所有数值平均的结果,有普通平均数和加权平均数两种。普通平均的所有数值的权重都是1,而加权平均中不同数值的权重是不一样的,在算平均值时不同数值要乘以不同的权重。
假如你要算一年中每月的月平均销量,这个时候一般就用数值平均,直接把12个月的销量相加除以12即可。
假如你要算一个人的平均信用得分情况,由于影响信用得分的因素有多个,而且不同因素的权重占比是不一样的,这个时候就需要使用加权平均。
位置平均是基于某个特殊位置上的数或者普遍出现的数,即用出现次数最多的数值来作为这一系列数值的整体一般水平。基于位置的指标最常用的就是中位数,基于出现次数最多的指标就是众数。
众数是一系列数值中出现次数最多的数值,是总体中最普遍的值,因此可以用来代表 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 对比Excel,轻松学习Python数据分析 - (EPUB全文下载)