从零开始学Python数据分析与挖掘 - (EPUB全文下载)
文件大小:0.46 mb。
文件格式:epub 格式。
书籍内容:
从零开始学Python数据分析与挖掘
第1章 数据分析与挖掘概述
第2章 从收入的预测分析开始
第3章 Python快速入门
第4章 Python数值计算工具——Numpy
第5章 Python数据处理工具——Pandas
第6章 Python数据可视化
第7章 线性回归预测模型
第8章 岭回归与LASSO回归模型
第9章 Logistic回归分类模型
第10章 决策树与随机森林
第11章 KNN模型的应用
第12章 朴素贝叶斯模型
第13章 SVM模型的应用
第14章 GBDT模型的应用
第15章 Kmeans聚类分析
第16章 DBSCAN与层次聚类分析
第1章数据分析与挖掘概述
马云曾说“中国正迎来从IT时代到DT时代的变革”,DT就是大数据时代。随着移动互联网的发展,人们越来越感受到技术所带来的便捷,同时企业也将搜集到越来越多与用户相关的数据,包括用户的基本信息、交易记录、个人喜好、行为特征等。这些数据就相当于隐藏在地球深处的宝贵资源,企业都想从数据红利中分得一杯羹,进而推进企业重视并善加利用数据分析与挖掘相关的技术。
本章将以概述的形式介绍数据分析和挖掘相关的内容,通过本章的学习,你将了解如下几方面的知识点:
数据分析与挖掘的认识;
数据分析与挖掘的几个应用案例;
数据分析与挖掘的几方面区别;
数据分析与挖掘的具体操作流程;
数据分析与挖掘的常用工具。
1.1 什么是数据分析和挖掘
随着数据时代的蓬勃发展,越来越多的企事业单位开始认识到数据的重要性,并通过各种手段进行数据的搜集。例如,使用问卷调查法获取用户对产品的评价或改善意见;通过每一次的实验获得产品性能的改良状况;基于各种设备记录空气质量状况、人体健康状态、机器运行寿命等;通过网页或APP记录用户的每一次登录、浏览、交易、评论等操作;基于数据接口、网络爬虫等手段获取万维网中的公开数据;甚至是企业间的合作实现多方数据的共享。企事业单位花费人力、物力获取各种数据的主要目的就是通过数据分析和挖掘手段实现数据的变现,否则囤积的数据就是资源的浪费。
数据分析和挖掘都是基于搜集来的数据,应用数学、统计、计算机等技术抽取出数据中的有用信息,进而为决策提供依据和指导方向。例如,应用漏斗分析法挖掘出用户体验过程中的不足之处,从而进一步改善产品的用户流程;利用AB测试法检验网页布局的变动对交易转化率的影响,从而确定这种变动是否有利;基于RFM模型实现用户的价值分析,进而针对不同价值等级的用户采用各自的营销方案,实现精准触达;运用预测分析法对历史的交通数据进行建模,预测城市各路线的车流量,进而改善交通的拥堵状况;采用分类手段,对患者的体检指标进行挖掘,判断其所属的病情状况;利用聚类分析法对交易的商品进行归类,可以实现商品的捆绑销售、推荐销售等营销手段。应用数据分析和挖掘方法,让数据产生价值的案例还有很多,这里就不一一枚举了,所以只有很好地利用数据,它才能产生价值,毫不夸张地说,大部分功劳都要归功于数据分析和挖掘。
1.2 数据分析与挖掘的应用领域
也许读者也曾自我发问——学会了数据分析和挖掘技术,可以从事哪些行业的相关工作呢?在笔者看来,有数据的地方就有用武之地。现在的数据充斥在各个领域,如庞大的互联网行业,包含各种电商平台、游戏平台、社交平台、中介类平台等;金融行业,包含银行、P2P、互联网金融等;影响国计民生的教育、医疗行业;各类乙方数据服务行业;传统行业,如房地产、餐饮、美容等。这些行业都需要借助数据分析和挖掘技术来指导下一步的决策方向,以下仅举3个行业应用的例子,进一步说明数据分析和挖掘的用武之地。
1.2.1 电商领域——发现破坏规则的“害群之马”
移动互联网时代下,电商平台之间的竞争都特别激烈,为了获得更多的新用户,往往会针对新用户发放一些诱人的福利,如红包券、满减券、折扣券、限时抢购优惠券等,当用户产生交易时,就能够使用这些券减免一部分交易金额。电商平台通过类似的营销手段一方面可以促进新用户的获取,增添新鲜血液;另一方面也可以刺激商城的交易,增加用户的活跃度,可谓各取所需的双赢效果。
然而,某些心念不正的用户为了从中牟取利益,破坏大环境下的游戏规则。某电商数据分析人员在一次促销活动的复盘过程中发现交易记录存在异常,于是就对这批异常交易作更深层次的分析和挖掘。最终发现这批异常交易都有两个共同特点,那就是一张银行卡对应数百个甚至上千个用户id,同时,这些id自始至终就发生一笔交易。暗示了什么问题?这说明用户很可能通过廉价的方式获得多个手机号,利用这些手机号去注册APP成为享受福利的多个新用户,然后利用低价优势买入这些商品,最后再以更高的价格卖出这些商品,这种用户我们一般称为“黄牛”。
这些“害群之马”的行为至少给电商平台造成两方面的影响,一是导致真正想买商品的新用户买不到,因为有限的福利或商品都被这些用户抢走了;二是虚增了很多“薅羊毛”的假用户,因为他们很可能利用完新用户的福利资格后就不会再交易了。如果没有数据分析与挖掘技术在互联网行业的应用,就很难发现这些“害群之马”,企业针对“害群之马”对游戏规则做了相应的调整,从而减少了不必要的损失,同时也挽回了真实用户的利益。
1.2.2 交通出行领域——为打车平台进行私人订制
打车工具的出现,改变了人们的出行习惯,也改善了乘车的便捷性,以前都是通过路边招手才能搭乘出租车,现在坐在家里就可以完成一对一的打车服务。起初滴滴、快滴、优步、易到等打车平台,为了抢占市场份额,不惜花费巨资补贴给司机端和乘客端,在一定程度上获得了用户的青睐,甚至导致用户在短途出行中都依赖上了这些打车工具。然而随着时间的推移,打车市场的格局基本定型,企业为了自身的利益和长远的发展,不再进行这种粗放式的“烧钱”运营手段。
当司机端和乘客端不再享受以前的福利待遇时,在一定程度上影响了乘客端的乘车频率和司机端的接单积极性。为了弥补这方面的影响,某打车平台利用用户的历史交易数据,为司机端和乘客端的定价进行私人订制。
例如,针对乘客端,通过各种广告渠道 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 从零开始学Python数据分析与挖掘 - (EPUB全文下载)