探寻数据背后的逻辑:R语言数据挖掘之道 - (EPUB全文下载)
文件大小:0.44 mb。
文件格式:epub 格式。
书籍内容:
探寻数据背后的逻辑:R语言数据挖掘之道
第1章 万事不只开头难
第2章 数据探索,招招都是利器
第3章 从商务气质的数据可视化说起
第4章 分位数回归模拟股票指数风险通道
第5章 时间序列分析
第6章 选择什么算法也有一套流程
第7章 深入浅出十大算法
第8章 数据抓取
第9章 不可不说的社交网络关系
第10章 情感分析:一种准确率高达90%的新方法?
第11章 话题模型:很多牛人过不去的坎儿
第12章 排名就是简单的推荐系统吗?
第13章 生物信息学中的数据挖掘案例
第14章 产品化:关于内存、速度和自动化
第1章 万事不只开头难
1.1 工欲善其事,必先利其器:安装
R语言是什么?是一门统计语言,这是认识R语言的基础,它生来就是做数据统计、数据分析、数据挖掘工作的。换句话说,SPSS或者Excel能做的工作R都能做,但是R能做的工作用Excel完成简直是无法想象的,说这一点也是为了让大家在阅读本书和使用R时忘记那些用鼠标点点的傻瓜式操作,真正熟练之后你就会忘了那些傻瓜式的东西。最近随着大数据的兴起,R语言用蔚然成风形容亦不为过,不信可以去各大招聘网站搜索数据挖掘或数据分析便知,或者在Stackoverflow搜索“Data Analysis”,统计一下相关问题的数量就可以了,一般使用的人数越多,针对这门语言的问题也就越多。
R语言不是什么?R不是通用语言,不要用R做开发的工作,此处开发工作指App、网页、BI网页报表等,虽然也有一些R语言包能够完成简单的网页报表开发,比如后面讲到的shiny包,但是这些东西基本是小儿科的花架子,上不了台面,前台系统真的还是需要Java或者Python开发。我建议,如有志于做数据挖掘工作,应该把自己的重心放到后台和统计学上。
不要想着一个工具就能包揽所有的工作,优秀团队的特征不是什么都能做,而是专业,即专业的分工。
R是一款开源软件,它的功能包数量有5000多个,每个包囊括五花八门的任务,所以你能想到的大部分功能别人早就写好了,免费等着你用,用一句话来结束对R的介绍:R让分析更便捷,单位代码产量高。何为单位代码产量高,即写同样多的代码,R能完成更多的工作。
1.1.1 安装R和RStudio
RGui是什么?简单地说就是R的编译器。选择R的理由是什么?开源、简单、代码优美,好吧,这是我的理由。既然选定了 R,怎么获取 RGui,答案很简单,去官网。R 官网的链接为https://www.r-project.org,打开之后点击“download R”,页面跳转后随意点一个链接,个人习惯是点击“China”下的第一个链接。
根据你使用的系统选择对应的RGui,Linux、Windows或者是苹果系统的。如果是第一次安装,则点击“install R for the first time”,然后按照提示下载对应的版本即可,下载后按照默认选项安装,至此RGui的安装已经完成。
安装了RGui以后就已经可以使用R了,但是为了更加方便地使用R,推荐安装Rstudio,它是目前R最漂亮实用的编辑器,编辑器更适合批量写代码,因为刚开始学的时候可能在RGui中一句一句地执行代码,但是如果你想将自己的代码保存下来,又不想一句一句将执行过的代码复制保存,很简单,用编辑器。Rstudio是依赖于R的,所以安装Rstudio前一定要安装对应版本的R软件。
这些软件的使用基本上很简单,但是需要说明的是,在选择安装语言时尽量选择英文,原因很简单,你和世界沟通的语言是英文。
打开RStudio后,点击“File”新建R脚本,然后你会发现RStudio的界面可以分为四个部分,默认状态下左上角是编辑的脚本,左下角是Console控制台(相当于R的终端界面),跑的代码和打印的结果都会在左下角显示,右上角是环境和历史,执行的历史代码和数据对象都会在右上角显示,右下角是帮助和绘图显示区。
我们使用rnorm产生1000个随机值并绘制散点图,RStudio的右下角显示所绘制的散点图,如图1-1所示。
plot(rnorm(1000))
图1-1
1.1.2 安装数据包
R包可以认为是一些功能模块的集合,要R实现某些功能,比如特殊的模型、数据处理,就需要安装加载相应的包,这样可以帮助你节省自己开发某些功能点的时间和代码量,至于怎么找到特定的包,方法是用Google搜索,将自己的问题写成英文,搜索是最快的方式,用百度也可以,但是随着你所学加深,你的问题可能在中文社区找不到答案,所以,作为一个合格的程序员必须有能力使用Google和英文。
刚刚提到过,R的数据包至少有5000多个,也就意味着不需要自己实现功能,直接引用R的数据包就可以实现很多复杂的功能。R语言自带的包比较少,单纯地仅仅使用R的基础包不仅效率低下,而且函数也比较低效,初学者容易犯的一个错误就是没有在基础包里找到自己想要的函数,就马上动手写一个函数,殊不知动手搜一下相关的包,可能比自己写函数更加方便,更重要的是新手写的函数基本上不太实用。若使用基础包以外的包则需要先安装,放心,大部分是免费的。
1.在RGui下安装包
打开RGui,点击“程序包”,选择“安装程序包”选项,设定CRAN镜像,源镜像里存储了很多经过审查且规范的包,个人习惯选取以China开头的镜像,之后选取要安装的扩展包即可(见图1-2)。此处需注意一个问题,有时因为网络或者其他因素会导致数据包安装失败,这时候该怎么办?很简单,换一个镜像试试。
图1-2
2.在RStudio下安装包
坦率地说,因为RStudio是依赖于R的,所以你在RGui上安装数据包以后,在RStudio上是可以直接使用的,但是通常情况下,如果学会了使用RStudio就会忘记RGui,在RStudio中点击右下侧的“Packages”,在“Packages”的左下方有个“install”按钮,点击该按钮即可安装包。默认是在线安装,在空白行中键入你要安装的包名,然后点击“install”按钮即可。
3.通用方式安装
下面介绍一 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 探寻数据背后的逻辑:R语言数据挖掘之道 - (EPUB全文下载)