R语言编程指南 - (EPUB全文下载)
文件大小:0.36 mb。
文件格式:epub 格式。
书籍内容:
R语言编程指南
第1章 快速入门
第2章 基本对象
第3章 工作空间管理
第4章 基本表达式
第5章 基本对象操作
第6章 字符串的使用
第7章 数据处理
第8章 R的内部机制
第9章 元编程
第10章 面向对象编程
第11章 数据库操作
第12章 数据操作
第13章 高性能计算
第14章 网页爬虫
第15章 效率提升
附录 术语表
欢迎来到异步社区!
第1章 快速入门
卓越的数据分析需要建立在出色的工具平台上,没有合适的工具,数据分析也是空中楼阁。即使对专家来说,没有得力的分析工具,从大数据集中直接提取模式并得到结论也几乎是不可能的。因此,一款合适的工具,例如 R,会显著地提升处理数据的效率。就我的经验而言,学习一门编程语言就类似于学习一种人类语言。通常情况下,我们先对一门语言有一个全局的了解,激发学习兴趣,然后通过一些小项目进行尝试,这是一条不错的学习路径。而在此之前,若是纠结于词汇和语言的细节就有些本末倒置了。本章对R进行全面概述,以便帮助你快速入门。
本章我们将介绍以下内容:
R简介
对R的需求
R的安装
R的编辑工具
一旦软件和工具准备就绪,你就可以编写一个简单的R程序来体验它的基本运行方式了。接下来,我们便开始了R的学习之旅,从基础方法到高级技术和应用,一步一步领略R语言的编程之美。
1.1 R简介
R 是一门强大的编程语言和统计计算环境,也是数据探索、分析和可视化的利器。它是免费、开源的,并且具有一个活跃且强大的、快速成长的社区。在这里,用户和开发者共享彼此的经验,他们贡献了超过7500个扩展包,因此,R 可以处理众多领域的各种各样的问题(参见https://cran.r-project.org/web/views/)。
尽管R编程语言的起源只追溯到1993年,但数据相关行业普遍采用R语言编程,因此在近十年里,R已迅速成长并成为数据科学领域的通用工具。
一般来说,R不仅是一门编程语言,而且是一个综合计算环境,一个活跃且强大的社区,一个快速生长和扩大的生态系统。
1.1.1 编程语言
作为一门编程语言,R已经演变和发展了20多年。开发者的目标非常清晰,就是使R成为一款简单易用且灵活的,能够综合执行统计计算、数据探索和可视化的工具。
然而,易用性和灵活性通常是相互冲突的。如果可以通过简单单击几个按钮就可以完成多种多样的统计分析任务,那么在实现自定义和自动化,并保证工作的可重复性时就不可能兼具灵活性。另一方面,R可以非常灵活地使用多种函数进行数据转换,构建复杂的图形等,但学习和正确地组合这些函数就会有一定的难度。R良好地平衡了易用性和灵活性,使得它在众多工具中脱颖而出。
1.1.2 计算环境
作为一个计算环境,R 具有轻量级和安装即用的特点。相比其他著名的统计软件,例如Matlab和SAS,R更小且更容易配置。
在本书中,我们使用RStudio处理绝大部分R中的工作。该集成开发环境提供了丰富的功能,如语法高亮、自动补齐、扩展包管理、图形查看器、帮助查看器、环境查看器以及调试功能。这些功能极大地提高了用户的工作效率。
1.1.3 社区
作为一个社区,R是强大且活跃的。你现在就可以访问Try R(http://tryr.codeschool.com/),通过交互式教程对R的基本知识有个初步的了解。在实际编写代码时,你可能会遇到各种各样的问题,但是不必独自解决所有问题。你可以在google上搜索一个R的问题,就会发现几乎总是可以在Stack Overflow(http://stackoverflow.com/questions/tagged/r)上找到很多解答。如果你的问题没有完全解决,也可以在上面继续提问,往往几分钟就可以得到回答。
如果你需要使用某个扩展包,并且详细地了解它的工作方式,可以访问它的在线存储库(repo)获取源代码。许多存储库托管在GitHub(https://www.github.com)上。在GitHub上,你可以做更多事情。当发现一个扩展包不能正确运行时,你可以提交一份问题报告。如果你需要的某个功能正好契合某个扩展包的开发目的,也可以提交一份需求报告。同样,如果你有兴趣解决某个扩展包的问题或者丰富它的功能,也可以加入该项目,编辑代码并发送合并请求,这样你做的更改就可以被原开发者接收到。如果你的更改被接受了,那么,恭喜你,你就会成为该扩展包的一个贡献者。令人惊奇的是,R和它的数千个扩展包就是被世界各地的贡献者们开发创建的。
1.1.4 生态系统
作为一个生态系统,R在除IT行业以外的所有数据相关领域中迅速发展壮大。大多数用户并不是专业开发者,而是数据分析师和统计人员。这些用户可能不会写最优质的代码,但是他们有助于拓展R语言的前沿工具,任何人都可以自由地使用这些工具,而不必重新研究开发。
举个例子,假设一个计量经济学家写了一个扩展包,实现了检测某类时间序列模式的新方法。一些用户可能会发现它有趣又有用。还有一些专业用户可能改进了原来的代码使其更快、更通用。不久之后,量化投资者可能会将该方法纳入到交易策略中,因为它可以检测到通常在其投资组合中引起风险的模式。一天结束时,投资者会发现,将计量经济学家的工具应用到现实世界中,借此构建的投资组合风险较小。
这就是R生态系统的工作方式。这也是R在这些领域闪耀的原因之一:它能够快速地将IT行业之外(通常是数据科学、学术界和工业界)的前沿知识应用到生态系统中可用且合适的工具上。换句话说,它有助于将这些领域的知识和数据科学转变为生产力和价值。
1.2 对R的需求
在众多统计软件中,R能够脱颖而出,有以下几个方面的原因。
免费:R是完全免费的。你不需要购买许可证书,因此,使用R和大部分扩展包是没有准入障碍的。
开源:R和大部分扩展包都是完全开源的。数以千计的开发者不断地审查包的源代码,查看是否存在需要修复的漏洞或者可以改进的地方。如果你遇到了异常,可以研究和挖掘源代码,找到问题所在,并解决问题。
流行:即使R不是最流行的编程语言,但在统计编程语言和数据挖掘 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » R语言编程指南 - (EPUB全文下载)