Julia数据科学应用 - (EPUB全文下载)

文件大小:0.29 mb。
文件格式:epub 格式。
书籍内容:

Julia数据科学应用
第1章 Julia简介
第2章 建立数据科学工作环境
第3章 Julia入门
第4章 Julia进阶
第5章 Julia数据科学应用概述
第6章 Julia数据工程
第7章 探索数据集
第8章 构建数据空间
第9章 数据抽样与结果评价
第10章 无监督式机器学习
第11章 监督式机器学习
第12章 图分析
第13章 更上一层楼
附录A 下载安装Julia与IJulia
附录B 与Julia相关的一些常用站点
附录C 本书所用的扩展包
附录D Julia与其他平台的集成
附录E Julia中的并行处理
附录F 各章思考题答案
欢迎来到异步社区!
第1章 Julia简介
现在的编程语言有几十种,有些是通用的,有些则专注于某个领域,但每种语言都号称比其他语言更优秀。最强大的语言(能够快速执行复杂运算的语言)学习起来应该很难(要想掌握就更难了),它们的用户仅局限于那些对编程具有天赋的“硬核”程序员。雄心勃勃的数据科学家不得不面对这样一种前景:花费大量时间和精力学习了一门语言,却对他们的工作帮助甚微,写下了一行又一行复杂的代码,却实现不了一种可用的算法。
“即插即用”的编程语言是另外一种情况,它们将所有的编程复杂性都进行了精心的封装。那些最单调乏味的(一般也是应用最广泛的)算法都被预先包装好了,供用户方便地使用,几乎不需要学习过程。这些语言的问题是,它们的速度会很慢,而且对内存和运算能力有很苛刻的要求。数据科学家们又面临了一种与前面相反的困境:语言学习没有陡峭的学习曲线,这是个优点,但想用这些语言来完成任务,却困难重重。
Julia正是位于这两种极端情况中间的一种语言,它最大程度地综合了上面两类语言的优点。其实,它就是一门设计用来进行技术计算的编程语言,它计算速度快,易于使用,并内置了许多数据处理工具。尽管它还处于初级阶段,那些对它进行了充分测试的人们已经感受到了它的巨大潜力,并确信它在技术计算和数据科学领域内有很大的用武之地。
以下一些特点使Julia在众多编程语言中脱颖而出。
极其卓越的性能。Julia在很多数据分析任务以及其他编程实践中都表现出了令人难以置信的性能。它的表现可以和C语言媲美,C语言经常被用来作为衡量运算速度的标准。
强大的基础库。Julia有一个强大的基础库,它不需要其他平台,就可以进行所有的线性代数运算,这些运算是数据分析模块的必备组件。
支持多分派。Julia实现了多分派机制,这使它可以使用同一种函数实现不同的过程,使函数更容易扩展,并可以对不同类型的输入重复使用。
容易上手。特别是对于那些从Python、R、Matlab或Octave迁移过来的使用者,学习Julia特别容易。
用户友好的界面。不论是在本地还是云上,Julia的用户界面都非常友好,在所有的流程中,用户与Julia的交流都非常顺畅。Julia还对所有的功能和数据类型提供了方便易用的帮助文件。
与其他语言无缝对接。这些语言包括(但不限于)R、Python和C。这使你不需要进行完整的迁移,就可以使用现有的代码库。
开源。Julia以及它的所有文档与教程都是开源的,非常易于获取,详尽而又全面。
开发者承诺。Julia的开发者承诺会一直加强这门语言的性能,并对使用者提供尽可能的帮助。他们提供了大量的讨论,组织年度会议,并提供咨询服务。
自定义函数。Julia的自定义函数可以和内置在基础代码中的函数一样快速而简洁。
并行能力。Julia具有强大的并行能力,这使得在多核计算机和集群上的部署非常容易。
极大的灵活性。Julia在开发新程序方面极其灵活,不论是编程新手,还是专家级用户,Julia适合各种编程水平的使用者,这个特性在其他语言中是很难得的。
在学习和使用Julia的过程中,你肯定会发现它的更多优点,尤其是在数据科学方面。
1.1 Julia如何提高数据科学水平
“数据科学”是个相当含糊的名词,自从它成为科学领域一门学科后,就具有很多不同的意义。在本书中,我们这样来定义它:数据科学通过各种统计学和机器学习的技术与方法,将数据转换为有用的信息或知识。
由于数据的快速增长,数据科学必须利用各种工具的强大功能来应对大数据的挑战。因为数据科学的一大部分任务就是运行脚本来处理规模庞大、结构复杂的数据集(通常被称为“数据流”),所以一门高性能的编程语言对于数据科学来说不是奢侈品,而是必需品。
考虑一下某种特定的数据处理算法,它通过传统语言实现,需要运行几个小时。那么算法性能的适度提高就可以对数据处理过程的整体速度造成相当大的影响。作为一门新语言,Julia做的就是这样一件事情,这使它成为了数据科学应用的理想工具,既适合经验丰富的数据科学家,也适用于入门者。
1.1.1 数据科学工作流程
人们认为数据科学是由多个环节组成的一个流程,每个环节都与手头的数据和分析目标密切相关。很多时候,这个目标是实现一个仪表盘或某种智能可视化结果(通常是可交互的),这通常被称为“数据产品”。
数据科学包括从真实世界(比如HDFS系统中的数据流,CSV文件中的数据集,或者关系数据库中的数据)中获取数据,对数据进行处理并得到有用的信息,以及将信息以一种精炼和可操作的形式返回到真实世界中。最终结果通常是数据产品的形式,但也不是必须的。举例来说,你可能被要求在公司的内部数据上面应用数据科学,但只要将结果以可视化的方式与公司管理者共享就可以了。
看一个小公司的例子,这个公司正在对博客订阅者进行问卷调查,从而进行数据驱动的市场研究。这个数据科学过程包括以下5个步骤。
1.从营销团队获取数据。
2.进行数据准备,将数据转换成可以用于预测分析的形式。
3.对数据进行探索性分析,分辨出是否某些人更倾向于购买某些特定产品。
4.对工作进行规范化,使整个工作过程达到资源有效和无误差。
5.开发模型,深入研究公司客户对哪些产品最感兴趣,以及他们期望为这些产品付多少钱。
我们会在第5章中对这个过程进行更详细的介绍。图1.1是数据科学过程的
图1.1 数据科学过程概览。 ............

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » Julia数据科学应用 - (EPUB全文下载)