码农·如何成为一位数据科学家 - (EPUB全文下载)
文件大小:3.66 mb。
文件格式:epub 格式。
书籍内容:
版权信息
书名:码农 第17期
作者:图灵社区出品
本书由北京图灵文化发展有限公司发行数字版。版权所有,侵权必究。
您购买的图灵电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
目录
编者的话
如何成为一位数据科学家
如何成为一位数据科学家
大数据时代的统计学思考
在AWS上构建你的第一台机器
针对PageRank的链接作弊方法剖析
如何利用奇异值分解简化数据
Peter Harrington:如何成为一位数据科学家
机器学习产品开发的漫漫长路
R语言可视化初阶
读《码农》 吐吐槽 还能赚银子!
人物
连城:大数据场景下的“骚到痒处”和“戳到痛处”
鲜阅
松本行弘:我为什么要开发新语言Streem
践行
老码农的技术理想
九卦
为狗狗制作的商业模式画布
动手
程序员为什么值得写博客
书榜
看看大家都在读什么
电子书榜
妙评
Hello Kitty:我的成功你不能复制
成书手记
半个保险丝”之谜——《咨询的奥秘》翻译轶事
《系统化思维导论》的25周年纪念
封底
编者的话
如何成为一位数据科学家
编者 / 李盼
仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后10年IT行业最重要的人才”了。在《数据之美》一书中,对于Facebook的数据科学家,有如下叙述:
“在Facebook,我们发现传统的头衔如商业分析师、统计学家、工程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是变化多样的:在任意给定的一天,团队的一个成员可以用Python实现一个多阶段的处理管道流、设计假设检验、用工具R在数据样本上执行回归测试、在Hadoop上为数据密集型产品或服务设计和实现算法,或者把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握完成这多方面任务需要的技术,我们创造了‘数据科学家’这种角色。”
数据科学家是否由Facebook创造,我们尚不可知,然而这确实是一种前所未有,但却无比稀缺的职业。“不懂统计学的码农不是一位好的数据科学家”,纵然这样概括数据科学,却仍显得不够全面。要成为一位数据科学家,需要掌握统计学、线性代数和一些编程技能,也要精通数据预处理、数据再加工、数据建模、编码、可视化和有效沟通。万丈高楼平地起,就让我们从一些简单而有趣的知识开始探索数据科学的旅程吧。
数据科学家每天的工作流程是什么?数据科学的学习路径是什么?在本期《码农》中,你将听到来自数据科学家们的回答。除此之外,我们还将和你一起探索一些实用的数据加工技术。奇异值分解是一种无论在生物信息学还是在金融学领域内都有广泛应用的数据简化方式,我们将向你介绍基于Python的SVD实现;作为人与数据间的桥梁,数据科学家需要掌握数据可视化方面的必要知识,而即将介绍的R语言则是一种绝妙的工具。另外,我们还将拓展思维,一起回顾一下机器学习的漫漫长路,比起模型设计和软件开发,也许更需要了解的是如何诠释问题。
Google、Amazon、Facebook、Twitter,这些称霸互联网业界的企业,不仅是数据分析的受益者,也是大数据储存和处理技术的推动者。当你需要更多计算资源时,不需要预先购买大量机器,可以直接利用亚马逊Web服务(AWS)来实现;Google的立家之本PageRank是大数据处理领域的伟大创新,就让我们来听听Sergey Brin的老师Ullman教授是如何从垃圾农场架构的角度破解PageRank链接作弊的。
说到大数据领域的创新,Google的三驾马车(GFS,MapReduce,Bigtable)曾经开启了大数据处理时代的序幕,然而技术的更迭创造出了更好的产品。本期“码农人物”连城是Spark核心构建者Databricks的工程师。在做Spark之前,连城从来没有从事过大数据分析方向的工作。如今作为Spark committer的他,对大数据分析逐渐形成了自己的理解,他认为“对工具的选择,既可以解放我们的思想,也可以禁锢我们的思想”。而他自己曾经并不感冒的函数式编程,可能才是更加契合大数据场景的编程方式。
在历史上的任何时期,掌握着先进工具的人也就掌握着未来。在大数据时代,数据科学家无疑就是这个时代点“石”成金的人。
如何成为一位数据科学家
大数据时代的统计学思考
作者/ Rachel Schutt
美国新闻集团旗下数据科学部门高级副总裁、哥伦比亚大学统计系兼职教授、约翰逊实验室高级研究科学家,同时也是哥伦比亚大学数据科学及工程研究所教育委员会的发起人之一。她曾在谷歌研究院工作数年,负责设计算法原型并通过建模理解用户行为。
作者/ Cathy O'Neil
约翰逊实验室高级数据科学家、哈佛大学数学博士、麻省理工学院数学系博士后、巴纳德学院教授,曾发表过大量算术代数几何方面的论文。他曾在著名的全球投资管理公司D.E. Shaw担任对冲基金金融师,后加入专门评估银行和对冲基金风险的软件公司RiskMetrics,个人博客:mathbabe.org。
“大数据这个词现在时常被人们随意使用,然而其语义十分模糊。简单地说,这个包罗万象的词条一般有三层含义:首先,它指代一揽子的技术;其次,它有可能引发一场度量数据规模的革命;最后,它为人们未来将会、甚或是应该如何制定决策提供了一个新视角,一种新理念。”
—史蒂夫•洛尔(Steve Lohr)《纽约时报》
在你打算成为一名数据科学家时,以下技能是必须首先具备的:统计学、线性代数和一些编程技能。同时你还需要发展以下技能:数据预处理、数据再加工、数据建模、编码、可视化和有效沟通,这些技能往往是相辅相成的。万丈高楼平地起,让我们先从统计推断开始探索数据科学的旅程。
我希望想成为数据科学家的人拥有五花八门的背景,你可能是位优秀的软件工程师,有能力搭建数据管道,但对统计学 ............
书籍插图:
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 码农·如何成为一位数据科学家 - (EPUB全文下载)