ODPS权威指南——阿里大数据平台应用开发实践 - (EPUB全文下载)
文件大小:0.44 mb。
文件格式:epub 格式。
书籍内容:
ODPS权威指南——阿里大数据平台应用开发实践
第1章 ODPS概述
第2章 ODPS入门
第3章 收集海量数据
第4章 使用SQL处理海量数据
第5章 SQL进阶
第6章 通过Tunnel迁移数据
第7章 使用MapReduce处理数据
第8章 MapReduce进阶
第9章 机器学习算法
第10章 使用SDK访问ODPS服务
第11章 ODPS权限、资源和数据管理
第12章 深入了解ODPS
第13章 探索ODPS之美
附录 ODPS消息认证机制
后记
版权
第1章 ODPS概述
1.1 引言
这是个云计算时代,这是个大数据时代。
随着PC和移动互联网影响人们的生活方式,数据呈爆发式增长,其间错综复杂的关联交互,使得现今的传统技术,已经承载不了高效处理的重任。经过几年的探索和发展,云计算已经不再是几年前的“概念股”,它已经落地开花,大型分布式技术变得更加成熟。很多大公司(包括Amazon、阿里云等)已经在规模、可用性和安全领域实现了技术突破,实现了公有云基础设施,并探索出按需租用的商业模式,为中小企业提供灵活的云存储和云计算服务。
和云计算相比,大数据的浪潮到底有多猛?在过去三年里产生的数据量比以往四万年的数据量还要大。大数据可以来自方方面面,从日常生活购物到社交网络,从地理位置定位到在线视频都会有大量的数据。云计算的蓬勃发展,进一步提升了大数据的价值。廉价的存储和计算,高效的海量数据处理,使我们已经进入了“大数据时代”。搜索、推荐、广告、游戏和社交网络正在迅速融合,新的商业模式层出不穷。
1.2 初识ODPS
开放数据处理服务(Open Data Processing Service,ODPS)是一个海量数据处理平台,基于阿里巴巴自主研发的分布式操作系统开发,以云计算服务的形式支撑集团数据分享和海量数据处理业务的发展,其官方访问地址是http://www.aliyun.com/product/odps/。
ODPS 提供 PB 级别的数据处理能力,适用于海量数据存储、数据仓库构建、数据统计和挖掘、机器学习和商业智能等领域。
1.2.1 背景和挑战
今天,移动、交易、广告、社会化游戏、在线传感器以及工业传感器数量在迅猛增长,数据规模给传统技术带来了很大的挑战。随着规模的不断增长,传统软件无法承载大数据处理的重任。从大型互联网企业的数据仓库和BI分析、中型网站的LOG分析、电子商务网站的交易分析到手机采集的数据分析、用户特征和兴趣挖掘,以及GIS、图像、语音、视频、基因组分析,从底层的存储计算到数据分析语言,从应用开发编程模型到机器学习算法,这一切的一切,都需要大数据处理平台来支撑。
麦肯锡评估报告认为大数据在政府公共服务、医疗服务、零售业、制造业以及个人位置服务等领域都将带来可观的价值。迈尔.舍恩伯格的《大数据时代》 [1]一书更是探讨了大数据时代给我们的生活、工作和思维带来的大变革。奥巴马政府在 2012 年 3 月宣布启动“大数据研究与开发计划”,致力于提高政府从庞大复杂的数据资料中抽取和挖掘信息的能力。IBM定义了当前大数据的4V特征:海量数据规模(Volume)、快速数据流转和动态数据体系(Velocity)、多样的数据类型(Variety)以及真实性(Veracity)。阿里研究中心也洞见了大数据的方向:分析和挖掘是手段,发现和预测是最终目标。大数据已然成为企业掘金的新蓝海,要开采大数据这个金矿,更是离不开海量数据平台的支撑!
在大数据背景下,不可避免地面临着大规模的挑战。大规模的数据计算处理,需要把数据分布到多台机器并行处理。在单机环境下,往往不需要考虑失败问题,因为机器崩溃了,程序无法恢复。但是在分布式环境下,机器数量很大,多台机器需要协作,局部失败的几率变得很高:比如硬件上某台机器“挂了”,其上运行的任务都“挂了”;网络上交换机或路由器崩溃;计算节点磁盘空间不足或内存溢出;数据在传输中出错或网络中断,等等。在分布式环境下,这些问题变成“家常便饭”,系统应该有能力从这种局部失败中恢复,用户可以不关心这些错误,继续正常工作。提供这种“弹性”是软件工程面临的巨大挑战。
安全和正确性是面临的另一大课题。把数据放在“云”(分布式存储)上,安全性是重中之重,而对于数据处理,保证计算正确性是一切的基础。
1.2.2 为什么做ODPS
阿里巴巴是最早预见到云计算和大数据的互联网公司之一。早在六七年前,阿里就把自己看成一家未来的数据公司,并且把“数据分享第一平台”作为公司的愿景。面对大数据规模挑战,阿里自主研发了云计算平台“飞天”以及海量数据处理平台 ODPS。阿里巴巴多年来坚持投资开发飞天和 ODPS 平台的初心就是希望有一天能够以安全和市场的模式,让中小互联网企业能够使用阿里巴巴最宝贵的数据。飞天和ODPS一直承载着实现这一梦想的使命。
大数据处理平台是一个非常复杂的系统。像ODPS这样的系统,其涉及的设备数量和软件规模相当于一个地市级电网或者早期人造卫星系统,需要非常专业的运维和运营团队支撑;系统改进升级涉及数据安全和对业务的影响。从人类工程技术发展历史来看,这样的平台系统最终只能以基础设施和公共服务的形式存在。
通过这种方式,可以实现大规模和服务化。它给用户带来的直接好处是低成本,因为同一个用户在不同时间对存储计算资源的需求有很大差异,平台规模足够大之后,价格市场化和削峰添谷会带来明显的成本优势,为每个用户节约成本。此外,平台运维和运营的专业化可以极大节省用户的运营成本,更重要的是显著降低互联网创业公司的创新门槛和试错成本。
数据是世界上最沉重的东西,在互联网上搬动 TB 级甚至 PB 级的数据是一件极为困难的事情,尤其对于不断更新的数据集。在计算领域,很早就有“计算靠近数据”的设计原则,充分利用局部性原理(data locality),而对于海量动态数据集而言,只有在同一个平台上进行存储和处理才能最终实现数据的交易和共享。
云计算和大数据前景光明,但其面临的挑战也是前所未有的。构建海量数据处理平 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » ODPS权威指南——阿里大数据平台应用开发实践 - (EPUB全文下载)