Kafka入门与实践 - (EPUB全文下载)
文件大小:0.32 mb。
文件格式:epub 格式。
书籍内容:
Kafka入门与实践
第1章 Kafka简介
第2章 Kafka安装配置
第3章 Kafka核心组件
第4章 Kafka核心流程分析
第5章 Kafka基本操作实战
第6章 Kafka API编程实战
第7章 Kafka Streams
第8章 Kafka数据采集应用
第9章 Kafka与ELK整合应用
第10章 Kafka与Spark整合应用
欢迎来到异步社区!
第1章 Kafka简介
Kafka是一个高吞吐量、分布式的发布—订阅消息系统。据Kafka官方网站介绍,当前的Kafka已经定位为一个分布式流式处理平台(a distributed streaming platform),它最初由LinkedIn公司开发,后来成为Apache项目的一部分。Kafka核心模块使用Scala语言开发,支持多语言(如Java、C/C++、Python、Go、Erlang、Node.js等)客户端,它以可水平扩展和具有高吞吐量等特性而被广泛使用。目前越来越多的开源分布式处理系统(如Flume、Apache Storm、Spark、Flink等)支持与Kafka集成,本书第8章至第10章将通过具体案例详细介绍Kafka与当前一些流行的分布式处理系统的集成应用。接下来我们将对Kafka相关知识做进一步深入介绍。
1.1 Kafka背景
随着信息技术的快速发展及互联网用户规模的急剧增长,计算机所存储的信息量正呈爆炸式增长,目前数据量已进入大规模和超大规模的海量数据时代,如何高效地存储、分析、处理和挖掘海量数据已成为技术研究领域的热点和难点问题。当前出现的云存储、分布式存储系统、NoSQL数据库及列存储等前沿技术在海量数据的驱使下,正日新月异地向前发展,采用这些技术来处理大数据成为一种发展趋势。而如何采集和运营管理、分析这些数据也是大数据处理中一个至关重要的组成环节,这就需要相应的基础设施对其提供支持。针对这个需求,当前业界已有很多开源的消息系统应运而生,本书介绍的Kafka就是当前流行的一款非常优秀的消息系统。
Kafka 是一款开源的、轻量级的、分布式、可分区和具有复制备份的(Replicated)、基于ZooKeeper 协调管理的分布式流平台的功能强大的消息系统。与传统的消息系统相比,Kafka能够很好地处理活跃的流数据,使得数据在各个子系统中高性能、低延迟地不停流转。
据Kafka官方网站介绍,Kafka定位就是一个分布式流处理平台。在官方看来,作为一个流式处理平台,必须具备以下3个关键特性。
能够允许发布和订阅流数据。从这个角度来讲,平台更像一个消息队列或者企业级的消息系统。
存储流数据时提供相应的容错机制。
当流数据到达时能够被及时处理。
Kafka能够很好满足以上3个特性,通过Kafka能够很好地建立实时流式数据通道,由该通道可靠地获取系统或应用程序的数据,也可以通过Kafka方便地构建实时流数据应用来转换或是对流式数据进行响应处理。特别是在0.10版本之后,Kafka推出了Kafka Streams,这让Kafka对流数据处理变得更加方便。
Kafka已发布多个版本。截止到编写本书时,Kafka的最新版本为0.10.1.1,因此本书内容都是基于该版本进行讲解。
1.2 Kafka基本结构
通过前面对Kafka背景知识的简短介绍,我们对Kafka是什么有了初步的了解,本节我们将进一步介绍Kafka作为消息系统的基本结构。我们知道,作为一个消息系统,其基本结构中至少要有产生消息的组件(消息生产者,Producer)以及消费消息的组件(消费者,Consumer)。虽然消费者并不是必需的,但离开了消费者构建一个消息系统终究是毫无意义的。Kafka消息系统最基本的体系结构如图1-1所示。
图1-1 Kafka消息系统最基本的体系结构
生产者负责生产消息,将消息写入Kafka集群;消费者从Kafka集群中拉取消息。至于生产者如何将生产的消息写入 Kafka,消费者如何从 Kafka 集群消费消息,Kafka 如何存储消息,Kafka 集群如何管理调度,如何进行消息负载均衡,以及各组件间如何进行通信等诸多问题,我们将在后续章节进行详细阐述,在本节我们只需对Kafka基本结构轮廓有个清晰认识即可。随着对Kafka相关知识的深入学习,我们将逐步对Kafka的结构图进行完善。
1.3 Kafka基本概念
在对Kafka基本体系结构有了一定了解后,本节我们对Kafka的基本概念进行详细阐述。
1.主题
Kafka将一组消息抽象归纳为一个主题(Topic),也就是说,一个主题就是对消息的一个分类。生产者将消息发送到特定主题,消费者订阅主题或主题的某些分区进行消费。
2.消息
消息是Kafka通信的基本单位,由一个固定长度的消息头和一个可变长度的消息体构成。在老版本中,每一条消息称为Message;在由Java重新实现的客户端中,每一条消息称为Record。
3.分区和副本
Kafka将一组消息归纳为一个主题,而每个主题又被分成一个或多个分区(Partition)。每个分区由一系列有序、不可变的消息组成,是一个有序队列。
每个分区在物理上对应为一个文件夹,分区的命名规则为主题名称后接“—”连接符,之后再接分区编号,分区编号从0开始,编号最大值为分区的总数减1。每个分区又有一至多个副本(Replica),分区的副本分布在集群的不同代理上,以提高可用性。从存储角度上分析,分区的每个副本在逻辑上抽象为一个日志(Log)对象,即分区的副本与日志对象是一一对应的。每个主题对应的分区数可以在Kafka启动时所加载的配置文件中配置,也可以在创建主题时指定。当然,客户端还可以在主题创建后修改主题的分区数。
分区使得Kafka在并发处理上变得更加容易,理论上来说,分区数越多吞吐量越高,但这要根据集群实际环境及业务场景而定。同时,分区也是Kafka保证消息被顺序消费以及对消息进行负载均衡的基础。
Kafka只能保证一个分区之内消息的有序性,并不能保证跨分区 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » Kafka入门与实践 - (EPUB全文下载)