openelib.org 计算机技术

Kafka入门与实践 - (EPUB全文下载)

文件大小：0.32 mb。
文件格式：epub 格式。
书籍内容：

Kafka入门与实践
第1章 Kafka简介
第2章 Kafka安装配置
第3章 Kafka核心组件
第4章 Kafka核心流程分析
第5章 Kafka基本操作实战
第6章 Kafka API编程实战
第7章 Kafka Streams
第8章 Kafka数据采集应用
第9章 Kafka与ELK整合应用
第10章 Kafka与Spark整合应用
欢迎来到异步社区！
第1章　Kafka简介
Kafka是一个高吞吐量、分布式的发布—订阅消息系统。据Kafka官方网站介绍，当前的Kafka已经定位为一个分布式流式处理平台（a distributed streaming platform），它最初由LinkedIn公司开发，后来成为Apache项目的一部分。Kafka核心模块使用Scala语言开发，支持多语言（如Java、C/C++、Python、Go、Erlang、Node.js等）客户端，它以可水平扩展和具有高吞吐量等特性而被广泛使用。目前越来越多的开源分布式处理系统（如Flume、Apache Storm、Spark、Flink等）支持与Kafka集成，本书第8章至第10章将通过具体案例详细介绍Kafka与当前一些流行的分布式处理系统的集成应用。接下来我们将对Kafka相关知识做进一步深入介绍。
1.1　Kafka背景
随着信息技术的快速发展及互联网用户规模的急剧增长，计算机所存储的信息量正呈爆炸式增长，目前数据量已进入大规模和超大规模的海量数据时代，如何高效地存储、分析、处理和挖掘海量数据已成为技术研究领域的热点和难点问题。当前出现的云存储、分布式存储系统、NoSQL数据库及列存储等前沿技术在海量数据的驱使下，正日新月异地向前发展，采用这些技术来处理大数据成为一种发展趋势。而如何采集和运营管理、分析这些数据也是大数据处理中一个至关重要的组成环节，这就需要相应的基础设施对其提供支持。针对这个需求，当前业界已有很多开源的消息系统应运而生，本书介绍的Kafka就是当前流行的一款非常优秀的消息系统。
Kafka 是一款开源的、轻量级的、分布式、可分区和具有复制备份的（Replicated）、基于ZooKeeper 协调管理的分布式流平台的功能强大的消息系统。与传统的消息系统相比，Kafka能够很好地处理活跃的流数据，使得数据在各个子系统中高性能、低延迟地不停流转。
据Kafka官方网站介绍，Kafka定位就是一个分布式流处理平台。在官方看来，作为一个流式处理平台，必须具备以下3个关键特性。
能够允许发布和订阅流数据。从这个角度来讲，平台更像一个消息队列或者企业级的消息系统。
存储流数据时提供相应的容错机制。
当流数据到达时能够被及时处理。
Kafka能够很好满足以上3个特性，通过Kafka能够很好地建立实时流式数据通道，由该通道可靠地获取系统或应用程序的数据，也可以通过Kafka方便地构建实时流数据应用来转换或是对流式数据进行响应处理。特别是在0.10版本之后，Kafka推出了Kafka Streams，这让Kafka对流数据处理变得更加方便。
Kafka已发布多个版本。截止到编写本书时，Kafka的最新版本为0.10.1.1，因此本书内容都是基于该版本进行讲解。
1.2　Kafka基本结构
通过前面对Kafka背景知识的简短介绍，我们对Kafka是什么有了初步的了解，本节我们将进一步介绍Kafka作为消息系统的基本结构。我们知道，作为一个消息系统，其基本结构中至少要有产生消息的组件（消息生产者，Producer）以及消费消息的组件（消费者，Consumer）。虽然消费者并不是必需的，但离开了消费者构建一个消息系统终究是毫无意义的。Kafka消息系统最基本的体系结构如图1-1所示。
图1-1　Kafka消息系统最基本的体系结构
生产者负责生产消息，将消息写入Kafka集群；消费者从Kafka集群中拉取消息。至于生产者如何将生产的消息写入 Kafka，消费者如何从 Kafka 集群消费消息，Kafka 如何存储消息，Kafka 集群如何管理调度，如何进行消息负载均衡，以及各组件间如何进行通信等诸多问题，我们将在后续章节进行详细阐述，在本节我们只需对Kafka基本结构轮廓有个清晰认识即可。随着对Kafka相关知识的深入学习，我们将逐步对Kafka的结构图进行完善。
1.3　Kafka基本概念
在对Kafka基本体系结构有了一定了解后，本节我们对Kafka的基本概念进行详细阐述。
1．主题
Kafka将一组消息抽象归纳为一个主题（Topic），也就是说，一个主题就是对消息的一个分类。生产者将消息发送到特定主题，消费者订阅主题或主题的某些分区进行消费。
2．消息
消息是Kafka通信的基本单位，由一个固定长度的消息头和一个可变长度的消息体构成。在老版本中，每一条消息称为Message；在由Java重新实现的客户端中，每一条消息称为Record。
3．分区和副本
Kafka将一组消息归纳为一个主题，而每个主题又被分成一个或多个分区（Partition）。每个分区由一系列有序、不可变的消息组成，是一个有序队列。
每个分区在物理上对应为一个文件夹，分区的命名规则为主题名称后接“—”连接符，之后再接分区编号，分区编号从0开始，编号最大值为分区的总数减1。每个分区又有一至多个副本（Replica），分区的副本分布在集群的不同代理上，以提高可用性。从存储角度上分析，分区的每个副本在逻辑上抽象为一个日志（Log）对象，即分区的副本与日志对象是一一对应的。每个主题对应的分区数可以在Kafka启动时所加载的配置文件中配置，也可以在创建主题时指定。当然，客户端还可以在主题创建后修改主题的分区数。
分区使得Kafka在并发处理上变得更加容易，理论上来说，分区数越多吞吐量越高，但这要根据集群实际环境及业务场景而定。同时，分区也是Kafka保证消息被顺序消费以及对消息进行负载均衡的基础。
Kafka只能保证一个分区之内消息的有序性，并不能保证跨分区 ............

以上为书籍内容预览，如需阅读全文内容请下载EPUB源文件，祝您阅读愉快。

版权声明：书云(openelib.org)是世界上最大的在线非盈利图书馆之一，致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权，如您认为书云侵犯了您的合法权益，请参考版权保护声明，通过邮件openelib@outlook.com联系我们，我们将及时处理您的合理请求。数研咨询流芳阁研报之家 AI应用导航研报之家
 书云 Open E-Library » Kafka入门与实践 - (EPUB全文下载)

分享到：

相关推荐