kafka原理

发布网友发布时间：2022-10-14 05:39

共1个回答

热心网友时间：2023-11-24 19:04

Kafka 是一个消息系统，原本开发自 LinkedIn，用作 LinkedIn 的活动流数据（Activity Stream）和运营数据处理管道（Pipeline）的基础。现在它已被多家公司作为多种类型的数据管道和消息系统使用。

Kafka通常用于应用中的两种广播类型：

由此可见，kafka给自身的定位并不只是一个消息系统，而是通过发布订阅消息这种机制实现了流平台。

Kafka和大多数消息系统一样，搭建好kafka集群后，生产者向特定的topic生产消息，而消费者通过订阅topic，能够准实时的拉取到该topic新消息，进行消费。如下图：

kafka主要有以下特性：

尤其是高吞吐量，是他的最大卖点。kafka之所以能够实现高吞吐量，是基于他自身优良的设计，及集群的可扩展性。

Kafka应用场景

一个Topic可以认为是一类消息，每个topic将被分成多个partition(区),每个partition在存储层面是append log文件。任何发布到此partition的消息都会被直接追加到log文件的尾部，每条消息在文件中的位置称为offset（偏移量），offset为一个long型数字，它用来唯一标记某个分区内的一条消息。kafka并没有提供其它额外的索引机制来存储offset，因为在kafka中几乎不允许对消息进行“随机读写”。

Kafka和其它消息系统有一个不一样的设计，在consumer之上加了一层group。同一个group的consumer可以并行消费同一个topic的消息，但是同group的consumer，不会重复消费。这就好比多个consumer组成了一个团队，一起干活，当然干活的速度就上来了。group中的consumer是如何配合协调的，其实和topic的分区相关联，后面我们会详细论述。

如果同一个topic需要被多次消费，可以通过设立多个consumer group来实现。每个group分别消费，互不影响。

在kafka中，一个partition中的消息只会被group中的一个consumer消费(同一时刻)，每个group中consumer消息消费互相独立，我们可以认为一个group是一个"订阅"者。一个Topic中的每个partions只会被一个"订阅者"中的一个consumer消费，不过一个consumer可以同时消费多个partitions中的消息。

kafka只能保证一个partition中的消息被某个consumer消费时是顺序的。事实上，从Topic角度来说,，当有多个partitions时，消息仍不是全局有序的。