kafka处理快速的原因

2023-11-17

生产者分析

生产者（producer）是负责向Kafka提交数据的，我们先分析这一部分。Kafka会把收到的消息都写入到硬盘中，它绝对不会丢失数据。为了优化写入速度Kafka采用了两个技术，顺序写入和 MMFile。

顺序写入： 因为硬盘是机械结构，每次读写都会寻址->写入，其中寻址是一个“机械动作”，它是最耗时的。所以硬盘最“讨厌”随机I/O，最喜欢顺序I/O。为了提高读写硬盘的速度，Kafka就是使用顺序I/O。每一个Partition其实都是一个文件，收到消息后Kafka会把数据插入到文件末尾（虚框部分）。这种方法有一个缺陷—— 没有办法删除数据，所以Kafka是不会删除数据的，它会把所有的数据都保留下来，每个消费者（Consumer）对每个Topic都有一个offset用来表示读取到了第几条数据。如果不删除硬盘肯定会被撑满，所以Kakfa提供了两种策略来删除数据。一是基于时间，二是基于partition文件大小。具体配置可以参看它的配置文档。从分区读取数据的时候也是按顺序读取的，避免了随机读取。
mmap：即便是顺序写入硬盘，硬盘的访问速度还是不可能追上内存。所以Kafka的数据并不是实时的写入硬盘，它充分利用了现代操作系统分页存储来利用内存提高I/O效率。Memory Mapped Files(后面简称mmap)也被翻译成内存映射文件，在64位操作系统中一般可以表示20G的数据文件，它的工作原理是直接利用操作系统的Page来实现文件到物理内存的直接映射。完成映射之后你对物理内存的操作会被同步到硬盘上（操作系统在适当的时候）。内存映射文件的作用是使一个磁盘文件与存储空间中的一个缓冲区建立映射关系，然后当从缓冲区中取数据，就相当于读文件中的相应字节；而将数据存入缓冲区，就相当于写文件中的相应字节。这样就可以不使用read和write直接执行I/O了。

消费者分析

零拷贝发送消费消息， Kafka把所有的消息都存放在一个一个的文件中，当消费者需要数据的时候Kafka直接把“文件”发送给消费者。这就是秘诀所在，比如： 10W的消息组合在一起是10MB的数据量，然后Kafka用类似于发文件的方式直接扔出去了，如果消费者和生产者之间的网络非常好，10MB可能只需要1s。所以答案是——10W的TPS，Kafka每秒钟处理了10W条消息。

可能你说：不可能把整个文件发出去吧？里面还有一些不需要的消息呢？是的，Kafka作为一个“高级作弊分子”自然要把作弊做的有逼格。Zero Copy对应的是sendfile这个函数（以Linux为例），而sendfile的工作原理呢？
1）、系统调用 sendfile() 通过 DMA 把硬盘数据拷贝到 kernel buffer，然后数据被 kernel 直接拷贝到另外一个与 socket 相关的 kernel buffer。这里没有用户态和核心态之间的切换，在内核中直接完成了从一个 buffer 到另一个 buffer 的拷贝。
2）、DMA 把数据从 kernel buffer 直接拷贝给协议栈，没有切换，也不需要数据从用户态和核心态，因为数据就在 kernel 里。
Kafka是用mmap作为文件生产写入方式的，它就是一个文件句柄，所以直接把它传给sendfile进行消费；偏移也好解决，用户会自己保持这个offset，每次请求都会发送这个offset。（也可以放在zookeeper中）；数据量更容易解决了，如果消费者想要更快，就全部扔给消费者。如果这样做一般情况下消费者肯定直接就被压死了；所以Kafka提供了的两种方式——Push，我全部扔给你了，你死了不管我的事情；Pull，好吧你告诉我你需要多少个，我给你多少个。Kafka速度的秘诀在于，它把所有的消息都变成一个批量的文件，并且进行合理的批量压缩，减少网络IO损耗。通过mmap提高I/O速度，写入数据的时候由于单个Partion是末尾添加所以速度最优；读取数据的时候配合sendfile直接暴力输出。

Kafka高效文件存储设计特点：Kafka把topic中一个parition大文件分成多个小文件段，通过多个小文件段，就容易定期清除或删除已经消费完文件，减少磁盘占用。Kafka的Message存储采用了分区(partition)，分段(LogSegment)和稀疏索引这几个手段来达到了高效性。Kafka解决查询效率的手段之一是将数据文件分段，比如有100条Message，它们的offset是从0到99。假设将数据文件分成5段，第一段为0-19，第二段为20-39，以此类推，每段放在一个单独的数据文件里面，数据文件以该段中最小的offset命名。这样在查找指定offset的Message的时候，用二分查找就可以定位到该Message在哪个段中。

通过索引信息可以快速定位message和确定response的最大大小。
通过index元数据全部映射到memory，可以避免segment file的IO磁盘操作。
通过索引文件稀疏存储，可以大幅降低index文件元数据占用空间大小。
比如：要查找绝对offset为7的Message：
1）、首先是用二分查找确定它是在哪个LogSegment中，自然是在第一个Segment中。
2）、打开这个Segment的index文件，也是用二分查找找到offset小于或者等于指定offset的索引条目中最大的那个offset。自然offset为6的那个索引是我们要找的，通过索引文件我们知道offset为6的Message在数据文件中的位置为9807。
3）、打开数据文件，从位置为9807的那个地方开始顺序扫描直到找到offset为7的那条Message。这套机制是建立在offset是有序的。索引文件被映射到内存中，所以查找的速度还是很快的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

kafka

kafka处理快速的原因的相关文章

RocketMQ经典高频面试题大全（附答案）

编程界的小学生 0 彩蛋 1 说说你们公司线上生产环境用的是什么消息中间件 2 多个mq如何选型 3 为什么要使用MQ 4 RocketMQ由哪些角色组成每个角色作用和特点是什么 5 RocketMQ中的Topic和JMS的queue有什
【CentOS7离线ansible-playbook自动化安装CDH5.16(内附离线安装包地址，及自动化脚本)】

CentOS7 离线环境使用ansible自动部署CDH5 16 前言本文介绍如何使用作者开发的自动化脚本离线部署cdh集群只需要简单的配置下yum源和cdh集群节点IP等几个参数就可实现一键部署cdh集群省去配置mysql n
Zookeeper的常见面试题

1 Zookeeper 1 1 Zookeeper基本概念 Zookeeper作为一个优秀高效且可靠的分布式协调框架 ZooKeeper 在解决分布式数据一致性问题时并没有直接使用Paxos算法而是专门定制了一致性协议叫做 ZAB Zoo
Spring Boot Kafka - 序列化和反序列化JSON

文章目录 Spring Boot Kafka 序列化和反序列化JSON 前言配置JsonSerializer和JsonDeserializer 定义一个Model类 Producer类 Consumer类 Controller类测试小
Kafka面试必问几个概念与使用场景

介绍下我写的这个kafka项目里面做了详细的配置注释已经代码的demo 可供大家学习项目地址 springboot kafka集群项目实战 kafka集群批量消费数据去重和一致性 kafka的几个重要概念接下来围绕下面几个概念来进行
MQ如何保证消息不丢失

如何保证消息不丢失哪些环节会造成消息丢失其实主要就是跨网络的环境中需要考虑消息的丢失主要是有以下几个方面生产者往MQ发送消息 MQ的Broker是集群有主从的主节点把消息同步到从节点时也需要考虑消息丢失问题消息从内存持久化到硬盘
kafka学习笔记（一）简介

这是对我找到的学习资料的整理非手打参考 https kafka apachecn org intro html https blog csdn net weixin 39468305 article details 106346280
大数据技术之Kafka——Kafka入门

目录一概述 1 1 为什么要有Kafka 1 2 定义 1 3 消息队列 1 消息队列的应用场景 2 消息队列的两种模式 1 4 基础架构二 Producer生产者 2 1 生产者消息发送流程 2 1 1 发送原理 2 2 异步发送A
黑马头条热点文章实时计算、kafkaStream

热点文章实时计算 1 今日内容 1 1 定时计算与实时计算 1 2 今日内容 kafkaStream 什么是流式计算 kafkaStream概述 kafkaStream入门案例 Springboot集成kafkaStream 实时计算用
flink 1.4版本flink table方式消费kafka写入hive方式踩坑

最近在搞flink 搞了一个当前比较新的版本试了一下当时运行了很长时间 hdfs里面查询有文件但是hive里面查询这个表为空后面用了很多种方式一些是说自己去刷新hive表如下第一种方式刷新 alter table t kafka
windows python kafka 初级使用

今天花了点时间在这个kafka上因为我们工作中也用到了kafka 我这边对于kafka的理解是能用或者知道基本原理就行实现在自己的windows环境搭建一次kafka 然后使用python进行数据的生产和消费如果之后工作中对于kafk
java版kafka producer实现

需求 1 kafka server已经配置完全且设定了访问限制基于这一点必须要设定认证及预先分配的账号密码 2 由于项目开发环境是java 且不允许使用LogStash 基于这一点必须实现一个java版的producer 先贴一份
kafka（三）重平衡

历史文章 kafka 一 kafka的基础与常用配置文章目录一 kafka消费者组二重平衡 Rebalance 2 1 重平衡触发条件 2 2 重平衡策略 2 2 1 Range 平均分配 2 2 2 RoundRobin 轮询分配
WebSocket + kafka实时推送数据（springboot纯后台）

逻辑 kafka订阅消费者主题消费后通过webSocket推送到前端 kafka vue financial webSocket 学习引用 SpringBoot2 0集成WebSocket 实现后台向前端推送信息 World Of Mos
[分布式] zookeeper集群与kafka集群

目录一 Zookeeper 概述 1 1 Zookeeper定义 1 2 Zookeeper 工作机制 1 3 Zookeeper 特点 1 4 Zookeeper 数据结构 1 5 Zookeeper 应用场景 1 6 Zookeepe
【Docker安装部署Kafka+Zookeeper详细教程】

Docker安装部署Kafka Zookeeper Docker拉取镜像 Docker拉取zookeeper的镜像 docker pull zookeeper Docker拉取kafka的镜像 docker pull wurstmeiste
kafka的新API 得到最新一条数据

业务的需要需要得到最新的一条消息从kafka中但是发现ConsumerRecords 这个对象并没有 get index 这种方式的获取并且只能 iterator 或者增强for 循环这种方式来循环记录但是有一个count 可以得到
MQ - KAFKA 基础篇

1 KAFKA的核心组件 API Producer API 它允许应用程序向一个或多个 topics 上发送消息记录 Consumer API 允许应用程序订阅一个或多个 topics 并处理为其生成的记录流 Streams API 它允许
【ranger】CDP环境更新 ranger 权限策略会发生低概率丢失权限策略的解决方法

一问题描述我们的 kafka 服务在更新添加 ranger 权限时会有极低的概率导致 MM2 同步服务报错报错内容 Not Authorized 但是查看 ranger 权限是赋予的并且很早配置的权限策略也会报错相关组件版本
从 MySQL 到 DolphinDB，Debezium + Kafka 数据同步实战

Debezium 是一个开源的分布式平台用于实时捕获和发布数据库更改事件它可以将关系型数据库如 MySQL PostgreSQL Oracle 等的变更事件转化为可观察的流数据以供其他应用程序实时消费和处理本文中我们将采用 De

随机推荐

解决IDEA中：Error running Tomcat8: Address localhost:1099 is already in use

今天在运行Web项目的时候突然运行不起来最后报Error running Tomcat8 Address localhost 1099 is already in use 从而致web项目无法运行看了一下原来是1099端口被占用解决
PyTorch3D 安装记录

1 PyTorch 安装 PyTorch 官网 PyTorch 官网最新版本的 PyTorch 最新版本的 PyTorch 以 cuda 11 3 Python 3 9 Pytorch 1 12 1 为例 conda 安装 conda i
端口重复处理

不废话上代码之端口重复处理 Description Web server failed to start Port 8080 was already in use Action Identify and stop the process
fragment嵌套viewpager嵌套fragment第二次加载数据不显示问题

这几天做项目遇到一个问题就是有这么一个页面是activity嵌套一个fragment1然后fragment1里放了一个viewpager viewpager里放了几个fragment 本来只有这么一个页面显示出来也没什么问题现在加新需
[架构之路-207]- 人人都是产品经理 - 常见的需求分析技术：实用的需求分析与建模详解过程（实操性强）

目录 1 1 需求分析建模的要点与误区 1 1 1 需求分析到底做什么 1 1 1 1 分解的方法 1 1 1 2 提炼合并重组 1 1 1 3 消除矛盾 1 1 2 建模的目标和要点 1 1 2 1 建模的目的 1 1 2 2 建模的
请问肾阴虚吃什么药？饮食注意什么？还有桂附地黄丸是治肾阴虚还是治肾阳虚的？谢谢

如果确属肾阴虚当用六味地黄丸但肾阴虚那么多的特征里最为明显的就是夜间盗汗如果不能确定还是改用桂附地黄丸在六味的基础上加了肉桂与附子两味温药作用就是在滋阴的基础上温补肾阳适宜平补即阴阳双补最适宜服用的季
揭秘区块链的核心技术之「哈希与加密算法」

大家都知道区块链的关键技术组成主要为 P2P网络协议共识机制密码学技术账户与存储模型而这些技术中又以密码学与共识机制这两点为最核心那么今天我们来详细的聊一聊密码学看一看密码学技术是如何在区块链中应用的首先我们需知道区
完整版彻底卸载SQL Server2019

首先我是因为SQL Server2019突然出现了一些问题然后重新安装了简直被这个软件整的没脾气希望我写的这个能帮助曾经和我一样被SQL Server卸载折磨得要疯的人我是总结了很多前辈写的然后重新安装SQL Server成功了希
javase学习笔记

01 01 计算机基础知识计算机概述了解 A 什么是计算机计算机在生活中的应用举例计算机 Computer 全称电子计算机俗称电脑是一种能够按照程序运行自动高速处理海量数据的现代化智能电子设备由硬件和软件所组成没有安装
jdk8源码之Queue-ArrayQueue

关于队列这个数据结构大家应该都是比较熟悉列队是一种先进先出 FIFO 的数据结构删除操作只能在表的头部插入操作只能在表的尾部 Queue一般是作为一个缓冲队列使用的简单举例生产端的生产速度偶尔会大于消费端的消费速度但又不想等待
OOP面向对象（继承，方法重写/覆盖，多态，instanceof运算符）2021-07-19java学习日记

7 19java学习日记 7 19日 java基础p 436 p460 学习时间 7 小时关键词 OOP extends继承方法覆盖重写多态运算符instanceof 面向对象中的继承 extends 只可以继承一个类不支持多继
让 Notion AI 介绍 Notion AI

Notion AI 是一种新型的人工智能技术它可以帮助我们更好地管理和组织信息并提高工作效率 Notion AI 结合了自然语言处理和机器学习技术可以自动识别和分类文本图像和音频等多种形式的信息帮助我们更快地找到所需的信息除了以
qt中控件的使用函数

1 Text Edit编辑框将编辑框中的内容转化成Utf8编码 ui gt textEdit gt toPlainText toUtf8 2 Combo Box下拉框的应用 1 将内容加入下拉框中 ui gt comboBox gt ad
Jmter生成MD5 jmter使用md5 jmter使用自定义参数 jmter生成自定义参数 jmter编写java代码

Jmter生成MD5 jmter使用md5 jmter使用自定义参数 jmter生成自定义参数 jmter编写java代码 1 创建一个线程组 2 创建线程组 http请求 3 在 http请求添加前置处理器 BeanShell 4 请求测
Nginx、FFmpeg实现浏览器无插件播放大华IPC、NVR设备视频

Nginx FFmpeg实现浏览器无插件播放大华IPC NVR设备视频使用Nginx FFmpeg将rtsp流转换为hls流 web页面通过video js实现视频播放一软件安装 1 安装Nginx Windows平台下下载Ngin
小米推出物联网软件平台Xiaomi Vela；苹果11月11日再开发布会，自研处理器Mac有望推出；华为：计划在上海建芯片厂...

EA周报 2020年11月06日每个星期7分钟元宝带你喝一杯IT人的浓缩咖啡了解天下事掌握IT核心技术周报看点 1 小米推出物联网软件平台Xiaomi Vela 可打通 IoT 应用 2 证监会回应蚂蚁集团暂缓上市避免蚂蚁仓促上
python王者归来 pdf下载_OpenStack开源云王者归来 PDF

给大家带来的一篇关于OpenStack相关的电子书资源介绍了关于OpenStack 开源云方面的内容本书是由清华大学出版社出版格式为PDF 资源大小315279 MB 戢友编写目前豆瓣亚马逊当当京东等电子书综合评分为 8 2
RabbitMQ学习总结(含java代码)

MQ的概念 MQ message queue 本质是一个队列先进先出 MQ的作用 1 流量削峰流量高峰期将请求订单分多次进行处理防止服务器崩溃但是会影响一定的用户体验 2 应用解耦在多模块系统中一个应用有多个模块系统当一个系
面试：Java有哪几种引用类型

Interviewer 你好请先做一下自我介绍吧 applicant interviewer 你好俺叫小明巴拉巴拉巴拉巴 Interviewer 小明啊那你说一下 Java有哪几种引用类型吧 applicant 嗯啊 enenene
kafka处理快速的原因

生产者分析生产者 producer 是负责向Kafka提交数据的我们先分析这一部分 Kafka会把收到的消息都写入到硬盘中它绝对不会丢失数据为了优化写入速度Kafka采用了两个技术顺序写入和 MMFile 顺序写入因为硬盘是机

kafka处理快速的原因

生产者分析

消费者分析

kafka处理快速的原因 的相关文章

随机推荐

热门标签

kafka处理快速的原因的相关文章