linux 提高文件读写速度 mmap,【EA字符串Linux面试题】面试问题:kafka读写… - 看准网...

2023-11-06

传统IO|缓存IO

ca6bcb6c6a12a467afe6648c0d96db87.png

传统IO也就是缓存IO。数据先从磁盘复制到内核空间缓冲区,然后从内核空间缓冲区复制到应用程序的地址空间。这里的内核缓冲区也就是页缓存-PageCache,是虚拟内存空间

读操作:操作系统检查内核的缓冲区有没有需要的数据,如果已经缓存了,那么就直接从缓存中返回;否则从磁盘中读取,然后缓存在操作系统的缓存中

写操作:将数据从用户空间复制到内核空间的缓存中。这时对用户程序来说写操作就已经完成,至于什么时候再写到磁盘中由操作系统决定,除非显示地调用了sync同步命令:sync、fsync与fdatasync

优点:分离了内核空间和用户空间,保护系统本身的运行安全;减少读盘次数,提升性能

缺点:在缓存I/O机制中,DMA方式可以将数据直接从磁盘读到页缓存中,或者将数据从页缓存直接写回到磁盘上,而不能直接在应用程序地址空间和磁盘之间进行数据传输。这样,数据在传输过程中需要在应用程序地址空间(用户空间)和缓存(内核空间)之间进行多次数据拷贝操作,这些数据拷贝操作所带来的CPU以及内存开销是非常大的

零拷贝

Linux零拷贝分为:直接io、mmap()、sendfile()、splice()

直接IO

f4939d5b0fb4f960ebd4be1ef9f9c25d.png

直接IO:应用程序直接访问磁盘数据,而不经过内核缓冲区。这样做的目的是减少一次从内核缓冲区到用户程序缓存的数据复制。比如说数据库管理系统这类应用,它们更倾向于选择它们自己的缓存机制,因为数据库管理系统往往比操作系统更了解数据库中存放的数据,数据库管理系统可以提供一种更加有效的缓存机制来提高数据库中数据的存取性能

优点:通过减少操作系统内核缓冲区和应用程序地址空间的数据拷贝次数,降低了对文件读取和写入时所带来的CPU的使用以及内存带宽的占用

缺点:直接I/O的读写数据操作会造成磁盘的同步读写,导致进程执行缓慢。所以,应用程序使用直接I/O进行数据传输的时候通常会和使用异步I/O结合使用(异步IO:当访问数据的线程发出请求之后,线程会接着去处理其他事,而不是阻塞等待)

MMAP

f43223dfa58748fe94bb4b4358a4432a.png

应用程序调用了mmap()之后,数据会先通过DMA拷贝到操作系统内核的缓冲区。接着,应用程序跟操作系统共享这个缓冲区。这样,操作系统内核和应用程序存储空间就不需要再进行任何的数据拷贝操作。

也就是说内存映射文件MMAP只有一次页缓存的复制,读时从磁盘文件复制到页缓存,写时从页缓存flush到磁盘文件,默认30s。MMAP与操作系统的Pagecache打交道

普通文件IO需要复制两次,内存映射文件mmap复制一次,普通文件IO是堆内操作,内存映射文件是堆外操作

SendFile

003a51aa817eefd7e88eb730fc59d443.png

sendfile()系统调用利用DMA引擎将文件中的数据拷贝到操作系统内核缓冲区中,然后数据被拷贝到与socket相关的内核缓冲区。接下来,DMA引擎将数据从内核socket缓冲区中拷贝到协议引擎

sendfile()系统调用不需要将数据拷贝或映射到应用程序地址空间,所以sendfile()只适用于应用程序地址空间不需要对所访问数据进行处理的情况。比如apache、nginx等web服务器使用sendfile传输静态文件

servletOutputStream = response.getOutputStream();

FileChannel channel = new FileInputStream(imgPath).getChannel();

channel.transferTo(0, channel.size(), Channels.newChannel(servletOutputStream));

SocketAddress sad = new InetSocketAddress(host, port);

SocketChannel sc = SocketChannel.open();

FileChannel fc = new FileInputStream(fname).getChannel();

fc.transferTo(0, fc.size(), sc);

总结

常用的读文件方式read的过程是:

磁盘->文件缓冲区->用户空间

mmap是:

磁盘->用户空间

可以看到mmap少了一次内存copy。另外mmap可以通过多个用户进程映射到一个相同的文件(也可以是虚拟文件)达到共享内存,进程通信的效用。实现方法就是为两个进程的分配相同的页

再说sendfile

nginx,apache都有开启sendfile的配置项,sendfile相对于传统的read+write+buffer的socket通信方式会高效一些

传统过程:

磁盘->文件缓冲区->用户空间->socket缓冲区->协议引擎

sendfile:

磁盘->文件缓冲区->socket缓冲区->协议引擎

相对于mmap,sendfile少了内存映射的环节,如果传输很大的文件,内存映射的损耗可以忽略不计,但是如果传输的文件比较小,内存映射的损耗占比就会扩大

splice:和sendfile()非常类似,用户应用程序必须拥有两个已经打开的文件描述符,一个用于表示输入设备,一个用于表示输出设备。与sendfile()不同的是,splice()允许任意两个文件之间互相连接,而并不只是文件到socket进行数据传输

对于从一个文件描述符发送数据到socket这种特例来说,一直都是使用sendfile()这个系统调用,而splice一直以来就只是一种机制,它并不仅限于sendfile()的功能。也就是说,sendfile()只是splice()的一个子集,在Linux 2.6.23中,sendfile()这种机制的实现已经没有了,但是这个API以及相应的功能还存在,只不过API以及相应的功能是利用了splice()这种机制来实现的

硬件设备跟内存通讯通过DMA完成,内存之间的copy是由cpu完成,减少内存copy可以解放cpu,提高系统负载

Kafka机制

partition 顺序写入

每一个Partition其实都是一个文件,收到消息后Kafka会把数据插入到文件末尾。消费者对每个Topic都有一个offset(存放ZK中)用来表示读取到了第几条数据

FileChannel fc = new RandomAccessFile("data.txt" , "rw").getChannel();

long length = fc.size(); // 设置映射区域的开始位置,这是末尾写入的重点

MappedByteBuffer mbb = fc.map(FileChannel.MapMode.READ_WRITE, length, 20);

//由于要写入的字符串"Write in the end"占16字节,所以长度设置为20就足够了

mbb.put("Write in the end".getBytes()); //写入新数据

mmap写入pagecache

直接利用操作系统的Page来实现文件到物理内存的直接映射。完成映射之后你对物理内存的操作会被同步到硬盘上(操作系统在适当的时候)。也就是MappedByteBuffer类

mmap的文件映射在full gc时才会进行释放。当close时,需要手动清除内存映射文件,反射调用sun.misc.Cleaner方法:MappedByteBuffer

MappedByteBuffer未关闭导致慢磁盘访问

阿里的RocketMQ实现就是Kafka的java版本:MappedFile

sendfile读取

Kafka把所有的消息都存放在一个个文件中,当消费者需要数据的时候Kafka直接把“文件”发送给消费者

Kafka是用mmap作为文件读写方式的,它就是一个文件句柄,所以直接把它传给sendfile;偏移也好解决,用户会自己保持这个offset,每次请求都会发送这个offset

总结

Kafka速度的秘诀在于,它把所有的消息都变成一个的文件。通过mmap提高I/O速度,写入数据的时候它是末尾添加所以速度最优;读取数据的时候配合sendfile直接暴力输出

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

linux 提高文件读写速度 mmap,【EA字符串Linux面试题】面试问题:kafka读写… - 看准网... 的相关文章

  • 虚拟机自动重启问题

    性能测试一般要运行好几天不能关机的 万一遇到系统重启之前跑的可能都前功尽弃了 真的是很头疼的 同样 如果是运行中的项目服务遇到这种情况给用户的使用感受也是特别差的 所以 我会修改系统的自动重新启动设置 Windows Server自动重启的
  • tomcat默认端口号(三个tomcat端口号)

    tomcat默认端口号 三个tomcat端口号 2020 05 08 10 43 21 共10个回答 Tomcat的默认端口号是多少 您好 提问者 Tomcat的默认端口号是 8080 weblogic的默认端口号是 7001 tomcat
  • MSP430学习笔记-架构篇

    最近开始接触MSP430单片机了 打算先把手册结合着书看一遍 之后用来做一个小玩意儿 学习笔记就按照学习进度来更新吧 也算做个备忘 有什么东西不记得了可以来翻一翻 今天我们来聊聊MSP430架构 一 MSP430简介 MSP430是由德州仪
  • [Intel汇编-NASM]进入保护模式全过程

    enter pm mbr org 0x7C00 该命令表示程序将被装在到偏移地址为0x7C00的地方 该命令效果是全局的 但只能使用一次 之后不得再用 从该位置开始到整个源代码结束之间的所有标号在被访问时都会隐式地自动加上0x7C00 但是
  • MicroPython1.19.1添加C模块

    1 样例路径 官方添加C模块例子在 micropython 1 19 1 examples usercmodule路径中 2 编译 make USER C MODULES examples usercmodule BOARD MY STM3
  • 3D游戏建模怎么接外包

    3D游戏建模怎么接外包 有些自学出来或者经过培训小伙伴 已经有能力做出作品时往往都想着怎么去赚钱 除了从事于建模行业的工作之余 身为大学生 可能在校的时间较为富裕 课余时间 能够接私单 赚点外快什么的也是能够的 接单的平台 八戒网 1个较为
  • 大学生必看的电影

    十大励志电影 1 肖申克的救赎 很喜欢安迪放MOZART的 费加罗的婚礼 那段 圣洁高亢的女高音穿云裂帛久被牢 牢禁锢的人们呆住了 他们可能不知这是什么音乐 可是对美的感觉 对自由的渴望 每个人都是一样 人们抬头望着碧蓝无垠的天空 美好的情
  • 网络--HTTP协议

    网络基础知识之 HTTP 协议 首先让我们从一个问题入手 当我们在浏览器中输入 http www baidu com 访问百度的时候浏览器做了哪些事情 这里以 Chrome 浏览器为例 1 DNS域名解析 首先 Chrome 搜索自身的 D
  • 针对某个逻辑卷进行fscheck修复文件系统

    系统启动无法正常启动 原因为 dev vg telstar telstar 该逻辑卷无法加载 报contains a file system with errors check forced OK那就根据该提示进行该逻辑卷的检查恢复工作 注
  • 多态的实现

    1 理解如何通过virtual fuction table指向正确的方法 Typically the compiler creates a separate vtable for each class When an object is c
  • 八大排序(一)冒泡排序,选择排序,插入排序,希尔排序

    一 冒泡排序 冒泡排序的原理是 从左到右 相邻元素进行比较 每次比较一轮 就会找到序列中最大的一个或最小的一个 这个数就会从序列的最右边冒出来 以从小到大排序为例 第一轮比较后 所有数中最大的那个数就会浮到最右边 第二轮比较后 所有数中第二
  • 后端跨域问题解决

    出于浏览器的同源策略限制 同源策略 Sameoriginpolicy 是一种约定 它是浏览器最核心也最基本的安全功能 如果缺少了同源策略 则浏览器的正常功能可能都会受到影响 可以说Web是构建在同源策略基础之上的 浏览器只是针对同源策略的一
  • ArrayList扩容机制

    扩容步骤 扩容 把原来的数组复制到另一个内存空间更大的数组中 添加元素 把新元素添加到扩容以后的数组中 2 源码分析 2 1 ArrayList里面的属性 默认初始化容量 private static final int DEFAULT C
  • web基本解题思路

    前两天安装一些web相关的软件 今天主要是做一些简单的web基础题 主要用BurpSuite软件进行抓包和分析数据 其中涉及到一些方法 如下所示 一 爆破 包括包括md5 爆破随机数 验证码识别等 二 绕WAF 包括花式绕Mysql 绕文件
  • Python安装超详细教程

    本文将介绍以下几部分内容 下载 python 安装 python 配置环境变量 python 多版本共存配置 python 编程工具推荐 一 下载 python 下载 python 点击这里进入 python 下载页面 在下载页面可以看到很
  • oracle什么时候要commit,Oracle什么时候需要Commit

    写完DML语句 update insert delete 后 需要手动COMMIT 如果没有COMMIT 更新的内容会被保存到内存中 而不是提交到数据库中 将不会被其他Session 对话 看见 其他对话看到的是更新前的数据 当用户退出对话
  • Docker指定时间段一键过滤容器运行时日志

    文章目录 引 效果 测试输错 时间段模式 时间段方式 时间戳方式 低版本Docker 时间范围模式 实时查看 脚本 引 针对容器日志过多时 过滤某个时间 时间段的日志 效果 说明 针对Docker版本比较低的客户端 无法使用 until参数
  • C#辗转相除法求最大公约数与最小公倍数

    class Program static void Main string args int num1 num2 mm Console WriteLine 请输入第一个数 num1 Convert ToInt32 Console ReadL

随机推荐

  • 【Flutter 1-6】Flutter项目目录结构

    文章首发地址 Flutter项目结构 了解Flutter的目录结构 可以帮助我们更好的管理和开发项目 这样我们在开发的过程中就会很清楚的知道 iOS代码该放在那里 Android代码该放在那里 Flutter代码该放在哪里 测试代码放在哪里
  • Linux操作系统加固

    如何尽可能地加强Linux的安全性和隐私性 以下列出的所有命令都将需要root特权 以 符号开头的单词表示一个变量 不同终端之间可能会有所不同 一 选择正确的Linux发行版 选择一个好的Linux发行版有很多因素 避免分发冻结程序包 因为
  • ubuntu16.04重新编译linux内核

    首先的首先 如果用的是虚拟机 那硬盘至少要分个40G 硬盘太小的后果 你可以试试 一 下载内核 首先到kernel官网获取linux源代码包 我用的ubuntu版本是16 04 因此下载的包可以采用4 x 如果从官网下载速度过慢 我这下载需
  • 日志注入 ctf.show_web4

    使用php input 不行 使用日志注入 查看日志的默认目录 得到了日志文件 url var log nginx access log 进行日志注入 使用蚁剑连接得到flag
  • Acwing 1264. 动态求连续区间和(树状数组版)

    lowbit x x x 返回2 k k为x的二进制表示中末尾0的个数 c x 存的是 x lowbit x x 之间这些数的和 include
  • Django电商项目(四)用户中心、FastDFS

    Django电商项目 用户中心逻辑 登录装饰器和登录后跳转 判断用户是否已登录 退出登录 用户中心 地址页 模型管理器类方法封装 用户中心 个人信息 分布式图片服务器FastDFS 什么是FastDFS 文件上传流程 文件下载流程 简易Fa
  • 区块链在物联网中的应用态势分析

    摘 要 目的 物联网是物体之间共享资源和交流信息的平台 其上的数据价值不断被挖掘显现 而区块链作为一种新型的数据存储管理模式 在体系去中心化 数据溯源和防篡改等方面拥有良好的效果 近来 不少研究都探索了区块链在物联网中的应用 方法 利用文献
  • PaddleHub人体姿态检测模型pose_resnet50_mpii

    姿态检测还是挺有意思的 在 paddlehub 上有直接可以拿来用的模型 pose resnet50 mpii 随便网上找了张图片试了一下效果还行 代码非常简单 import paddlehub as hub module hub Modu
  • Android逆向之旅---爆破一款资讯类应用「最右」防抓包策略原理分析

    一 逆向分析 首先感谢王同学提供的样本 因为王同学那天找到我咨询我说有一个应用Fiddler抓包失败 其实对于这类问题 我一般都会这么回答 第一你是否安装Fiddler证书了 他说他安装了 第二你是否用了我之前说的那个Xposed框架Jus
  • JAVA list加锁_list类里面的东西加锁 (手动加锁方法)

    package privateclass import java util Collection import java util Iterator import java util List import java util ListIt
  • 【计算机组成原理】——原码,反码,补码,移码怎样计算

    机器数与真值 把符号 数字化 的数称为机器数 而把带 或 的数称为真值 正负号用二进制的0 1表示 0 1 x 001 机器数 第一位表示符号 x 1 x 101 真值 直接用 表示 x 5 原码 反码 补码 移码的计算 正数的原码 反码
  • Pycharm绘图时显示额外的“figure”浮窗

    如图所示 不想图片显示在右边 而是单独的一个窗口 这样可以进行点击交互 1 File gt Settings gt 2 找到Tools gt Python Scientific 找到 Python Scientific 去除右边候选框中的勾
  • SpringCache使用

    SpringCache使用 1 引入依赖 引入springcache依赖
  • three.js坐标轴辅助器AxesHelper

    一 效果图 二 添加坐标轴辅助器 使用three js 通过以下代码可以添加坐标轴辅助器 创建坐标轴辅助器 var axesHelper new THREE AxesHelper 5 添加到场景中 scene add axesHelper
  • 私有云平台管理

    更改主机名 controller hostnamectl set hostname controller compute hostnamectl set hostname compute 更改hosts文件 vi etc hosts 插入以
  • Java NIO通信编程

    NIO即非同步非阻塞式IO 有如下几个特点 1 创建一个线程负责处理IO事件和IO事件的分发 2 事件驱动机制 事件到达之后触发 3 线程之间通过wait notify等方式通信 减少线程间切换 NIO客户端和服务端需都维护一个管理通道的对
  • flutter加载不同分辨率本地图片

    flutter移动开发怎么加载本地图片 首先在该项目根目录也就是和ios android同级创建一个images文件夹用来存放图片资源 然后放入需要加载的图片资源例如ic phone png 然后在项目目录下找到pubspec yaml文件
  • 【定量分析、量化金融与统计学】统计推断基础 番外(1)---T table与Z table的值

    目录 一 前言 二 T table 三 Z table 一 前言 为了方便之后的例题讲解 这里放上T tabel和Z table的值 怎么查表 本篇中会直接讲 所以这里就只看表格就行 本篇为工具篇 二 T table 我们给两个版本 适合用
  • Redis学习笔记:数据结构和命令

    本文是自己的学习笔记 主要参考资料如下 马士兵 4 Redis的五大数据类型 1 1 String 1 1 1 String 类型的命令 1 1 2 存储对象 1 2 List 1 2 1 List基本命令 1 2 2 List高级命令 1
  • linux 提高文件读写速度 mmap,【EA字符串Linux面试题】面试问题:kafka读写… - 看准网...

    传统IO 缓存IO 传统IO也就是缓存IO 数据先从磁盘复制到内核空间缓冲区 然后从内核空间缓冲区复制到应用程序的地址空间 这里的内核缓冲区也就是页缓存 PageCache 是虚拟内存空间 读操作 操作系统检查内核的缓冲区有没有需要的数据