将文件中的非连续块映射到连续内存地址

2024-04-11

我对使用内存映射IO的前景感兴趣，最好是利用 boost::interprocess 中的设施实现跨平台支持，将文件中的非连续系统页面大小块映射到内存中连续的地址空间。

一个简化的具体场景：

我有许多“普通旧数据”结构，每个结构都有固定长度（小于系统页面大小。）这些结构是串联的进入一个（很长的）流，其中包含结构的类型和位置由那些进行它们的结构的值决定溪流。我的目标是最小化延迟并最大化吞吐量要求较高的并发环境。

我可以通过将数据块内存映射来非常有效地读取这些数据至少是系统页面大小的两倍......并建立一个新的读取超出范围的结构后立即映射倒数第二个系统页面边界。这允许交互的代码使用简单的旧数据结构幸福地不知道这些结构是内存映射的......并且，例如，可以比较两个不同结构直接使用 memcmp() 无需关心关于页面边界。

事情变得有趣的是更新这些数据流......同时它们被（同时）读取。我的策略 like to use 的灵感来自于系统页面大小上的“Copy On Write” 粒度......本质上是编写“覆盖页面” - 允许一个一个进程读取旧数据，另一个进程读取更新的数据。

虽然管理使用哪些覆盖页面以及何时使用并不一定微不足道...这不是我主要关心的。我主要担心的是我可能有一个跨越第 4 页和第 5 页的结构，然后更新结构完全包含在第 5 页中...将新页面写入位置 6...将第 5 页留作“垃圾收集” 确定不再可达。这意味着，如果我映射页面 4到位置M，我需要将页6映射到内存位置 M+page_size...以便能够可靠地处理以下结构使用现有的（非内存映射感知）函数跨页边界。

我正在尝试制定最佳策略，但我受到以下因素的阻碍我觉得文档不完整。本质上，我需要解耦从内存映射到该地址的地址空间分配空间。使用 mmap()，我知道我可以使用 MAP_FIXED - 如果我愿意的话明确控制映射位置...但我不清楚我如何应保留地址空间以便安全地执行此操作。我可以地图吗 /dev/zero 对于没有 MAP_FIXED 的两个页面，然后使用 MAP_FIXED 两次将两个页面映射到显式 VM 地址处的分配空间中？如果那么，我也应该调用 munmap() 三次吗？会不会泄露资源和/或有任何其他不愉快的开销？为了让问题更加严重复杂，我想在 Windows 上进行类似的行为...有什么办法吗去做这个？如果我要妥协，是否有巧妙的解决方案跨平台的野心？

感谢您的回答，Mahmoud...我已经阅读过，并且认为我已经理解了该代码...我已经在 Linux 下编译了它，它的行为正如您所建议的那样。

我主要关心的是第 62 行 - 使用 MAP_FIXED。它对 mmap 做出了一些假设，当我阅读我能找到的文档时，我无法确认这些假设。您将“更新”页面映射到与 mmap() 最初返回的地址空间相同的地址空间中 - 我认为这是“正确的” - 即不是恰好在 Linux 上工作的东西？我还需要假设它适用于文件映射和匿名映射的跨平台。

该示例无疑推动了我前进......记录了我最终需要的东西可能可以通过 Linux 上的 mmap() 实现 - 至少是这样。我真正想要的是一个指向文档的指针，该文档显示 MAP_FIXED 行将按照示例演示的方式工作......并且理想情况下，从 Linux/Unix 特定的 mmap() 到独立于平台的转换（Boost::interprocess ）方法。

你的问题有点令人困惑。据我了解，这段代码将满足您的需要：

#define PAGESIZE 4096

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/mman.h>
#include <errno.h>
#include <sys/types.h>
#include <fcntl.h>
#include <unistd.h>
#include <assert.h>

struct StoredObject
{
    int IntVal;
    char StrVal[25];
};

int main(int argc, char **argv)
{
    int fd = open("mmapfile", O_RDWR | O_CREAT | O_TRUNC, (mode_t) 0600);
    //Set the file to the size of our data (2 pages)
    lseek(fd, PAGESIZE*2 - 1, SEEK_SET);
    write(fd, "", 1); //The final byte

    unsigned char *mapPtr = (unsigned char *) mmap(0, PAGESIZE * 2, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0);

    struct StoredObject controlObject;
    controlObject.IntVal = 12;
    strcpy(controlObject.StrVal, "Mary had a little lamb.\n");

    struct StoredObject *mary1;
    mary1 = (struct StoredObject *)(mapPtr + PAGESIZE - 4); //Will fall on the boundary between first and second page
    memcpy(mary1, &controlObject, sizeof(StoredObject));

    printf("%d, %s", mary1->IntVal, mary1->StrVal);
    //Should print "12, Mary had a little lamb.\n"

    struct StoredObject *john1;
    john1 = mary1 + 1; //Comes immediately after mary1 in memory; will start and end in the second page
    memcpy(john1, &controlObject, sizeof(StoredObject));

    john1->IntVal = 42;
    strcpy(john1->StrVal, "John had a little lamb.\n");

    printf("%d, %s", john1->IntVal, john1->StrVal);
    //Should print "12, Mary had a little lamb.\n"

    //Make sure the data's on the disk, as this is the initial, "read-only" data
    msync(mapPtr, PAGESIZE * 2, MS_SYNC);

    //This is the inital data set, now in memory, loaded across two pages
    //At this point, someone could be reading from there. We don't know or care.
    //We want to modify john1, but don't want to write over the existing data
    //Easy as pie.

    //This is the shadow map. COW-like optimization will take place: 
    //we'll map the entire address space from the shared source, then overlap with a new map to modify
    //This is mapped anywhere, letting the system decide what address we'll be using for the new data pointer
    unsigned char *mapPtr2 = (unsigned char *) mmap(0, PAGESIZE * 2, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0);

    //Map the second page on top of the first mapping; this is the one that we're modifying. It is *not* backed by disk
    unsigned char *temp = (unsigned char *) mmap(mapPtr2 + PAGESIZE, PAGESIZE, PROT_READ | PROT_WRITE, MAP_SHARED | MAP_FIXED | MAP_ANON, 0, 0);
    if (temp == MAP_FAILED)
    {
        printf("Fixed map failed. %s", strerror(errno));
    }
    assert(temp == mapPtr2 + PAGESIZE);

    //Make a copy of the old data that will later be changed
    memcpy(mapPtr2 + PAGESIZE, mapPtr + PAGESIZE, PAGESIZE);

    //The two address spaces should still be identical until this point
    assert(memcmp(mapPtr, mapPtr2, PAGESIZE * 2) == 0);

    //We can now make our changes to the second page as needed
    struct StoredObject *mary2 = (struct StoredObject *)(((unsigned char *)mary1 - mapPtr) + mapPtr2);
    struct StoredObject *john2 = (struct StoredObject *)(((unsigned char *)john1 - mapPtr) + mapPtr2);

    john2->IntVal = 52;
    strcpy(john2->StrVal, "Mike had a little lamb.\n");

    //Test that everything worked OK
    assert(memcmp(mary1, mary2, sizeof(struct StoredObject)) == 0);
    printf("%d, %s", john2->IntVal, john2->StrVal);
    //Should print "52, Mike had a little lamb.\n"

    //Now assume our garbage collection routine has detected that no one is using the original copy of the data
    munmap(mapPtr, PAGESIZE * 2);

    mapPtr = mapPtr2;

    //Now we're done with all our work and want to completely clean up
    munmap(mapPtr2, PAGESIZE * 2);

    close(fd);

    return 0;
}

我修改后的答案应该可以解决您的安全问题。仅使用MAP_FIXED在第二个mmap打电话（就像我上面那样）。最酷的事情是MAP_FIXED是它可以让你覆盖现有的mmap地址部分。它将卸载您重叠的范围并将其替换为新的映射内容：

 MAP_FIXED
              [...] If the memory
              region specified by addr and len overlaps pages of any existing
              mapping(s), then the overlapped part of the existing mapping(s) will be
              discarded. [...]

这样，您就可以让操作系统为您找到一个数百兆的连续内存块（永远不要调用MAP_FIXED您不确定的地址不可用）。然后你打电话MAP_FIXED在现在映射的巨大空间的一部分上，其中包含您将要修改的数据。多田。

在 Windows 上，类似这样的东西应该可以工作（我现在在 Mac 上，所以未经测试）：

int main(int argc, char **argv)
{
    HANDLE hFile = CreateFile(L"mmapfile", GENERIC_READ | GENERIC_WRITE, FILE_SHARE_READ, NULL, CREATE_ALWAYS, FILE_ATTRIBUTE_NORMAL, NULL);
    //Set the file to the size of our data (2 pages)
    SetFilePointer(hFile, PAGESIZE*2 - 1, 0, FILE_BEGIN);
    DWORD bytesWritten = -1;
    WriteFile(hFile, "", 1, &bytesWritten, NULL);

    HANDLE hMap = CreateFileMapping(hFile, NULL, PAGE_READWRITE, 0, PAGESIZE * 2, NULL);
    unsigned char *mapPtr = (unsigned char *) MapViewOfFile(hMap, FILE_MAP_READ | FILE_MAP_WRITE, 0, 0, PAGESIZE * 2);

    struct StoredObject controlObject;
    controlObject.IntVal = 12;
    strcpy(controlObject.StrVal, "Mary had a little lamb.\n");

    struct StoredObject *mary1;
    mary1 = (struct StoredObject *)(mapPtr + PAGESIZE - 4); //Will fall on the boundary between first and second page
    memcpy(mary1, &controlObject, sizeof(StoredObject));

    printf("%d, %s", mary1->IntVal, mary1->StrVal);
    //Should print "12, Mary had a little lamb.\n"

    struct StoredObject *john1;
    john1 = mary1 + 1; //Comes immediately after mary1 in memory; will start and end in the second page
    memcpy(john1, &controlObject, sizeof(StoredObject));

    john1->IntVal = 42;
    strcpy(john1->StrVal, "John had a little lamb.\n");

    printf("%d, %s", john1->IntVal, john1->StrVal);
    //Should print "12, Mary had a little lamb.\n"

    //Make sure the data's on the disk, as this is the initial, "read-only" data
    //msync(mapPtr, PAGESIZE * 2, MS_SYNC);

    //This is the inital data set, now in memory, loaded across two pages
    //At this point, someone could be reading from there. We don't know or care.
    //We want to modify john1, but don't want to write over the existing data
    //Easy as pie.

    //This is the shadow map. COW-like optimization will take place: 
    //we'll map the entire address space from the shared source, then overlap with a new map to modify
    //This is mapped anywhere, letting the system decide what address we'll be using for the new data pointer
    unsigned char *reservedMem = (unsigned char *) VirtualAlloc(NULL, PAGESIZE * 2, MEM_RESERVE, PAGE_READWRITE);
    HANDLE hMap2 = CreateFileMapping(hFile, NULL, PAGE_READWRITE, 0, PAGESIZE, NULL);
    unsigned char *mapPtr2 = (unsigned char *) MapViewOfFileEx(hMap2, FILE_MAP_READ | FILE_MAP_WRITE, 0, 0, PAGESIZE, reservedMem);

    //Map the second page on top of the first mapping; this is the one that we're modifying. It is *not* backed by disk
    unsigned char *temp = (unsigned char *) MapViewOfFileEx(hMap2, FILE_MAP_READ | FILE_MAP_WRITE, 0, 0, PAGESIZE, reservedMem + PAGESIZE);
    if (temp == NULL)
    {
        printf("Fixed map failed. 0x%x\n", GetLastError());
        return -1;
    }
    assert(temp == mapPtr2 + PAGESIZE);

    //Make a copy of the old data that will later be changed
    memcpy(mapPtr2 + PAGESIZE, mapPtr + PAGESIZE, PAGESIZE);

    //The two address spaces should still be identical until this point
    assert(memcmp(mapPtr, mapPtr2, PAGESIZE * 2) == 0);

    //We can now make our changes to the second page as needed
    struct StoredObject *mary2 = (struct StoredObject *)(((unsigned char *)mary1 - mapPtr) + mapPtr2);
    struct StoredObject *john2 = (struct StoredObject *)(((unsigned char *)john1 - mapPtr) + mapPtr2);

    john2->IntVal = 52;
    strcpy(john2->StrVal, "Mike had a little lamb.\n");

    //Test that everything worked OK
    assert(memcmp(mary1, mary2, sizeof(struct StoredObject)) == 0);
    printf("%d, %s", john2->IntVal, john2->StrVal);
    //Should print "52, Mike had a little lamb.\n"

    //Now assume our garbage collection routine has detected that no one is using the original copy of the data
    //munmap(mapPtr, PAGESIZE * 2);

    mapPtr = mapPtr2;

    //Now we're done with all our work and want to completely clean up
    //munmap(mapPtr2, PAGESIZE * 2);

    //close(fd);

    return 0;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将文件中的非连续块映射到连续内存地址的相关文章

编译时运算符

有人可以列出 C 中可用的所有编译时运算符吗 C 中有两个运算符无论操作数如何它们的结果始终可以在编译时确定它们是sizeof 1 and 2 当然其他运算符的许多特殊用途可以在编译时解决例如标准中列出的那些整数常量表达式 1 与
EF Core Group By 翻译支持条件总和

听说 EF Core 2 1 将支持翻译小组我感到非常兴奋我下载了预览版并开始测试它但发现我在很多地方仍然没有得到翻译分组在下面的代码片段中对 TotalFlagCases 的查询将阻止翻译分组工作无论如何我可以重写这个以便我
为什么 C# Array.BinarySearch 这么快？

我已经实施了一个很简单用于在整数数组中查找整数的 C 中的 binarySearch 实现二分查找 static int binarySearch int arr int i int low 0 high arr Length 1 mid
Web 客户端和 Expect100Continue

使用 WebClient C NET 时设置 Expect100Continue 的最佳方法是什么我有下面的代码我仍然在标题中看到 100 continue 愚蠢的 apache 仍然抱怨 505 错误 string url http
在哪里可以找到列出 SSE 内在函数操作的官方参考资料？

是否有官方参考列出了 GCC 的 SSE 内部函数的操作即头文件中的函数除了 Intel 的 vol 2 PDF 手册外还有一个在线内在指南 https www intel com content www us en docs in
不支持将数据直接绑定到存储查询（DbSet、DbQuery、DbSqlQuery）

正在编码视觉工作室2012并使用实体模型作为我的数据层但是当页面尝试加载时上面提到的标题我使用 Linq 语句的下拉控件往往会引发未处理的异常下面是我的代码 using AdventureWorksEntities dw new
用于检查类是否具有运算符/成员的 C++ 类型特征[重复]

这个问题在这里已经有答案了可能的重复是否可以编写一个 C 模板来检查函数是否存在 https stackoverflow com questions 257288 is it possible to write a c template
如何使用 ICU 解析汉字数字字符？

我正在编写一个使用 ICU 来解析由汉字数字字符组成的 Unicode 字符串的函数并希望返回该字符串的整数值五 gt 5 三十一 gt 31 五千九百七十二 gt 5972 我将区域设置设置为 Locale getJapan 并使用
C# 中通过 Process.Kill() 终止的进程的退出代码

如果在我的 C 应用程序中我正在创建一个可以正常终止或开始行为异常的子进程在这种情况下我通过调用 Process Kill 来终止它但是我想知道该进程是否已退出通常情况下我知道我可以获得终止进程的错误代码但是正常的退出代码是什
带动态元素的 WPF 启动屏幕。如何？

我是 WPF 新手我需要一些帮助我有一个加载缓慢的 WPF 应用程序因此我显示启动屏幕作为权宜之计但是我希望能够在每次运行时更改屏幕并在文本区域中显示不同的引言这是一个生产力应用程序所以我将使用非愚蠢但激励性的引言当然如
转发声明和包含

在使用库时无论是我自己的还是外部的都有很多带有前向声明的类根据情况相同的类也包含在内当我使用某个类时我需要知道该类使用的某些对象是前向声明的还是 include d 原因是我想知道是否应该包含两个标题还是只包含一个标题现在我知
控件的命名约定[重复]

这个问题在这里已经有答案了 Microsoft 在其网站上提供了命名指南 here http msdn microsoft com en us library xzf533w0 VS 71 aspx 我还有框架设计指南一书我找不到有关
如何序列化/反序列化自定义数据集

我有一个 winforms 应用程序它使用强类型的自定义数据集来保存数据进行处理它由数据库中的数据填充我有一个用户控件它接受任何自定义数据集并在数据网格中显示内容这用于测试和调试为了使控件可重用我将自定义数据集视为普通的 Sy
这些作业之间是否存在顺序点？

以下代码中的两个赋值之间是否存在序列点 f f x 1 1 x 2 不没有在这种情况下标准确实是含糊不清的如果你想确认这一点 gcc 有这个非常酷的选项 Wsequence point在这种情况下它会警告您该操作可能未定义
Windows 窗体：如果文本太长，请添加新行到标签

我正在使用 C 有时从网络服务返回的文本我在标签中显示太长并且会在表单边缘被截断如果标签不适合表单是否有一种简单的方法可以在标签中添加换行符 Thanks 如果您将标签设置为autosize 它会随着您输入的任何文本自动增长为
覆盖子类中的字段或属性

我有一个抽象基类我想声明一个字段或属性该字段或属性在从该父类继承的每个类中具有不同的值我想在基类中定义它以便我可以在基类方法中引用它例如覆盖 ToString 来表示此对象的类型为 property field 我有三种方法可以
如何从两个不同的项目中获取文件夹的相对路径

我有两个项目和一个共享库用于从此文件夹加载图像 C MainProject Project1 Images 项目1的文件夹 C MainProject Project1 Files Bin x86 Debug 其中有project1 ex
如何在Xamarin中删除ViewTreeObserver？

假设我需要获取并设置视图的高度在 Android 中众所周知只有在绘制视图之后才能获取视图高度如果您使用 Java 有很多答案最著名的方法之一如下取自这个答案 https stackoverflow com a 24035591
混合 ExecutionContext.SuppressFlow 和任务时 AsyncLocal.Value 出现意外值

在应用程序中由于 AsyncLocal 的错误意外值我遇到了奇怪的行为尽管我抑制了执行上下文的流程但 AsyncLocal Value 属性有时不会在新生成的任务的执行范围内重置下面我创建了一个最小的可重现示例来演示该问题 pr
使用.NET技术录制屏幕视频[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有一种方法可以使用 NET 技术来录制屏幕无论是桌面还是窗口我的目标是免费的我喜欢小型低

随机推荐

MSSQL 和 PHP：“传递给 sqlsrv_query 的参数无效。”

我正在尝试通过 PHP 运行一个非常简单的 MSSQL 更新语句但收到一条错误消息无效的参数已传递给 sqlsrv query 这是连接等级 http pastebin com 3j4zmHJY我正在使用最相关的是查询功能 funct
控制 Android NDK 中的编译器标志？

我知道我可以使用LOCAL CFLAGS将参数传递给编译器然而 ndk build正在我的后面插入选项LOCAL CFLAGS 因此它们优先例如我想指定 Ofast but ndk build adds O2在我自己的标志之后并且由于
在Python中处理大型密集矩阵

基本上在 python 中存储和使用密集矩阵的最佳方法是什么我有一个项目可以生成数组中每个项目之间的相似性度量每个项目都是一个自定义类并存储一个指向另一个类的指针和一个表示它与该类的接近度的数字目前它在处理约 8000 个
为什么 Linq Contains 会生成此 SQL？

背景我正在开发一个系统用于清理内部客户列表并找出联系人的电子邮件地址其中我们已经拥有该公司其他人的电子邮件地址为了做到这一点我有简化的 3 个表 Contacts ID CompanyId Email Domain 电子邮件域名
Fragment getArguments（在 onResume 中）返回 null

我正在尝试将一些数据从活动发送到片段我需要获取数据onResume片段的方法但我想这是不可能的参数只能在 onCreate 中接收吗活动 public void someMethod String someString test B
禁用触发的 Azure WebJob

我有一个 webhook 触发的 Azure WebJob 由于原因我无法控制发送网络钩子的系统每天发送一个 Webhook 它是唯一由 WebApp 托管的 WebJob 在测试过程中我想禁用此 WebJob 因此我停止了 Web
“/”应用程序中的服务器错误。不提供此类页面

我有一个主机我用它托管了一个网页 cshtml扩大我的主人是arvixe com它提供 ASP 和 NET 托管但是当我尝试加载网页时我收到此错误消息应用程序中的服务器错误不提供此类页面说明您请求的页面类型未被提供因为它已
Microsoft Edge 不会在 Vagrant VM 中加载本地 nginx 网站

我遇到了一个奇怪的问题 Microsoft Edge 无法加载托管在 vagrant 虚拟机内的本地 Craft CMS 网站任何加载本地配置的主机名或 IP 的尝试都会返回嗯我们无法访问此页面错误我的主机文件中有一行 192 1
使用“window.location.href”的函数中的两个 URL

我正在使用 Marketo Embed 它允许我在使用时添加它我的目标是使用 window location href 函数打开第一个 URL 一个 zip 文件然后打开一个新 URL 一个页面它仅使用其中一个 URL 如果它们是唯一
Gradle 找不到依赖项

我正在尝试使用 Gradle 文件如下所示 Apply the java plugin to add support for Java apply plugin java In this section you declare where
如何在tomcat上运行react应用程序

我正在尝试运行以下示例 https github com ceolter ag grid react example https github com ceolter ag grid react example ag grid 反应示例但
以 jpeg 格式保存色彩空间

我有一个 servlet 来转换和缓存较小版本的照片它是使用 java awt image javax imageio 和第三方重采样过滤器实现的原件均使用 sRGB 颜色配置文件上传当我重新采样并再次保存它们时它们仍然处于 sRG
如何检查是否从 GridView 中选择了任何行？

我在 aspx 页面中有一个 gridview
如何在 MySQL 5.7 中获取 JSON 数组中唯一/不同的元素

我有 mysql 5 7 带有一个包含一些 JSON 列的非规范化表我需要为数组列提取每行的唯一不同值例如 a b b a c 预期输出应该是 a b c SET json a b b a c 我需要在此列表中获取唯一值 a b c
比较两列并更改第三列时如何使用 ifelse？

我仍然发现 R 中的 ifelse 结构有点令人困惑我有以下数据框 df lt structure list snp structure 1 11 Label c AL0009 AL00014 AL0021 AL00046 AL0047
是否存在 EOF != -1 或 WEOF != -1 的常见 C 环境

C 标准定义EOF and WEOF使用以下语言 7 21 1 输入输出简介标题
admob 使用的 WebViewCoreThread 即使父 Activity 已暂停，AdView 也会使用高 CPU [重复]

这个问题在这里已经有答案了我正在使用 Google Admob SDK v6 1 0 https developers google com mobile ads sdk download 并以编程方式实例化 com google ads
有没有办法获取窗口的所有 BindingExpression 对象？

有没有办法获取窗口的所有 BindingExpression 对象当需要触发刷新表单的 PropertyChanged 事件数量太高且不是一个好的选择时我尝试刷新表单我正在考虑以另一种方式进行操作即表单窗口可以重新查询所有绑定如
如何让 HTTP 请求在 Flutter Web 中工作？

我正在尝试从我的网站链接获取数据 http mrmatjar com kaka dataaza php http mrmatjar com kaka dataaza php 这是我的代码 import dart convert impo
将文件中的非连续块映射到连续内存地址

我对使用内存映射IO的前景感兴趣最好是利用 boost interprocess 中的设施实现跨平台支持将文件中的非连续系统页面大小块映射到内存中连续的地址空间一个简化的具体场景我有许多普通旧数据结构每个结构都有固定长度

将文件中的非连续块映射到连续内存地址

将文件中的非连续块映射到连续内存地址 的相关文章

随机推荐

热门标签

将文件中的非连续块映射到连续内存地址的相关文章