在高性能环境中的分叉工作进程之间共享状态

2023-12-03

这是我的后续行动上一个问题。正如 Tim Peters 所建议的，使用Manager可能不一定是最好的方法。不幸的是我有太多的脚手架代码来发布SSCCE。相反，我将尝试提供我的问题的详细解释。请随意浏览整个代码库Github，但现在有点混乱。

背景

我正在研究自然语言处理，我想做（类似的）基于字典的文档分类平滑。训练分类器将单词和短语与正确答案联系起来的想法。例如，包含单词的文档socialist很可能与政治有关，并且包含短语的内容lava temperature可能与地质有关。该系统通过查看少数预先标记的示例。由于语言多种多样，分类器永远不会“了解”它在生产中可能遇到的所有可能的短语。

这就是字典的用武之地。假设我们有一种便宜又简单的方法获得几乎所有短语的同义词（我会引用自己，因为它的品味很差）。当较差的分类器遇到它不知道的短语时，我们可以在字典中查找它并告诉分类器“看，你不知道communism，但这有点像socialist，你知道这一点！”。如果字典合理，分类器通常会表现得更好。

伪代码

data = Load training and testing documents (300MB on disk)
dictionary = Load dictionary (200MB - 2GB on disk) and place into a `dict` for fast look-ups
Repeat 25 times:
    do_work(data, dictionary)

def do_work(data, dictionary)
    X = Select a random sample of data
    Train a classifier on X
    Y = Select a random sample of data
    Using dictionary, classify all documents in Y
    Write results to disk

问题

上面的循环是并行化的完美候选者。我一直在使用Python 2.7multiprocessing.Pool（通过joblib.Parallel，因为它很简单，并且在出现问题时提供非常有用的回溯）。所有工作进程都需要对字典和文档集合进行只读访问。工作进程不需要相互通信，也不需要与父进程通信——它们所做的只是生成、执行一些魔法、写入文件然后死亡。

字典需要支持快速随机访问。我不知道样本是什么文件Y将包含，所以我不能轻易地修剪字典并只传递每个工人需要的部分。该字典将被经常查询 - 每次运行的典型命中次数为数百万。目前，我的代码受内存限制，因为（我相信）正在为每个工作进程创建文档集合和字典的副本。解析时data and dictionary通常会消耗几 GB 的 RAM。我尝试过使用multiprocessing.managers.BaseManager以避免复制大型对象，但这会减慢工作人员的速度。

问题

还有哪些其他替代方案可以加快速度？我考虑过的事情包括：

MongoDB/CouchDB/memcached 应该可以很好地处理并发访问，但我担心吞吐量。在我之前的问题的评论中也建议了 Zeromq，但还没有机会研究它。
在记忆中sqlite数据库和数据库连接不能跨进程共享，因此每个工作线程都需要自己的磁盘数据库连接。这意味着一开始会产生大量 I/O，并且随着每个工作进程的缓存增长，内存使用量也会很高。
内存映射
使用线程而不是进程

这个问题还表明许多现实世界的问题看起来需要只读访问dict可能会触发fork()是写时复制，因此可能无法完全避免复制大对象。

在您描述的场景中，在使用多线程时，您可能会因 GIL 而出现较大的性能问题。可能是为了避免您选择使用多重处理。另一方面，它使用进程，因此可能会为每个子进程复制数据结构。

我不想这么说，但使用非 Python 解决方案（例如 C++）可能会加快速度，因为在那里你不会遇到 GIL 问题。然后你可以使用多线程，不必复制东西等。从多个线程读取一个大字典并不是真正的问题，所以你不必同步任何东西（GIL总是会为你做的，没有一个真正的需要）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在高性能环境中的分叉工作进程之间共享状态的相关文章

如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的

随机推荐

如何全屏滑动选定的网格图像

我创建了一个网格视图图像应用程序我想在图像滑动中显示所选图像实际上我在我的应用程序中实现了图像滑动but问题是图像滑动从第一张图像开始而不是从选定的图像开始 example 如果我选择第三张图像则图像滑动应该从第三张图像开始而不是
缺少必需参数：aws_access_key_id、aws_secret_access_key

我目前正在尝试在终端中运行我的测试套件但出现以下错误 Missing required arguments aws access key id aws secret access key ArgumentError 我在我的项目中使用 C
Android HttpClient：NetworkOnMainThreadException

我有下面的一些代码 protected void testConnection String url DefaultHttpClient httpclient new DefaultHttpClient HttpGet httpget ne
用户帐户“root”的指定密码无效，或无法连接到数据库服务器

我在 Windows Server 2012R2 上使用 Windows 平台安装程序 5 0 安装 WordPress 时遇到此错误目前我在该服务器上有一个带有 mySQL 的 php 站点运行良好几个月前作为设置该网站的一部分
正则表达式将给定单词替换为两侧的空格或根本不替换

我正在使用 PHP 中的一些代码从搜索引擎获取引用数据为我提供用户输入的查询然后我想从该字符串中删除某些停用词如果存在但是该单词两端可能有也可能没有空格例如我一直使用 str replace 删除一个单词如下所示 key
绘制图像分类模型的混淆矩阵

我用 keras 构建了一个图像分类 CNN 虽然模型本身运行良好它可以正确预测新数据但我在绘制模型的混淆矩阵和分类报告时遇到问题我使用 ImageDataGenerator 训练了模型 train path DATASET TRAI
我如何获取全局javascript变量中的ajax内容

我想将内容放入javascript全局定义的变量中我使用ajax调用获得的内容 http pastebin com TqiJx3PA 感谢您的任何建议 Pastebin 代码已经做到了这一点我猜你实际面临的问题是存在的因为你的 aja
字符串格式为 yyyy-MM-dd HH:mm:ss Iphone

我有一个 nsstring 见下文 NSString Mydate 9 8 2011 以月日年的格式我希望这个字符串的格式yyyy MM dd HH mm ss 例如 2011 09 08 15 51 57 这样我需要以后面的格式在标
TensorFlow中重复训练和预测时如何避免OOM错误？

我在 TensorFlow 中有一些代码它采用一个基本模型用一些数据对其进行微调训练然后使用该模型来predict 使用一些其他数据所有这些都封装在一个main 模块的方法并且工作正常然而当我在不同的基本模型上循环运行此代码时
Bash 间接引用，其中一个 var 引用多个

我试图取消引用单个变量中包含的两个或多个变量但我不知道如何在没有 eval 的情况下执行此操作 b 5 c 10 a b c result eval echo a echo result 5 10 我希望执行相同的操作来给我结果这样我
如何拦截window.location变化

我需要一种方法将一些预处理附加到 window location 的每个分配有没有办法做到这一点我基本上需要序列化一些信息这些信息将在新位置使用您可以使用beforeunload事件触发您的代码在导航之前运行如果您需要更具体的内容
ImportError: 在 windows7 32 位中运行 pip --version 命令时无法导入名称 main

我已经安装了最新的 python 2 7 9 与 Windows 32 位的 pip 和 setuptools 捆绑在一起我尝试重新安装 pip 但问题仍然存在这是运行后的错误pip version在管理员cmd中 Traceback
更改 UITextField 的默认触摸事件

好吧这就是我想做的我有一个 UITextField 当我单击它时我想调用我的方法之一当我双击用 1 根手指点击两次它时我想编辑文本字段就像我在普通的 UITextField 上单击它一样我不知道该怎么做我正在考虑对 UI
C# - (int)Math.Round((double)(3514 + 3515)/2) =3514？

大家好 int ai1 new int 2 3514 3515 void average1 List
Hibernate JPA 不支持@TableGenerator 的“initialValue”元素吗？

TableGenerator name Emp Gen table ID GEN pkColumnName GEN NAME pkColumnValue Employee GEN valueColumnName GEN VAL initia
从 Laravel 9 中的存储外观获取 S3Client

我正在尝试将 S3 Multipart Uploader 从 Laravel 8 升级到 Laravel 9 并已按照文档中的概述升级到 Flysystem 3 并且没有依赖项错误https laravel com docs 9 x upg
如何将AIRPLANE_MODE_ON设置为“True”或ON？

我打算挂断电话我发现这是解决该问题的方法之一如何通过代码激活飞行模式这样我就会根据某些事件挂断电话请参阅博客文章Android 控制飞行模式仅适用于API 16 Toggle airplane mode Settings Syst
java Android - 以编程方式处理图像缩放/裁剪

好吧所有这些事情折磨了我好几个星期我将图像设置为 227 像素高然后将其缩放到 170 像素即使我每次都希望它是wrapp content 好的在这里我拍摄了 1950 像素长的我的图像我将其中的一部分放在这里以便您可以了
Symfony CollectionType 更新实体

我不敢相信其他人没有遇到这种情况但我无法找到解决方案假设我有两个实体类型 A 和 B 具有一对多关系 A 有 B 的集合 A 的形式有一个CollectionType对于B 有一个定制的entry type for B allow ad
在高性能环境中的分叉工作进程之间共享状态

这是我的后续行动上一个问题正如 Tim Peters 所建议的使用Manager可能不一定是最好的方法不幸的是我有太多的脚手架代码来发布SSCCE 相反我将尝试提供我的问题的详细解释请随意浏览整个代码库Github 但现在有点混乱

在高性能环境中的分叉工作进程之间共享状态

背景

伪代码

问题

问题

在高性能环境中的分叉工作进程之间共享状态 的相关文章

随机推荐

热门标签

在高性能环境中的分叉工作进程之间共享状态的相关文章