Mongodb聚合管道大小和速度问题

2024-05-25

我正在尝试使用 mongodb 聚合查询来连接（$lookup）两个集合，然后对连接数组中的所有唯一值进行不同计数。 *注意：我不一定知道metaDataMap 数组中有哪些字段（键）。我不想计算或包含地图中可能存在或不存在的字段。这就是聚合查询看起来像这样的原因。

所以我的两个收藏看起来像这样：事件-

{
"_id" : "1",
"name" : "event1",
"objectsIds" : [ "1", "2", "3" ],
}

Objects

{
"_id" : "1",
"name" : "object1",
"metaDataMap" : { 
                     "SOURCE" : ["ABC", "DEF"],
                     "DESTINATION" : ["XYZ", "PDQ"],
                     "TYPE" : []
                }
},
{
"_id" : "2",
"name" : "object2",
"metaDataMap" : { 
                     "SOURCE" : ["RST", "LNE"],
                     "TYPE" : ["text"]
                }
},
{
"_id" : "3",
"name" : "object3",
"metaDataMap" : { 
                     "SOURCE" : ["NOP"],
                     "DESTINATION" : ["PHI", "NYC"],
                     "TYPE" : ["video"]
                }
}

我的结果是

{
_id:"SOURCE", count:5
_id:"DESTINATION", count: 4
_id:"TYPE", count: 2
}

到目前为止我所拥有的是这样的：

db.events.aggregate([
{$match: {"_id" : id}}

,{$lookup: {"from" : "objects",
        "localField" : "objectsIds",
        "foreignField" : "_id",
        "as" : "objectResults"}}

,{$unwind: "$objectResults"} //Line 1
,{$project: {x: "$objectResults.metaDataMap"}} //Line 2


,{$unwind: "$x"}
,{$project: {"_id":0}}

,{$project: {x: {$objectToArray: "$x"}}}
,{$unwind: "$x"}

,{$group: {_id: "$x.k", tmp: {$push: "$x.v"}}}

,{$addFields: {tmp: {$reduce:{
input: "$tmp",
initialValue:[],
in:{$concatArrays: [ "$$value", "$$this"]}
    }}
}}

,{$unwind: "$tmp"}
,{$group: {_id: "$_id", uniqueVals: {$addToSet: "$tmp"}}}

,{$addFields: {count: {"$size":"$uniqueVals"}}}
,{$project: {_id: "$_id", count: "$count"}}
]);

我的问题是我是否标记了第 1 行和第 2 行。上面的方法有效，但对于 metaDataMap 数组字段 (objectsResults.metaDataMap) 中的 25,000 个值大约需要 50 秒。例如，对象 1 metaDataMap SOURCE 数组中有 25,000 个值。这样就可以慢下来了。我的另一种更快的方法是将第 1 行和第 2 行替换为：

 ,{$project: {x: "$objectResults.metaDataMap"}} //Line 1
 ,{$unwind: "$x"} //Line 2

这速度更快（不到 3 秒），但只能在包含约 10,000 个项目或更少的数据集上运行。任何更高的值都会出现错误，提示“超出最大文档大小”。

请帮忙！

如果您能够更改架构设计object集合包括一个parent_id字段，您可以立即删除管道的前 4 个阶段（第一个$match, $lookup, $unwind, and $project）。这会引起人们的关注Line 1 and Line 2消失。

例如，文档中object集合看起来像：

{
  "_id": "1",
  "name": "object1",
  "metaDataMap": {
    "SOURCE": [
      "ABC",
      "DEF"
    ],
    "DESTINATION": [
      "XYZ",
      "PDQ"
    ],
    "TYPE": [ ]
  },
  "parent_id": "1"
}

因此你不需要昂贵的$lookup and $unwind。前 4 个阶段可以替换为：

{$match: {parent_id: id}}

基于这个想法，我对pipeline做了进一步的优化，结果是：

db.objects.aggregate([
     {$match: {parent_id: id}}
    ,{$project: {metaDataMap: {$filter: {input: {$objectToArray: '$metaDataMap'}, cond: {$ne: [[], '$$this.v']}}}}}
    ,{$unwind: '$metaDataMap'}
    ,{$unwind: '$metaDataMap.v'}
    ,{$group: {_id: '$metaDataMap.k', val: {$addToSet: '$metaDataMap.v'}}}
    ,{$project: {count: {$size: '$val'}}}
])

这将输出：

{ "_id": "TYPE", "count": 2 }
{ "_id": "DESTINATION", "count": 4 }
{ "_id": "SOURCE", "count": 5 }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Mongodb聚合管道大小和速度问题的相关文章

MongoDb聚合

如何使用 mongoDb 聚合编写模拟查询 select count as ccount from a group by a someField order by ccount desc limit 1 使用 mongoDb 中的 grou
使用 Homebrew 安装 mongodb 时遇到问题

我正在尝试让 Mongo 运行我安装了包管理器Homebrew https brew sh 然后我使用了 Mongo 站点上的命令 brew update brew install mongodb 这似乎安装正确我输入了mongo在新的
使用 MongoDB 和 ASP.NET MVC 进行分页的有效方法

我们正在创建一个应用程序 MongoDB 作为数据库我们正在使用MongoDB 的官方 C 驱动程序 http docs mongodb org ecosystem drivers csharp 我们有一个包含数千条记录的集合我们想要创
Mongodb聚合，如何按间隔标准对文档进行计数？

我的 MongoDB 文档如下所示 StatCode LoadTime 例如数据可能如下所示 id StatCode LoadTime 1 200 0 345 2 200 0 234 3 200 0 396 4 200 1 234 5 2
Mongoose 多个连接

目前我的连接有这个代码猫鼬 js var mongoose require mongoose var uriUtil require mongodb uri var mongodbUri mongodb localhost db name
在 MongoDB 中按索引更新插入数组中子文档中的字段

我有以下 MongoDB 结构 id other stuff my array title body email title body email title body email 我需要在 my array 字段内的子文档中更新或插入
使用mongodb聚合框架按数组长度分组

我有一个看起来像这样的集合 id id0 name saved things id id1 name saved things id id2 name saved things etc 我想使用 mongodb 的聚合框架来得出一个直方图结
Mongo JSON 文档 -> JSON -> BSON

我正在使用 Node js 构建一个使用 mongodb 的 Web 套接字服务器我使用 node mongodb native 作为访问 mongodb 的库当我对数据库中的对象调用 console log sys inspect i
Mongodb upsert 嵌入文档

我每天每米有一份文件如果它不存在如何在数据数组中添加另一个子文档并创建整个文档 key 20120418 123456789 data Meter 123456789 Dt ISODate 2011 12 29T16 00 00 0Z
MongoDB $geoIntersects 不适用于包含负顶点的多边形

我已在数据库中存储了跨越 x 轴和 y 轴的多边形并且我想搜索包含给定点的多边形为此我使用 geoIntersects 运算符来指定一个点但是当多边形穿过轴时 MongoDB 不会返回任何多边形我可以对查询或架构进行任何小的更改
带有卷的 docker 中的 Mongo db 持久化

我正在尝试创建一个 mongo 数据库容器但无法使数据持久化这是我的 docker compose yml version 3 2 services mongodb image mongo 2 4 command smallfiles
Mongodb 聚合嵌套组以及最近更新的文档

我已经在我的集合中指定了人员状态如下所示 ASSIGN ID 583f84bce58725f76b322398 SPEC ID 58411771 STATUS 1 UPDATE DATE ISODate 2016 12 21T04 10
无法连接到服务器 127.0.0.1:27017 连接尝试失败 MongoDB

我正在使用 Ubuntu 操作系统 16 04 我正在使用命令启动 mongodb sudo service mongod start进而mongo 它为我生成了这个错误 MongoDB shell version v4 0 1 conne
如何从数组中删除重复的条目？

在下面的示例中 Algorithms in C 出现两次 The unset修饰符可以删除特定字段但如何从字段中删除条目 id ObjectId 4f6cd3c47156522f4f45b26f favorites books Algor
Mongodb 数据库上的 SASL 身份验证失败

我在尝试使用 PHP Mongodb 驱动程序连接到 Mongodb 时遇到问题实际上我有一个名为 LRS 的数据库它有一个名为 juano 的用户在我的设置文件中带有密码 12345 我确信我编写了正确的配置但是当我在 Larav
PHP 中的 MongoDB - 如何将项目插入集合中的数组中？

这必须很容易但我似乎无法弄清楚假设我有一个集合users这是集合中的第一项 id ObjectId 4d8653c027d02a6437bc89ca name Oscar Godson email email protected cdn
Node.js 检测两个猫鼬查找何时完成

我正在尝试使用自动完成功能初始化两个输入library https www devbridge com sourcery components jquery autocomplete 当我加载页面时我将触发 Ajax 来初始化两个输入文本
获取对象数组中每个嵌套对象的虚拟属性？

所以我知道如何获取单个虚拟属性如 Mongoose 文档中所述 PersonSchema virtual name full get function return this name first this name last 但如果我的
将域类从 GORM 独立模块导入到 Grails 中

我有两块拼图 1 一个名为的无 Grails 项目core module使用独立的 GORM dependencies compile org grails grails datastore gorm mongodb 6 0 4 RELEA
使用填充方法在 sails mongo 中进行深层关联？

我是 sails js 的新手我正在使用 sails js 与 Mongodb 我在我的 sails 应用程序中使用 populate 进行深层关联时遇到问题我有这样的关系 Category has many to many relat

随机推荐

我可以检测焦点来源吗？（Javascript、jQuery）

快速提问是否可以检测焦点是来自鼠标单击还是来自焦点事件的选项卡我想如果没有我将不得不在同一元素上使用单击句柄来确定源但我更喜欢通过焦点事件的方式 Thanks Gausie 可能无法 100 工作但如果没有直接的方法那么你不能直
使用“合并修订范围”从分支合并到主干

我已经像这样在 Subversion TortoiseSVN 中合并了几次方法一 1 我更改主干并提交 2 我在分支中进行其他更改并提交 3 在主干的工作副本中我使用 TortoiseSVN 从分支合并合并一系列修订 4 然后我提交主
使用 JWT Laravel 5 进行身份验证，无需密码

我正在尝试学习 Laravel 我的目标是能够构建一个 RESTful API 不使用视图或刀片仅使用 JSON 结果稍后 AngularJS Web 应用程序和 Cordova 混合移动应用程序将使用此 api 经过一番研究我倾向于
File.ReadAllLines 或流读取器

我们可以使用以下方式读取文件StreamReader http msdn microsoft com en us library vstudio system io streamreader或通过使用File ReadAllLines ht
在 Android 应用程序中使用传单来显示在线地图

是否有任何示例项目展示如何正确使用传单在 Android 应用程序中显示在线地图因为我尝试了很多示例但每次我的应用程序中都有一个空的网络视图这是我的代码 private WebView mWebView Override protec
当我 setClientMode=true 时，Apache Ignite 事件监听器不会接收远程事件

请参阅下面的事件监听器代码客户端节点尝试成为侦听器 Ignition setClientMode true IgniteConfiguration cfg new IgniteConfiguration TcpDiscoveryVmIpF
.NET Core 2 - 从启动中调用存储库方法[重复]

这个问题在这里已经有答案了我有以下存储库和类 public interface IValueService GetAll public class ValueService IValueService private DataContex
Python 宏：用例？

如果 Python 有一个类似于 Lisp Scheme 的宏工具比如元Python https code google com p metapython 你会如何使用它如果您是一名 Lisp Scheme 程序员您会使用宏来做什么
如何使用养蜂场记录多部分请求？

我想记录一个多部分请求如下所示 Content Length 477 Content Type multipart form data boundary BOUNDARY BOUNDARY Content Disposition form
如何用html标签替换字符串的一部分？

如何在 jQuery 中用 html 标签替换字符串的一部分比如说 div Who am i div 应该 div b Who b am i div 您可以使用html方法的回调函数和replace method div html fun
Spring + Jackson + Joda时间：如何指定序列化/反序列化格式？

我有以下课程 public static class ARestRequestParam String name LocalDate date joda type 我希望它从以下由 Jackson 处理的 JSON 中反序列化名称 abc
ggplot2极坐标图轴标签位置

This is just a extension for a old question ggplot2 polar plot arrows https stackoverflow com questions 10515703 ggplot2
膨胀类 android.support.v7.internal.widget.NativeActionModeAwareLayout 时出错

如果您以前解决过这个问题请有人帮助我我正在尝试使用材料设计制作一些东西以便应用程序可以运行到 API 10 的低版本我的代码中没有任何错误但我不断收到此错误 Android 日志猫 06 01 05 05 37 414 E And
更改 Windows 上的 virtualenv 文件夹

计算机修复后我的 python 项目目录 Windows 发生了变化比如从 d 到 f 现在我所有的 virtualenv 都坏了激活 env 后 virtualenv 中的项目无法找到依赖项并且自定义脚本来自 env scrip
获取 n 元组中的所有 1-k 元组

当 n 5 且 k 3 时以下循环将执行此操作 List
Python：使用Excel CSV文件仅读取某些列和行

虽然我可以读取 csv 文件而不是读取整个文件但如何仅打印某些行和列想象一下这是 Excel A B C D E State Heart Disease Rate Stroke Death Rate HIV Diagnosis Rate
Swift - 集成 GameCenter 以使用排行榜

我正在用 Swift 制作一个游戏我希望能够使用 GameCenter 发布用户的分数以便可以看到所有用户的分数然而我花了一天的时间试图弄清楚如何做到这一点但我没有找到任何有用的说明我对 iOS 编程和 Swift 还很陌生关
Winform 启动后隐藏或最小化 powershell 提示符

我编写了一个简单的 powershell 脚本来启动 winform 在 powershell 脚本中编写的 Winform 代码例如 showContent ps1 文件并显示一些内容我需要在Winform启动后隐藏powershe
如何使用 Tomcat 启用浏览器缓存静态内容（图像、css、js）？

如何使用 Tomcat 启用浏览器缓存静态内容图像 css js 首选的解决方案是编辑 spring MVC 配置文件或 web xml 尝试改变值
Mongodb聚合管道大小和速度问题

我正在尝试使用 mongodb 聚合查询来连接 lookup 两个集合然后对连接数组中的所有唯一值进行不同计数注意我不一定知道metaDataMap 数组中有哪些字段键我不想计算或包含地图中可能存在或不存在的字段这就是聚合查询看

Mongodb聚合管道大小和速度问题

Mongodb聚合管道大小和速度问题 的相关文章

随机推荐

热门标签

Mongodb聚合管道大小和速度问题的相关文章