使用 mongo 计算所有文档中数组的出现次数

2024-01-25

我试图从一组文档中提取数据，如下所示：

[
  {
    name: 'john',
    sex: 'male',
    hobbies: ['football', 'tennis', 'swimming']
  },
  {
    name: 'betty'
    sex: 'female',
    hobbies: ['football', 'tennis']
  },
  {
    name: 'frank'
    sex: 'male',
    hobbies: ['football', 'tennis']
  } 
]

我正在尝试使用聚合框架来呈现数据，按性别划分，计算最常见的爱好。结果应该看起来像这样。

{ _id: 'male', 
  total: 2, 
  hobbies: {
    football: 2,
    tennis: 2,
    swimming: 1
  } 
},
{ _id: 'female', 
  total: 1, 
    hobbies: {
      football: 1,
      tennis: 1
    } 
}

到目前为止，我可以获得每种性别的总数，但我不确定如何使用 unwind 来获取爱好数组的总数。

到目前为止我的代码：

collection.aggregate([
        { 
            $group: { 
                _id: '$sex', 
                total: { $sum: 1 }
            }
        }
    ])

就我个人而言，我不太喜欢将“数据”转换为结果中的键名称。聚合框架原则往往一致，因为也不支持此类操作。

因此，个人偏好是将“数据”维护为“数据”，并接受处理后的输出实际上对于一致的对象设计来说更好、更符合逻辑：

db.people.aggregate([
    { "$group": {
        "_id": "$sex",
        "hobbies": { "$push": "$hobbies" },
        "total": { "$sum": 1 }
    }},
    { "$unwind": "$hobbies" },
    { "$unwind": "$hobbies" },
    { "$group": {
        "_id": {
            "sex": "$_id",
            "hobby": "$hobbies"
        },
        "total": { "$first": "$total" },
        "hobbyCount": { "$sum": 1 }
    }},
    { "$group": {
        "_id": "$_id.sex",
        "total": { "$first": "$total" },
        "hobbies": {
            "$push": { "name": "$_id.hobby", "count": "$hobbyCount" }
        }
    }}
])

产生这样的结果：

[
    {
            "_id" : "female",
            "total" : 1,
            "hobbies" : [
                {
                    "name" : "tennis",
                    "count" : 1
                },
                {
                    "name" : "football",
                    "count" : 1
                }
            ]
    },
    {
        "_id" : "male",
        "total" : 2,
        "hobbies" : [
            {
                "name" : "swimming",
                "count" : 1
            },
            {
                "name" : "tennis",
                "count" : 2
            },
            {
                "name" : "football",
                "count" : 2
            }
        ]
    }
]

所以最初的$group计算每个“性别”并将爱好堆叠到一个数组中。然后让你去规范化$unwind两次获得单一物品，$group获取每种性别下每种爱好的总数，最后单独为每种性别重新组合一个数组。

它们是相同的数据，具有一致且有机的结构，易于处理，MongoDB 和聚合框架非常乐意生成此输出。

如果您确实必须将数据转换为键名称（我仍然建议您不要这样做，因为这不是设计中遵循的良好模式），那么从最终状态进行这样的转换对于客户端代码处理来说是相当简单的。作为适合 shell 的基本 JavaScript 示例：

var out = db.people.aggregate([
    { "$group": {
        "_id": "$sex",
        "hobbies": { "$push": "$hobbies" },
        "total": { "$sum": 1 }
    }},
    { "$unwind": "$hobbies" },
    { "$unwind": "$hobbies" },
    { "$group": {
        "_id": {
            "sex": "$_id",
            "hobby": "$hobbies"
        },
        "total": { "$first": "$total" },
        "hobbyCount": { "$sum": 1 }
    }},
    { "$group": {
        "_id": "$_id.sex",
        "total": { "$first": "$total" },
        "hobbies": {
            "$push": { "name": "$_id.hobby", "count": "$hobbyCount" }
        }
    }}
]).toArray();

out.forEach(function(doc) {
    var obj = {};
    doc.hobbies.sort(function(a,b) { return a.count < b.count });
    doc.hobbies.forEach(function(hobby) {
        obj[hobby.name] = hobby.count;
    });
    doc.hobbies = obj;
    printjson(doc);
});

然后，您基本上将每个游标结果处理为所需的输出形式，这实际上并不是服务器上真正需要的聚合函数：

{
    "_id" : "female",
    "total" : 1,
    "hobbies" : {
        "tennis" : 1,
        "football" : 1
    }
}
{
    "_id" : "male",
    "total" : 2,
    "hobbies" : {
        "tennis" : 2,
        "football" : 2,
        "swimming" : 1
    }
}

将这种操作实现到游标结果的流处理中以根据需要进行转换也应该是相当简单的，因为它基本上是相同的逻辑。

另一方面，您始终可以使用 mapReduce 在服务器上实现所有操作：

db.people.mapReduce(
    function() {
        emit(
            this.sex,
            { 
                "total": 1,
                "hobbies": this.hobbies.map(function(key) {
                    return { "name": key, "count": 1 };
                })
            }
        );
    },
    function(key,values) {
        var obj  = {},
            reduced = {
                "total": 0,
                "hobbies": []
            };

        values.forEach(function(value) {
            reduced.total += value.total;
            value.hobbies.forEach(function(hobby) {
                if ( !obj.hasOwnProperty(hobby.name) )
                    obj[hobby.name] = 0;
                obj[hobby.name] += hobby.count;
            });
        });

        reduced.hobbies = Object.keys(obj).map(function(key) {
            return { "name": key, "count": obj[key] };
        }).sort(function(a,b) {
            return a.count < b.count;
        });

        return reduced;
    },
    { 
        "out": { "inline": 1 },
        "finalize": function(key,value) {
            var obj = {};
            value.hobbies.forEach(function(hobby) {
                obj[hobby.name] = hobby.count;
            });
            value.hobbies = obj;
            return value;
        }
    }
)

其中，mapReduce 具有自己独特的输出风格，但在累积和操作中使用相同的原理，即使效率不如聚合框架：

   "results" : [
        {
            "_id" : "female",
            "value" : {
                "total" : 1,
                "hobbies" : {
                    "football" : 1,
                    "tennis" : 1
                }
            }
        },
        {
            "_id" : "male",
            "value" : {
                "total" : 2,
                "hobbies" : {
                    "football" : 2,
                    "tennis" : 2,
                    "swimming" : 1
                }
            }
        }
    ]

归根结底，我仍然说第一种处理形式是最有效的，并且在我看来提供了最自然和一致的数据输出工作，甚至不需要尝试将数据点转换为键的名称。最好考虑遵循该模式，但如果您确实必须这样做，那么可以通过各种处理方法将结果操纵为所需的形式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 mongo 计算所有文档中数组的出现次数的相关文章

将 MongoDb 同步到 ElasticSearch

我正在寻找一种将 MongoDB 中的集合与 Elastic Search ES 同步的方法目标是以 MongoDB 作为主要数据源并使用 MongoDB 作为全文搜索引擎我的项目的业务逻辑是用python写的网上有多种方法可供选择
如何使用 mongo-cxx-driver 设置 Visual Studio 项目设置？

我已经在 Windows 10 上成功构建了用于 C 的 MongoDB 驱动程序版本 3 0 3 CMAKE INSTALL PREFIX C mongo cxx driver 但我不知道如何在 Visual Studio 2015 中设
Mongodb简单前缀查询与正则表达式和排序很慢

我被这个简单的前缀查询困住了虽然蒙戈文档 http www mongodb org display DOCS Advanced Queries AdvancedQueries RegularExpressions声明您可以通过使用前缀正则
如何访问 Pandas DataFrame 中嵌入的 json 对象？

TL DR 如果 Pandas DataFrame 中加载的字段本身包含 JSON 文档那么如何以类似 Pandas 的方式使用它们目前我直接从 Twitter 库转储 json 字典结果 twython https github co
当使用带 _id 的复合分片键时，MongoDB 是否确保唯一的 _id 字段值

我想启动分片如您所知分片键非常重要我发现使用 id 以外的分片键时 MongoDB 不确保 id 字段值唯一 http docs mongodb org manual faq sharding how does mongodb en
在 AWS EKS 集群中安装 mongodb 时出错 - “运行 PreBind 插件 VolumeBinding：绑定卷：超时 > 等待条件”

我尝试按照给定的链接在 EKS 集群中安装 mongodb 使用 mongodb kubernetes operator https github com mongodb mongodb kubernetes operator https
Mongodb聚合框架：$group是否使用索引？

我正在尝试使用聚合框架 match and group阶段做 group阶段使用索引数据我正在使用最新的可用 mongodb 版本 2 5 4 group不使用索引数据来自 mongoDBdocs http docs mongodb
如何减少嵌套文档聚合管道中的展开阶段？

我是 mongodb 新手正在尝试使用嵌套文档我有一个查询如下 db EndpointData aggregate group id EndpointId RequestCount sum 1 FirstActivity min Dat
节点 mongodb：错误：由于 parseError 连接已关闭

使用本机 mongodb npm 包我收到 Error connection closed due to parseError 进行非常基本的查询时 collections myCollection findOne id someID f
如何获取 bson 文档的大小（以字节为单位）

bson文档的size 函数返回的int值是字节数吗无法找到此 API 的详细信息如何获取 bson 文档的大小以字节为单位这是我的代码 import org bson Document MongoDatabase db Mongo
Mongoose 查询：删除“_id”属性，在结果中保留虚拟属性“id”

我正在运行 Express js 应用程序并且有以下设置模型 js var schemaOptions toJSON virtuals true toObject virtuals true var modelSchema new mo
MacOS 每秒唤醒次数错误

构建 Rails 应用程序 ruby 2 4 0p0 Rails 5 1 4 并使用我的 Macbook Air MacOS High Sierra 10 13 2 进行本地测试我不断遇到此问题过去 241 秒内有 45001 次唤醒
检索 mongoDB 文档中的空数组或 null

我有我学校所有学生的收藏每个文档都有一个sports列出每个学生从事的运动的数组属性但该属性可能显示为sports or sports null或者根本不出现如何检索属于上述三种情况之一的所有文件如何向只有一项运动但未表示为数组的学
Mongodb 限制聚合查询中的数组

我正在尝试编写一个查询来返回每个类别中的前 X 个术语例如前 5 个前 10 个等每个术语都有一个关联的类别并且基于另一个术语的帮助堆栈溢出问题 https stackoverflow com questions 25666187
Mongoose 模型 update() 与 save()

有一个关于问题update vs save https stackoverflow com questions 39010045 mongoose update vs save 但它针对的是一些不同的东西我猜纯粹相关mongoose S
PHP 中的 MongoDB - 如何将项目插入集合中的数组中？

这必须很容易但我似乎无法弄清楚假设我有一个集合users这是集合中的第一项 id ObjectId 4d8653c027d02a6437bc89ca name Oscar Godson email email protected cdn
Mongodump之后，调用MongoRestore挂起

我们正在尝试在相对较小的数据库上做一个简单的 MongoDump 我们的步骤很简单 export 从目标机器上删除现有数据库在目标机器上导入 MongoDump 完美执行 mongodump out root mongo prod DB
Mongodb - 为现有集合添加架构

我的 MongoDB 中有一个包含 1300 万条记录的集合不幸的是当我创建这个集合时没有为其创建模式我想知道除了备份整个数据库创建架构并上传所有数据之外是否有任何方法可以添加 JSON 架构您可以使用以下方法将 JSON 架
Node.js 检测两个猫鼬查找何时完成

我正在尝试使用自动完成功能初始化两个输入library https www devbridge com sourcery components jquery autocomplete 当我加载页面时我将触发 Ajax 来初始化两个输入文本
获取对象数组中每个嵌套对象的虚拟属性？

所以我知道如何获取单个虚拟属性如 Mongoose 文档中所述 PersonSchema virtual name full get function return this name first this name last 但如果我的

随机推荐

如何传递对 aframe 组件的引用？

我正在编写一个自定义 aframe 组件来渲染基于很长的对象数组的网格 Aframe 文档仅将数组列为输入类型您可以在其中传递属性它将被解析为数组attributename 1 2 3 我想从外部将 JavaScript 引用传递到组件
相当于WPF中的InvokeRequired

WPF 中是否有与 Form InvokeRequired 等效的函数例如调度程序 InvokeRequired 这有点奇怪因为它没有出现在智能感知中但您可以使用 var dispatcher myDispatcherObject D
当 GPS（或定位服务）启动/停止时接收通知（通过 BroadcastReceiver）

我尝试了一种使用 BroadcastReceiver 来侦听的方法提供商已更改 http developer android com reference android location LocationManager html PROV
如何从 WCF 服务返回干净的 JSON？

我正在尝试从 WCF 服务返回一些 JSON 该服务只是从我的数据库返回一些内容我可以拿到数据但是我担心 JSON 的格式目前返回的 JSON 格式如下 d Age 35 FirstName Peyton LastName Man
估算 scikit-learn 中的分类缺失值

我有一些带有文本类型列的熊猫数据这些文本列中还有一些 NaN 值我想做的是将那些 NaN 归咎于sklearn preprocessing Imputer 用最常见的值替换 NaN 问题出在执行上假设有一个包含 30 列的 Panda
Django ImproperlyConfigured：无法加载 WSGI 应用程序“myproject.wsgi.application”；导入模块时出错

我几乎全新安装了 django 当我运行时python manage py runserver 它给了我这个错误配置不正确无法加载 WSGI 应用程序 myproject wsgi application 导入模块时出错设置 py W
如何转发带有可变参数的函数？

在 Swift 中如何将数组转换为元组出现这个问题是因为我试图在一个采用可变数量参数的函数内部调用一个采用可变数量参数的函数 Function 1 func sumOf numbers Int gt Int var sum 0 for
检查重复项时的最佳自连接技术

我正在尝试优化生产中的查询该查询需要很长时间目标是根据匹配字段值条件查找重复记录然后将其删除当前查询通过 t1 col1 t2 col1 上的内部联接使用自联接然后使用 where 子句来检查值 select from table
为什么异步端点的过滤器链被调用两次

我正在开发一个基于 Spring boot 的应用程序我注意到对于异步端点身份验证过滤器被调用两次对于常规端点它被调用一次没找到原因不过在网上发现了一个问题https jira spring io browse SPR 126
我要释放多少次已分配或保留的对象？

我正在制作一款 iPhone 游戏我想释放所有已分配或保留的对象在里面dealloc我正在释放所有此类对象但后来我意识到有时我最终会在对象尚未分配时释放它们所以我想我需要检查一下是否retainCount在我释放它之前是否大于零我
在Fragment中使用观察者

在片段中使用观察者时遇到问题我已经实现了自己的 TextViewObserver 并且我不想将其插入片段中 public class TextViewObserver extends TextView implements Observe
有什么方法可以处理和返回领域驱动设计实体和聚合根中的错误（非异常和异常）？

我正在尝试找到一篇好文章示例说明 DDD 实体如何处理错误以及什么会被视为异常错误什么不会以及它们如何将它们传递到调用应用程序层通常将操作包装在事务中则需要回滚目前我正在考虑将所有会破坏聚合事务例如验证的错误视为异常
PHP $_POST 不起作用？ [复制]

这个问题在这里已经有答案了我有最简单的形式我想做的就是回显文本框中写入的内容 HTML
默认初始化（带值初始化）参数包

我可以默认将参数包初始化为每种类型各自的值初始化吗为了更详细地说明一下以一个简单的函数模板为例 template
spring单元测试如何插入记录（无删除方法）

我有使用 Spring 的 DAOjdbcTemplate具有创建读取更新无删除操作 Create 方法有 ID 参数它是表中的唯一键除了模拟 DAO 之外我如何在不违反约束的情况下实际测试创建使用随机 ID 有时仍然会失败我
从 JavaScript 字符串中删除特定的 HTML 标签及其内容

我有以下字符串变量我想删除所有a标签及其字符串中的内容 var myString table tr td Some text a href label a td tr table myString table tr td Some tex
如何将 Google 电子表格中的数据检索为 Javascript 或 JSON？

这是使用 Google 云端硬盘创建的公共电子表格 https docs google com spreadsheets d 1hA4LKZn9yKoqnSzaI6 73GQSj ZVpB3O0kC93QM98Vs pubhtml http
使用 System.js 在 Angular 2 应用程序中导入 Visionmedia 调试以及如何记录消息？

我正在使用 Angular 2 前端开发 MEAN 堆栈应用程序我已经成功使用了debug在快递应用程序中但是我无法干净地导入调试app components ts or main module ts 关于如何继续的任何想法结果出错
Rails 4 资产管道图像子目录

我知道这可能是一个简单的问题但我在这里被难住了我正在开发的应用程序包含如下资产 app assets fonts images javascripts 我喜欢有效地组织资源以避免将来出现混乱因此我尝试像这样分解图像 app asset
使用 mongo 计算所有文档中数组的出现次数

我试图从一组文档中提取数据如下所示 name john sex male hobbies football tennis swimming name betty sex female hobbies football tennis nam

使用 mongo 计算所有文档中数组的出现次数

使用 mongo 计算所有文档中数组的出现次数 的相关文章

随机推荐

热门标签

使用 mongo 计算所有文档中数组的出现次数的相关文章