随着时间的推移范围支持分桶分析

2023-12-20

Read this https://www.compose.com/articles/first-steps-of-an-analytics-platform-with-mongodb/，并尝试进行实验。

下面是我的架构。

SCHEMA:

{
    "s"  : "CB",
    "c"  : "REQ_RCV",
    "e"  : "sms_click",
    "st" : "i",
    "b"  : "2",
    "a"  : "1",
    "u"  : "b1_h1_d1_m1_user_2",
    "c#" : "b1_h1_d1_m1_cr-2",
    "@"  : ISODate("2016-10-01T06:03:00.000Z"), //Indexed
    "@h" : "16100106", //hourly bucket
    "@d" : "161001",                            //Indexed
    "@m" : "1610"
}

以下是解释计划：

> 2017-01-22T13:43:47.764+0530 I COMMAND  [conn34] command test-analytics.template3 appName: "MongoDB Shell" command: aggregate {
> aggregate: "template3", pipeline: [ { $match: { @: { $gte: new
> Date(1483228800000), $lte: new Date(1483315199000) } } }, { $group: {
> _id: { b: "$b", HOURLY: "$@h", s: "$s" }, count: { $sum: 1.0 } } }, { $project: { _id: 0.0, BUCKET: "$_id.b", SERVICE: "$_id.s", TIME:
> "$_id.HOURLY", count: 1.0 } }, { $sort: { SERVICE: 1.0, BUCKET: 1.0,
> TIME: 1.0 } } ], cursor: {} } planSummary: IXSCAN { @: 1.0 }
> keysExamined:106888 docsExamined:106888 hasSortStage:1
> cursorExhausted:1 numYields:925 nreturned:96 reslen:7095 locks:{
> Global: { acquireCount: { r: 1860 } }, Database: { acquireCount: { r:
> 930 } }, Collection: { acquireCount: { r: 929 } } }
> protocol:op_command **3499ms**


> 2017-01-22T13:44:24.825+0530 I COMMAND  [conn34] command test-analytics.template3 appName: "MongoDB Shell" command: aggregate {
> aggregate: "template3", pipeline: [ { $match: { @d: "170101" } }, {
> $group: { _id: { b: "$b", HOURLY: "$@h", s: "$s" }, count: { $sum: 1.0
> } } }, { $project: { _id: 0.0, BUCKET: "$_id.b", SERVICE: "$_id.s",
> TIME: "$_id.HOURLY", count: 1.0 } }, { $sort: { SERVICE: 1.0, BUCKET:
> 1.0, TIME: 1.0 } } ], cursor: {} } planSummary: IXSCAN { @d: 1.0 } keysExamined:106888 docsExamined:106888 hasSortStage:1
> cursorExhausted:1 numYields:865 nreturned:96 reslen:7095 locks:{
> Global: { acquireCount: { r: 1740 } }, Database: { acquireCount: { r:
> 870 } }, Collection: { acquireCount: { r: 869 } } }
> protocol:op_command **1294ms**

问题:

尽管这两个查询都检查了相同数量的文档为什么输出有时间差？
Are $lte, $gte运算符仅在日期范围上变慢，甚至在数字比较上也变慢？
由于分桶可以提供更快的响应，那么如何使用分桶进行范围查询？我可以进行多个聚合时间桶调用来支持范围查询，但这会增加往返时间，有什么建议吗？
是否可以使用$and两个人$match在聚合查询中支持范围存储？目前聚合接受多个$match但第一个输出$match被赋予第二个$match，但我想要的是添加/分组个人$match结果到下一个管道。

第四季度的可能答案：

db.template3.aggregate([ 
    {
        $match: {
            $or: [
                {"@d":"170301"},
                {"@d":"170306"}, 
                {"@d":"170202"}, 
                {"@d":"170303"},
                {"@d":"170304"}, 
                {"@d":"170305"}
            ]
        }
    },
    { $project: { _id: 0, "b": 1, "s": 1, "@h": 1 } }, 
    {
        $group: {
            _id: {"b": "$b", "HOURLY": "$@h", "s": "$s" }, 
            count: { $sum: 1 } 
        }
    },  
    { 
        $project: {
            _id: 0, 
            "BUCKET": "$_id.b",
            "SERVICE": "$_id.s",
            "TIME": "$_id.HOURLY", 
            count: 1
        }
    },         
    { $sort: { "SERVICE": 1, "BUCKET": 1, "TIME": 1 } } 
]);

在这个答案中，我们可以使用桶的混合（每日和每月），但这仍然会使用它自己的索引。读https://docs.mongodb.com/manual/reference/operator/query/or/#or-clauses-and-indexes https://docs.mongodb.com/manual/reference/operator/query/or/#or-clauses-and-indexes.

示例查询：

db.template3.aggregate([ 

    {$match:{"@h":{$gte : 17020511, $lte : 17030511}, "st":"i"}}, 

    {$project : {"_id":0,  "@h":1,"c":1, "@m":1}}, 

    {$group:{_id:{ "HOURLY":"$@h", "c":"$c"}, count:{$sum:1}}},

    {$project : {_id:0, "COUNTER":"$_id.c","TIME":"$_id.HOURLY", count:1}}, 

    {$sort:{"COUNTER":1,"TIME":1}}
]);

Output:

{ "count" : 2255, "COUNTER" : "REQ_RCVD", "TIME" : 17020511 }
{ "count" : 28888, "COUNTER" : "REQ_RCVD", "TIME" : 17020600 }
{ "count" : 37613, "COUNTER" : "REQ_RCVD", "TIME" : 17020601 }
{ "count" : 6723, "COUNTER" : "REQ_RCVD", "TIME" : 17020602 }
{ "count" : 14057, "COUNTER" : "REQ_RCVD", "TIME" : 17020603 }
{ "count" : 12405, "COUNTER" : "REQ_RCVD", "TIME" : 17020604 }
{ "count" : 2392, "COUNTER" : "REQ_RCVD", "TIME" : 17020611 }
{ "count" : 28784, "COUNTER" : "REQ_RCVD", "TIME" : 17020700 }
{ "count" : 37494, "COUNTER" : "REQ_RCVD", "TIME" : 17020701 }
{ "count" : 6697, "COUNTER" : "REQ_RCVD", "TIME" : 17020702 }
{ "count" : 13930, "COUNTER" : "REQ_RCVD", "TIME" : 17020703 }
{ "count" : 12493, "COUNTER" : "REQ_RCVD", "TIME" : 17020704 }
{ "count" : 2225, "COUNTER" : "REQ_RCVD", "TIME" : 17020711 }
{ "count" : 28821, "COUNTER" : "REQ_RCVD", "TIME" : 17020800 }
{ "count" : 37949, "COUNTER" : "REQ_RCVD", "TIME" : 17020801 }
{ "count" : 6676, "COUNTER" : "REQ_RCVD", "TIME" : 17020802 }
{ "count" : 14039, "COUNTER" : "REQ_RCVD", "TIME" : 17020803 }
{ "count" : 12349, "COUNTER" : "REQ_RCVD", "TIME" : 17020804 }
{ "count" : 2332, "COUNTER" : "REQ_RCVD", "TIME" : 17020811 }
{ "count" : 28379, "COUNTER" : "REQ_RCVD", "TIME" : 17020900 }

优化

我觉得由于读取非索引字段而花费了更多时间。因此docsExamined: 106888
当我使用时有一定的改进$project before $group
我变了"@h"数据类型来自String to Integer (NumberInt），我认为它会进一步改进。

让我们一一解答您的问题：

尽管两个查询检查了相同数量的文档，为什么输出存在时间差异？

仅从单个执行中查看性能指标实际上并不是它的工作原理。在得出结论之前，您应该取几次执行的平均值，因为有几个因素在起作用。话虽这么说，MongoDB 将最常用的文档缓存在内存中并将其保留在那里，除非它必须为其他文档腾出内存。因此，如果查询访问已从先前查询中缓存的文档，它应该会更快。

另外，在 MongoDB 中，聚合仅在开头使用索引（如果有）。例如$match and $sort阶段可以使用索引。在你的情况下$match是第一个管道阶段，所以这是一个胜利。

$lte, $gte 仅在日期范围上很慢，还是在数字比较上也很慢..？

在 MongoDB 中，数据存储在BSON http://bsonspec.org/, so 日期基本上是数字 https://docs.mongodb.com/manual/reference/bson-types/#date当他们进行比较时。所以没有区别。

既然分桶可以提供更快的响应，那么如何使用分桶进行范围查询呢？我可以进行多个聚合时间桶调用来支持范围查询，但这会增加往返时间，有什么建议吗？

虽然我还没有测试过它，但我真的怀疑 time_bucket 方法能否提供更快的响应。自从created_at总是会增加，在这种情况下，索引也会被附加到没有 time_bucket 的末尾。此外，在数组上创建的索引大小比在简单日期字段上创建的索引大小相对较大。这不会导致在 RAM 中安装索引的问题吗？

当您在匹配之前在日期字段上使用某些函数时，使用 time_bucket 是有意义的。如果在匹配之前只从日期字段中提取年份，则会使日期上的现有索引变得无用。

最好将参数转换为与数据库中的数据类型匹配，而不是相反。

那可能吗$and of two $match在聚合查询中以支持范围存储。目前聚合接受多个$match但 $match 的第一个输出被赋予第二个 $match，但我想要的是添加/分组个人$match结果到下一个管道。

是的，这是可能的。如果它是$and，您只需在中指定用逗号分隔的所有过滤器$match阶段。其$or使用$or https://docs.mongodb.com/manual/reference/operator/query/or/操作员。

如果你有two $macthMongoDB 将其一一结合为一 https://docs.mongodb.com/manual/core/aggregation-pipeline-optimization/#match-match-coalescence。因此您无需担心添加多个比赛阶段的结果。

现在你的优化 Points

我觉得由于读取非索引字段而花费了更多时间。因此 docsExamined:106888

Yes, 涵盖查询 https://docs.mongodb.com/manual/core/query-optimization/#covered-query速度更快。

当我在 $group 之前使用 $project 时有一些改进

如果文档的大小减小$group阶段通过使用$project，那么是的，这是真的。

我变了@hdataType从string改为int(NumberInt)，我想还会再改进一些。

这不一定是真的，但普遍情况是这样。你可以检查一下这个答案 https://stackoverflow.com/a/16504625/2965883.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

随着时间的推移范围支持分桶分析的相关文章

Mongodb 通过查询和分组查找

简单收集 id 123 name FooBar zone Bas id 456 name Alice zone Bas id 789 name FooBar zone Bas 首先我构建一个查询来按名称查找所有元素 db collecti
如何在没有objectid字段的mongodb集合上查找上次更新/插入/删除操作时间

我在 MongoDb 数据库中有一些未使用的集合我必须找出对数据库中的集合执行 CRUD 操作的时间我们有自己的 id字段而不是mongo默认的object id 我们没有任何时间在集合中归档以找出修改时间有没有办法从元数据中找出m
Mongodb更新很多

我正在使用express js 和 npm 模块 mongodb 进行开发并以 mongodb 作为数据库我有两个集合即用户和活动一个用户可能有数千个活动首先我将用户的 id 姓名和图片 url 存储到关系的活动文件请
PHP 中的 MongoDB - 如何将项目插入集合中的数组中？

这必须很容易但我似乎无法弄清楚假设我有一个集合users这是集合中的第一项 id ObjectId 4d8653c027d02a6437bc89ca name Oscar Godson email email protected cdn
Mongodump之后，调用MongoRestore挂起

我们正在尝试在相对较小的数据库上做一个简单的 MongoDump 我们的步骤很简单 export 从目标机器上删除现有数据库在目标机器上导入 MongoDump 完美执行 mongodump out root mongo prod DB
使用 Tweepy 获取推文时出错

我有一个用于获取推文的 Python 脚本在脚本中我使用该库 Tweepy 我使用有效的身份验证参数运行此脚本后一些推文存储在我的 MongoDB 中有些则被 if 语句拒绝但我仍然收到错误 requests packages u
Node.js 检测两个猫鼬查找何时完成

我正在尝试使用自动完成功能初始化两个输入library https www devbridge com sourcery components jquery autocomplete 当我加载页面时我将触发 Ajax 来初始化两个输入文本
在 MongoDB 聚合的“addField”操作中使用“$count”

我正在尝试找到聚合运算符的正确组合以将标题为 totalCount 的字段添加到我的 mongoDB 视图中这将为我提供聚合管道特定阶段的计数并将其输出为每个文档的计数结果 count count 但最终我得到了一个具有此结果的文档
如何处理 MongoDB 的断开连接错误

我在 Node js 进程中看到了这个未捕获的异常 Uncaught exception Error read ETIMEDOUT at TCP onStreamRead internal stream base commons js 16
findAndModify - MongoError：异常：必须指定删除或更新

我想更新一个数组并返回文档我的 findAndModify 语法正确吗 this becomeFollower function title username callback use strict posts findAndModify
如何在java中使用$lookup阶段与spring data mongodb？ [复制]

这个问题在这里已经有答案了到 Spring 的最新版本我已经看到很多堆栈溢出问题这表明 spring data mongodb 中不支持此操作新的 spring data mongodb 1 10 0 中是否支持此操作 db orde
即使添加索引后，mongodb group by 仍很慢

我有一个简单的集合 id ObjectId 5033cc15f31e20b76ca842c8 class com pandu model alarm Alarm serverName CDCAWR009 Integration Servic
通过在 body、mongoose/mongodb 中提供文档来更新多个文档

我需要通过在正文中提供一些文档来更新它们我无法查询它们必须提供它们 Example var persons id 1 name Joe active false id 2 name Jane active false 该数据在正文中提供
如何更新 Laravel 编辑视图中的图像？

在 Laravel 中我的编辑视图中有一个名为个人资料图片的字段每当我单击编辑按钮时我都会在编辑视图中从数据库中获取所有值但没有获得图像并且如果每当我每次单击提交按钮时我都必须如果没有上传图像我无法进一步处理我想要
在 Flurry 中记录比错误 ID 更多信息的方法？

我目前使用 iOS 版 Flurry 5 4 0 我担心在方法方面是否能够记录更多信息而不仅仅是错误 ID void logError NSString errorID message NSString message error NSE
在 React 应用程序中简单连接到 mongodb

我使用 create react app 创建了简单的反应应用程序这个应用程序包含表单验证和引导程序没有什么花哨的东西能像魅力一样发挥作用我还注册了 mongo 以获得免费集群以便我可以发送一些数据所以我有这个网址 mongod
如何在 Meteor 应用程序之间共享 MongoDB 集合？

我希望能够为我的项目提供一个管理应用程序和一个客户端应用程序理想情况下我希望能够拥有一个共享的 MongoDB 集合我怎样才能做到这一点我尝试在两个不同的应用程序中创建具有相同名称的集合但发现 Meteor 会将数据分开知道我能
使用 Java 为 MongoDB 中的外部值分配权重

这就是我如何创建具有不同权重的索引蒙戈外壳 db blog ensureIndex content text keywords text about text weights content 10 keywords 5
将MongoDb atlas数据库导出到本机Mongo compass

我在 Atlas 中有一个名为 test 的远程数据库我想将集合名称 image table 下载为 JSON 文件在 Mac 终端中 mongoexport db test collection image table image j
是否可以从 MongoDB 查询返回计算字段？

在 SQL 中我可以做类似的事情 SELECT myNum myNum 1 as increment FROM myTable 有效地执行任意数学和其他函数并将它们作为结果中的字段返回 MongoDB 也可以做同样的事情吗 db test

随机推荐

在 GNU 汇编器中处理或记住 cmp 的向后参数的好方法是什么？

以下是一些采用 Intel 语法的汇编代码 Jump to done if rsi gt rax cmp rsi rax jae done 这对我的大脑来说是有道理的如果 rsi 高于或等于 rax 你就会跳匹配中参数的顺序cmp操作说
在 n 个皇后主要冲突搜索上表现不佳

我正在实施 nqueens min conflict 搜索如所述 Norvig S Peter J R and 2014 Artificial Intelligence A Modern Approach In Pearson Vol 5
gem install Rails 不安装rails

当我尝试安装导轨时 root li44 48 gem install rails Successfully installed rails 3 2 1 1 gem installed Installing ri documentation
从黑莓通知栏打开应用程序

对于我的应用程序我需要在通知栏中创建一个图标我能够做到这一点我的问题是我需要从通知栏打开此应用程序当用户选择通知屏幕时我的应用程序状态应该显示当用户选择我的应用程序时我的应用程序应该直接打开看看下面的类 Applicatio
在 Delphi XE2 中同时调试多个应用程序

是否可以在一台机器上同时在 Delphi XE2 中调试多个应用程序我有两个实际上是三个但中间的一个工作正常相互发送消息我希望能够同时调试这两个程序这可能吗如果是这样怎么办 Thanks 是的这是可能的确保项目组中要调试
ASP.NET WebForm App_Theme 导致编译错误

我有一个引用这样的主题的 WebForm TestTheme 只包含一个 Test skin 文件其内容如下
如何在 Crystal Report XI 中的运行时禁用参数提示？

如何在 Crystal Report XI 运行时禁用子报表中的参数提示我用的是Ms VS 2005 报告也包括在内其他报表功能与水晶报表功能相同其他报表在运行时不显示提示不包括子报表提示出现一份包含子报告所以你可能有任何建议
MSBuild - 当我进行部署时如何强制“AfterBuild”目标？

我有以下设置 ASP Net MVC Net 4 0 解决方案其中有 5 个项目以及几个解决方案配置站点 1 阶段站点 1 实时站点 2 阶段 ETC 原因很简单我们将相同的代码库部署到具有不同配置设置的多个服务器为了管理这些
如何在 npm 脚本中引用包版本？

我想在 npm 脚本中引用我的包版本以便我可以在应用程序中显示当前版本就像是 name bla version 1 0 0 author bla bla scripts build node VERSION lt
在 HTML 表单提交中使用 Enter 键而不是激活按钮

我有一个 HTML 表单其中包含一个submit输入还有各种button元素当用户按下 enter 键时我希望它实际提交表单但相反至少在 Chrome 15 内我发现它触发了第一个button 因为它在 HTML 中出现的时间
Java 是否有 Integer、Float、Double、Long 的可变类型？

我现在的情况是想使用 Integer 之类的可变版本我必须使用这些类如下还是 Java 有内置的东西 http www java2s com Code Java Data Type Amutableintwrapper htm htt
Hibernate JPQL 抛出无法键入更新/删除查询

我正在尝试使用 HQL 删除实体但失败了 TypedQuery
为什么 Clojure 缺少用户定义的读取器宏？

据我了解 Clojure 不会公开读取器宏表或允许用户定义读取器宏 From http clojure org reader http clojure org reader The read table is currently not a
相机预览处于纵向模式，但捕获的图像是旋转的

我正在尝试使用相机拍摄照片默认情况下预览处于横向模式我可以使用将其更改为纵向模式 setCameraDisplayOrientation this 1 mCamera public static void setCameraDispla
如何获得最大精度浮点数据类型的实现及其 printf 说明符？

或者换句话说是否有等价物intmax t and jd但对于浮点数呢这已经作为一个附带问题提出了here https stackoverflow com questions 3874586 some questions about fl
我可以在 SQL Server / TSQL 中回滚动态 SQL

我可以在事务中运行动态 sql 并使用 EXEC 回滚吗 exec SELECT FROM TableA SELECT FROM TableB 将其放入事务中并在 exec 语句后使用 error 来执行回滚 eg Code BEGIN
GNU getline 接口是否有替代实现？

我目前正在进行的实验使用的软件基础具有复杂的源历史记录并且没有明确定义的许可证合理化事情并在固定许可证下发布将需要大量的工作它还旨在运行一个随机的 unixish 平台并且只有我们支持的一些 libc 具有 GNU getline 但
为什么 C# 中的内置类型是语言关键字？

在 C 中标识符例如int or string实际上是语言级别的关键字这是什么原因呢 Note that if the authors wanted to disallow user types with these names tha
编译表达式树的误区？

我有这样的表达 Expression
随着时间的推移范围支持分桶分析

Read this https www compose com articles first steps of an analytics platform with mongodb 并尝试进行实验下面是我的架构 SCHEMA s CB c

随着时间的推移范围支持分桶分析

随着时间的推移范围支持分桶分析 的相关文章

随机推荐

热门标签

随着时间的推移范围支持分桶分析的相关文章