Twitter 数据 - 查找 MongoDB 中被提及最多的用户

2024-04-22

假设我有来自 Twitter API 的流数据，并且将数据作为文档存储在 MongoDB 中。我想要找到的是计数screen_name under entities.user_mentions.

{
    "_id" : ObjectId("50657d5844956d06fb5b36c7"),
    "contributors" : null,
    "text" : "",
    "entities" : {
        "urls" : [ ],
        "hashtags" : [
            {
                "text" : "",
                "indices" : [
                    26,
                    30
                ]
            },
            {
                "text" : "",
                "indices" : []
            }
        ],
        "user_mentions" : [ 
                {
                    "name":"Twitter API", 
                    "indices":[4,15], 
                    "screen_name":"twitterapi", 
                    "id":6253282, "id_str":"6253282"
                }]
    },
    ...

我尝试使用地图减少：

map = function() {
    if (!this.entities.user_mentions.screen_name) {
        return;
    }

    for (index in this.entities.user_mentions.screen_name) {
        emit(this.entities.user_mentions.screen_name[index], 1);
    }
}

reduce = function(previous, current) {
    var count = 0;

    for (index in current) {
        count += current[index];
    }

    return count;
}

result = db.runCommand({
    "mapreduce" : "twitter_sample",
    "map" : map,
    "reduce" : reduce,
    "out" : "user_mentions"
});

但它不太有效...

Since entities.user_mentions是一个数组，您希望为其中的每个 screen_name 发出一个值map():

var map = function() {
    this.entities.user_mentions.forEach(function(mention) {
        emit(mention.screen_name, { count: 1 });
    })
};

然后通过唯一的 screen_name 来计算值reduce():

var reduce = function(key, values) {
    // NB: reduce() uses same format as results emitted by map()
    var result = { count: 0 };

    values.forEach(function(value) {
        result.count += value.count;
    });

    return result;
};

注意：要调试你的map/reduce JavaScript函数，你可以使用print() and printjson()命令。输出将出现在您的mongod log.

编辑：为了比较，这里是一个使用新的示例聚合框架 http://docs.mongodb.org/manual/reference/aggregation/在 MongoDB 2.2 中：

db.twitter_sample.aggregate(
    // Project to limit the document fields included
    { $project: {
        _id: 0,
        "entities.user_mentions" : 1
    }},

    // Split user_mentions array into a stream of documents
    { $unwind: "$entities.user_mentions" },

    // Group and count the unique mentions by screen_name
    { $group : {
        _id: "$entities.user_mentions.screen_name",
        count: { $sum : 1 }
    }},

    // Optional: sort by count, descending
    { $sort : {
        "count" : -1
    }}
)

最初的 Map/Reduce 方法最适合大型数据集，正如 Twitter 数据所暗示的那样。有关 Map/Reduce 与聚合框架限制的比较，请参阅 StackOverflow 问题的相关讨论MongoDB group()、$group 和 MapReduce https://stackoverflow.com/questions/12337319/mongodb-group-group-and-mapreduce/12340283#12340283.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MongoDB

twitter

Twitter 数据 - 查找 MongoDB 中被提及最多的用户的相关文章

MongoDb聚合

如何使用 mongoDb 聚合编写模拟查询 select count as ccount from a group by a someField order by ccount desc limit 1 使用 mongoDb 中的 grou
iOS计算带有嵌入推文的html字符串的正确WKWebview高度

我正在使用 wkwebview 使用 loadHTMLString 方法加载给定的 HTML 字符串在 wkwebview didFinishNavigation 之后我通过评估 javascript document height 将
Mongodb聚合，如何按间隔标准对文档进行计数？

我的 MongoDB 文档如下所示 StatCode LoadTime 例如数据可能如下所示 id StatCode LoadTime 1 200 0 345 2 200 0 234 3 200 0 396 4 200 1 234 5 2
在 MongoDB 中按索引更新插入数组中子文档中的字段

我有以下 MongoDB 结构 id other stuff my array title body email title body email title body email 我需要在 my array 字段内的子文档中更新或插入
Mongo JSON 文档 -> JSON -> BSON

我正在使用 Node js 构建一个使用 mongodb 的 Web 套接字服务器我使用 node mongodb native 作为访问 mongodb 的库当我对数据库中的对象调用 console log sys inspect i
在 MongoDB 中查找 7 天前的记录

我有一个包含对象的集合如下所示 1 id ObjectId 551c6605e4c6ac495c923aab sender id ObjectId 551c6605e4c6ac495c923aac rep sender id 38 sen
如何减少嵌套文档聚合管道中的展开阶段？

我是 mongodb 新手正在尝试使用嵌套文档我有一个查询如下 db EndpointData aggregate group id EndpointId RequestCount sum 1 FirstActivity min Dat
Mongodb upsert 嵌入文档

我每天每米有一份文件如果它不存在如何在数据数组中添加另一个子文档并创建整个文档 key 20120418 123456789 data Meter 123456789 Dt ISODate 2011 12 29T16 00 00 0Z
取消用户特定的 goroutine [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个应用程序网络应用程序允许用户使用 twitter oauth 登录并提供自动推文删除功能用户登录到 Web 应用程序后
Windows 7 机器上的 MongoDB：无法建立连接

在 Windows 7 机器上使用 mongod exe 启动 Mongo 后我尝试启动 mongo shell 但失败并出现以下错误无法连接到 127 0 0 1 27017 原因 errno 10061 否由于目标机器主动拒绝而无
聚合和展开数组，但保留顶级键

假设我的收藏中有以下文档Classes收藏家 id ObjectId 5df58d45244a850d54b922c8 mentors numOfMentors NumberInt 1 mentorList ObjectId 5c9ba63
如何在Mongodb java驱动程序中编写多个group by id字段

在下面的查询中 group id success success responseCode responseCode label label max timeStamp timeStamp 1 count responseCode sum
MongoDB $geoIntersects 不适用于包含负顶点的多边形

我已在数据库中存储了跨越 x 轴和 y 轴的多边形并且我想搜索包含给定点的多边形为此我使用 geoIntersects 运算符来指定一个点但是当多边形穿过轴时 MongoDB 不会返回任何多边形我可以对查询或架构进行任何小的更改
Mongoose 模型 update() 与 save()

有一个关于问题update vs save https stackoverflow com questions 39010045 mongoose update vs save 但它针对的是一些不同的东西我猜纯粹相关mongoose S
MongoDB 复合键：InvalidOperationException：{document}.Identity 不受支持

我在水合由复合 ID 组成的类时遇到问题该复合 ID 又具有基类我收到一条错误消息InvalidOperationException document Identity is not supported 我试图写入数据库的类如下 pub
如何从数组中删除重复的条目？

在下面的示例中 Algorithms in C 出现两次 The unset修饰符可以删除特定字段但如何从字段中删除条目 id ObjectId 4f6cd3c47156522f4f45b26f favorites books Algor
Pymongo 批量插入

我正在尝试批量插入文档但批量插入时不会插入超过 84 个文档给我这个错误 in insert pymongo errors InvalidOperation cannot do an empty bulk insert 是否可以批量插入
Mongoose.js instance.save() 回调未触发

var mongo require mongoose var connection mongo createConnection mongodb 127 0 0 1 test connection on error function err
MongoDB：检查值是否为空或数组是否为空

我想匹配所有不包含公司属性或公司值为空或空数组的文档 User find Company in null function err users if err throw err console log users length th
MongoDB 过滤嵌套对象中的数组元素

我有一个文件如下 id ObjectId 56423b2558cb340599108b35 test source member abc member xyz 我想过滤数组元素 xyz 并且我正在尝试以下查询 db coll find te

随机推荐

Prolog 管线任务

我有一项任务是在序言中制作一张简化的地铁地图其中一部分要求制定一项规则来检查两个车站是否在同一条线上我有一条规则但它似乎不起作用这就是我到目前为止所拥有的 adjacent nh lg central 4 adjacent lg o
Rails 如何处理模型中的错误和异常

所以我使用 twitter 库解析 Rails 中 twitter api 的数据有时 api 的响应可能是这样的 error Invalid parameter 模型会引发异常现在我默默地捕获它并将 error message 放入日
使用 raster() 包在 R 中导入 USDA 作物数据层 (GTIFF) 时出现问题

我已经下载了美国农业部作物数据层此处提供数据注意大文件 http www nass usda gov research Cropland SARS1a htm http www nass usda gov research Cropla
在 WAR 部署期间如何检查哪个类/jar 导致“无法从最终类继承”？

我正在将 WAR 文件部署到 Windows 7 上的 Weblogic 12 1 2 服务器也尝试过 Mac OS X 我遇到了一个例外见下文看起来其中一个类引用了某个父类的旧新版本该父类来自一些重复的 jar 我怎样才能找到哪
来自另一个 js 函数的 JQuery 自动完成源

我有一个 Jquery 自动完成函数其源是根据另一个函数计算的request term所以我不知道如何设置源属性权利自动完成 finder city autocomplete source function request var se
ActiveMQ 内存消耗通过屋顶（页面文件）...该怎么办？

我们使用的是旧版本的 ActiveMQ 5 3 2 请参阅 ActiveMQ可靠吗 https stackoverflow com questions 4303610 is activemq reliable 我们取消了持久性因为我们需要
解决依赖关系： pub 已完成，退出代码为 1

我有这个依赖冲突 flutter pub upgrade dry run Resolving dependencies Because image gt 2 1 14 lt 3 0 0 nullsafety 0 depends on arc
Swift 变量声明含义

这两个声明有什么区别哪一个更好为什么 error some NSError 1 var newUserInfo NSObject NSObject if let tempUserInfo error userInfo as NSObje
根据请求更改 PostgreSQL 日期语言

我对 PostgreSQL 有点陌生我正在尝试更改日期函数结果的区域设置以获得以下结果to char my date Month 用另一种语言这是我的一些设置 gt show lc time en US UTF 8 我在文档中发现可以
如何使用 Perl 的 DBI 处理 unicode？

My 美味到 wp perl 脚本 http edward de leau net wordpress 23 compatible wordpress delicious daily synchronization script 20071
如何在 gnuplot 中设置时区？

我有一个简单的 gnuplot 命令文件 set xdata time set timefmt s set format x H M 其中 x 时间戳列结果 UTC 格式的时间我可以更改 x 轴的本地时区吗今天刚刚在文档中发现了这一点
VarName 未定义，请修复或添加 /*global VarName*/ Cloud9

客观的阻止 Cloud9 IDE 向我发出警告消息背景我正在使用 Cloud9 IDE 编写 JavaScript 无论何时使用另一个文件同一文件夹中中的类我都会收到警告消息 VarName 未定义请修复或添加 global
使用 JWT 缺少授权标头

我正在尝试设置 JSON Web 令牌以从移动应用程序与我的 php 后端进行通信我可以请求一个令牌就好了当我需要验证它或向另一个端点发出请求时我使用以下格式设置授权标头 Bearer
SimPy 资源有 3 个，每个资源都有不同的特征

我试图模拟这样一种情况我们有 5 台机器它们的情况是 1 gt 3 gt 1 即中间的3个并行运行以减少它们所花费的有效时间我可以通过创建值为 3 的 SimPy 资源来轻松模拟这一点如下所示 simpy Resource env
如何在提交表单时禁用“window.onbeforeunload”？

当我从浏览器关闭此页面时会打开一个警告框询问离开此页面或留在此页面没关系但是当从下面给出的提交按钮提交表单时它会再次询问并显示此警报框我如何在提交表单时禁用此功能不应该询问并显示警报框
IE8 中的不透明度不起作用

我已经设置了覆盖层的不透明度该覆盖层在 FF Chrome Safari 和 IE9 中工作正常但在 IE8 中不起作用我用谷歌搜索了很多但没有找到任何解决方案我的CSS代码是 overlayEffectDiv ms filter
使用 python Shutil.py 时出现 Errno 2 没有这样的文件或目录作为文件目标

我正在使用shutil python 模块在linux redhat 机器上复制文件和目录我编写了以下方法它接受 2 个参数 src 正在收集的文件或目录的路径和目标将收集的日志目录粘贴到的所需新路径 def copy src d
RandomAccess接口，为什么没有方法？

我正在读书Collections shuffle List javadoc http docs oracle com javase 7 docs api java util Collections html shuffle 28java u
Postman：如何在运行时删除/清除postman环境变量

有没有办法在运行时使用函数删除清除邮递员环境变量我可以设置为空白或一些特殊值但是有通用的处理方法吗沙盒APIpm environment unset variableName 也允许这样做如果您想立即清除所有环境变量您可能需要执
Twitter 数据 - 查找 MongoDB 中被提及最多的用户

假设我有来自 Twitter API 的流数据并且将数据作为文档存储在 MongoDB 中我想要找到的是计数screen name under entities user mentions id ObjectId 50657d58449

Twitter 数据 - 查找 MongoDB 中被提及最多的用户

Twitter 数据 - 查找 MongoDB 中被提及最多的用户 的相关文章

随机推荐

热门标签

Twitter 数据 - 查找 MongoDB 中被提及最多的用户的相关文章