Spark 请求最大计数

2024-05-20

我是 Spark 的初学者，我尝试请求允许我检索最常访问的网页。

我的要求如下

mostPopularWebPageDF = logDF.groupBy("webPage").agg(functions.count("webPage").alias("cntWebPage")).agg(functions.max("cntWebPage")).show()

通过此请求，我仅检索具有最大计数的数据帧，但我想检索具有此分数的数据帧以及保存此分数的网页

像这样的东西：

webPage            max(cntWebPage)
google.com         2

我该如何解决我的问题？

多谢。

在pyspark + sql中：

logDF.registerTempTable("logDF")

mostPopularWebPageDF = sqlContext.sql("""select webPage, cntWebPage from (
                                            select webPage, count(*) as cntWebPage, max(count(*)) over () as maxcnt 
                                            from logDF 
                                            group by webPage) as tmp
                                            where tmp.cntWebPage = tmp.maxcnt""")

也许我可以让它更干净，但它确实有效。我会尝试优化它。

我的结果：

webPage      cntWebPage
google.com   2

对于数据集：

webPage    usersid
google.com 1
google.com 3
bing.com   10

说明：正常计数是通过分组+count(*)函数完成的。所有这些计数的最大值是通过窗口函数计算的，因此对于上面的数据集，直接 DataFrame /不删除 maxCount 列/是：

webPage    count  maxCount
google.com 2      2
bing.com   1      2

然后我们选择计数等于 maxCount 的行

编辑：我已经删除了 DSL 版本 - 它不支持 window over () 并且排序正在改变结果。对此错误感到抱歉。 SQL版本正确

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

apachesparksql

Spark 请求最大计数的相关文章

计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
在 DataFrame.withColumn 中，如何检查列的值是否为 null 作为第二个参数的条件？

如果我有一个名为 df 的 DataFrame 如下所示 a1 a2 foo bar N A baz null etc 我可以有选择地替换值如下所示 val df2 df withColumn a1 when a1 N A a2 这样 d
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

mouseover 函数在队列中多次出现

我有这段代码可以在鼠标悬停时使一个 div 淡出另一个 div 并在光标离开查看区域时淡出例子 http jsfiddle net 3vgbemgu http jsfiddle net 3vgbemgu under hover func
在 MongoDB 上，当我的回调位于“find”内部时，如何限制查询？

我在 MongoDB 中有这个查询 db privateMessages find or fromId userId toId socket userId fromId socket userId toId userId function
Poetry install --no-dev 需要安装 Rust 吗？

我正在 Raspberry pi 3b Lite buster 2020 年 2 月的容器中安装 Poetry 我使用图像arm32v7 python 3 7 slim buster 这里是Dockerfile FROM arm32v7
使用 xmllint 检查 XML 语法

我在处理某些 XML 打印文件时遇到问题其中源系统忽略将某些字符转换为其等效的 XML 语法例如未转换为 amp 有没有办法用 xmllint 捕获这个我不需要使用 XSD 检查一般树结构 xmllint noout your te
Angular 5 - 使用对象进行表单控制

我目前正在开发一个由 Django 支持的 Angular 应用程序该应用程序的一部分是它需要显示成员列表成员数组看起来有点像这样 name John Smith id 3 score set name Jane Doe id 7 sc
Firebase 数据库快速入门处理计数的方式安全吗？

我想为文章点赞创建一个增量字段我指的是这个链接 https firebase google com docs database android save data save data as transactions https fireb
Selenium c#：如何在特定版本中启动 Internet Explorer 驱动程序（例如 IE8）

在 java 中可以通过传递所需的功能来设置 Internet Explorer 驱动程序的 IE 版本这在 C 中不起作用我希望它看起来像这样 DesiredCapabilities ieCapabilities null ieCa
Excel - 在一列中查找重复项，然后将数量求和到另一列中？

查找一列中的重复项然后将数量求和到另一列中 https i stack imgur com AADjd png DATA RESULT A 1 A 11 A 1 B 7 A 9 C 5 B 2 D 4 B 2 E 8 B 3 C 5 D
Core Animation 是否为 iBook 样式卷页过渡提供公共 API？

Core Animation 是否为 iBook 样式卷页过渡提供公共 API 我见过this http blog steventroughtonsmith com 2010 02 apples ibooks dynamic page cu
Nativescript Switch 防止在初始绑定时触发更改事件

嗨我的模板如下所示
在heroku上部署时出错，/bin/sh: 1: webpack: not found

这是我在 heroku 网站上手动部署时遇到的错误首先我在 json 文件中遇到错误因此我指定了正在运行的 npm yarn 和 node 版本这些错误似乎已经清除现在我就是这样的人并且已经搜索了谷歌但似乎找不到太多关于修复它
如何从我自己的脚本向 Fish shell 提供制表符补全？

我运行的是 Ubuntu 13 10 和 Fish 2 1 0 我想自己编写一个 Python 脚本来从命令行执行一些任务该脚本将需要命令行参数我怎样才能编写我的脚本以便 Fish 可以请求并获取给定参数的可能值潜在值列表是动态的
Textmate“注释”命令对于 css 代码无法正常工作

当我在 TextMate 中切换 CSS 源代码的注释时遇到一些问题 Using the shortcut CMD I activate the Comment Line Selection command from the source
取消html5浏览器中的单图请求

我正在动态加载大图像以绘制到 html5 画布中如下所示 var t new Image t onload t src http myurl 但每隔一段时间就会想取消图片请求完全地我想出的唯一方法是设置src to i e t sr
如何从秘密字符串中制作 HMAC_SHA256 密钥以在 jose4j 中与 JWT 一起使用？

我想生成 JWT 并使用 HMAC SHA256 对其进行签名对于该任务我必须使用jose4j https bitbucket org b c jose4j wiki Home 我尝试根据秘密生成密钥 SecretKeySpec key
如何将所有父母的父母作为循环引用表中子对象的列？

我有一个表格其中有类似的列 entityID entityName parentID 我如何编写一个查询来返回实体的所有父级级别以返回类似的内容 childentityname parentlevel1name parentlevel2
如何读取和更改 TEdit 控件的值？

我有一个表格TForm1有 5TEdit and 2 TBitBtn 我还需要该程序以便在输入数字数据后Edit1 and Edit2 on BitBtn1Click Edit1 and Edit2值将被求和并显示在Edit3 你想做这样
为什么 java 编译器不报告 Intellij 中多播表达式的未经检查的强制转换警告？

为什么下面的代码没有报告 Intellij IDEA 的未经检查的警告jdk 1 8 0 121自从Supplier
numba 函数何时编译？

我正在研究这个例子 http numba pydata org numba doc 0 15 1 examples html multi threading http numba pydata org numba doc 0 15 1 ex
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW

Spark 请求最大计数

Spark 请求最大计数 的相关文章

随机推荐

热门标签

Spark 请求最大计数的相关文章