计算 PySpark DataFrame 列的众数？

2023-11-27

最终我想要的是 DataFrame 中所有列的列模式。对于其他汇总统计信息，我看到了几个选项：使用 DataFrame 聚合，或将 DataFrame 的列映射到向量的 RDD（我也遇到了麻烦）并使用colStats来自 MLlib。但我不认为模式是一个选项。

众数问题与中位数问题几乎相同。虽然计算很容易，但计算成本相当高。可以使用排序后进行本地和全局聚合，也可以使用另一个单词计数和过滤器来完成：

import numpy as np
np.random.seed(1)

df = sc.parallelize([
    (int(x), ) for x in np.random.randint(50, size=10000)
]).toDF(["x"])

cnts = df.groupBy("x").count()
mode = cnts.join(
    cnts.agg(max("count").alias("max_")), col("count") == col("max_")
).limit(1).select("x")
mode.first()[0]
## 0

无论哪种方式，都可能需要对每一列进行完全洗牌。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

DataFrame

apachespark

PySpark

apachesparksql

mode

计算 PySpark DataFrame 列的众数？的相关文章

R：将数据帧分为 3 部分

我试图将数据框分为 3 部分 4352 行我试过split df 1 3 它完成了工作但是当我尝试查看 split df 时它给出了错误 splitdf lt split df f rep len 1 3 nrow df View s
如何使用groupby将多个函数应用于Pandas中的多个列？

我有一个正常的df A pd DataFrame 1 5 2 2 4 4 3 3 1 4 2 2 5 1 4 columns A B C index 1 2 3 4 5 下列的这个食谱 https stackoverflow com que
将 pandas DataFrame 中的数字转换为特定字符串格式

我需要运行一个可以通过循环完成的任务但我想有一种更有效更漂亮的方法来做到这一点我有一个DataFrame它有一个整数列我想将其转换为 4 位字符串表示形式也就是说 3 应转换为 0003 234 应转换为 0234 我正在寻找一种
除下一行的值并在数据框中创建列

我有一个像这样的csv id value 1 100 1 150 1 200 1 250 2 300 2 350 2 400 2 450 我想根据每个唯一 ID 的值生成一列例如 id 1 的前 2 行值为 100 150 我正在尝试创建
闪亮错误：参数暗示行数不同

我正在尝试开发一个简单的应用程序从 Kijiji 网站获取本地分类广告我用几乎相同的脚本制作了一个类似的应用程序但我没有收到下面描述的错误所以我不知道这个脚本出了什么问题我尝试了我能想到的一切但无法让它发挥作用的结构df数据框
总分配超过堆内存的 95.00%（960,285,889 字节）- pyspark 错误

我用 python 2 7 编写了一个脚本使用 pyspark 将 csv 转换为 parquet 和其他内容当我在小数据上运行脚本时它运行良好但是当我在更大的数据 250GB 上运行脚本时我遇到了以下错误总分配超过堆内存的 9
R 根据事件更新值

我最近发布了这个问题该问题已经与我在笔记本电脑上本地使用的 Mysql 数据库相关由于我在 Mysql 中没有找到问题的解决方案其他人似乎也没有找到解决方案所以我想再次发布它但现在与 R 相关我使用带有 RMysql 包的数据库
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
获取数据框中列与特定值匹配的整数行索引

给定一个 Pandas 数据框其中一列如下所示 Date 2016 04 15 2016 04 14 2016 04 13 2016 04 12 2016 04 11 2016 04 08 假设值是唯一的如何获取特定值的行索引例如 2
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
对于多列，将当前行和上一行的差异附加到新列

对于 df 中的每一列我想从前一行 row n 1 row n 中减去当前行但我遇到了困难我的代码如下 usr bin python3 from pandas datareader import data import pandas
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
将数据框中重叠的范围合并到唯一的组中

我有一个 n 行 3 的数据框 df lt data frame start c 178 400 983 1932 33653 end c 5025 5025 5535 6918 38197 group c 1 1 2 2 3 df sta
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce

随机推荐

在Windows窗体上显示pdf？

在vb net中是否可以在表单上显示pdf文件如果您希望在客户端计算机上不安装 Acrobat Reader 的情况下显示 PDF 请查看以下内容未安装 Acrobat Reader 的 PDF 查看器控件我还没有尝试过但可能会尝试
命名元组的 Python 语法

我看到命名元组的 Python 语法是 Point namedtuple Point x y 为什么不像这样更简单 Point namedtuple x y 它不太冗长一般来说对象不知道它们被分配给什么变量 Create three v
如何在c#中连接access数据库[关闭]

很难说出这里问的是什么这个问题模棱两可含糊不清不完整过于宽泛或言辞激烈无法以目前的形式合理回答如需帮助澄清此问题以便重新打开访问帮助中心我有一个包含 7 个表的访问数据库文件但我不知道如何连接并显示所有表如果有人可以帮助
如何检索.Net WinForms图表控件中选定的范围？

我正在使用 C 内置 Winforms 图表控件 System Windows Forms DataVisualization Charting Chart 具有让用户选择范围的内置功能我想做的是读回用户选择的范围当然一定有一些简单的方
将多维数组转换为 XML

在您评论这可能是重复的之前请先阅读下面的粗体行这与 SimpleXML 无关让我首先展示应如何布置 XML 请忽略命名空间
在 PHP 中按子数组的值对数组进行排序

我有一个由数组组成的数组我想根据子数组的属性对父数组进行排序这是一个例子 array 2 0 gt array 3 0 gt string 6 105945 1 gt string 10 First name 2 gt float 0
innerHTML：如何避免

我正在编写一个插件它将表情符号转换为特定网站文本块中的图像简单的答案是使用正则表达式来检测innerHTML上的触发文本并插入img标签然后将字符串通过管道传回中的dom元素内部HTML部分 DOM 元素块可能已经有锚点 a 和或文
如何在 VC++ 项目中关闭 Unicode？

我在 Visual Studio 2008 中有一个 VC 项目它在编译器命令行上定义 unicode 的符号 D UNICODE D UNICODE 即使我没有在项目的预处理器部分中打开此符号因此我针对所有 Win32 库函数的 U
ZeroMQ - 多个发布者和监听器

我刚刚开始了解并尝试 ZeroMQ 我不清楚如何在两个以上的参与者发布者和订阅者之间进行双向通信以便每个组件都能够在 MQ 上读取和写入这将允许创建事件驱动的架构因为每个组件都可以侦听一个事件并回复另一个事件有没有办法直接使用
如何在 WPF 中从 C# 获取超链接文本？

我有一个WPFHyperlink我正在尝试从中获取文本内容例如
如何将 gitlab 备份迁移到具有最新 gitlab 版本的新服务器

我正在尝试将旧服务器的 gitlab 备份迁移到新服务器我的旧服务器有 gitlab gitlab 6 5 1 0 我的新服务器有 gitlab 版本 gitlab 6 6 5 omnibus 我使用以下命令从旧服务器进行备份 bundl
从嵌套 for 循环继续 while

我有以下循环结构 while reader Read eq true row for i 0 i lt reader FieldCount i if something continue with while do more stuff 现
如何在 SSIS 中为 Excel 文件设置动态文件路径？

文件名随月份而变化每个月您都会有一个新文件 I Test Data 201303 xlsx 如何设置可使用可变文件路径的连接管理器在连接管理器上查找表达式属性这就是您将其设置为 USER VariableName 的地方更详细
解析中缀表示法的表达式的算法是什么？

我想在 PHP 中解析布尔表达式如 A and B or C and D or F or not G 这些术语可以被视为简单的标识符它们会有一些结构但解析器不需要担心这一点它应该只识别关键字and or not 其他一切都是一个术语
如何用二进制字段进行选择？（php、mysql）

尝试在 mysql 语句中选择使用 where 子句例如表 X 具有 BINARY 数据类型的 ID 列然后保存到php的变量中 aid row id 稍后当我尝试从表中选择时如何使用此变量 where where ID aid qu
什么用户正在运行我的 Rails 应用程序？

我正在尝试在 Apache Passenger 3 0 0 和 Rails 3 0 3 下部署一个简单的 Rails 应用程序我收到各种奇怪的错误主要围绕我认为与捆绑器或 RAILS ENV 相关的内容该应用程序唯一的非默认情况是开发
用 jQuery 中的新行替换结果集中的逗号

我过去从未做过这样的事情我想知道这是否确实可能我允许在 an 中添加多个代码只要它们以逗号分隔即可我想要做的是当用户单击确定按钮时显示输入的数字将显示它们一个一个在彼此之上旁边有一个删除按钮这部分很容易困难的部分是
在 Google Play 上向有限数量的用户发布

我想将我的应用程序发布给有限的一组用户不特定于国家地区和运营商我在网上搜索发现this 然而这导致了混乱文件一开始就说我们可以创建一个私人渠道来在整个组织中分发应用程序 Google Apps for Business Educa
在注释该线程的 pthread_join 时多次执行同一线程子例程[重复]

这个问题在这里已经有答案了我是线程新手在这里如果我评论 pthread join thread1 NULL 那么在输出中有时我会得到 Thread2 Thread1 Thread1 我无法理解为什么 Thread1 跟踪会出现两次以及
计算 PySpark DataFrame 列的众数？

最终我想要的是 DataFrame 中所有列的列模式对于其他汇总统计信息我看到了几个选项使用 DataFrame 聚合或将 DataFrame 的列映射到向量的 RDD 我也遇到了麻烦并使用colStats来自 MLlib 但我不

计算 PySpark DataFrame 列的众数？

计算 PySpark DataFrame 列的众数？ 的相关文章

随机推荐

热门标签

计算 PySpark DataFrame 列的众数？的相关文章