Pyspark 向数据帧添加顺序和确定性索引

2023-12-02

我需要向数据帧添加一个索引列，并具有三个非常简单的约束：

从0开始
是连续的
具有确定性

我确信我错过了一些明显的东西，因为我发现的例子对于这样一个简单的任务来说看起来非常复杂，或者使用非顺序、非确定性越来越单调的 id。我不想使用索引进行压缩，然后必须将以前分隔的列分开，这些列现在位于单个列中，因为我的数据帧以 TB 为单位，这似乎没有必要。我不需要按任何内容进行分区，也不需要按任何内容进行排序，我找到的示例就是这样做的（使用窗口函数和 row_number）。我需要的只是一个简单的 0 到 df.count 整数序列。我在这里缺少什么？

1, 2, 3, 4, 5

我的意思是：如何添加一个具有有序、单调递增 1 序列 0:df.count 的列？（来自评论）

您可以使用row_number()在这里，但为此你需要指定一个orderBy()。由于您没有排序列，因此只需使用monotonically_increasing_id().

from pyspark.sql.functions import row_number, monotonically_increasing_id
from pyspark.sql import Window

df = df.withColumn(
    "index",
    row_number().over(Window.orderBy(monotonically_increasing_id()))-1
)

Also, row_number()从 1 开始，所以你必须减去 1 才能从 0 开始。最后一个值是df.count - 1.

我不想使用索引进行压缩，然后必须将以前分隔的列分开，这些列现在位于单个列中

You can use zipWithIndex如果你按照它打电话map，以避免所有分离的列变成单个列：

cols = df.columns
df = df.rdd.zipWithIndex().map(lambda row: (row[1],) + tuple(row[0])).toDF(["index"] + cols

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Indexing

PySpark

Pyspark 向数据帧添加顺序和确定性索引的相关文章

MySQL：为什么 IN 子句中的第 5 个 ID 会极大地改变查询计划？

给出以下两个查询 Query 1 SELECT log id FROM log WHERE user id IN 188858 188886 189854 203623 204072 and type in 14 15 17 ORDER B
由于类型错误无法创建索引：格式字符串参数不足

我正在尝试使用 pymongo 创建索引但因错误而失败 File D Users Dims Design EnergentGroup Python GIS Developer worker Approach03 sentinel mong
pyspark读取bigquery时出错：java.lang.ClassNotFoundException：org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群并尝试提交我的本地作业进行测试 gcloud beta dataproc clusters create test cluster region us central1 zone us central1
何时对 MongoDB 集合调用 EnsureIndex？

我什么时候应该打电话ensureIndex 插入单条记录之前插入单条记录之后或者调用之前find 看来我的评论有点被误解了所以我会澄清一下当你调用它时并不重要只要在第一次调用 find 之前的某个时刻调用它即可换句话说什么时候创
SQL Server 为什么索引不与 OR 一起使用

我一直在研究索引并试图了解它们是如何工作的以及如何使用它们来提高性能但我错过了一些东西我有下表 Person Id Name Email Phone 1 John E1 P1 2 Max E2 P2 我正在尝试找到对列进行索引的最佳方法
如何调试 Spark 工作线程上的映射函数中的错误？

我是 Spark 新手正在努力寻找自己的方法我有一个 Spark 应用程序它在dataset 此地图功能可能会因主要与数据相关的原因而失败我怎样才能获得一些关于问题所在的有意义的信息我不知道从哪里开始非常感谢如果您想编写单元测
如何在 PHP 中实现前向索引？

我希望在 PHP 中实现一个简单的前向索引器是的我确实知道 PHP 并不是完成这项任务的最佳工具但无论如何我还是想这样做其背后的理由很简单我想要一个并且是 PHP 版本让我们做一些基本假设整个互联网包括大约五千个 HTML
空间索引无助于 SQL 查询（性能非常慢）

我正在尝试测试包含 170 万个邮政编码的表中纬度经度值的空间索引的性能我创建了一个地理列并向其中添加了一个索引但是使用空间索引的查询比在同一个表中的纬度经度列上使用正常索引的查询要慢得多至少 100 倍但是查询计划显示索引
在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
Mongodb：$HINT 的性能影响

我有一个使用复合索引并在 id 上排序的查询复合索引在索引末尾有 id 它工作正常直到我添加 gt我的查询的子句 IE 初始查询 db colletion find field1 blabla field2 blabla sort id
如何使用 C# 在 Amazon Dynamo DB 中为 Json 属性（列值）创建全局二级索引？

我有一个包含 Id 列和 JSON 列的表 Id JSON 101 person id 456 f name t l name Jack 102 person id 123 f name M l name Ron 103 person id
从另一个未排序的numpy数组中的数据查找未排序的numpy数组中值的索引位置[重复]

这个问题在这里已经有答案了我有一个 numpy 数组 A 其中包含可以按任何顺序排列的唯一 ID 例如A 1 3 2 我有第二个 numpy 数组 B 它记录了 ID 何时被使用例如B 3 3 1 3 2 1 2 3 1 1 2 3 3
如何在Zeppelin笔记本和pyspark中导入Delta Lake模块？

我正在尝试在 Zeppelin 笔记本中使用 Delta Lake 和 pyspark 但似乎无法成功导入模块例如 pyspark from delta tables import 它失败并出现以下错误 ModuleNotFoundErr
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
如何将数组列表转换为 Spark 数据帧

假设我有一个列表 x 1 10 2 14 3 17 我想转换x具有两列的 Spark 数据框id 1 2 3 和value 10 14 17 我怎么能这么做呢 Thanks x 1 10 2 14 3 17 df sc paralleliz
将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个 JSON 文件 a 1 b 2 这是通过Python json dump方法获得的现在我想使用 pyspark 将此文件读入 Spark 中的 DataFrame 根据文档我正在这样做 sc SparkContext sql
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0

随机推荐

如何为 Django 中的某一类别创建链接

我正在编写一个新闻网站我在新闻模型中有类别我想获取 index html 中名为意见的类别之一中的所有新闻并为每个人创建详细信息页面链接我可以知道上面提到的新闻的标题作者等但是我的大脑真的很垃圾我不知道如何为每个新闻创建
在子图的情况下，如何为所有 x 轴和 y 轴使用通用标签？

我使用以下循环来获取子图 for j 1 19 Aj B j subplot 5 4 j plot Aj h end 对于所有这些子图我只需要一个 x 标签和一个 y 标签这个怎么做另外如何将图例插入到所有子图中您可以使用supla
Oracle 中相当于 SQL Server 的 IsNull() 函数的是什么？

在 SQL Server 中我们可以输入IsNull 确定字段是否为空 PL SQL 中有等效的函数吗 coalesceOracle 和 SQL Server 均受支持其功能与nvl and isnull 有一些重要的区别 coalesc
如何解析SVG元素的viewBox x、y、宽度和高度值？

假设我有一个 SVG 元素
PySide/PyQt4：向 QTableWidget 水平（列）标题添加复选框

我试图在 qtablewidget 的水平列标题中放置一个复选框基于其他帖子here 因为基本对象类型是相同的我尝试过 item QtGui QTableWidgetItem item setCheckState QtCore Qt
Spring 和 Ajax

我可以将 Spring 表单标签库与 Ajax 结合使用吗我无法检索控制器内的表单输入参数他们总是null 实际上有一个逻辑就是表单永远不会被提交但随后我只能将字符串发送到我的控制器而不是像映射到 Spring 的表单提交那样发送
如何使用 Metal 将纹理缓冲区数据传递给 Shader？

我想在计算着色器中将纹理数据作为一维数组处理我读到最好的方法是将其作为缓冲区而不是一维纹理传递我正在加载纹理 let textureLoader MTKTextureLoader device device do if let imag
DataGridView 中的总计行

我正在开发一个winform应用程序我想显示每列最后一行的列总和该行必须始终可见目前我正在考虑在带有记录的数据网格视图下方添加另一个数据网格视图并将在底部数据网格视图中显示总和如果有更好的方法来完成这个任务吗不需要添加另一个
删除 geom_text 中的重复标签

我的数据如下所示 composerName season Location Time Venue eventType id conductorName interval movement workTitle 1 Anthem 1918 19
Magento 1.6，Google 购物/产品/内容

Magento 1 6 于本周初发布但使用 mage googleshopping 扩展 http www magentocommerce com magento connect Magento Core extension 6887 m
编译 Play 应用程序时出现的问题

我在编译 Play 框架应用程序时遇到了一些问题有时应用程序运行良好但大多数时候这些问题都是在 sbt 和 activator 工具中发生的这是使用 sbt 编译我的应用程序的示例 info Compiling 15 Scala so
Objective C 类方法返回值，分配给弱/强属性

我面临着一些涉及弱属性和强属性的困惑为了简洁起见我不会包含整个代码我创建了一个返回 UIView 对象的类便捷方法并在 UIView 类别中实现了它作为子类化的替代方法 implementation UIView CSMonthVi
使用 CUT 和 Quartile 在 R 函数中生成中断

下列的之前的一些很好的建议我现在正在编写第二个 R 函数并使用类似的逻辑然而我正在尝试更多地自动化但可能变得太聪明了不利于我自己我想根据订单数量将客户分成五分位数这是我执行此操作的代码 sample data clientID
如何在 apache Camel Rest api 中进行自定义错误处理？

我有一个 apache Camel Rest api 它从 S3 下载文件我发送 json 输入 key bucketname accessKey secretKey region 以便写入 URI 代码如下所示 public stati
vba 循环中出现类型不匹配错误

我正在 Outlook VBA 中工作并构建了一个 For Next 循环来读取 MailItems 的正文其格式类似于 Key Value 对在某种程度上它似乎有效但在第二次迭代结束时当它到达下一个项目时我收到抛出类型
阻止传出短信

如果短信包含根据数据库过滤的单词如何阻止传出短信我可以监控发送的消息是否包含已过滤的单词但我无法阻止短信您无法停止手机上默认消息发送应用程序发送短信为此您必须创建自己的短信盒应用程序然后才能向其中添加自定义功能
如何使用 Bundle 在 Activity 之间传递 Uri 数组

我需要将 Uri 数组传递给另一个活动传递一个我简单使用的字符串数组 String images getImagesPathString Bundle b new Bundle b putStringArray images images
如何向 UIToolBar 添加图像？

我想将图像添加到用户无法与之交互的 UIToolBar 它本质上只是一个非交互式指示器就像徽章一样这可能吗如果是这样怎么办创建一个UIBarButtonItem使用图像并添加它 Example UIBarButtonItem it
处理按钮外部的点击事件

我正在尝试通过重现 Apple AppStore 中的应用程序来练习 C 在应用程序中有一个带有文本的矩形 Touch me 当您触摸它时矩形会自行重新定位执行此操作几次后文本将更改为不要碰我在这种情况下您必须触摸矩形之外一
Pyspark 向数据帧添加顺序和确定性索引

我需要向数据帧添加一个索引列并具有三个非常简单的约束从0开始是连续的具有确定性我确信我错过了一些明显的东西因为我发现的例子对于这样一个简单的任务来说看起来非常复杂或者使用非顺序非确定性越来越单调的 id 我不想使用索引进行压

Pyspark 向数据帧添加顺序和确定性索引

Pyspark 向数据帧添加顺序和确定性索引 的相关文章

随机推荐

热门标签

Pyspark 向数据帧添加顺序和确定性索引的相关文章