使用 Pyspark 进行虚拟编码 [重复]

2023-12-02

我希望使用 Pyspark 语法将分类变量虚拟编码为数值变量，如下图所示。

我读入这样的数据

data = sqlContext.read.csv("data.txt", sep = ";", header = "true")

在 python 中，我可以使用下面的代码对变量进行编码

data = pd.get_dummies(data, columns = ['Continent'])

但是我不知道如何在 Pyspark 中做到这一点。

任何帮助将不胜感激。

尝试这个：

import pyspark.sql.functions as F 
categ = df.select('Continent').distinct().rdd.flatMap(lambda x:x).collect()
exprs = [F.when(F.col('Continent') == cat,1).otherwise(0)\
            .alias(str(cat)) for cat in categ]
df = df.select(exprs+df.columns)

如果您不希望转换后的数据框中包含原始列，请排除 df.columns。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

encoding

PySpark

dummyvariable

使用 Pyspark 进行虚拟编码 [重复] 的相关文章

Scala中如何将DataFrame转换为RDD？

有人可以分享一下如何转换dataframe to an RDD Simply val rows RDD Row df rdd
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
Python中的Url解码UTF-8

在 Python 2 7 中给定一个类似的 URLexample com title D0 BF D1 80 D0 B0 D0 B2 D0 BE D0 B2 D0 B0 D1 8F D0 B7 D0 B0 D1 89 D0 B8 D1 8
Spark 物理计划和逻辑计划

我有两个问题在不添加任何额外代码来打印提交的 Spark 作业的逻辑和物理计划的情况下有没有办法查看集群上运行的 Spark 作业的物理和逻辑计划有没有办法动态修改集群上正在运行的 Spark 作业的执行计划以获得更好的性能请分享您
如何更改 C++ 中存储在字符串中的文件扩展名？

好吧事情就是这样我正在大学学习 C 课程但不知道如何更改文件的扩展名首先我们要做的是读取 txt 文件并计算单词句子元音等我明白了但下一步是困扰我的问题然后我们假设使用与输入文件相同的文件名创建一个新文件但扩展名为
AssertionError：断言失败：没有在 Databricks 中进行 DeleteFromTable 的计划

这个命令运行良好有什么原因吗 sql SELECT FROM Azure Reservations WHERE timestamp gt 2021 04 02 返回 2 行如下 sql DELETE FROM Azure Reservat
Windows 中的 Git Shell：补丁的默认字符编码是 UCS-2 Little Endian - 如何将其更改为 ANSI 或 UTF-8 without BOM？

当创建一个Windows 中使用 Git Shell 进行差异补丁当使用适用于 Windows 的 GitHub http windows github com the 字符编码补丁的UCS 2 小尾数法根据Notepad 参见下面的屏幕
为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
修补应用内购买黑客；卡在第四步

正如我们许多人所知苹果最近出现了一种情况黑客可以免费获得任何应用内购买苹果最近发布了这个文件 http developer apple com library ios releasenotes StoreKit IAP Receipt
为什么 Assembly.GetManifestResourceStream() 中的文本以三个垃圾字符开头？

我有一个 SQL 文件作为嵌入式资源添加到我的 VS NET 2008 项目中每当我使用以下代码读取文件的内容时返回的字符串总是以三个垃圾字符开头然后是我期望的文本我认为这与我正在使用的 Encoding Default 有关但这
如何查看Databricks中的所有数据库和表

我想列出 Azure Databricks 中每个数据库中的所有表所以我希望输出看起来像这样 Database Table name Database1 Table 1 Database1 Table 2 Database1 Table
为什么我的执行程序核心构建指定了 OOM？

我有一个正在运行的构建DRIVER MEMORY LARGE NUM EXECUTORS 64 and EXECUTOR CORES LARGE 为什么这没有足够的资源来防止我的工作因执行者损失而失败OOM https stackoverf
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a

随机推荐

如何在 OSX 上通过 Python Tkinter 安装和使用 TkDnD？

我花了一些时间来搜索在 OSX 平台上使用 Python Tkinter 进行拖放行为的可行解决方案找到的最可能的解决方案是 TkDnD 库 http sourceforge net projects tkdnd files 但是我找不到
如何修复 Core Image 的 CILanczosScaleTransform 滤镜边框伪影？

我想为 iOS 实现图像缩小算法读完核心图像后CILanczosScaleTransform非常适合它我通过以下方式实现了它 public func resizeImage image UIImage targetWidth CGFlo
在扩展方法中更改数组大小不起作用？

所以基本上我写了我的小Add数组类型的扩展方法 using System using System Linq public static class Extensions public static void Add
MVC(3) 句柄更新

我正在经历Codeplex 上的本教程这是 MusicStore 应用程序在一个场景中它是将音乐唱片添加到购物篮中然后它还允许用户删除它根据我的理解它是通过在 Controller 中实现的 Ajax 回发来实现的让我困惑的是
如何在mysql的select中使用if/else条件

如何在 mysql 中的 select 语句上使用 if else 条件如果类型初始读取 Select the Initial Column from table name否则如果 Type 最终读取 Select the Final
AngularJs动态下载响应

我写了一个基于指令斯科特的回答你会像这样使用它
jqgrid - 工具栏文本 - 这是一个好方法吗？

我已指定userdata在 JSON 响应中取决于值title财产标题将发生变化以反映title财产工具栏中的文本网格标题和数据表标题之间将发生变化 HTML table table div div JSON colModel n
如何使用 CSS 拆分表格单元格中的字符串（例如长 URL）？

情况是这样的我正在尝试一些 MySpace 页面自定义如果你有曾经尝试过 stackoverflow 我相信您明白这有多么令人沮丧基本上它可以通过 CSS 在一组特定的规则内进行自定义例如不允许使用字符多么有用看看这个blog
if 语句中多个条件的 Python 简写[重复]

这个问题在这里已经有答案了 if x y z print x y 这是 if x y and y z 的简写吗它在我的代码中有效但我不确定当多个条件不都是或时如何解释或者以上面的后一种形式写出是的如中所述文档比较可以是任意链
如何在 MATLAB 中为符号变量赋予数字？

我尝试使用以下代码在 MATLAB 中声明一个符号变量 syms a 我对这个变量进行了计算一切都很好但我的问题是我不知道如何给变量一个数字并得到数字结果例如我的代码的答案是 answer exp 10 a 例如我想给 a 40并得
当更新 sphinx.conf 中的索引时，总是需要在 sphinx 中重新启动 searchd 吗？

如果我更新 sphinx conf 文件中的资源我可以使用 rotate 重新索引一切正常如果我更新 sphinx conf 中的索引或添加新索引 rotate 不起作用我必须重新启动 searchd 我这样做是否正确我觉得 ro
当不涉及真正的 I/O 调用时，异步链的所有级别是否都需要ConfigureAwait(false)？

在 Azure Document Db Client SDK 之上实现可重用适配器类型的库该库可以在任何地方运行不仅可以在 ASP NET Core Web 服务中运行还可以在命令行应用程序 ASP NET Web Api 等中运行
R 中的 Unicode 变量名称

我正在开发一个玩具项目并尝试使用一些 unicode 变量名称来匹配我试图实现的论文以下代码在 Windows 上的 R 3 4 3 RStudio 版本 1 1 456 和 OSX 上的 R 3 5 1 上运行良好 gt lt fun
如何将 Thunderbird 扩展与 Lightning 集成

我目前正在为一个项目进行初步研究如果可行的话该项目将包含带有 Lightning 集成的 Thunderbird 扩展我的问题是这样的如何使用 Thunderbird 扩展以编程方式更改 Lightning 中的 CSS 具体来说
Rails 2.3.9 查询参数的编码

是否可以让rails 将查询参数解码为utf8 如果我有类似 foo param 的东西我尝试访问控制器中的参数该参数被编码为 ASCII 8BIT 这会导致很多事情被破坏因为我们的许多其他字符串都是用 UTF 8 编码的而 rub
获得授权属性的许可？

我已经实现了我自己的Authorize属性我注意到当我使用时它会查询以检查权限 Authorize 有什么方法可以获取该权限并在应用该权限的当前控制器中使用它Authorize属性而无需重写和重新查询控制器中的代码是的你可以如果您将
iOS 8 下不显示键盘

当专注于我的应用程序的文本字段时它们都无法调出键盘我无法输入任何字母不过iOS 8之前还可以我尝试旋转屏幕发现键盘显示在屏幕范围之外检查视图框架它是1024 768 似乎是正确的最后发现是模拟器的问题不是iOS 8的bug
无法转换为尺寸：膨胀布局时类型=0x1 [重复]

这个问题在这里已经有答案了我的 XML 文件
正则表达式 - 如何用 PHP 替换字符串的最后 3 个单词

尝试将最后 3 个单词封装在 span tag str Lorem ipsum dolor sit amet h2 preg replace w s w s w span 1 span str 这里是 h2 preg replace w s
使用 Pyspark 进行虚拟编码 [重复]

这个问题在这里已经有答案了我希望使用 Pyspark 语法将分类变量虚拟编码为数值变量如下图所示我读入这样的数据 data sqlContext read csv data txt sep header true 在 python 中

使用 Pyspark 进行虚拟编码 [重复]

使用 Pyspark 进行虚拟编码 [重复] 的相关文章

随机推荐

热门标签