pyspark.sql.utils.IllegalArgumentException：u'字段“功能”不存在。'

2023-12-06

我正在尝试执行随机森林分类器并使用交叉验证评估模型。我使用 pySpark 工作。输入 CSV 文件以 Spark DataFrame 格式加载。但我在构建模型时遇到了一个问题。

下面是代码。

from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.ml import Pipeline
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.tuning import CrossValidator, ParamGridBuilder
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.mllib.evaluation import BinaryClassificationMetrics
sc = SparkContext()
sqlContext = SQLContext(sc)
trainingData =(sqlContext.read
         .format("com.databricks.spark.csv")
         .option("header", "true")
         .option("inferSchema", "true")
         .load("/PATH/CSVFile"))
numFolds = 10 
rf = RandomForestClassifier(numTrees=100, maxDepth=5, maxBins=5, labelCol="V5409",featuresCol="features",seed=42)
evaluator = MulticlassClassificationEvaluator().setLabelCol("V5409").setPredictionCol("prediction").setMetricName("accuracy")
paramGrid = ParamGridBuilder().build()

pipeline = Pipeline(stages=[rf])
paramGrid=ParamGridBuilder().build()
crossval = CrossValidator(
    estimator=pipeline,
    estimatorParamMaps=paramGrid,
    evaluator=evaluator,
    numFolds=numFolds)
model = crossval.fit(trainingData)
print accuracy

我遇到以下错误

Traceback (most recent call last):
  File "SparkDF.py", line 41, in <module>
    model = crossval.fit(trainingData)
  File "/usr/local/spark-2.1.1/python/pyspark/ml/base.py", line 64, in fit
    return self._fit(dataset)
  File "/usr/local/spark-2.1.1/python/pyspark/ml/tuning.py", line 236, in _fit
    model = est.fit(train, epm[j])
  File "/usr/local/spark-2.1.1/python/pyspark/ml/base.py", line 64, in fit
    return self._fit(dataset)
  File "/usr/local/spark-2.1.1/python/pyspark/ml/pipeline.py", line 108, in _fit
    model = stage.fit(dataset)
  File "/usr/local/spark-2.1.1/python/pyspark/ml/base.py", line 64, in fit
    return self._fit(dataset)
  File "/usr/local/spark-2.1.1/python/pyspark/ml/wrapper.py", line 236, in _fit
    java_model = self._fit_java(dataset)
  File "/usr/local/spark-2.1.1/python/pyspark/ml/wrapper.py", line 233, in _fit_java
    return self._java_obj.fit(dataset._jdf)
  File "/home/hadoopuser/anaconda2/lib/python2.7/site-packages/py4j/java_gateway.py", line 1160, in __call__
    answer, self.gateway_client, self.target_id, self.name)
  File "/usr/local/spark-2.1.1/python/pyspark/sql/utils.py", line 79, in deco
    raise IllegalArgumentException(s.split(': ', 1)[1], stackTrace)
pyspark.sql.utils.IllegalArgumentException: u'Field "features" does not exist.'
hadoopuser@rackserver-PowerEdge-R220:~/workspace/RandomForest_CV$

请帮我解决 pySpark 中的这个问题。谢谢。

我在这里展示数据集的详细信息。不，我没有专门的功能栏。下面是 TrainingData.take(5) 的输出，它显示数据集的前 5 行。

[行(V4366=0.0、V4460=0.232、V4916=-0.017、V1495=-0.104、V1639=0.005、V1967=-0.008、V3049=0.177、V3746=-0.675、V3869=-3.451、V524=0。 004、V5409= 0)、行(V4366=0.0、V4460=0.111、V4916=-0.003、V1495=-0.137、V1639=0.001、V1967=-0.01、V3049=0.01、V3746=-0.867、V3869=-2.759、V524=0。 0, V5409=0)、行(V4366=0.0、V4460=-0.391、V4916=-0.003、V1495=-0.155、V1639=-0.006、V1967=-0.019、V3049=-0.706、V3746=0.166、V3869=0.189 , V524 =0.001，V5409=0)，行(V4366=0.0，V4460=0.098，V4916=-0.012，V1495=-0.108，V1639=0.005，V1967=-0.002，V3049=0.033，V3746=-0.787，V3869= -0.926 , V524=0.002, V5409=0), 行(V4366=0.0, V4460=0.026, V4916=-0.004, V1495=-0.139, V1639=0.003, V1967=-0.006, V3049=-0.045, V3746=-0.208 , V3869 =-0.782，V524=0.001，V5409=0)]

其中 V433 到 V524 是功能。 V5409 是类别标签。

Spark 数据帧的使用方式与 Spark ML 不同；你所有的特征都需要是向量single列，通常命名为features。以下是使用您提供的 5 行作为示例的方法：

spark.version
# u'2.2.0'

from pyspark.sql import Row
from pyspark.ml.linalg import Vectors

# your sample data:
temp_df = spark.createDataFrame([Row(V4366=0.0, V4460=0.232, V4916=-0.017, V1495=-0.104, V1639=0.005, V1967=-0.008, V3049=0.177, V3746=-0.675, V3869=-3.451, V524=0.004, V5409=0), Row(V4366=0.0, V4460=0.111, V4916=-0.003, V1495=-0.137, V1639=0.001, V1967=-0.01, V3049=0.01, V3746=-0.867, V3869=-2.759, V524=0.0, V5409=0), Row(V4366=0.0, V4460=-0.391, V4916=-0.003, V1495=-0.155, V1639=-0.006, V1967=-0.019, V3049=-0.706, V3746=0.166, V3869=0.189, V524=0.001, V5409=0), Row(V4366=0.0, V4460=0.098, V4916=-0.012, V1495=-0.108, V1639=0.005, V1967=-0.002, V3049=0.033, V3746=-0.787, V3869=-0.926, V524=0.002, V5409=0), Row(V4366=0.0, V4460=0.026, V4916=-0.004, V1495=-0.139, V1639=0.003, V1967=-0.006, V3049=-0.045, V3746=-0.208, V3869=-0.782, V524=0.001, V5409=0)])

trainingData=temp_df.rdd.map(lambda x:(Vectors.dense(x[0:-1]), x[-1])).toDF(["features", "label"])
trainingData.show()
# +--------------------+-----+ 
# |            features|label|
# +--------------------+-----+
# |[-0.104,0.005,-0....|    0| 
# |[-0.137,0.001,-0....|    0|
# |[-0.155,-0.006,-0...|    0|
# |[-0.108,0.005,-0....|    0|
# |[-0.139,0.003,-0....|    0|
# +--------------------+-----+

之后，您的管道应该运行良好（我假设您确实有多类分类，因为您的样本仅包含 0 作为标签），只需更改您的标签列rf and evaluator如下：

rf = RandomForestClassifier(numTrees=100, maxDepth=5, maxBins=5, labelCol="label",featuresCol="features",seed=42)
evaluator = MulticlassClassificationEvaluator().setLabelCol("label").setPredictionCol("prediction").setMetricName("accuracy")

最后，print accuracy行不通 - 你需要model.avgMetrics反而。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pyspark.sql.utils.IllegalArgumentException：u'字段“功能”不存在。' 的相关文章

java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2
将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
Scala中如何将DataFrame转换为RDD？

有人可以分享一下如何转换dataframe to an RDD Simply val rows RDD Row df rdd
Spark - Scala - 用另一个数据帧中的查找值替换数据帧中的值

我正在 Databricks 上使用 Spark 编程语言是Scala 我有两个数据框主要数据框见截图 1 https i stack imgur com EShir png 查找数据框见截图3 https i stack imgur
Spark 物理计划和逻辑计划

我有两个问题在不添加任何额外代码来打印提交的 Spark 作业的逻辑和物理计划的情况下有没有办法查看集群上运行的 Spark 作业的物理和逻辑计划有没有办法动态修改集群上正在运行的 Spark 作业的执行计划以获得更好的性能请分享您
PySpark 中别名方法的用途是什么？

在用 Python 学习 Spark 时我很难理解其目的alias方法及其用途这文档 http spark apache org docs latest api python pyspark sql html显示它被用来创建现有的副本D
配置 Spark on Yarn 以使用 hadoop 本机库

Summary 我是 Spark 新手在使用 Snappy 压缩保存文本文件时遇到了问题我不断收到下面的错误消息我遵循了互联网上的许多指示但没有一个对我有用最终我找到了解决方法但是我希望有人就正确的解决方案提供建议 java
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
使用 Spark 版本 2.2 的 row_number() 函数创建 PySpark DataFrame 中每行的行号

我有一个 PySpark DataFrame valuesCol Sweden 31 Norway 62 Iceland 13 Finland 24 Denmark 52 df sqlContext createDataFrame valu
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori

随机推荐

Dynamodb 按排序顺序扫描

你好我有一个 dynamodb 表我希望该服务返回该表中的所有项目并且顺序是按一个属性排序我需要为此创建一个全局二级索引吗如果是这样的话哈希键应该是什么范围键是什么请注意对 gsi 的查询必须在 GSI 的哈希键上指定 E
使一类特定的视图控制器在选项卡栏应用程序中自动旋转，但强制所有其他类的视图控制器保持纵向

我有一个带有此代码的选项卡栏控制器 BOOL shouldAutorotateToInterfaceOrientation UIInterfaceOrientation interfaceOrientation Return YES for
在地图 d3 javascript 中绘制点

我想在我使用图像的地图上基于名为 tree csv 的 csv 文件中的经度和纬度在地图上绘制我的 csv 文件包含很多行所以我只在这里放一些行经度和纬度 37 7295482207565 122 392689419827 37 80
kubernetes 的 nginx-ingress 中最多可以创建多少个 ingress 对象

我们有一个多租户应用程序并且为每个租户提供单独的容器映像同样我们为每个租户创建一个子域该子域将被重定向到其自己的容器可能存在一种场景其中可以存在数千个租户及其动态因此我们在选择之前有必要考虑 Kubernetes 入口控制器
流口水性能测试

目前我们正在寻求在系统中使用 drools 来管理知识密集型流程据我所知有关流口水的性能测试的信息和结果很少且很难找到虽然用例差异很大但最好了解常见的瓶颈例如插入就是其中之一以及在某些场景下绕过这些瓶颈的可能的最佳实践此外
Pandas 中的左内连接[重复]

这个问题在这里已经有答案了我正在学习 Python 2 7 并尝试左连接两个 pandas 数据帧一个数据框具有日期和相应的产品销售情况而另一个数据框具有日期和相应的星期几 print type weekdaytrain print
比较 R 中的矩阵求逆 - Cholesky 方法有什么问题？

我比较了计算对称矩阵的逆的各种方法解决来自 LAPACK 包解决但使用更高的机器精度 qr solve 据说更快 ginv MASS 包 Moore Penrose 算法的实现 chol2inv 使用 Cholesky 分解通过特
如何设置：标签的“艺术家”、“专辑艺术家”、“年份”、“专辑”、“歌曲编号”和“标题”字段，带诱变剂

我正在尝试使用 mutagen 使用 Python 2 7 5 创建一个程序假设歌曲的路径是 Artist Year Album Songnumber Title mp3 设置歌曲的艺术家专辑艺术家年份专辑歌曲编号和标题标签并保
如何使用 Selenium WebDriver 选择新的 IFrame？

我想选择一个Iframe并在 Body 中输入值我正在尝试使用下面的代码 HTML 代码 div br div 硒代码 driver switchTo frame driver findElement By xpath iframe co
Symfony2 作曲家安装

我正在尝试安装 Symfony 2 1 3 最新我正在运行作曲家并安装一切正常这only我得到的错误是 Script Sensio Bundle DistributionBundle Composer ScriptHandler cle
pow 函数的奇怪行为

运行以下代码行时 int i a for i 0 i lt 4 i a pow 10 i printf d t a 我很惊讶地看到输出结果是1 10 99 1000 9999代替1 10 100 1000 10000 可能的原因是什么 N
在页面加载之前在 JavaFX WebView 中注入桥接代码？

我想在 JavaFX WebView 中加载一些内容或页面并向 Java 提供一个 Bridge 对象以便页面的内容可以调用 java 这里描述了如何执行此操作的基本概念 https blogs oracle com javafx en
使用powershell编译并运行java应用程序

我正在尝试编译一个示例 Helloworld java 文件我的 jdk 安装在 C Program Files jdk1 7 bin 中我的 Helloworld java 位于 C Helloworld java 中其实我对pow
从sql文件执行sql查询

我想将数据库 shop 中的所有表包含到 mydatabasenewshop 我导出 shop 数据库现在它被命名为shop sql 有什么方法可以从该文件执行整个查询而不是直接导入数据库newshop 我想你需要的可能是 mysql
如何在 PowerShell 中的函数结束时返回到用户菜单

我正在编写一个 PowerShell 脚本为用户提供许多可供选择的选项一旦选择了一个选项就会执行一个功能并且用户将返回到原始菜单在下面的代码中为用户提供了选项并执行了函数但完成后脚本就结束了我想要的是在函数结束时返回到原
如何在 Windows 10 中禁用 Winscard Discovery？

我正在使用 ACR122U 测试智能卡但是当我将卡放在上面时 Windows 会自动向其发送 APDU 命令根据问题Windows 8 禁用智能卡即插即用我禁用了智能卡即插即用但我仍然可以看到 PIV 选择称为温斯卡探索如何在
SonarQube 如何创建配置文件并向其中导入新规则

我正在开发 SonarQube 的插件以便从 xml 文件导入规则到目前为止这已经完成它们确实被导入到 SonarQube 实例中并显示在规则下尽管正在创建质量配置文件但所有导入的规则都没有添加到其中我不明白为什么我不想
SELECT 排名中的 SQL UPDATE 超过分区语句

我的问题是我有一个这样的表 Company direction type year month value rank 当我创建表时默认情况下排名为 0 我想要的是使用此选择更新表中的排名 SELECT company direction
asm.js - 函数指针应该如何实现

注这个问题纯粹是关于asm js与 C 或任何其他编程语言无关正如标题已经说的函数指针应该如何高效地实现我在网上找不到任何东西所以我想在这里问一下 Edit 我想在我正在开发的编译器中实现虚拟函数在 C 中我会做类似的事情来生成
pyspark.sql.utils.IllegalArgumentException：u'字段“功能”不存在。'

我正在尝试执行随机森林分类器并使用交叉验证评估模型我使用 pySpark 工作输入 CSV 文件以 Spark DataFrame 格式加载但我在构建模型时遇到了一个问题下面是代码 from pyspark import Spark

pyspark.sql.utils.IllegalArgumentException：u'字段“功能”不存在。'

pyspark.sql.utils.IllegalArgumentException：u'字段“功能”不存在。' 的相关文章

随机推荐

热门标签