JavaPackage 对象不可调用错误：Pyspark

2024-01-02

像 dataframe.show() 、 sqlContext.read.json 这样的操作工作正常，但大多数函数都会给出“JavaPackage object is not callable error”。例如：当我这样做时

dataFrame.withColumn(field_name, monotonically_increasing_id())

我收到一个错误

File "/tmp/spark-cd423f35-9572-45ee-b159-1b2732afa2a6/userFiles-3a6e1729-95f4-468b-914c-c706369bf2a6/Transformations.py", line 64, in add_id_column
    self.dataFrame = self.dataFrame.withColumn(field_name, monotonically_increasing_id())
  File "/home/himaprasoon/apps/spark-1.6.0-bin-hadoop2.6/python/pyspark/sql/functions.py", line 347, in monotonically_increasing_id
    return Column(sc._jvm.functions.monotonically_increasing_id())
TypeError: 'JavaPackage' object is not callable

我正在使用 apache-zeppelin 解释器，并将 py4j 添加到 python 路径。

当我做

import py4j
print(dir(py4j))

导入成功

['__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', 'compat', 'finalizer', 'java_collections', 'java_gateway', 'protocol', 'version']

当我尝试时

print(sc._jvm.functions)

在 pyspark shell 中打印

<py4j.java_gateway.JavaClass object at 0x7fdaf9727ba8>

但是当我在解释器中尝试这个时，它会打印

<py4j.java_gateway.JavaPackage object at 0x7f07cc3f77f0>

在 zeppelin 解释器代码中

java_import(gateway.jvm, "org.apache.spark.sql.*")

没有被处决。将其添加到导入中修复了问题

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

Python34

apachezeppelin

py4j

JavaPackage 对象不可调用错误：Pyspark 的相关文章

从 Spark 数据帧中过滤大量 ID

我有一个大型数据框其格式类似于 ID Cat date 12 A 201602 14 B 201601 19 A 201608 12 F 201605 11 G 201603 我需要根据大约 500 万个 Is 的列表来过滤行最直接的方
java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2
如何从 Spark MLLib 中的 TF Vector RDD 获取单词详细信息？

我使用创建了术语频率HashingTF在斯帕克我已经使用术语频率tf transform对于每个单词但结果是以这种格式显示的
Spark 2.1无法在CSV上写入Vector字段

当我将代码从 Spark 2 0 迁移到 2 1 时我偶然发现了与 Dataframe 保存相关的问题这是代码 import org apache spark sql types import org apache spark ml l
为 Spark Thrift 服务器提供仓库目录的路径

我已经设置了 Spark 集群并且成功通过 Spark SQL 连接器连接 Tableau 我从 Spark shell 创建了表并使用 saveAsTable 如何访问从 Tableau 保存的表启动spark thrift服务器时
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
Spark SQL如何读取压缩的csv文件？

我尝试过使用apispark read csv读取带有扩展名的压缩 csv 文件bz or gzip 有效但在源代码中我没有找到任何可以声明的选项参数codec type 即使在这个link https github com databr
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
如何使用 icc 覆盖 python 的 distutils gcc 链接器？

我能够从源代码在 Ubuntu 14 04 上成功构建 cython 如这个 SE 问题答案中所述使用 icc 从源代码编译 cython https stackoverflow com questions 37904377 can cy
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF

随机推荐

使用 maven-surefire 运行测试时，Spring-Autowiring 在 @BeforeClass 之后发生

我在依赖注入 Spring 自动装配和 maven surefire 方面遇到一些问题当使用 TestNG 在 eclipse 中运行时以下测试可以正常工作服务对象被注入然后 BeforeClass 方法被调用 Transacti
带圆角半径的自动布局（带砌体）

我想用 Masonry 布局一个圆形 UIImageView 所以我创建了这样的 UIImageView self imageView mas makeConstraints MASConstraintMaker make make cen
如何保持 ExpandableListView 打开？

我正在研究 ExpandableListView 我已经完成了工作现在我只想做的一件事是我不希望 ListView 在单击可扩展列表视图时变为 DropDown 而是希望显示它与所有项目一起打开无需对其进行任何单击即可显示在内部谁能告诉
正确使用 `for_each_arg` - 转发过多？

我真的很高兴发现for each arg https twitter com ericniebler status 559119062895431680 这使得处理参数包变得更加容易 template
将 AsyncLayoutInflater 与 DataBinding 结合使用

我目前使用以下方法来膨胀我的大部分布局DataBindingUtil inflate inflater layoutId parent attachToParent https developer android com reference
通过 OSX ssh rsync 保留别名

我在 OSX Yosemite 上通过 ssh 进行 rsync 保存别名时遇到了麻烦 rsync av e ssh email protected cdn cgi l email protection Users me stuff Use
使用带有投影的 find() 方法使用 mongodb java driver 3.4 检索数据

我正在使用 mongodb java 驱动程序 3 4 mongodb数据库中文档按照以下结构保存 id ObjectId 595a9fc4fe3f36402b7edf0e id 123 priceInfo object1 value1 o
从 CSV 数据中删除尾随逗号

这是在另一个数字后添加逗号的代码但我想删除最后一个逗号 str MSISDN Append MSISDN x TrimStart 我建议您使用而不是手动附加内容String Join这将使事情一开始就正确您可以使用 LINQ 来修剪值
如何提高Redis服务器的CPU使用率？

我的目标是让我们的 Redis 服务器在生产中达到 80 左右的 CPU 利用率这将有利于我们的后端服务器设计确保我们不会充分利用 CPU 同时也为增长和峰值留出一些空间在使用Redis自己的基准测试工具时redis benchmar
在嵌套文件夹中查找文件[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在嵌套文件夹中搜索文件看看这个函数 System IO DirectoryInfo GetFiles SearchPattern
如何检查我的应用程序从磁盘写入和读取了多少字节？

我不知道我是否没有使用正确的词在网络上搜索但我没有找到解决方案来查看我的应用程序已经在磁盘上读取和写入了多少有人可以帮我解决这个问题吗 tks 解决如果有人需要功能标志 type IO COUNTERS record ReadOper
如何获取当前页面的html？

我想解析当前页面的html 如何在asp net中获取当前页面的html 提前致谢对于客户端在互联网浏览器中右键点击浏览器 gt 查看源代码在火狐浏览器中右键点击浏览器 gt 查看页面源代码对于服务器端您可以重写页面的渲染方法
尝试在路径 file:///var/mobile/Media/PhotoData/Photos.sqlite 添加只读文件？

我刚刚更新到新的 Xcode beta 6 0 当尝试使用 iOS 8 为 ipad mini 进行编译时我在控制台中收到一个奇怪的错误尝试在路径 file var mobile Media PhotoData Photos sqlit
JTextPane 换行行为

最近我一直在做一个Java文本编辑器项目我想使用JTextPane更换旧的JTextArea以实现语法高亮然而一个JTextPane缺乏方法JTextArea 例如append getLineStartOffset 等我想在我的课堂
如何在 Spark 2.0 中启用笛卡尔连接？ [复制]

这个问题在这里已经有答案了我必须在 Spark 2 0 中交叉连接 2 个数据帧但遇到以下错误用户类抛出异常 org apache spark sql AnalysisException Cartesian joins could b
序列化器仅来自指定控制器的方法 - Spring、JSON Jackson

我有 2 个控制器和一个具有自定义序列化字段的 get 方法如下所示 JsonSerialize using MySerialization class 但我想在我从 A 控制器而不是 B 控制器调用方法时进行此序列化我如何指定这一点
使用 JUnit 内部类中的测试用例

我读到构建单元测试 http haacked com archive 2012 01 02 structuring unit tests aspx每个类都有一个测试类每个方法有一个内部类我认为这似乎是一种组织测试的便捷方法因此我在 J
当从两个数据框构建绘图时有两个图例

我有两个这样的数据框 library ggplot2 set seed 1 x1 rnorm 100 y1 rnorm 100 x2 rnorm 100 y2 rnorm 100 df1 data frame x x1 y y1 col1
在 pdfmake 中嵌入背景图像

我正在使用 pdfmakehttp bpampuch github io pdfmake index html gettingstarted http bpampuch github io pdfmake index html gettin
JavaPackage 对象不可调用错误：Pyspark

像 dataframe show sqlContext read json 这样的操作工作正常但大多数函数都会给出 JavaPackage object is not callable error 例如当我这样做时 dataFrame

JavaPackage 对象不可调用错误：Pyspark

JavaPackage 对象不可调用错误：Pyspark 的相关文章

随机推荐

热门标签