无法从 Spark SQL 使用现有的 Hive 永久 UDF

2024-02-12

我之前已经向 hive 注册了一个 UDF。是永久的不是TEMPORARY。它直线工作。

CREATE FUNCTION normaliseURL AS 'com.example.hive.udfs.NormaliseURL' USING JAR 'hdfs://udfs/hive-udfs.jar';

我已将 Spark 配置为使用配置单元元存储。该配置正在运行，因为我可以查询配置单元表。我可以看到 UDF；

In [9]: spark.sql('describe function normaliseURL').show(truncate=False)
+-------------------------------------------+
|function_desc                              |
+-------------------------------------------+
|Function: default.normaliseURL             |
|Class: com.example.hive.udfs.NormaliseURL  |
|Usage: N/A.                                |
+-------------------------------------------+

但是我无法在 sql 语句中使用 UDF；

spark.sql('SELECT normaliseURL("value")')
AnalysisException: "Undefined function: 'default.normaliseURL'. This function is neither a registered temporary function nor a permanent function registered in the database 'default'.; line 1 pos 7"

如果我尝试使用 Spark 注册 UDF（绕过元存储），则无法注册它，这表明它已经存在。

In [12]: spark.sql("create function normaliseURL as 'com.example.hive.udfs.NormaliseURL'")
AnalysisException: "Function 'default.normaliseURL' already exists in database 'default';"

我正在使用 Spark 2.0，hive 元存储 1.1.0。 UDF是scala，我的spark驱动程序代码是python。

我很困惑。

我关于 Spark 可以利用元存储定义的永久 UDF 的假设是否正确？
我是否在配置单元中正确创建了该函数？

问题是 Spark 2.0 无法执行 JAR 位于 HDFS 上的函数。

Spark SQL：Thriftserver 无法运行已注册的 Hive UDTF https://issues.apache.org/jira/browse/SPARK-18832

一种解决方法是将该函数定义为 Spark 作业中的临时函数，并将 jar 路径指向本地边缘节点路径。然后在同一个 Spark 作业中调用该函数。

CREATE TEMPORARY FUNCTION functionName as 'com.test.HiveUDF' USING JAR '/user/home/dir1/functions.jar'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

hive

apachesparksql

UDF

无法从 Spark SQL 使用现有的 Hive 永久 UDF 的相关文章

将 PySpark 连接到 AWS Redshift 时出错

一直在尝试将我的 EMR 5 11 0 集群上的 Spark 2 2 1 连接到我们的 Redshift 存储我遵循的方法是使用内置的 Redshift JDBC pyspark jars usr share aws redshift
错误 hive.HiveConfig：无法加载 org.apache.hadoop.hive.conf.HiveConf。确保 HIVE_CONF _DIR 设置正确

我正在尝试将数据从 sqoop 导入到 hive MySQL use sample create table forhive id int auto increment firstname varchar 36 lastname varch
Spark Collect_list 并限制结果列表

我有以下格式的数据框 name merged key1 internalKey1 value1 key1 internalKey2 value2 key2 internalKey3 value3 我想做的是将数据框分组name 收集列表并l
使用 Glue 将数据输入到 AWS Elastic Search

我正在寻找使用 AWS Glue python 或 pyspark 将数据插入 AWS Elastic Search 的解决方案我见过用于 Elastic Search 的 Boto3 SDK 但找不到任何将数据插入 Elastic Se
java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
Spark 物理计划和逻辑计划

我有两个问题在不添加任何额外代码来打印提交的 Spark 作业的逻辑和物理计划的情况下有没有办法查看集群上运行的 Spark 作业的物理和逻辑计划有没有办法动态修改集群上正在运行的 Spark 作业的执行计划以获得更好的性能请分享您
Spark：用列的平均值替换数据框中的空值

如何创建 UDF 以编程方式将每列中 Spark 数据框中的空值替换为列平均值例如在示例中数据 col1 空值的值为 2 4 6 8 5 5 5 示例数据 col1 col2 col3 2 null 3 4 3 3 6 5 null
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
Spark-获取RDD中的文件名

我正在尝试处理每天都在增长的 4 个文本文件目录我需要做的是如果有人试图搜索发票号码我应该给他们包含该发票号码的文件列表我能够通过将文本文件加载为 RDD 来映射和减少文本文件中的值但是如何获取文件名和其他文件属性呢从 Spar
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
将数据从 .txt 文件加载到 Hive 中以 ORC 形式存储的表

我有一个数据文件位于 txt格式我正在使用该文件将数据加载到 Hive 表中当我将文件加载到类似表中时 CREATE TABLE test details txt visit id INT store id SMALLINT STORE
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF

随机推荐

TypeScript 代码类似于揭示模块模式结构

我想将我编写的一些 JavaScript 代码转换为 TypeScript 作为一名 JavaScript 开发人员我对 TypeScript 语法和思维方式相当陌生让我头疼的是我不得不将一些使用揭示模块模式的代码转换为 TypeScr
在运行时从 simd 寄存器获取任意浮点数？

我想从 simd 寄存器访问任意浮点数我知道我可以做这样的事情 float get const m128i a const int idx editor s note this type puns the FP bit pattern t
iOS 7 和 iOS 8 中 -(void)viewDidAppear:(BOOL)animated on Partial Curl VC 上的不同行为

void viewDidAppear BOOL animated super viewDidAppear animated Reset all NSUserDefaults values 我的应用程序以前在 iOS 7 中运行良好但升级到
更新 Jest 测试库后出现意外标记（SyntaxError）

使用 Jest 运行测试套件时我遇到了要求我更新软件包的警告 npm WARN deprecated email protected cdn cgi l email protection jest dom has moved to tes
用于从 REST API 读取数据的 Apache Beam Pipeline 在本地运行，但不在 Dataflow 上运行

我一直在尝试让我的管道在数据流上使用经典模板运行管道应该读取运行时参数from date and to date并将它们传递给 REST API 从 API 返回的答案应该写入 bigquery 表中它在数据流上运行没有任何错误但我的
WCF 剩余错误处理

我在使用 WCF 4 0 RESTful 服务时遇到了令人兴奋的问题我正在尝试创建一个休息服务如果出现错误它将返回一个描述问题的 xml 文档前任
useSelector 导致多次重新渲染

当使用react devtools时它告诉我我的根组件重新渲染的原因是因为钩子发生了变化当我删除任何 useSelectors 时我的根组件仅渲染一次启用后它渲染 6 次对于为什么会发生这种情况有哪些猜测 import Data
从 NSTextView Objective-C 获取选择（突出显示的文本）字符串

如何从 a 中获取所选文本的字符串NSTextView as an NSString 非常感谢您的帮助一个 NSText 可以有多个选择使用 TextEditapp 检查一下用鼠标选择一个字符串同时按下 CMD 因此您可以选择任意数
如何用 ::FileRotate 替换 Log::Dispatch::File？

我继承了一个正在使用的大型应用程序日志调度文件 https metacpan org pod Log Dispatch File 这设置了一个 log对象你称之为 log gt info You are here 在整个应用程序中有数
模块内定义的类的回调

Ruby 已经有几个内置回调 http www nach vorne de 2007 3 18 list of callback methods 这种情况有回调吗有点像method added 但用于模块内的类或常量而不是类内的实例方
awk/sed：多列填充的后处理

我正在使用以下 bash 函数该函数对 CSV 文件进行操作并为每个 AWK 代码执行对列数据进行一些数学运算并最终将处理后的 CSV 保存在新文件中 home PWD folder with the outputs rescore
将字符串从一个活动发送到另一个活动的片段

我有两个活动 A 和 B 和一个片段 F 片段 F 包含在活动 B 中我想将字符串从活动 A 发送到片段 F 怎样才能做到这一点呢谢谢这几乎与您在活动之间交换数据相同您应该在开始时使用 getActivity 以便在片段中访问检查
javafx scene builder 1.1 中的 JAR/FXML Manager 选项位于何处？

这就是我正在努力寻找的这就是我的 javafx scene builder 1 1 的样子我已经研究了所有选项但我无法弄清楚我很想知道为什么您想要使用 2013 年推出的 Scene Builder 1 1 我猜是因为您必须使用 J
使用范围返回 ActiveRecord 中多个日期时间范围内的结果

我有一个Session模型有一个 created at日期和一个 start time日期都存储在数据库中 time 我目前正在一个巨大的表格上输出一堆结果并允许用户使用范围按单个日期和可选的时间范围过滤结果如下所示 class Se
如何在 Android 布局元素中绑定多个属性

我正在使用 MvvmCross 将我的 ViewModel 数据绑定到 Android 视图布局从 SimpleBinding 示例中我可以看到要将值绑定到属性我这样做
itextsharp 将 Pdfptable 放置在所需位置

标题内容和 Pdftable 重叠我怎样才能放置PdfPTable 在 pdf 页面中的任何位置使用 x y 定位如 100 200 或 15 100 在pdf页面的任何地方使用 PdfEventHelper 的标题表 public
NodeMailer 无效登录

我是node js 编程的新手我正在使用nodemailer 模块发送电子邮件 const nodemailer require nodemailer credentials require credentials js var mail
VSTS Nuget 安装程序无法使用包源进行身份验证

我有一个关于 VSTS 的包提要提供了我在一个也在 VSTS 上构建的解决方案中引用的几个包构建在包恢复阶段突然开始失败日志表明它找不到 nuget 应该恢复的 dll 正在恢复 NuGet 包 Basd Diagnostics 0
为什么微软不想用 NaN 来修复 Equals 和 GetHashCode 的错误实现？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
无法从 Spark SQL 使用现有的 Hive 永久 UDF

我之前已经向 hive 注册了一个 UDF 是永久的不是TEMPORARY 它直线工作 CREATE FUNCTION normaliseURL AS com example hive udfs NormaliseURL USING JAR

无法从 Spark SQL 使用现有的 Hive 永久 UDF

无法从 Spark SQL 使用现有的 Hive 永久 UDF 的相关文章

随机推荐

热门标签