Spark Scala - java.util.NoSuchElementException 和数据清理

2023-11-26

我有过一次之前有类似问题，但我正在寻找一个普遍的答案。我在用火花核心LP获取电子邮件的情绪分数。有时，sentiment() 在某些输入上崩溃（可能太长，可能有意外的字符）。它没有告诉我它在某些情况下崩溃，只是返回Column sentiment('email)。因此，当我尝试show()超过某一点或save()我的数据框，我得到一个java.util.NoSuchElementException因为sentiment()该行肯定没有返回任何内容。

我的初始代码是加载数据并应用sentiment()如图所示spark-corenlp API.

       val customSchema = StructType(Array(
                        StructField("contactId", StringType, true),
                        StructField("email", StringType, true))
                        )

// Load dataframe   
val df = sqlContext.read
                        .format("com.databricks.spark.csv")
                        .option("delimiter","\t")          // Delimiter is tab
                        .option("parserLib", "UNIVOCITY")  // Parser, which deals better with the email formatting
                        .schema(customSchema)              // Schema of the table
                        .load("emails")                        // Input file


    val sent = df.select('contactId, sentiment('email).as('sentiment)) // Add sentiment analysis output to dataframe

我尝试过滤 null 和 NaN 值：

val sentFiltered = sent.filter('sentiment.isNotNull)
                .filter(!'sentiment.isNaN)
                .filter(col("sentiment").between(0,4))

我什至尝试通过 SQL 查询来做到这一点：

sent.registerTempTable("sent")
val test = sqlContext.sql("SELECT * FROM sent WHERE sentiment IS NOT NULL")

我不知道是什么输入导致 Spark-corenlp 崩溃。我怎样才能找到答案？否则，如何从 col("sentiment") 中过滤这些不存在的值？否则，我应该尝试捕获异常并忽略该行吗？这可能吗？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark Scala - java.util.NoSuchElementException 和数据清理的相关文章

对于空列表，max() 应该返回什么？

Got java util NoSuchElementException head of empty list所以我试着检查一下但现在我明白了 info max of a few numbers FAILED info 0 did not
Java / Scala Future 由回调驱动

简洁版本我怎样才能创建一个Promise
Scala 集合不一致

为什么 Scala Collections API 中的集合和列表之间缺乏一致性例如有不可变的 Set 但也有可变的 Set 如果我想使用后者我可以简单地这样做 val set Set A set new A 但是本身不存在可变列表
逆变方法参数类型

wiki 逆变方法参数类型 https en wikipedia org wiki Covariance and contravariance 28computer science 29 Contravariant method argum
了解 Scala 中的中缀方法调用和缺点运算符(::)

我对 Scala 编程语言相当陌生当我遵循以下网站的讲义时我正在尝试一些萦绕在我脑海中的东西 here http horstmann com sjsu cs152 04 closures1 html 我想我无法真正理解 cons 运算符
Scala 相当于 Java 的 Number

我正在尝试为数值域类型构建类型层次结构例如AYear is an Int 这是一个Number a Percentage is a Double 这是一个Number等等我需要层次结构以便我可以调用toInt or toDouble关于
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
Scala：类似 Option (Some, None) 但具有三种状态：Some、None、Unknown

我需要返回值当有人询问值时告诉他们以下三件事之一这是值没有价值我们没有关于该值的信息未知情况 2 与情况 3 略有不同示例 val radio car radioType 我们知道该值返回无线电类型例如 pioneer
Scala 如何忽略 Java 的检查异常？

例如如果调用 JavaThread sleep这会抛出一个已检查的InterruptedException来自 Scala 源文件然后不需要将调用包含在 Scala 中try catch Scala 如何删除将调用包围在 a 中的规则tr
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
Play Framework 2.3 (Scala) 中的自定义 JSON 验证约束

我设法使用自定义约束实现表单验证但现在我想对 JSON 数据执行相同的操作如何将自定义验证规则应用于 JSON 解析器示例客户端的 POST 请求包含用户名 username 我不仅要确保该参数是非空文本而且还要确保该用户确实存在
错误：协变类型 A 出现在逆变位置

我试图写一个不可变的Matrix A 班级我希望该类是协变的A但是当我把在前面A编译器开始抱怨类中的某些操作以下是我的相关子集Matrix类实际类比以下子集大 5 倍左右 class Matrix A private val co
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
对 Scala Not Null 特征的库支持

Notice 从 Scala 2 11 开始 NotNull已弃用据我了解如果您希望引用类型不可为空则必须混合魔法NotNull特征编译器会自动阻止你输入null 可以值在里面看到这个邮件列表线程 http www nabble
类型级编程有哪些示例？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我不明白类型级编程是什么意思也无法使用Google找到合适的解释有人可以提供一个演示类型级编程的示例吗范式的解释和或定义将
Scala 特性：val/def 和 require

下面的代码抛出IllegalArgumentException trait T val x Long require x gt 0 object T extends App val y new T val x 42L 而以下情况则不然 tr
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a
分析 sbt 构建

我的 sbt 构建需要很长时间它又大又复杂很难知道从哪里开始清理看起来 sbt 保留了很多关于构建结构的元数据包括相互依赖关系命名任务范围界定等有了所有这些元数据似乎很容易跳入并测量每个不同任务及其范围花费的时间在代码

随机推荐

如何使用套接字通过互联网发送数据？

我想通过桌面应用程序通过互联网发送数据我对套接字了解一点我已经在局域网内传输数据但现在我想通过互联网传输数据传输大量和少量数据的最佳方式是什么我的系统已连接到可以访问互联网的服务器我的系统的 IP 地址是动态的我不知道如何将数
计算数据帧组内的差异

假设我有一个包含 3 列的数据框日期股票行情值没有索引至少在开始时是这样我有很多日期和股票行情但每个 ticker date 元组是唯一的但显然相同的日期将显示在许多行中因为它会出现在多个代码中并且相同的代码会出现在多
是否存在使用数据库 1:1 关系有意义的时候？

前几天我在思考规范化我突然想到我想不出数据库中应该存在 1 1 关系的时候 Name SSN 我会把它们放在同一张桌子上 PersonID AddressID 再说一遍同一张桌子我可以想出无数个 1 多或多多带有适当的中间表的
Perl 正则表达式中的转义特殊字符

我正在尝试匹配 Perl 中的正则表达式我的代码如下所示 my source Hello version Goodbye version my pattern Hello version if source m pattern print
如何在 Android Javadoc 中引用 XML 文件？ [复制]

这个问题在这里已经有答案了有没有办法使用 JavaDoc 链接来引用 Android XML 文件res folder 就像是 link res values custom strings xml link com yourApp R l
如何备份SQL Server代理作业？

如何备份和恢复 SQL Server 2005 代理作业计划 msdb 数据库是所有作业所在的地方它是系统数据库之一
add2virtualenv（virtualenv 包装器）不适用于 scipy

我想创建一个没有全局 python 包的 virtualenv 但具有共享的 scipy 发行版安装 scipy 需要相当长的时间我不想太频繁地走过场所以我跑add2virtualenv Library Python 2 7 site
如何通过不可靠的网络同步媒体播放？

我希望我可以在一台计算机上播放音乐或视频并让第二台计算机同步播放相同的媒体例如我可以同时听到两台计算机的扬声器的声音这听起来并不好笑我想通过 Wi Fi 来完成此操作但 Wi Fi 有点不可靠从算法上来说解决这个问题的最佳方
@Autowired 对象获取空值

尝试建立一个项目但通过 Spring 自动装配对象失败 package se hsr web public class TestRunner public static void main String args ContactDAO c
使用 git 时 Mac/Windows 的文件权限问题

我运行以下代码从 Windows git 存储库中提取文件 git pull Volumes sucho Desktop git setup 我按如下方式连接 Windows 目录 tell application Finder mount
忽略 querySelectorAll 中的大小写敏感性

我有这个代码 a href Click a a href Click a a href Click a a href Click a 现在使用console log document querySelectorAll a href jav
“该节点不是使用 replSet 选项启动的”

我正在学习MongoDB大学 s M101P 面向开发人员的 MongoDB课程我在用连线虎 on MongoDB 3 2 我目前的主题是副本集该课程要求我使用以下代码创建一个副本集 mongod replSet rs1 logpath
对齐wpf选项卡控制条

我正在尝试在右侧对齐选项卡控制条需要明确的是我希望选项卡位于顶部 tabstripplacement 但在右侧对齐的标题TabItem位于类型面板中TabPanel 我们可以添加HorizontalAlignment Right 在资
Angular.js 和 Adsense

我正在尝试在我的 angular js 应用程序上放置广告我做了一些阅读发现不可能只复制并粘贴正常的 adsense 代码我听说你应该用嵌入将其包装在指令中我能找到的唯一示例是另一个 Stackoverflow 帖子 Angula
从代码更改清单元数据

我有一个使用广告的应用程序广告 ID 通过元数据标签在清单 ID 中设置在某些情况下我想在启动应用程序时更改此标签某些本地化版本的 ID 不同我可以在代码中做到这一点吗清单元数据无法在运行时更改您应该查看您的广告库是否允许直接
Eclipse Android SDK - 构建工作区时出错

我已使用 Android SDK Manager 更新了我的软件包并单击帮助 gt 检查更新并更新了已安装的插件提示我重新启动eclipse 现在重新启动后我收到以下错误代码 Building workspace has encou
在 Swift SpriteKit 项目中播放声音？

当我运行这段代码时 runAction SKAction playSoundFileNamed Click mp3 waitForCompletion false 我的应用程序崩溃了由于未捕获的异常 NSInvalidArgumentEx
如何使 jQuery UI 'draggable()' div 可拖动用于触摸屏？

我有一个 jQuery 用户界面draggable 适用于 Firefox 和 Chrome 用户界面概念基本上是单击以创建便利贴类型的项目基本上我点击或点击div everything 100 高和宽监听点击并显示输入文本区域
如何在每个 jupyter Notebook 内核之前运行 Python 代码

假设我有一个代码片段我想在每次打开 jupyter 笔记本时运行在我的例子中它打开 Spark 连接假设我将该代码保存在 py 脚本中启动 py sc This is a spark connection 我希望每次打开内核时都能
Spark Scala - java.util.NoSuchElementException 和数据清理

我有过一次之前有类似问题但我正在寻找一个普遍的答案我在用火花核心LP获取电子邮件的情绪分数有时 sentiment 在某些输入上崩溃可能太长可能有意外的字符它没有告诉我它在某些情况下崩溃只是返回Column sentiment

Spark Scala - java.util.NoSuchElementException 和数据清理

Spark Scala - java.util.NoSuchElementException 和数据清理 的相关文章

随机推荐

热门标签

Spark Scala - java.util.NoSuchElementException 和数据清理的相关文章