Scala 解析器组合器：在流中解析

2023-12-23

我在 scala 中使用本机解析器组合器库，我想用它来解析许多大文件。我已经设置了组合器，但是我尝试解析的文件太大，无法一次读入内存。我希望能够通过解析器从输入文件流式传输并将其读回磁盘，这样我就不需要一次将其全部存储在内存中。我当前的系统看起来像这样：

val f = Source.fromFile("myfile")
parser.parse(parser.document.+, f.reader).get.map{_.writeToFile}
f.close

这会在解析时读取整个文件，我想避免这种情况。

没有简单或内置的方法可以使用 scala 的解析器组合器来完成此任务，该组合器提供了实现的工具解析表达式语法 https://en.wikipedia.org/wiki/Parsing_expression_grammar.

运营商如|||（最长匹配）在很大程度上与流解析模型不兼容，因为它们需要广泛的回溯功能。为了完成您想要做的事情，您需要重新制定语法，这样就不需要回溯，ever。这通常比听起来要困难得多。

正如其他人所提到的，最好的选择是研究初步阶段，在该阶段对输入进行分块（例如按行），以便一次可以处理流的一部分。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

parsercombinators

Scala 解析器组合器：在流中解析的相关文章

了解 Scala 中的中缀方法调用和缺点运算符(::)

我对 Scala 编程语言相当陌生当我遵循以下网站的讲义时我正在尝试一些萦绕在我脑海中的东西 here http horstmann com sjsu cs152 04 closures1 html 我想我无法真正理解 cons 运算符
Scala 中值类的隐式 Json 格式化程序

我有许多值类组成了一个更大的对象案例类 final case class TopLevel foo Foo bar Bar final case class Foo foo String extends AnyVal final case
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
阶乘的 Scala 排列

我怎样才能找到n Scala 中某些字母的排列 Scala 2 9 RC1 scala gt abc permutations toList res58 List String List abc acb bac bca cab cba
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
错误：协变类型 A 出现在逆变位置

我试图写一个不可变的Matrix A 班级我希望该类是协变的A但是当我把在前面A编译器开始抱怨类中的某些操作以下是我的相关子集Matrix类实际类比以下子集大 5 倍左右 class Matrix A private val co
Scala Tuple2Zipped 与 IterableLike zip

两种实现有什么区别这个比那个好吗有一篇博客文章说 Tuple2Zipped 性能更好但没有提供原因并且查看源代码我没有看到差异 val l1 List 1 2 3 val l2 List 5 6 7 val v1 l1 zip l2
使用 scala 集合 - CanBuildFrom 麻烦

我正在尝试编写一个接受任何类型集合的方法CC 并将其映射到一个新的集合相同的集合类型但不同的元素类型我正在挣扎基本上我正在尝试实施map but 不在集合本身上问题我正在尝试实现一个带有签名的方法它看起来有点像 def map
使用 scala 在 Flink 中进行实时流预测

弗林克版本 1 2 0斯卡拉版本 2 11 8 我想使用 DataStream 来使用 scala 中的 flink 模型进行预测我在使用 scala 的 flink 中有一个 DataStream String 其中包含来自 kafka
玩：将表单字段绑定到双精度型？

也许我只是忽略了一些明显的事情但我无法弄清楚如何将表单字段绑定到 Play 控制器中的双精度型例如假设这是我的模型 case class SavingsGoal timeframeInMonths Option Int amount
分析 sbt 构建

我的 sbt 构建需要很长时间它又大又复杂很难知道从哪里开始清理看起来 sbt 保留了很多关于构建结构的元数据包括相互依赖关系命名任务范围界定等有了所有这些元数据似乎很容易跳入并测量每个不同任务及其范围花费的时间在代码
在 IntelliJ 中运行 Spark 字数统计

我花了几个小时浏览 You Tube 视频和教程试图了解如何在 Scala 中运行 Spark 字数统计程序并将其转换为 jar 文件我现在完全糊涂了我运行了 Hello World 并且了解了如何在 Apache spark sp
Akka Streams / HTTP：从响应中获取原始请求

我有一个 Akka Streams 源它会遍历流程并发布 HTTP 请求 source map toRequest via Http outgoingConnection host map toMessage 假设toRequest方法将
Spark中如何获取map任务的ID？

Spark中有没有办法获取map任务的ID 例如如果每个映射任务都调用用户定义的函数我可以从该用户定义的函数中获取该映射任务的 ID 吗我不确定您所说的地图任务 ID 是什么意思但您可以使用以下方式访问任务信息TaskContext
使用 Scala 进行网页抓取 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Scala 交互式解释器 (REPL) - 如何将输出重定向到文本文件？

是否可能如果可能是如何做到的通常 gt and gt gt 在 Windows 或 Linux 命令行上工作的命令在这种情况下不起作用您可以从控制台以编程方式执行此操作 import java io FileOutputStream
scala中的协变类型参数需要在java接口中保持不变

我有一个看起来像这样的特征一些进一步的信息可以在我自己提出了这个相关问题 https stackoverflow com questions 3695990 inheritance and automatic type conversio
Shapeless 和 gremlin scala：如何返回调用 `as` 的结果？

所以我调用这个函数as from gremlin scala case class GremlinScala End Labels lt HList traversal GraphTraversal End def as name Str
Spark 3 KryoSerializer 问题 - 无法找到类：org.apache.spark.util.collection.OpenHashMap

我正在将 Spark 2 4 项目升级到 Spark 3 x 我们遇到了一些现有 Spark ml 代码的问题 var stringIndexers Array StringIndexer for featureColumn lt FEAT
在案例类中重载 unapply 方法：scala

考虑下面的代码 case class User id Int name String object User def unapply str String Some User 0 str Scala 抱怨错误无法解析重载未应用案例类

随机推荐

重定向 301 中的重定向过多

我想从旧网址到新网址进行 301 重定向旧网址 php zend framework captcha codigo anti spam zend framework 新网址 http www demo31 com blog php zen
如何防止 Emacs org-mode 分割窗口？

我是一个新的 emacs 用户使用 emacs 来实现很棒的组织模式我的页面顶部有指向所有组织文件的链接但每次单击链接时它都会分割我的窗口因此我只有一半的屏幕空间可用如何设置它以便 emacs 不会水平分割窗口而是为我的链接打
如何在swift 4中获取今天和明天的日期

如何获取当前日期unix epoch timeIntervalSince1970打印当前时间有什么办法可以获取今天中午 12 点的时间吗例如当前时间为 2018 年 1 月 7 日下午 5 30 timeIntervalSince19
收到 pylint 警告：“未找到配置文件，使用默认配置”

pylint reports n main py Output No config file found using default configuration 您将得到 No config file found using default
如何将 foreach 与二维对象数组一起使用？

这是我的尝试但不起作用我是初学者这个想法是有一个简单的 Kid years 整数二维数组来了解如何将 foreach 与对象一起使用 using System namespace Test class Kid public int y
禁用反应式 Elasticsearch 客户端

我的 spring boot 版本 2 4 1 应用程序已使用自动连接的 org elasticsearch client RestHighLevelClient 成功连接到 ElasticSearch v7 9 3 实例我只需指定应用程
ASM x64 scanf printf 双精度，GAS

我不明白为什么这段代码对我不起作用我需要对双精度使用 scanf 函数然后对同一个双精度使用 printf 使用此代码时结果并不好我看到的都是非常随机的角色 data d1 double format asciz lf n forma
检测PHP是否安装了Mod_Security？

有没有简单的方法可以仅使用 PHP 来检测 modsecurity 是否已安装并启用理想情况下无需执行任何 exec 终端类型命令有些人建议使用 apache get modules 但这个特定的网络主机不允许它显示其他用户也提到了
如何获得 R 中前 n 个值及其索引？

我有一个只有一列的数据框我想用它的索引找到最大的三个值例如我的数据框df好像 distance 1 1 2 4 3 2 4 3 5 4 6 5 7 5 我想找到最大的 3 个值及其索引所以我的预期结果是 distance 6 5 7
如何在本地调试EventHubTrigger？

我正在尝试在本地调试 Azure 函数这是一个EventHubTrigger 问题是我需要在本地调试代码因为我仍然没有真实设置我的代码目前如下所示 public static class Notificator FunctionN
如何在 Spring Boot 中使用 Mapstruct 映射父级和子级？

我有父级产品和子级书籍家具并且希望将产品实体映射到产品 DTO 如您所见产品被映射并存储在数据库中的单个表中如何映射具有子项额外详细信息的父项产品我看过this https stackoverflow com questio
运行Qemu后只是黑屏

我刚刚安装了 QEMU 并编译了支持 ARM 的 Linux 内核但是当我运行下面的命令时 qemu system arm M versatilepb m 128M kernel home arit QEMU linux 3 8 4 ar
在 RealityKit 中锚定多个场景

将多个场景来自 Reality Composer 加载到 arView 时场景不会锚定在同一空间中在此示例中 scene1 在应用程序启动时加载按下按钮后 scene2就被添加到场景中在这两个场景中模型都放置在原点并预计与添加
无法在 WPF 中设置动画后的属性

我使用以下代码为我的窗口设置动画 winLogin login new winLogin login Owner this login Show DoubleAnimation da new DoubleAnimation da From
说服 Webpack 解释其“无法解析 'foo'” 错误

我怎样才能说服Webpack 当它要发出时Can t resolve foo also 发出有关的信息它尝试过的地方 to find那个图书馆错误信息Can t resolve foo 没有帮助因为这是一条死胡同读者不知道 Webpa
仅使用 css/bootstrap 粘性多个表头 (thead) 行

我试图在下面有多行 thead 标签被粘贴而表格的其余部分是可滚动的 This https stackoverflow com questions 12266262 position sticky on thead 59690013 59
按下主页按钮后如何在后台设置 CABasicAnimation 动画？

我是ios开发的新手我在我的项目中使用轮子图像动画在前景模式下工作正常之后我按下主页按钮现在我重新启动应用程序滚轮动画不起作用这是我的代码 CABasicAnimation animation CABasicAnimation
模块中子应用程序之间的 Angular2 路由

我正在将 Angular 2 1 用于一个大型应用程序该应用程序具有多个子模块每个子模块定义按功能组织的子应用程序顶层模块通过导入每个子应用程序的路由等为 RouterModule 配置整个应用程序的所有子路由因此从子应用程序的
如何在 LINQ to Entities 查询中实现查询拦截？（C＃）

我正在尝试在 EF4 中实现加密列并使用 CTP5 功能来允许简单地使用 POCO 来查询数据库抱歉这是很多话但我希望下面的内容足以解释需求和问题那么一些背景知识以及我迄今为止的进展目的是如果您在不使用我们的 DAL 的情况
Scala 解析器组合器：在流中解析

我在 scala 中使用本机解析器组合器库我想用它来解析许多大文件我已经设置了组合器但是我尝试解析的文件太大无法一次读入内存我希望能够通过解析器从输入文件流式传输并将其读回磁盘这样我就不需要一次将其全部存储在内存中我当前的系统

Scala 解析器组合器：在流中解析

Scala 解析器组合器：在流中解析 的相关文章

随机推荐

热门标签

Scala 解析器组合器：在流中解析的相关文章