在 Haskell 中解析大型日志文件

2024-01-01

假设我有几个 200mb+ 的文件想要 grep 遍历。我该如何在 Haskell 中做到这一点？

这是我的初始程序：

import Data.List
import Control.Monad
import System.IO
import System.Environment

main = do
  filename <- liftM head getArgs
  contents <- liftM lines $ readFile filename
  putStrLn . unlines . filter (isPrefixOf "import") $ contents

这会在解析之前将整个文件读入内存。然后我就这样做了：

import Data.List
import Control.Monad
import System.IO
import System.Environment

main = do
  filename <- liftM head getArgs
  file <- (openFile filename ReadMode)
  contents <- liftM lines $ hGetContents file
  putStrLn . unlines . filter (isPrefixOf "import") $ contents

我以为自从hGetContents是懒惰，它将避免将整个文件读入内存 http://book.realworldhaskell.org/read/io.html#io.lazy。但是在下面运行这两个脚本valgrind两者的内存使用情况相似。所以要么我的脚本是错误的，要么valgrind是错的。我使用编译脚本

ghc --make test.hs -prof

我缺少什么？额外问题：我看到很多人提到 Haskell 中的 Lazy IO 实际上是一件坏事。我如何/为什么要使用严格 IO？

Update:

所以看起来我对 valgrind 的理解是错误的。使用+RTS -s，这就是我得到的：

 7,807,461,968 bytes allocated in the heap
 1,563,351,416 bytes copied during GC
       101,888 bytes maximum residency (1150 sample(s))
        45,576 bytes maximum slop
             2 MB total memory in use (0 MB lost due to fragmentation)

Generation 0: 13739 collections,     0 parallel,  2.91s,  2.95s elapsed
Generation 1:  1150 collections,     0 parallel,  0.18s,  0.18s elapsed

INIT  time    0.00s  (  0.00s elapsed)
MUT   time    2.07s  (  2.28s elapsed)
GC    time    3.09s  (  3.13s elapsed)
EXIT  time    0.00s  (  0.00s elapsed)
Total time    5.16s  (  5.41s elapsed)

重要的一行是101,888 bytes maximum residency，它表示在任何给定点我的脚本最多使用 101 kb 内存。我正在查找的文件有 44 mb。所以我认为判决是：readFile and hGetContents两人都很懒。

后续问题：

为什么我看到堆上分配了 7GB 内存？对于读取 44 MB 文件的脚本来说，这似乎非常高。

更新后续问题

看起来在堆上分配几 GB 的内存对于 Haskell 来说并不罕见，所以没有理由担心。使用ByteStrings 而不是Strings 使内存使用量下降很多：

  81,617,024 bytes allocated in the heap
      35,072 bytes copied during GC
      78,832 bytes maximum residency (1 sample(s))
      26,960 bytes maximum slop
           2 MB total memory in use (0 MB lost due to fragmentation)

请不要使用Strings（尤其是在处理 >100 Mb 文件时）。只需将它们替换为ByteStrings (or Data.Text):

{-# LANGUAGE OverloadedStrings #-}

import Control.Monad
import System.Environment
import qualified Data.ByteString.Lazy.Char8 as B

main = do
  filename <- liftM getArgs
  contents <- liftM B.lines $ B.readFile filename
  B.putStrLn . B.unlines . filter (B.isPrefixOf "import") $ contents

我敢打赌，这会快几倍。

UPD:关于你的后续问题。
分配的内存量与切换到字节串时的神奇加速密切相关。
As String只是一个通用列表，每个列表都需要额外的内存Char：指向下一个元素、对象头等的指针。所有这些内存都需要分配然后回收。这需要大量的计算能力。
另一方面，ByteString是一个列表chunks，即连续的内存块（我认为每个内存块不少于 64 字节）。这大大减少了分配和收集的数量，并提高了缓存局部性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Haskell

在 Haskell 中解析大型日志文件的相关文章

测试列表是否已排序

在 haskell 中找到最小列表确实很容易 foldl1 min 9 5 7 3 7 4 6 10 给我3 我更换了min with lt 测试列表是否已排序 foldl1 lt 9 5 7 3 7 4 6 10 我收到此错误消息 No
结构上强制的自由替代，没有左派分配性

有一个不错的免费替代品 http hackage haskell org package free 4 12 4 docs Control Alternative Free html在伟大的free包它将函子提升到左分配替代方案也就是说
仪器化状态单子

我正在努力给予Monad and MonadState的实例State 计算的数量 gt gt return get and put运营 data Counts Counts binds Int returns Int gets Int p
绑定变量时 Haskell 中的无限循环

下面的 Haskell 代码不会终止有人可以解释一下为什么吗谢谢 f let x 10 in let x x x in x 我认为解释器首先绑定 x 10 然后将 x x 计算为 100 并绑定 x 100 环境变为 x 100 那么整
Haskell：如何创建将函数应用于元组项的最通用函数

这是一个个人练习旨在更好地理解 Haskell 类型系统的局限性我想创建最通用的函数将某些函数应用于 2 条目元组中的每个条目例如 applyToTuple fn a b fn a fn b 我试图让这个函数在以下每种情况下都起作用
yesod——密码保护临时站点

我正在尝试设置 yesod 网络服务器的临时实例我想知道是否有一些简单的方法可以使整个站点受到密码保护具体来说我希望能够提示那些导航到我的网站的人提供凭据经过身份验证后它应该像典型站点一样运行但如果他们无法验证自己的身份他们就
为什么这会导致 Haskell Conduit 库内存泄漏？

我有一个conduit https hackage haskell org package conduit管道处理长文件我想每 1000 条记录为用户打印一份进度报告所以我这样写 Every n records perform the
在 Haskell 中为自定义数据类型创建 Read 类型类的实例

我有一个自定义数据类型Foo Foo a Int b Int 我正在尝试使 Foo 成为 read 的自定义实例我已经有一个功能了bar String gt Foo我尝试这样做 instance Read Foo a b where re
使用 Haskell 的欧拉项目 #1

import Data Set euler Int euler sum x x lt nums where nums Data Set toList Data Set union Data Set fromList 3 6 999 Data
如何向 Scotty 中间件添加基本身份验证？

我目前正在制作 Scotty API 但找不到任何 basicAuth 实现的示例 Wai Middleware HttpAuth 具体来说我想将基本身份验证标头用户通行证添加到我的某些端点即以 admin 开头的端点我已经设置
谁能解释一下 GHC 对 IO 的定义吗？

标题非常自我描述但有一个部分引起了我的注意 newtype IO a IO State RealWorld gt State RealWorld a 剥离newtype 我们得到 State RealWorld gt State Real
列表理解：制作列表列表

你好我正在尝试在 haskell 中创建一个函数该函数接受一个数字 a 使用列表即数字将其一部分4它会创造 1 1 1 1 1 1 2 1 3 2 2 4 我正在考虑使用列表理解来创建列表 x 然后使用 1 n 中的数字创建更多列表
如何将只缓存某些内容的字段添加到ADT？

我经常需要向 ADT 添加字段仅记住一些冗余信息但我还没有完全弄清楚如何又好又高效地做到这一点说明问题的最好方法是举个例子假设我们正在使用无类型 lambda 项 type VSym String data Lambda Var V
我应该使用什么递归方案来重复有效的操作，直到其结果符合某些标准？

也就是说我要问的是一个循环 effectful Int gt IO Int effectful n do putStrLn Effect show n return n condition 3 final Int gt IO final
有没有办法在 Emacs 中使用 Djinn 自动生成 Haskell 代码？

标题几乎说明了一切我正在寻找这样的东西 f Int gt Bool gt Int f body Djinn 可以使用定理证明来通过证明该类型存在来生成此类函数的代码我想知道是否有现有的方法可以从 Emacs 中获取此功能因此我不需
什么是阴谋地狱？

在阅读有关阴谋地狱的内容时我有点困惑因为这个词的含义太多了我猜最初 Cabal Hell 指的是钻石依赖问题该问题是通过限制构建计划在每个构建计划中只有任何包的单个版本来解决的一个包的两个不同版本不能存在于单个构建计划中正如
如何处理在组合下发生变化的类型？

我最近读了一篇非常有趣的论文单调性类型 https infoscience epfl ch record 231867 files monotonicity types pdf其中描述了一种新的 HM 语言该语言可以跟踪操作之间的单调性
类型级编程有哪些示例？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我不明白类型级编程是什么意思也无法使用Google找到合适的解释有人可以提供一个演示类型级编程的示例吗范式的解释和或定义将
Parsec 函数“parse”和类“Stream”的类型签名

约束条件是什么 Stream s Identity t 下面的类型声明是什么意思 parse Stream s Identity t gt Parsec s a gt SourceName gt s gt Either ParseError
Haskell 类型定义，=> 等

我正在使用 Learn You a Haskell 来学习 Haskell 第 54 页上有一个像这样执行 take Num i Ord i gt i gt a gt a take n n lt 0 take take n x xs x

随机推荐

在angularjs中为多个部分视图创建单个html视图

我希望创建一个包含多个标签的 html 文件这些应该作为单独的单独视图通常保存在部分文件夹中然后我希望在路由控制器中指定它们现在我正在做如下应用程序 js angular module productapp config rout
如何完成这个 Google Calendar Api v3 - FreeBusy PHP - 示例？

我想使用 google api v3 freebusy php 来查找我的三个日历的免费 freebusy 信息但我找不到代码的正确结尾我想访问 freebusy response 的日历忙值由于 api 参考中没有示例代码而
使用 roxygen2 时如何指定加载 S4 方法的顺序

我已经多次遇到以下问题假设你有两节课 classA and classB在以下文件中描述classA R the class classA This is a class A blabla section Slots describe i
如何根据指针变量计算数组的大小？

我有数组指针内存中的数组我可以根据数组的指针计算数组的大小吗我实际上不知道数组在内存中的位置我只得到指针地址假设9001 使用该地址我必须计算数组大小 Thanks 不您无法计算数组的大小 C 中的对象不携带类型信息因此您必须
window.scrollTo 在手机中不起作用

在我的网页的移动视图上我可以垂直和水平方向滚动但这始终从左上角开始现在我想使用 window scrollTo 或类似的东西将视口设置为我的自定义位置 window scroll 似乎只适用于桌面浏览器知道我该如何解决这个问题吗我
ESLint 和 Prettier 冲突，无法为代码块禁用 Prettier

我们的项目使用 Prettier 和 ESLint 通常它们可以很好地协同工作但我们遇到了两者发生冲突的问题我不知道为什么我不知道如何修复它并且我无法禁用该行的 prettier 因为我收到错误我们设置的相关部分 prettier
Lambda 和 std::function

我正在努力赶上 C 11 和所有出色的新功能我有点被 lambda 困住了这是我能够开始工作的代码 include
用 javascript 替换输入

大家好我正在尝试将 text 输入类型替换为 password 它适用于以下代码 function replaceT obj var newO document createElement input newO setAttribute
了解 C 中的函数和指针

这是一个很简单的问题但是下面的函数原型是什么意思呢 int square int y size t x size t 的剂量是什么意思我知道 size t 是一种数据类型 int gt 0 但是我如何阅读它所附的呢它是指向 x 的内
R：计算指定时间范围内不同类别的数量

这是一些虚拟数据 user id date category 27 2016 01 01 apple 27 2016 01 03 apple 27 2016 01 05 pear 27 2016 01 07 plum 27 2016 01
为什么我们必须手动刷新（）扩展 PersistenceContext 中的 EntityManager？

在我们的 J2EE 应用程序中我们使用 EJB 3 有状态 bean 来允许前端代码创建修改和保存持久实体通过 JPA 2 管理它看起来像这样 LocalBean Stateful TransactionAttribute Tran
为什么我的控制台应用程序在使用 Process.Start() 启动时没有图标？

我有一个应用程序可以将 exe 下载到临时文件夹并使用以下命令运行它System Diagnostics Process班级到目前为止我已经用它运行了两个不同的应用程序一个是控制台应用程序另一个是完整的 Windows 应用程序
Ninject 和信任级别中等

我正在尝试使用 hostgator 托管我的 asp net mvc 4 Web 应用程序目前的问题是我使用的计划仅允许中等信任级别我的应用程序当前安装了 Ninject MVC 包我尝试过使用 Ninject 主页上的 NET F
合并减少 JDBC 读取并行度

我杠杆Spark s JDBC能力如下 Read MySQL表成DataFrame 转换 them Coalesce them 将它们写给HDFS 在整个生命周期中DataFrame no action执行在上面它曾经按预期工作但最近我
具有特定颜色和图例位置的熊猫条形图？

我有一只熊猫DataFrame我想绘制一个包含图例的条形图 import pylab as pl from pandas import x DataFrame Alpha Series 1 1 2 3 3 2 5 Beta Series 1
java.lang.NullPointerException：尝试在空对象引用上调用虚拟方法“ActionBar.setNavigationMode(int)”

我在运行时收到此错误 java lang NullPointerException Attempt to invoke virtual method void android support v7 app ActionBar setNavi
TensorFlow Lite 无法识别操作 VarHandleOp

我正在尝试将 TF 模型转换为 TFLite 模型保存在 pb格式我已使用以下代码对其进行了转换 import os import tensorflow as tf from tensorflow core protobuf import
使用 C# 时指定的强制转换无效错误

我试图将 select 语句结果存储在 C 变量中但收到此错误指定的演员阵容无效当我运行它时我不知道如何解决请帮忙 SqlConnection con1 new SqlConnection ConfigurationManager
Discord.py wait_for('reaction_add') 与直接消息的功能不同

我的目标是让机器人对其自己的消息做出反应然后如果发送原始命令的用户也做出反应则在该频道中发送回复现在如果命令在服务器通道中发送则该功能可以工作但如果作为直接消息发送给机器人它不会等待您的反应通过打印的值user id and
在 Haskell 中解析大型日志文件

假设我有几个 200mb 的文件想要 grep 遍历我该如何在 Haskell 中做到这一点这是我的初始程序 import Data List import Control Monad import System IO import S

在 Haskell 中解析大型日志文件

在 Haskell 中解析大型日志文件 的相关文章

随机推荐

热门标签

在 Haskell 中解析大型日志文件的相关文章