同一文件上的多个 Arrow CSV 读取器返回 null

2023-12-23

我正在尝试使用多个 Goroutine 读取同一个文件，其中每个 Goroutine 都被分配一个字节来开始读取，并指定要读取的行数lineLimit.

当文件适合内存时，我成功地通过设置csv.ChunkSize的选项chunkSize多变的。但是，当文件大于内存时，我需要减少csv.ChunkSize选项。我正在尝试这样的事情

package main

import (
    "io"
    "log"
    "os"
    "sync"

    "github.com/apache/arrow/go/v11/arrow"
    "github.com/apache/arrow/go/v11/arrow/csv"
)

// A reader to read lines from the file starting from the byteOffset. The number
// of lines is specified by linesLimit.
func produce(
    id int,
    ch chan<- arrow.Record,
    byteOffset int64,
    linesLimit int64,
    filename string,
    wg *sync.WaitGroup,
) {
    defer wg.Done()

    fd, _ := os.Open(filename)
    fd.Seek(byteOffset, io.SeekStart)

    var remainder int64 = linesLimit % 10
    limit := linesLimit - remainder
    chunkSize := limit / 10

    reader := csv.NewInferringReader(fd,
        csv.WithChunk(int(chunkSize)),
        csv.WithNullReader(true, ""),
        csv.WithComma(','),
        csv.WithHeader(true),
        csv.WithColumnTypes(map[string]arrow.DataType{
            "Start_Time":        arrow.FixedWidthTypes.Timestamp_ns,
            "End_Time":          arrow.FixedWidthTypes.Timestamp_ns,
            "Weather_Timestamp": arrow.FixedWidthTypes.Timestamp_ns,
        }))
    reader.Retain()
    defer reader.Release()

    var count int64
    for reader.Next() {
        rec := reader.Record()
        rec.Retain() // released at the other end of the channel
        ch <- rec
        count += rec.NumRows()
        if count == limit {
            if remainder != 0 {
                flush(id, ch, fd, remainder)
            }
            break
        } else if count > limit {
            log.Panicf("Reader %d read more than it should, expected=%d, read=%d", id, linesLimit, count)
        }
    }

    if reader.Err() != nil {
        log.Panicf("error: %s in line %d,%d", reader.Err().Error(), count, id)
    }
}

func flush(id int,
    ch chan<- arrow.Record,
    fd *os.File,
    limit int64,
) {
    reader := csv.NewInferringReader(fd,
        csv.WithChunk(int(limit)),
        csv.WithNullReader(true, ""),
        csv.WithComma(','),
        csv.WithHeader(false),
    )

    reader.Retain()
    defer reader.Release()

    record := reader.Record()
    record.Retain() // nil pointer dereference error here
    ch <- record
}

我尝试了先前代码的多个版本，包括：

复制文件描述符
复制文件描述符的偏移量，打开同一个文件并寻求这种抵消。
调用前关闭第一个阅读器flush或关闭第一个fd.

无论我如何更改代码，错误似乎都是相同的。请注意，任何调用flush的读者提出了一个错误。包括reader.Next, and reader.Err().

我使用 csv 阅读器是否错误？这是重复使用同一文件的问题吗？

编辑：我不知道这是否有帮助，但是在中打开一个新的 fdflush没有任何Seek避免错误（不知何故任何Seek导致出现原始错误）。但是，如果没有Seek（即删除Seek导致任何 Goroutine 根本无法读取文件的一部分）。

主要问题是，csv 阅读器使用bufio.Reader下面，它的默认缓冲区大小为 4096。这意味着reader.Next()将读取超出需要的字节，并缓存额外的字节。如果之后直接从文件中读取reader.Next()，您将错过缓存的字节。

下面的演示展示了这种行为：

package main

import (
    "bytes"
    "fmt"
    "io"
    "os"

    "github.com/apache/arrow/go/v11/arrow"
    "github.com/apache/arrow/go/v11/arrow/csv"
)

func main() {
    // Create a two-column csv file with this content (the second column has 1024 bytes):
    // 0,000000....
    // 1,111111....
    // 2,222222....
    // 3,333333....
    temp := createTempFile()

    schema := arrow.NewSchema(
        []arrow.Field{
            {Name: "i64", Type: arrow.PrimitiveTypes.Int64},
            {Name: "str", Type: arrow.BinaryTypes.String},
        },
        nil,
    )
    r := csv.NewReader(
        temp, schema,
        csv.WithComma(','),
        csv.WithChunk(3),
    )
    defer r.Release()

    r.Next()

    // To check what's left after the first chunk is read.
    // If the reader stop at the end of the chunk, the content left will be:
    // 3,333333....
    // But in fact, the content left is:
    // 33333333333
    buf, err := io.ReadAll(temp)
    if err != nil {
        panic(err)
    }

    fmt.Printf("%s\n", buf)
}

func createTempFile() *os.File {
    temp, err := os.CreateTemp("", "test*.csv")
    if err != nil {
        panic(err)
    }
    for i := 0; i < 4; i++ {
        fmt.Fprintf(temp, "%d,", i)
        if _, err := temp.Write(bytes.Repeat([]byte{byte('0' + i)}, 1024)); err != nil {
            panic(err)
        }
        if _, err := temp.Write([]byte("\n")); err != nil {
            panic(err)
        }
    }

    if _, err := temp.Seek(0, io.SeekStart); err != nil {
        panic(err)
    }

    return temp
}

看来第二个读取器的目的是防止它读取另一个 csv 数据块。如果您提前知道下一个 csv 数据块的偏移量，则可以将文件包装在io.SectionReader使其仅读取当前的 csv 数据块。当前的问题没有提供有关这部分的足够信息，也许我们应该把它留给另一个问题。

Notes:

fd, _ := os.Open(filename)：永远不要忽略错误。至少记录它们。
fd大多数时候表示文件描述符。不要将其用于类型变量*os.File，特别是当*os.File有一个方法Fd.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

go

apachearrow

同一文件上的多个 Arrow CSV 读取器返回 null 的相关文章

Golang：使用像 Node.js 中那样的可读流从 PostgreSQL 数据库中选择几百万行

我有大约 5000 万行的 PostgreSQL 表我想编写 Go 代码来从该表中选择大约 100 万行并以有效的方式处理它们上次我使用了nodejs和这个NPM模块pg 查询流 https www npmjs com package
GO中的优先级队列

谁能向我解释一下我想在GO中实现一个优先级队列接口实现来自link https golang org pkg container heap example priorityQueue 但优先级最低我的代码 pq make Priori
模块路径格式错误...第一个路径元素中缺少点

我有一个包含 2 个不同可执行文件的项目每个可执行文件都有自己的依赖项以及对根的共享依赖项如下所示 Root gt server gt main go gt someOtherFiles go gt go mod gt go sum g
runtime.LockOSThread 是否允许子 goroutine 在同一个操作系统线程中运行？

我明白在 Go 中 runtime LockOSThread https golang org pkg runtime LockOSThread将一个 goroutine 绑定到一个操作系统线程并且不允许其他 goroutine 在该线程
vscode 中的调试不会在断点处停止，调试器启动时显示“无法找到文件...”

乌班图 vscode 1 62 1 去1 17 3 vscode go 扩展 v0 29 0 深入研究 v1 7 1 我是 vscode 和 Go 的新手我有多年在 Eclipse 中调试 Java 应用程序的经验我构建了一个小型多模块
Go MSSQL 连接

如何提供 MSSQL 连接它说它始终与代码相关即使信息不正确也不会报错 package main import database sql fmt github com denisenkom go mssqldb log var ser
给定方法值，获取接收者对象

Go 有没有办法从方法值获取接收者对象例如有没有这样的MagicFunc这将使以下程序输出字符串my info来自底层 Foo 实例 package main import fmt type Foo struct A string fun
无法连接到代理“证书由未知机构签名”

我正在尝试通过 Kubernetes 部署上的 cloudsql proxy 容器连接到 CloudSQL 实例我已安装 cloudsql 凭据以及值GOOGLE APPLICATION CREDENTIALS set 但是我的日志中仍
Go 中的 WebP 编码器/解码器

是否有一个完整的 WebP 编码器和解码器与当前每周或可分叉兼容它的速度与标准 png 相当吗这个人在 GitHub 上有一个包其中包含 WebP 的编码器和解码器 https github com chai2010 webp h
按引用或按值扫描功能

我有以下代码 statement SELECT id from source where mgmt 1 var exists string errUnique dr db QueryRow statement mgmt Scan exist
Golang 基础知识 struct 和 new() 关键字

我正在学习 golang 当我阅读描述结构的章节时我遇到了初始化结构的不同方法 p1 passport var p2 passport p3 passport Photo make byte 0 0 Name Scott Surname
nsq 无法通过连接到 nsqlookupd 来消费消息

我尝试使用 docker compose 来运行 nsq docker compose yml如下 version 3 services nsqlookupd image nsqio nsq command nsqlookupd ports
如何在golang模板上打印JSON？

我需要在客户端有一个对象所以我使用 json marshal 将其转换为 JSON 并将其打印到模板中该对象被打印为转义 JSON 字符串我期待它是var arr o1 o2 但它是var arr o1 o2 我知道我可以在客户端进行
在处理程序之后访问 HTTP 请求上下文

在我的日志记录中间件链中的第一个中我需要访问一些在链下游的某些身份验证中间件中编写的上下文并且仅在处理程序本身执行之后旁注需要首先调用日志记录中间件因为我需要记录请求的持续时间包括在中间件中花费的时间此外当权限不足时身
在golang中获取TTFB（第一个字节的时间）值

我正在尝试获取 TTFB 值和 Connect 值 c exec Command curl w Connect time connect TTFB time starttransfer Total time time total o dev
在 Go 中使用电子邮件地址创建证书签名请求 (CSR)

我尝试使用 crypto x509 包生成 CSR 但没有找到将 emailAddress 字段添加到其主题中的方法根据文档证书申请 http golang org pkg crypto x509 CertificateRequest结构
Gorm 总是返回带有 nil 值的结构

我正在使用 Gorm 构建 Go Web API 作为 Amazon RDS 中 Postgresql 数据库的 ORM 问题是 Gorm 总是返回一片结构其值全部为零尽管数据库已经填充了数据切片中的结构体数量是否合适取决于LIMIT
如何从非英语字符串解析go中的月份

我想将以下字符串解析为 go 中的日期 This item will be released on March 9 2014 我跟着this https stackoverflow com questions 14106541 go par
重新插入通道导致死锁

我有稳定的入站作业流将其输入到无缓冲通道中我有一个for range循环来迭代项目并处理它们如果处理该项目失败我会将项目重新插入通道中以便稍后重试问题是当我将项目重新插入通道时它陷入僵局我明白为什么会发生这种情况处理器
如何在 Ubuntu 中将 Go 程序作为守护进程启动？

在 Ubuntu 中将 Go 程序作为守护进程启动的正确方法是什么然后我将使用 Monit 对其进行监控我应该做这样的事情 go run myapp go 我应该考虑 Go 特有的事情吗您应该为您的程序构建一个可执行文件 go bui

随机推荐

Airflow 中的 KubernetesPodOperator 特权 security_context

我在 Google 的 Cloud Composer 上运行 Airflow 我正在使用KubernetesPodOperator https airflow apache org api airflow contrib operators
当调用 dlclose 时，共享库中的全局变量会发生什么？

如果通过 dlopen 和 dlclose 机制使用共享库或 DLL 并且创建的共享库有一些内存来自堆的全局变量那么当调用 dlclose 时这些变量和内存会发生什么如果在同一个进程中再次调用 dlopen 会出现什么行为 If d
带有空 aps 字典的 iOS 推送通知

进行研究以尝试选择通知类型的方向我希望能够通知我的应用程序有新数据需要刷新但不会通过弹出通知消息打扰用户这个想法是如果应用程序打开或关闭则会发出相同的通知并且当此特殊消息到达并且应用程序打开时它知道要获取数据我的想法是
SharedPreferences 不适用于真实设备 FLUTTER

我使用 SharedPreferences 来记住用户名和密码以便下次登录时无需询问密码当我使用带有 USB 线的真实设备进行调试时它运行良好但当我构建 APK 并安装它时它在我的设备中不起作用我不知道我错过了什么我像这样在登
页面内容是用 JavaScript 加载的，而 Jsoup 看不到它

页面上的一个块由 JavaScript 填充内容并且在使用 Jsoup 加载页面后没有任何信息有没有办法在解析页面时也获取 JavaScript 生成的内容Jsoup 无法在此处粘贴页面代码因为它太长 http pastebin c
RewriteMap 在 mod-rewrite 中不起作用

我一直在尝试使用 htaccess 中的 RewriteMap 指令进行简单映射但由于某种原因我每次都会收到错误 500 我的语法是选项 FollowSymLinks RewriteEngine on RewriteBase Rewri
如何在R中使用公式排除主效应但保留交互作用

我不想要主效应因为它与更精细的因子固定效应共线所以拥有这些效果很烦人NA 在这个例子中 lm y x z 我想要的互动x 数字和z 因素但不是主效应z 介绍 R 文档 formula says 运算符表示因子交叉 a b 解释为 a
如何在 Shader 属性中定义浮点数组？

我想在我的着色器中定义一个浮点数组如下所示 Properties TilesX Tiles X Int 10 TilesY Tiles Y Int 10 TileData1 Tile data Float THIS Texture1 Te
如何在 Mac 上安装 build-essential？

build essential在 Debian Ubuntu 上安装良好 apt search build essential build essential Informational list of build essential pa
cppclass Cython/C++ 定义中的重载是否已损坏？

Cython 文档shows http cython readthedocs io en latest src userguide wrapping CPlusPlus html如何使用重载方法声明现有的 C 类但是如果我定义自己的cp
将波斯/阿拉伯数字转换为英文数字

我怎样才能转换波斯阿拉伯数字 to 英文数字有一个简单的功能波斯阿拉伯数字 gt 0 gt 1 gt 2 gt 3 gt 4 gt 5 gt 6 gt 7 gt 8 gt 9 unicode 上的数字 num0 1776 num1 1
jQuery：如何从 $.ajax.error 方法中获取 HTTP 状态代码？

我正在使用 jQuery 发出 AJAX 请求我想执行不同的操作无论 HTTP 状态代码是 400 错误还是 500 错误我怎样才能实现这个目标 ajax type POST url controller action data fo
UI MapView：用户位置注释仅在 iPad 中为白色而不是蓝色脉冲

我已经使用地图有一段时间了所以我了解显示用户位置所需的基础知识 map showsUserLocation YES also have the box checked in xib 设置位置管理器 CLLocationManager lo
在循环中分配一个函数

我试图为循环中的每个元素分配一个函数我希望函数使用变量的值但它们使用变量的最后一个值 assign instrumentslist function for instList in lists instruments assign pa
如何设置 Content-Disposition 标头中包含空格的文件名

我有这段代码 resp addHeader Content Disposition inline filename fileName 当文件名是 a b c doc 或 abc doc 时下载文件的名称会正确显示然而当文件名是 ab
如何在用户点击时触发 setInterval 函数？

我正在尝试编写一个 JS 计时器该计时器将由用户单击 id start 的按钮触发我已经让计时器本身正常工作但是当我尝试添加代码以在按钮单击 id start 上启动计时器时我破坏了它并且不确定为什么任何帮助将不胜感激这是JS代
资源已使用链接预加载进行预加载，但在窗口加载事件后几秒钟内未使用

在我正在开发的网站上我在外部服务器上托管了一些字体在我的我正在预加载字体然后获取包含所有字体的样式表 font face字体的规则样式表与字体位于同一服务器上我遇到的问题是字体似乎已再次加载after样式表被加载根本不使用预加
VS2022 net6.0在哪里存储ProjectGuid？

刚刚开始使用 VS2022 和新的 csproj 格式在旧格式中每个项目都有这样的内容 Properties AssemblyInfo cs assembly Guid e8151094 eb82 46bd 9809 523d4a4fc
除了“更改列表”视图之外，是否有办法让自定义 Django 管理操作显示在“更改”视图上？

我认为无论出于何种原因这都很容易做到但我更深入地研究似乎没有直接的方法允许用户在实例的更改视图上执行自定义管理操作即当您只是查看编辑时屏幕显示单个实例而不是实例列表我是否忽略了一种简单的方法来做到这一点或者是我覆盖管理
同一文件上的多个 Arrow CSV 读取器返回 null

我正在尝试使用多个 Goroutine 读取同一个文件其中每个 Goroutine 都被分配一个字节来开始读取并指定要读取的行数lineLimit 当文件适合内存时我成功地通过设置csv ChunkSize的选项chunkSize多变

同一文件上的多个 Arrow CSV 读取器返回 null

同一文件上的多个 Arrow CSV 读取器返回 null 的相关文章

随机推荐

热门标签