一个 Java 主题程序，可以读取一个巨大的 CSV 文件的行

2024-01-10

我有一个巨大的 CSV 文件，包含超过 700K 行。我必须解析该 CSV 文件的行并执行操作。我想到通过使用线程来做到这一点。我首先尝试做的事情很简单。每个线程都应该处理 CSV 文件的唯一行。我只能读取 3000 行。我创建了三个线程。每个线程应该读取 CSV 文件的一行。以下是代码：

import java.io.*;

class CSVOps implements Runnable
{
    static int lineCount = 1;
    static int limit = 3000;
    BufferedReader CSVBufferedReader;

    public CSVOps(){} // Default constructor

    public CSVOps(BufferedReader br){
        this.CSVBufferedReader = br;
    }

    private synchronized void readCSV(){
        System.out.println("Current thread "+Thread.currentThread().getName());
        String line;
        try {
            while((line = CSVBufferedReader.readLine()) != null){
                System.out.println(line);
                lineCount ++;
                if(lineCount >= limit){
                    break;
                }
            }
        }
        catch (IOException e) {
            e.printStackTrace();
        }
    }

    public void run() {
        readCSV();
    }

}

class CSVResourceHandler
{
    String CSVPath;

    public CSVResourceHandler(){ }// default constructor

    public CSVResourceHandler(String path){
        File f = new File(path);
        if(f.exists()){
            CSVPath = path;
        }
        else{
            System.out.println("Wrong file path! You gave: "+path);
        }
    }

    public BufferedReader getCSVFileHandler(){
        BufferedReader br = null;
        try{
            FileReader is = new FileReader(CSVPath);
            br = new BufferedReader(is);
        }
        catch(Exception e){
        }
        return br;
    }
}

public class invalidRefererCheck
{
    public static void main(String [] args) throws InterruptedException
    {
        String pathToCSV = "/home/shantanu/DEV_DOCS/Contextual_Work/invalid_domain_kw_site_wise_click_rev2.csv";
        CSVResourceHandler csvResHandler = new CSVResourceHandler(pathToCSV);
        CSVOps ops = new CSVOps(csvResHandler.getCSVFileHandler());

        Thread t1 = new Thread(ops);
        t1.setName("T1");

        Thread t2 = new Thread(ops);
        t1.setName("T2");

        Thread t3 = new Thread(ops);
        t1.setName("T3");

        t1.start();
        t2.start();
        t3.start();
    }
}

CSVResourceHandler 类简单地查找传递的文件是否存在，然后创建一个 BufferedReader 并给出它。该读取器被传递到 CSVOps 类。它有一个方法 readCSV，可以读取 CSV 文件的一行并打印出来。限制设置为 3000。

现在，为了让线程不会弄乱计数，我将这些 limit 和 count 变量声明为静态。当我运行这个程序时，我得到奇怪的输出。我只得到大约 1000 条记录，有时我得到 1500 条。它们是随机顺序的。在输出结束时，我得到两行 CSV 文件，当前线程名称是 main！

我是一个线程新手。我希望能够快速读取此 CSV 文件。能做什么呢？

好吧，首先，不使用多个线程从单个机械磁盘执行并行 I/O。它实际上会降低性能，因为每次线程有机会运行时，机械头都需要寻找下一个读取位置。因此，您不必要地弹跳磁盘磁头，这是一项成本高昂的操作。

使用单生产者多消费者模型来使用单个线程读取行并使用工作池处理它们。

关于你的问题：

您实际上不应该在退出 main 之前等待线程完成吗？

public class invalidRefererCheck
{
    public static void main(String [] args) throws InterruptedException
    {
        ...
        t1.start();
        t2.start();
        t3.start();

        t1.join();
        t2.join();
        t3.join();
    }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Multithreading

一个 Java 主题程序，可以读取一个巨大的 CSV 文件的行的相关文章

日期语句之间的 JPQL SELECT [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我想将此 SQL 语句转换为等效的 JPQL SELECT FROM events WHERE events date BETWE
如何循环遍历所有组合，例如48 选择 5 [重复]

这个问题在这里已经有答案了可能的重复如何在java中从大小为n的集合中迭代生成k个元素子集 https stackoverflow com questions 4504974 how to iteratively generate k
使用 LinkedList 实现下一个和上一个按钮

这可能是一个愚蠢的问题但我很难思考清楚我编写了一个使用 LinkedList 来移动加载的 MIDI 乐器的方法我想制作一个下一个和一个上一个按钮以便每次单击该按钮时都会遍历 LinkedList 如果我硬编码itr next or
如何在 iPhone 上使用带有线程的 sqlite + fdbm 库

相关这个问题 https stackoverflow com questions 1082554 我想把数据加载放在后台但是我收到库例程调用不按顺序错误 In 这个所以线程 https stackoverflow com quest
检测并缩短字符串中的所有网址

假设我有一条字符串消息您应该将 file zip 上传到http google com extremelylonglink zip http google com extremelylonglink zip not https stack
java.lang.IllegalStateException：提交响应后无法调用 sendRedirect()

这两天我一直在尝试找出问题所在我在这里读到我应该在代码中添加一个返回我做到了但我仍然得到 java lang IllegalStateException Cannot call sendRedirect after the respo
在 junit 测试中获取 javax.lang.model.element.Element 类

我想测试我的实用程序类 ElementUtils 但我不知道如何将类作为元素获取在 AnnotationProcessors 中我使用以下代码获取元素 Set
每个托管线程是否都有自己对应的本机线程？

我想知道是否在 Net 中创建托管线程通过调用Thread Start 导致在后台创建一个本机线程那么托管线程是否有对应的本机线程呢如果是当托管线程等待或睡眠时是否意味着相应的本机线程也在等待或睡眠是的 NET 线程映射到所有当
Spring Boot Data JPA 从存储过程接收多个输出参数

我尝试通过 Spring Boot Data JPA v2 2 6 调用具有多个输出参数的存储过程但收到错误 DEBUG http nio 8080 exec 1 org hibernate engine jdbc spi SqlStat
如何访问JAR文件中的Maven资源？ [复制]

这个问题在这里已经有答案了我有一个使用 Maven 构建的 Java 应用程序我有一个资源文件夹com pkg resources 我需要从中访问文件例如directory txt 我一直在查看各种教程和其他答案但似乎没有一个对我有
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
尝试将 Web 服务部署到 TomEE 时出现“找不到...的 appInfo”

我有一个非常简单的项目用于培训目的它是一个 RESTful Web 服务我使用 js css 和 html 创建了一个客户端我正在尝试将该服务部署到 TomEE 这是我尝试部署时遇到的错误我在这里做错了什么刚刚遇到这个问题我曾
logcat 中 mSecurityInputMethodService 为 null

我写了一点android应显示智能手机当前位置最后已知位置的应用程序尽管我复制了示例代码并尝试了其他几种解决方案但似乎每次都有相同的错误我的应用程序由一个按钮组成按下按钮应该log经度和纬度但仅对数 mSecurityInp
为什么 Java 8 不允许非公共默认方法？

让我们举个例子 public interface Testerface default public String example return Hello public class Tester implements Testerface
如何使用 jUnit 将测试用例添加到套件中？

我有 2 个测试类都扩展了TestCase 每个类都包含一堆针对我的程序运行的单独测试如何将这两个类以及它们拥有的所有测试作为同一套件的一部分执行我正在使用 jUnit 4 8 在 jUnit4 中你有这样的东西 RunWith
最新的 Hibernate 和 Derby：无法建立 JDBC 连接

我正在尝试创建一个使用 Hibernate 连接到 Derby 数据库的准系统项目我正在使用 Hibernate 和 Derby 的最新版本但我得到的是通用的Unable to make JDBC Connection error 这是
Opencv Java 灰度

我编写了以下程序尝试从彩色转换为灰度 Mat newImage Imgcodecs imread q1 jpg Mat image new Mat new Size newImage cols newImage rows CvType C
找不到符号 NOTIFICATION_SERVICE？

package com test app import android app Notification import android app NotificationManager import android app PendingIn
如何将双精度/浮点四舍五入为二进制精度？

我正在编写对浮点数执行计算的代码的测试不出所料结果很少是准确的我想在计算结果和预期结果之间设置一个容差我已经证实在实践中使用双精度在对最后两位有效小数进行四舍五入后结果始终是正确的但是usually四舍五入最后一位小数后
双枢轴快速排序和快速排序有什么区别？

我以前从未见过双枢轴快速排序是快速排序的升级版吗双枢轴快速排序和快速排序有什么区别我在 Java 文档中找到了这个排序算法是双枢轴快速排序作者弗拉基米尔雅罗斯拉夫斯基乔恩本特利和约书亚布洛赫这个算法在许多数据集上提供

随机推荐

当模板名称是变量时如何使用 Groovy 模板引擎？

我正在尝试找到一种方法来使用常规变量而不是使用硬编码的模板名称当前代码如下所示 SCRIPT template groovy html template 我尝试使用嵌套变量扩展但仍然出现错误 Example def body SCRIP
Apple PrefPane 示例无法构建，并出现 clang 错误，同时反对 -fobjc-arc 和 -fobjc-gc

我正在尝试构建一个首选项窗格作为学习 OS X 开发的一部分下载苹果的后首选项窗格示例代码 https developer apple com library mac samplecode PrefsPane Introduction I
python 上的 Latex：\alpha 和 \beta 不起作用？

我使用 matplotlib 生成一些图形并使用乳胶作为图例更具体地说我正在尝试使用这样的东西 loglog x x r label alpha legend show 但是此代码不会在图形上显示图例并且在关闭图像后出现错误我正
CHtmlview (MFC) 中的 svg

我无法在 MFC 应用程序中从 CHtmlView 派生的视图中使用 SVG 进行绘制但是当我在记事本中复制相同的源并使用 Internet Explorer 打开它时它正在工作我的机器上安装的IE版本是IE9 有人可以帮我解决这个
在python中，random.uniform()和random.random()有什么区别？

在 python 中 random 模块有什么区别random uniform and random random 它们都生成伪随机数 random uniform 从均匀分布生成数字并random random 生成下一个随机数有什么不
如何在 Google Apps 脚本中缓存对象

我正在 Google Drive 电子表格的脚本中从 JIRA 获取 JSON 数据我有一个脚本可以很好地获取数据而且我几乎只获取该问题的数据我返回的是 JSON 文本字段表示有关特定 JIRA 问题的所有数据我不想每次需要特定
TFS 门控签入——如何拒绝部分构建成功签入？

我有一个构建后脚本 powershell 它会按照预期抛出异常构建后脚本在构建后脚本路径部分的构建定义中定义该异常记录在构建的其他错误和警告部分中打开门控签入后即使构建被归类为部分因为构建后脚本失败更改仍然会提交似乎
将 Google App Engine 数据存储导出到 MySQL？

我们正在考虑在 Google App Engine 上构建一些基础设施但我们担心如果它无法扩展我们将来需要导出数据并在我们自己的服务器上运行有没有办法从 App Engine 数据存储区导出到 MySQL 就数据导出而言批量下载器
sfinae 位于类体外部定义的成员函数上

有点像我的延续上一个问题 https stackoverflow com questions 11694970 c11 style sfinae and function visibility on template instantiati
new locationclient(this,this,this) 编译错误

我正在尝试使用新的谷歌位置服务更新旧教程我直接使用谷歌教程中的代码但行 mLocationClient new LocationClient this this this 返回错误构造函数 LocationClient RunFrag
使用 UITapGestureRecognizer 时查找哪个子视图被点击

使用 UIGestureRecognizer 时如何知道哪个子视图发生了事件根据文档手势识别器运行于触摸特定视图的命中测试以及该视图的所有子视图据我所知 view 属性是手势识别器的视图是附于这将是父视图这将找到事件位置的
根据文本长度自动拉伸或收缩“”？

我有两个
如何比较没有缓存的 Neo4j 查询的性能？

我一直在尝试比较 Neo4j 中的查询性能为了使查询更高效我添加了索引使用profile分析结果并尝试在使用USING INDEX时做同样的事情在大多数查询中使用第二个选项使用 USING INDEX 时数据库命中要好得多行
在 C# 中使用嵌套数组反序列化 JSON

我在尝试反序列化此 JSON 时遇到问题 response numfound 1 start 0 docs enID 9999 startDate 2013 09 25 bName XXX pName YYY UName ZZZ agent
指定 --django-settings-module 标志时 pylint (pylint_django) 不起作用

我正在使用最新版本pylint django前几天发布 Package Version pylint 2 7 4 pylint django 2 4 3 pylint plugin utils 0 6 当我启用时pylint在 VSC 中p
什么是 ' 以及为什么 Google 搜索将其替换为撇号？

用什么语言表示和哈希三九分号 39 代表撇号我以 JSON 格式提取了一些网站数据其中一些用户评论带有撇号被替换为 39 那么它是什么代表呢我什至无法用谷歌搜索它因为谷歌搜索撇号而不是和哈希三九分号 It s H
将 VB6 AES Rijndael 分组密码转换为 C# 作者：Phil Fresle

我正在将经典 asp 应用程序转换为 C 并且希望能够解密 c 中最初在经典 asp 中加密的字符串经典的asp代码是here http www frez co uk vb6 aspx c 代码是here http www frez co
IMvcBuilder AddJsonOptions 在.Net Core 3.0 中去了哪里？

我刚刚将我的 ASP Web API 项目从 NET Core 2 0 升级到 3 0 我正在使用 services AddMvc AddJsonOptions opts gt opts SerializerSettings Contrac
QFlags枚举类型转换突然失败

我已经在库中运行了这段代码很长一段时间 MyClass MyClass QDialog setWindowFlags Qt CustomizeWindowHint Qt WindowTitleHint 然后在更改库的各个部分后我突然收到
一个 Java 主题程序，可以读取一个巨大的 CSV 文件的行

我有一个巨大的 CSV 文件包含超过 700K 行我必须解析该 CSV 文件的行并执行操作我想到通过使用线程来做到这一点我首先尝试做的事情很简单每个线程都应该处理 CSV 文件的唯一行我只能读取 3000 行我创建了三个线程

一个 Java 主题程序，可以读取一个巨大的 CSV 文件的行

一个 Java 主题程序，可以读取一个巨大的 CSV 文件的行 的相关文章

随机推荐

热门标签

一个 Java 主题程序，可以读取一个巨大的 CSV 文件的行的相关文章