我有 4 台机器,M1、M2、M3 和 M4。调度程序、客户端、工作线程都在 M1 上运行。我已将 csv 文件放入 M1 中。其余的机器都是工人。
当我在 dask 中使用 read_csv 文件运行程序时。它给我错误,找不到文件
当您的一名工作人员尝试加载 CSV 时,它将无法找到它,因为该本地磁盘上不存在该文件。这不足为奇。您可以通过多种方式解决这个问题:
- 将文件复制给每个工人;这显然浪费了磁盘空间,但最容易实现
- 将文件放在网络文件系统上(NFS 挂载、gluster、HDFS 等)
- 将文件放置在外部存储系统(例如 amazon S3)上并引用该位置
- 将数据加载到本地进程中并使用 scatter 进行分发;在这种情况下,数据可能足够小,可以容纳在内存中,并且 dask 可能不会为您做太多事情。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)