Python并行将GCS中的.json文件读取到pandas DF中

2024-01-20

TL;DR: asyncio vs multi-processing vs threading vs. some other solution并行化 for 循环，从 GCS 读取文件，然后将这些数据一起附加到 pandas 数据帧中，然后写入 BigQuery...

我想并行一个Python函数来读取数十万个小数据.json来自 GCS 目录的文件，然后转换这些文件.jsons到 pandas 数据帧中，然后将 pandas 数据帧写入 BigQuery 表。

这是该函数的非并行版本：

import gcsfs
import pandas as pd
from my.helpers import get_gcs_file_list
def load_gcs_to_bq(gcs_directory, bq_table):

    # my own function to get list of filenames from GCS directory
    files = get_gcs_file_list(directory=gcs_directory) # 

    # Create new table
    output_df = pd.DataFrame()
    fs = gcsfs.GCSFileSystem() # Google Cloud Storage (GCS) File System (FS)
    counter = 0
    for file in files:

        # read files from GCS
        with fs.open(file, 'r') as f:
            gcs_data = json.loads(f.read())
            data = [gcs_data] if isinstance(gcs_data, dict) else gcs_data
            this_df = pd.DataFrame(data)
            output_df = output_df.append(this_df)

        # Write to BigQuery for every 5K rows of data
        counter += 1
        if (counter % 5000 == 0):
            pd.DataFrame.to_gbq(output_df, bq_table, project_id=my_id, if_exists='append')
            output_df = pd.DataFrame() # and reset the dataframe


    # Write remaining rows to BigQuery
    pd.DataFrame.to_gbq(output_df, bq_table, project_id=my_id, if_exists='append')

这个函数很简单：

grab ['gcs_dir/file1.json', 'gcs_dir/file2.json', ...], GCS 中的文件名列表
loop over each file name, and:
- 从 GCS 读取文件
- 将数据转换为 pandas DF
- 附加到主 pandas DF
- 每 5K 循环写入 BigQuery（因为随着 DF 变大，追加速度会变慢）

我必须在几个 GCS 目录上运行这个函数，每个目录都有大约 500K 个文件。由于读/写这么多小文件的瓶颈，这个过程对于一个目录来说大约需要 24 小时...如果我能让这个更加并行以加快速度，那就太好了，因为这似乎是一个任务适合并行化。

Edit：下面的解决方案很有帮助，但我对从 python 脚本中并行运行特别感兴趣。 Pandas 正在处理一些数据清理，并使用bq load会抛出错误。有asyncio https://docs.python.org/3/library/asyncio.html和这个gcloud-aio-存储 https://pypi.org/project/gcloud-aio-storage/这两者似乎都对这项任务有用，也许是比线程或多处理更好的选择......

不要向 Python 代码中添加并行处理，而是考虑多次并行调用 Python 程序。这个技巧更适合在命令行上获取文件列表的程序。因此，为了这篇文章，让我们考虑更改程序中的一行：

您的线路：

# my own function to get list of filenames from GCS directory
files = get_gcs_file_list(directory=gcs_directory) #

新队：

files = sys.argv[1:]  # ok, import sys, too

现在，您可以通过以下方式调用您的程序：

PROCESSES=100
get_gcs_file_list.py | xargs -P $PROCESSES your_program

xargs现在将采用以下方式输出的文件名get_gcs_file_list.py并调用your_program最多并行 100 次，每行容纳尽可能多的文件名。我相信文件名的数量仅限于 shell 允许的最大命令大小。如果 100 个进程不足以处理所有文件，xargs 将调用your_program一次又一次，直到处理从 stdin 读取的所有文件名。xargs确保调用次数不超过 100 次your_program同时运行。您可以根据主机可用的资源来改变进程数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python并行将GCS中的.json文件读取到pandas DF中的相关文章

matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv

随机推荐

打开 Chrome 或 Firefox，无需选项卡和其他菜单项，并设置屏幕位置和大小

我需要在设定的位置启动 Chrome 或 Firefox 具有设定的大小并且没有选项卡和其他菜单项最终目标是一个桌面图标我可以单击桌面图标以在桌面上的 x y 处获得一个 X 宽 Y 高的窗口显示特定页面而无需将这些设置永久保留在
vc++ 应用程序中的看门狗

我写了一个简单的vc 后台应用程序我正在尝试的就像一个看门狗服务可以监视应用程序是否正在运行如果应用程序崩溃那么服务应该启动应用程序为了通过 Windows 安装程序创建安装程序我仅使用 app exe 和 app dll 是否
WPF - 绑定到菜单图标

我有一个包含菜单的用户控件我需要将 Menu Icon 绑定到 UserControl 的属性但它不起作用代码是这样开始的
从可执行文件创建 Windows 服务

是否有任何快速方法可以根据给定的可执行文件创建 Windows 服务并在启动时启动它要从可执行文件创建 Windows 服务您可以使用sc exe sc exe create
Code OSS 和 Visual Studio Code 之间的差异

正如开发商所说here https github com Microsoft vscode issues 60 issuecomment 161792005 所有这一切的最酷之处在于您可以选择在我们的许可下使用 Visual Studio
如何实现跨应用导航并导航回Fiori launchpad主页？

在我们公司我们建立了 Fiori 启动板在其中我们配置了一个链接到自定义开发的 SAPUI5 应用程序的磁贴该应用程序作为 BSP 部署在服务器上我们花了很长时间但使用该应用程序中的路由器模式我们成功地实现了从启动板磁贴到自定
有没有脚本 SVG 编辑器？

我想使用某种脚本语言最好是 Python 编辑 SVG 文件特别是我想合并两个 SVG 文件添加一些注释并将它们排列在更大的图像中有没有可用于此类目的的软件 Thanks Bartosz UPDATE 我最终决定使用nosklo
网页字体大小中的px到底代表什么

我正在做一些图形在Javascript中如果相关的话我知道你可以使用pt px 等查找什么时px这意味着每个网站似乎都有相同的模糊答案字体大小以像素为单位我想知道什么exactly px代表例如如果我有20px 20 像素
尝试与 Web 服务通信时遇到“没有到主机的路由”错误

我正在尝试与我的笔记本电脑上的网络服务进行通信并使用 Android 手机作为客户端我试图做一个简单的登录功能但是每当客户端尝试与 Web 服务通信时 Eclipse 上的 DDMS 中就会弹出此错误我可以通过家庭网络访问网络服务
Android 离线语音识别只显示一个结果？

我已经设置了语音识别服务如本文所示Android 语音识别作为 Android 4 1 和 4 2 上的服务 https stackoverflow com questions 14940657 android speech recogn
如何使 Jinja2 中的 tojson() 过滤器输出 Unicode 而不是转义序列？

我的模板是用于JS的 let SETTINGS settings tojson 4 我的设置是一个字典 name Russian name id 12345 如果我渲染它我会得到 let SETTINGS name Russian nam
使用用户变量访问结构成员

假设我有一个结构如下 struct person int age char name 24 person 用户给出程序应该读取哪个结构成员的参数 program age int main int argc char argv int i i
使用四边形的重心坐标

你们中的一些人知道如何使用重心填充二维四边形坐标目前我将四边形分成2个三角形但这种方式效率低下因为我必须迭代第二个边界框重复先前填充的像素通过例如为了填充第二个三角形我遍历了第一个三角形属于由第二个三角形形成的边界框
Lua 中的 OOP 和事件监听器 (Corona SDK)

我在 Corona SDK 中的第一步和第一次遇到的麻烦尝试制作两个盒子我可以通过以下方式移动它们this http www ludicroussoftware com blog 2011 07 06 simple oop with i
如何将图像列添加到 wicket 框架中的表中？

我想在 wicket 框架中的表格的每个单元格中添加包含图像的列我在 java 类中创建表格并有一个 createColumns 方法如下所示 private List
当“if else”/“instance of”不可避免时，除了使用访问者模式之外，我们如何改进设计？

当我们有一个纯粹是语义继承而不是行为继承的对象层次结构时我们不可避免地需要到处编写 instanceof 或 if else 来进行运行时类型检查 E g 如果我有一个对象层次结构 Class Function Class Average
绘图加载时禁用闪亮按钮

加载绘图反应元素时是否可以禁用闪亮的按钮我知道shinyjs可以禁用和启用输入元素但我不知道如何设置与加载图反应元素的连接该示例基于单文件闪亮应用程序页面 https shiny rstudio com articles sing
为未遇到的输入创建神经网络

我正在使用创建一个简单的多层前馈神经网络锻造网 http www aforgenet com framework NN 库我的神经网络是一个 3 层激活网络使用反向传播学习算法通过监督学习方法进行训练以下是我的初始设置 learnin
如何在 Spring Data JPA 中使用带有分页的投影接口？

我正在尝试使用 Spring Data 的新功能获取部分实体 NetworkSimple 的页面预测 http docs spring io spring data rest docs current reference html pro
Python并行将GCS中的.json文件读取到pandas DF中

TL DR asyncio vs multi processing vs threading vs some other solution并行化 for 循环从 GCS 读取文件然后将这些数据一起附加到 pandas 数据帧中然后写入

Python并行将GCS中的.json文件读取到pandas DF中

Python并行将GCS中的.json文件读取到pandas DF中 的相关文章

随机推荐

热门标签

Python并行将GCS中的.json文件读取到pandas DF中的相关文章