从云函数在 Google Cloud Storage 中创建新的 csv 文件

2024-05-08

第一次使用 Google 云存储。下面我有一个云函数，每当 csv 文件上传到时就会触发该函数my-folder在我的桶里。我的目标是在同一文件夹中创建一个新的 csv 文件，读取上传的 csv 的内容并将每一行转换为将进入新创建的 csv 的 URL。问题是我遇到了麻烦creating首先是新的 csv，更不用说实际写入它了。

My code:

import os.path
import csv
import sys
import json
from csv import reader, DictReader, DictWriter
from google.cloud import storage
from io import StringIO

def generate_urls(data, context):
    if context.event_type == 'google.storage.object.finalize':
        storage_client = storage.Client()
        bucket_name = data['bucket']
        bucket = storage_client.get_bucket(bucket_name)
        folder_name = 'my-folder'
        file_name = data['name']

        if not file_name.endswith('.csv'):
            return

接下来的几行来自一个例子 https://github.com/GoogleCloudPlatform/python-docs-samples/blob/master/storage/cloud-client/storage_compose_file.py在 GCP 的 GitHub 存储库中。这是我期望创建新的 csv 的时候，但什么也没有发生。

        # Prepend 'URL_' to the uploaded file name for the name of the new csv
        destination = bucket.blob(bucket_name + '/' + file_name[:14] + 'URL_' + file_name[14:])
        destination.content_type = 'text/csv'
        sources = [bucket.get_blob(file_name)]
        destination.compose(sources)
        output = bucket_name + '/' + file_name[:14] + 'URL_' + file_name[14:]


        # Transform uploaded csv to string - this was recommended on a similar SO post, not sure if this works or is the right approach...
        blob = bucket.blob(file_name)
        blob = blob.download_as_string()
        blob = blob.decode('utf-8')
        blob = StringIO(blob)

        input_csv = csv.reader(blob)

下一行是我收到错误的地方：No such file or directory: 'myProjectId/my-folder/URL_my_file.csv'

        with open(output, 'w') as output_csv:
            csv_dict_reader = csv.DictReader(input_csv, )
            csv_writer = csv.DictWriter(output_csv, fieldnames=['URL'], delimiter=',', quotechar='"', quoting=csv.QUOTE_ALL)
            csv_writer.writeheader()
            line_count = 0
            for row in csv_dict_reader:
                line_count += 1
                url = ''
                ...
                # code that converts each line
                ...
                csv_writer.writerow({'URL': url})
            print(f'Total rows: {line_count}')

如果有人对我如何创建新的 csv 然后写入它有任何建议，这将是一个巨大的帮助。谢谢你！

我可能会说我对代码和解决方案的设计有一些疑问：

据我了解 - 一方面，云功能是由finalise event 谷歌云存储触发器 https://cloud.google.com/functions/docs/calling/storage，而不是另一方面，您想将新创建的文件保存到同一个存储桶中。成功后，该存储桶中出现新对象将触发云函数的另一个实例。这是预期的行为吗？您的云功能准备好了吗？
从本体论上来说，不存在这样的东西folder。因此在这段代码中：

        folder_name = 'my-folder'
        file_name = data['name']

第一行有点多余，除非您想将该变量和值用于其他用途......并且file_name获取包括所有前缀的对象名称（您可以将它们视为“文件夹”。

你提到的例子 -storage_compose_file.py https://github.com/GoogleCloudPlatform/python-docs-samples/blob/master/storage/cloud-client/storage_compose_file.py- 是关于如何将 GCS 中的几个对象组合成一个。我不确定该示例是否与您的情况相关，除非您有一些额外的要求。
现在，让我们看一下这个片段：

        destination = bucket.blob(bucket_name + '/' + file_name[:14] + 'URL_' + file_name[14:])
        destination.content_type = 'text/csv'
        sources = [bucket.get_blob(file_name)]
        destination.compose(sources)

a. bucket.blob- 是一个工厂构造函数 - 请参阅API 存储桶说明 https://googleapis.dev/python/storage/latest/buckets.html。我不确定您是否真的想使用bucket_name作为其论证的一个要素......

b. sources- 成为仅包含一个元素的列表 - 对 GCS 存储桶中现有对象的引用。

c. destination.compose(sources)- 是否尝试复制现有对象？如果成功 - 它可能会触发您的云功能的另一个实例。

关于类型变更

        blob = bucket.blob(file_name)
        blob = blob.download_as_string()

第一行之后blob变量具有类型google.cloud.storage.blob.Blob。第二次之后——bytes。我认为 Python 允许这样的事情......但你真的喜欢它吗？在。。之间download_as_string方法已弃用 - 请参阅Blob/对象 API https://googleapis.dev/python/storage/latest/blobs.html

有关output:

   output = bucket_name + '/' + file_name[:14] + 'URL_' + file_name[14:]
    
   with open(output, 'w') as output_csv:

请记住 - 所有这些都发生在云函数的内存中。与 GCS 的 blob 桶无关。如果您想在云功能中使用临时文件 - 您将在/tmp目录 -从 Google Cloud Function 写入临时文件 https://stackoverflow.com/questions/42719793/write-temporary-files-from-google-cloud-function我猜你会因为这个问题而收到错误。

=> 提出一些建议。

您可能希望将对象下载到云函数内存中（下载到/tmp目录）。然后您想处理源文件并将结果保存在源附近。然后您想将结果上传到another（不是来源）桶。如果我的假设是正确的，我建议一步一步地实施这些事情，并检查每一步是否得到了预期的结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从云函数在 Google Cloud Storage 中创建新的 csv 文件的相关文章

从 Firestore 获取文档时，我是否也获取该文档内的集合？

如果是的话如何获得它因为在进行文档引用时您只能访问该文档的字段而不能访问集合从 Firestore 获取文档时我是否也得到了该文档内的集合不当获取文档时您只会获取该文档的字段正如本节中所解释的document http
如何在 Ubuntu 上安装 Python 模块

我刚刚用Python写了一个函数然后我想将其做成模块并安装在我的 Ubuntu 11 04 上这就是我所做的创建 setup py 和 function py 文件使用 Python2 7 setup py sdist 构建分发文
如何更改充当按钮的范围的文本

我正在为自定义 Web 应用程序编写自动化测试我遇到了无法更改跨度文本的问题我尝试过使用 driver execute script 但没有运气如果我更好地了解 javascript 这确实会有帮助据我所知您无法单击跨度并且列表
Dask DataFrame 的逐行处理

我需要处理一个大文件并更改一些值我想做这样的事情 for index row in dataFrame iterrows foo doSomeStuffWith row lol doOtherStuffWith row dataFrame
获取单个方程的脚本

在文本文件中输入 a 2 8 b 3 9 c 4 8 d 5 9 e a b f c d g 0 6 h 1 7 i e g j f h output i j 期望的输出输出 2 8 3 9 0 6 4 8 5 9 1 7 如果输入文件名
Python 中 genfromtxt() 的可变列数？

我有一个 txt具有不同长度的行的文件每一行都是代表一条轨迹的一系列点由于每条轨迹都有自己的长度因此各行的长度都不同也就是说列数从一行到另一行不同据我所知 genfromtxt Python 中的模块要求列数相同 gt gt g
Sorted(key=lambda: ...) 背后的语法[重复]

这个问题在这里已经有答案了我不太明白背后的语法sorted 争论 key lambda variable variable 0 Isn t lambda随意的为什么是variable在看起来像的内容中陈述了两次dict 我认为这里的所有
使用 genfromtxt 导入 numpy 中缺失值的 csv 数据

我有一个 csv 文件看起来像这样实际文件有更多的列和行 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 假设文件的名称是info csv如果我尝试使用导入它 data numpy genfromtxt i
使用Python将图像转换为十六进制格式

我的下面有一个jpg文件tmp folder upload path tmp resized test jpg 我一直在使用下面的代码 Method 1 with open upload path rb as image file enco
Python 中的这种赋值方式叫什么？ a = b = 真

我知道关于元组拆包 http docs python org tutorial datastructures html tuples and sequences但是当一行中有多个等号时这个赋值被称为什么阿拉a b True 它总是让我有
从 Android 访问云存储

我一直无法找到任何有关如何从 Android 应用程序使用云存储的具体文档我确实遇到过这个客户端库 https cloud google com storage docs reference libraries然而 Google Clou
在 Mac 上安装 Pygame 到 Enthought 构建中

关于在 Mac 上安装 Pygame 有许多未解答的问题但我将在这里提出我的具体问题并希望得到答案我在 Mac 上安装 Pygame 时遇到了难以置信的困难我使用 Enthought 版本 EPD 7 3 2 32 位它是我的默认框
Python int 太大，无法放入 SQLite

我收到错误 OverflowError Python int 太大无法转换为 SQLite INTEGER 来自以下代码块该文件约25GB 因此必须分部分读取 length 6128765 Works on partitions of
负整数的Python表示

gt gt gt x 4 gt gt gt print b format x x 4 100 gt gt gt mask 0xFFFFFFFF gt gt gt print b format x mask x mask 4294967292
如何逐像素绘制正方形（Python，PIL）

在空白画布上我想使用 Pillow 逐像素绘制一个正方形我尝试使用 img putpixel 30 60 155 155 55 绘制一个像素但它没有执行任何操作 from PIL import Image def newImg img
是否可以写一个负的python类型注释

这可能听起来不合理但现在我需要否定类型注释我的意思是这样的 an int Not Iterable a string Iterable 这是因为我为一个函数编写了一个重载而 mypy 不理解我我的功能看起来像这样 overload
是否可以强制浮点数的指数或有效数匹配另一个浮点数（Python）？

这是我前几天试图解决的一个有趣的问题是否可以强制一个的有效数或指数float与另一个人一样float在Python中出现这个问题是因为我试图重新调整一些数据以便最小值和最大值与另一个数据集匹配然而我重新调整后的数据略有偏差大约小
asyncio - 多次等待协程（周期性任务）

我正在尝试为异步事件循环创建定期任务如下所示但是我收到 RuntimeError 无法重用已等待的协程异常显然 asyncio 不允许等待相同的可等待函数如中讨论的这个错误线程 https bugs python org issu
如何识别图形线条

我有以下格式的路径的 x y 数据示例仅用于说明 seq p1 p2 0 20 2 3 1 20 2 4 2 20 4 4 3 22 5 5 4 22 5 6 5 23 6 2 6 23 6 3 7 23 6 4 每条路径都有多个点它们
使用 numpy 加速 for 循环

下一个 for 循环如何使用 numpy 获得加速我想这里可以使用一些奇特的索引技巧但我不知道是哪一个这里可以使用 einsum 吗 a 0 for i in range len b a numpy mean C d e f b i

随机推荐

WordPress 添加自定义角色以及删除默认角色

我需要自定义默认角色因为我只需要 3 个角色 administrator buyer seller 然后我需要添加买家卖家并删除所有其他默认角色我应该怎么办如果有任何现成的代码我可以粘贴进去并且它会起作用将此代码粘贴到您的主题 f
使用正则表达式、PHP 解析日志文件

我对正则表达式非常糟糕谁能帮我解决我需要的表达式以便从日志文件中分离出我需要的两个值日志文件示例 1 28 2013 8 43 22 PM Removed 178 76 234 41 1 28 2013 8 43 22 PM Remo
添加到数组连续数字

这是我向SO提出的第一个问题我希望能答对在 PHP 中如果你不会 Python 或伪语言也可以给定一个包含 n 个元素的数组 old array 1 2 3 5 7 8 9 20 21 23 29 我需要向新数组添加连续数字如果不
运行 tmux 时映射箭头键

这些键映射在 tmux 中停止工作在我的 vimrc 我有 nmap
是否有我可以运行的操作系统命令来确定是否在基于 Xen 的虚拟机内运行

我可以在基于 Xen 的虚拟机中运行一个操作系统命令来告诉我它是一个虚拟机而不是物理机我听说内核对此有一些自我意识智能例如就像 ps 输出中的额外列之类的我知道 vmstat 提供了 st 列但我在运行 Linux 内核 2 6 1
应用程序已批准 - 等待开发人员发布 - 目前在您所在的国家/地区不可用

我已经为 iOS 应用商店创建了一个应用程序它已获得批准现在正在等待我的释放在 iTunes connect 中我确保在可用性方面选择所有国家地区在我的 itunesConnect 应用程序上如果我选择我的应用程序并点击在
set patch-size 在我的代码中的放置是否正确，并且 set 是否是正确的命令？

编译后我收到一条错误消息指出在补丁大小 10 之前 set 是错误的命令我应该使用什么命令来代替为什么 globals road to setup clear all ask patches set pcolor green end
如何为带有可选时间部分的通用日期格式定义 DateTime 解析格式？

什么是正确的DateTime格式从通用日期格式的字符串中解析日期 G 带有可选时间部分 d 我可以有两种类型的日期 12 13 2012 6 30 00 PM 3 29 2013 如何统一解析它们现在我正在尝试解析 G 格式然后如果它没
gsl库中的span和array_view有什么区别？

在最近的几次会议演讲中我听到 Bjarne Stroustrup 和其他人提到了 C 的新编码指南以及一些支持它们的类型具体来说我记得的例子span
读取用 php 分块的范围块

我有一个输入字段可以在其中粘贴下载网址之后我使用 AJAX 请求来获取文件信息例如 headerinfo 内容长度 mime 类型如果我使用curl 接受范围然后我开始连续循环 xhr2 请求其中包含我的 php 文件的范围
Eclipse/Maven：运行 JUnit 测试时未编译它们

我正在使用 Maven 和 Eclipse m2eclipse 插件开发一个项目我在 JUnit 测试中遇到问题有时当在 Eclipse 中运行它们时它们不会被编译而是使用旧的类文件当我删除类文件时我得到ClassNotFo
如何将结果导出为 PDF 报告？

我正在使用 SonarQube 5 6 3 如何将 SonarQube 分析详细信息报告创建为 PDF 表单 Excel 报告或 html 格式的报告似乎没有可用的插件我无法使用以下配置生成 html 文件 sonar issuesRe
引起原因：com.datastax.driver.core.exceptions.InvalidQueryException：日期长度应为 8 或 0 字节 (13)

我正在尝试使用 spring data cassandra 插入数据但是当我的应用程序使用 Spring Boot 版本是 1 5 3 运行时我遇到了以下错误我在spring data中添加了一个实现CrudResposity的自定义
如何递归列出远程 FTP 的目录内容

从远程 UNIX FTP 服务器下载文件后您想要验证是否已正确下载所有文件您至少会在 Windows 命令提示符中获得类似于 dir s 命令的信息 FTP 客户端在 Windows 上运行遗憾的是这是为 Unix Linux 用户编
按下主页按钮时 onPause 不会触发

我有一个安卓AppCompatActivity未能点火onPause按下主页按钮时发生的事件根据安卓文档 https developer android com guide components activities activity l
使用特殊字符创建正则表达式

我正在为 mongodb 创建一个查询 app get content title function req res var regexp new RegExp req params title i db find title regexp
删除匿名监听器

当尝试采用使用匿名或嵌套类实现侦听器的风格时以便隐藏除侦听之外的其他用途的通知方法即我不希望任何人能够调用actionPerformed 例如来自java动作监听器实现与匿名类 https stackoverflow com ques
HTML-Entity 转义以防止 XSS

我有一些用户输入在我的代码中我确保对以下符号进行转义 gt amp lt gt lt gt gt gt OWASP https www owasp org index php XSS 28Cross Site Scripting 29
扑。如何检查自动续订订阅是否仍然有效

我的应用程序有 1 个月的自动续订订阅当用户单击购买订阅按钮时我将购买日期保存到共享首选项中然后 1 个月后我需要检查该订阅是否仍然有效那么我该如何实施呢 2020 年 3 月 11 日更新你好我可以看到那些正在寻找如何在
从云函数在 Google Cloud Storage 中创建新的 csv 文件

第一次使用 Google 云存储下面我有一个云函数每当 csv 文件上传到时就会触发该函数my folder在我的桶里我的目标是在同一文件夹中创建一个新的 csv 文件读取上传的 csv 的内容并将每一行转换为将进入新创建的 csv

从云函数在 Google Cloud Storage 中创建新的 csv 文件

从云函数在 Google Cloud Storage 中创建新的 csv 文件 的相关文章

随机推荐

热门标签

从云函数在 Google Cloud Storage 中创建新的 csv 文件的相关文章