使用Python从Google云存储下载多个文件

2023-11-22

我正在尝试从 Google 云存储文件夹下载多个文件。我可以下载单个文件，但无法下载多个文件。我将此参考资料取自这个链接但似乎不起作用。代码如下：

# [download multiple files]
bucket_name = 'bigquery-hive-load'
# The "folder" where the files you want to download are
folder="/projects/bigquery/download/shakespeare/"

# Create this folder locally
if not os.path.exists(folder):
    os.makedirs(folder)

# Retrieve all blobs with a prefix matching the folder
    bucket=storage_client.get_bucket(bucket_name)
    print(bucket)
    blobs=list(bucket.list_blobs(prefix=folder))
    print(blobs)
    for blob in blobs:
        if(not blob.name.endswith("/")):
            blob.download_to_filename(blob.name)

# [End download to multiple files]

有没有办法下载与模式（名称）或其他内容匹配的多个文件。由于我是从 bigquery 导出文件，因此文件名如下所示：

shakespeare-000000000000.csv.gz
shakespeare-000000000001.csv.gz
shakespeare-000000000002.csv.gz
shakespeare-000000000003.csv.gz

参考：下载单个文件的工作代码：

# [download to single files]

edgenode_destination_uri = '/projects/bigquery/download/shakespeare-000000000000.csv.gz'
bucket_name = 'bigquery-hive-load'
gcs_bucket = storage_client.get_bucket(bucket_name)
blob = gcs_bucket.blob("shakespeare.csv.gz")
blob.download_to_filename(edgenode_destination_uri)
logging.info('Downloded {} to {}'.format(
    gcs_bucket, edgenode_destination_uri))

# [end download to single files]

经过一番尝试，我解决了这个问题，并且也无法阻止自己在这里发帖。

bucket_name = 'mybucket'
folder='/projects/bigquery/download/shakespeare/'
delimiter='/'
file = 'shakespeare'

# Retrieve all blobs with a prefix matching the file.
bucket=storage_client.get_bucket(bucket_name)
# List blobs iterate in folder 
blobs=bucket.list_blobs(prefix=file, delimiter=delimiter) # Excluding folder inside bucket
for blob in blobs:
   print(blob.name)
   destination_uri = '{}/{}'.format(folder, blob.name) 
   blob.download_to_filename(destination_uri)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

googlecloudplatform

googlecloudstorage

使用Python从Google云存储下载多个文件的相关文章

多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
Google App Engine：修改云运行环境

我正在尝试部署一个使用自定义 Node js 服务器的 Next js 应用程序我想将自定义构建变量注入应用程序 next config js const NODE ENV process env NODE ENV const envTy
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
无效的选择器：使用 Selenium 时不允许出现复合类名错误

我正在尝试通过 Web Whatsapp 打印聊天中的一条消息我可以通过控制台选项卡中的 Javascript 来完成此操作我就是这样做的 recived msg document getElementsByClassName XE
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

ClipsToBounds 似乎在 UIStackView 中没有效果

是否可以在外部渲染子视图UIStackView 我有一个带有按钮和标签的垂直堆栈视图并且我使用堆栈视图的宽度来适当设置按钮的高度和宽度 addArrangedSubview self loginMethodButton let width
在 MVC 网络核心中找不到 Swagger 页面 404

我有一个全新的 NET Core Web API 项目我想使用 API 版本控制和 swagger 当我尝试查看 swagger 页面时出现 404 错误但是模板附带的默认 ValuesController 可以正常工作这是我的设
如何消除子图之间和周围的间隙[重复]

这个问题在这里已经有答案了我正在一张图中绘制两个子图 2x1 我想删除两个子图之间的所有间距并删除顶部子图的 xlable 和 xlabel 刻度另外我正在尝试删除子图之外的所有间距我尝试 set gca LooseInset g
如果不知道要读取的字符数，如何使用 fgets？

我需要读取一个文件并将其中的文本发送到一个字符串以便我可以解析它但是程序不会确切知道文件有多长所以如果我想使用我该怎么办fgets 或者有更好的选择吗 Note char fgets char str size t num FILE
如何设置 Varnish 缓存控制标头

我希望有人可以建议让 Varnish 发送缓存控制标头的正确方法目前我的配置正在发送缓存控制无缓存给客户预先感谢任何能够提供帮助的人你的后端正在向 Varnish 发送 Cache Control no cache 这意味着两
将 ASCII 码的 Numpy 数组转换为字符串

我想将表示 ASCII 代码的整数 NumPy 数组转换为相应的字符串例如 ASCII 代码 97 等于字符 a 我试过 from numpy import a array 97 98 99 c a astype string print
Android Tabview中捕获tab点击事件

我的 Android 应用程序中有一个带有 3 个选项卡的选项卡视图选项卡都工作正常现在我想在单击当前活动选项卡的选项卡顶部时执行一些附加逻辑这是一个例子在我的一个选项卡中我为用户提供了一个选项可以按不同的顺序对事物进行排
使用自签名证书和基本身份验证的 Powershell Invoke-RestMethod - 有示例吗？

我正在使用 RESTful API 并使用 Firefox RESTClient 插件一切都很好我可以轻松查询 API 但是当我尝试将相同的 API 调用插入 powershell 时它不起作用我已经尝试了其他各种帖子中的以下代码
Haskell 生成子集

我有一个函数子集它生成给定集合的所有子集 subsets Int gt Int subsets subsets x xs subsets xs map x subsets xs 如何在另一个函数中组合 map foldl 和 filte
如何在 Cython 中将函数指针传递给外部程序

我正在尝试为 C 程序编写一个包装器以便我可以从 Python 调用它我正在使用 Cython 来执行此操作 C 函数接受回调函数作为参数但这个回调函数只有在 python 程序运行时才会知道我一直在寻找如何做到这一点似乎没有简单
我如何知道我拥有的 servlet-api.jar 版本是什么？

我从 java2s com 下载了 servlet api jar 的副本我怎么知道它是什么版本网站上没有任何参考 EDIT 啊道歉当我双击我得到的 jar 中的 MANIFEST MF 文件时我应该列出写字板输出的内容 Mani
配置 Tomcat 以记录启动时加载的所有 Jar 文件和/或类

我有一个流氓 jar 被加载到我的 tomcat 实例中我希望能够知道相应的 jar 文件是从哪里加载的如果不可用我希望能够看到该 jar 中的类是从哪里加载的我查看了 conf logging properties 文件但从中我
在 Windows 上卡在 Git 上：无法签出、无法存储、无法提交

我被困住了如果我执行 git stash 我会得到 Fatal Unable to create index lock File exists If no other git process is currently running th
检查文件名是否包含空格的文件是否存在

我正在 Bash 中测试文件是否存在其中文件名使用转义 printf q FNAME 这总是会产生错误if f FNAME 如下面评论的示例所示如何测试包含空格和其他字符的文件名 usr bin env bash code used i
AddType application/x-httpd-php .php 未渲染 PHP

添加此代码 AddType application x httpd php php after AddEncoding x compress Z AddEncoding x gzip gz tgz If the AddEncoding di
当处理器尝试访问不存在的物理地址时会发生什么？

想象一台内存小于 3 GB 的 32 位 x86 计算机其 CPU 设置为禁用分页和平段描述符 0x0作为基础 0xffffffff作为数据和代码的有效限制当ring0中的指令尝试使用a时会发生什么mov指令引用不受任何内存地址支持的物
Django 模型已保存，但返回 None

我有一个带有模型管理器的简单模型 class CompanyReviewManager models Manager def get votes for company self company try return CompanyRevi
Azure Service Fabric Actors - 未处理的异常？

现在我们的 ASF 集群正在运行 Web API 项目无状态且面向公众 Actor 项目大部分是易失性的将数据保存在内存中由某些 API 使用我们正在尝试 Application Insights 我可以像他们的文档一样设置未处理
引用 build.xml 和 proguard 文件时出现构建错误：“返回 null：1”

在构建我的 PhoneGap 应用程序安装了 Facebook SDK 插件时我遇到了以下错误构建失败 C adt bundle windows x86 64 20130522 sdk tools ant build xml 653
使用Python从Google云存储下载多个文件

我正在尝试从 Google 云存储文件夹下载多个文件我可以下载单个文件但无法下载多个文件我将此参考资料取自这个链接但似乎不起作用代码如下 download multiple files bucket name bigquery hi

使用Python从Google云存储下载多个文件

使用Python从Google云存储下载多个文件 的相关文章

随机推荐

热门标签

使用Python从Google云存储下载多个文件的相关文章