需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本

2024-05-24

我对 python 很陌生，但我很感激您帮助指导我创建一个简单的脚本，该脚本读取一堆 .yaml 文件（同一目录中的大约 300 个文件）并从.yaml 文件并将其转换为 csv。

.yaml 文件中内容的示例

code: 9313
degrees:
- name: Design
  coreCourses:
  - ABCD1
  - ABCD2
  - ABCD3
  electiveGroups: #this is the section i need to extract
    - label: Electives
      options:
        - Studio1
        - Studio2
        - Studio3
    - label: OtherElectives
      options:
        - Class1
        - Development2
        - lateclass1
   specialisations:
    - label: Honours

我希望如何查看 csv 中的输出：

.yaml file name | Electives   | Studio1
.yaml file name | Electives   | Studio2
.yaml file name | Electives   | Studio3
.yaml file name | OtherElectives   | class1
.yaml file name | OtherElectives   | Development2
.yaml file name | OtherElectives   | lateclass1

我假设这将是一个相对简单的脚本 - 但我正在寻找一些帮助来编写它。我对此很陌生，所以请耐心等待。我已经编写了一些 vba 宏，所以我希望我能相对较快地掌握。

最好的是一个完整的解决方案，并提供一些有关代码如何工作的指导。

提前感谢您的所有帮助。我希望我的问题很清楚

这是我的第一次尝试（尽管花费的时间不长）：

import yaml
with open ('program_4803','r') as f:
    doc = yaml.load(f)
    txt=doc["electiveGroups"]["options"]
    file = open(“test.txt”,”w”) 
        file.write(“txt”) 
        file.close()

正如您可能知道的那样，目前这还非常不完整 - 但我正在尽最大努力！

这可能有帮助：

import yaml
import csv

yaml_file_names = ['data.yaml', 'data2.yaml']


rows_to_write = []

for idx, each_yaml_file in enumerate(yaml_file_names):
    print("Processing file ", idx+1, "of", len(yaml_file_names), "file name:", each_yaml_file)
    with open(each_yaml_file) as f:
        data = yaml.load(f)

        for each_dict in data['degrees']:
            for each_nested_dict in each_dict['electiveGroups']:
                for each_option in each_nested_dict['options']:
                    # write to csv yaml_file_name, each_nested_dict['label'], each_option
                    rows_to_write.append([each_yaml_file, each_nested_dict['label'], each_option])



with open('output_csv_file.csv', 'w') as out:
    csv_writer = csv.writer(out, delimiter='|')
    csv_writer.writerows(rows_to_write)
    print("Output file output_csv_file.csv created")

使用两个模拟输入 yaml 测试了此代码data.yaml and data2.yaml，其内容如下：

data.yaml:

code: 9313
degrees:
- name: Design
  coreCourses:
  - ABCD1
  - ABCD2
  - ABCD3
  electiveGroups: #this is the section i need to extract
    - label: Electives
      options:
        - Studio1
        - Studio2
        - Studio3
    - label: OtherElectives
      options:
        - Class1
        - Development2
        - lateclass1
  specialisations:
  - label: Honours

and data2.yaml:

code: 9313
degrees:
- name: Design
  coreCourses:
  - ABCD1
  - ABCD2
  - ABCD3
  electiveGroups: #this is the section i need to extract
    - label: Electives
      options:
        - Studio1
    - label: E2
      options:
        - Class1
  specialisations:
  - label: Honours

生成的输出 csv 文件是这样的：

data.yaml|Electives|Studio1
data.yaml|Electives|Studio2
data.yaml|Electives|Studio3
data.yaml|OtherElectives|Class1
data.yaml|OtherElectives|Development2
data.yaml|OtherElectives|lateclass1
data2.yaml|Electives|Studio1
data2.yaml|E2|Class1

顺便说一句，您随问题一起提供的 yaml 输入，最后两行没有正确缩进

正如你所说，你需要解析一个目录中的 300 个 yaml 文件，那么，你可以使用globpython 的模块，如下所示：

import yaml
import csv
import glob


yaml_file_names = glob.glob('./*.yaml')
# yaml_file_names = ['data.yaml', 'data2.yaml']

rows_to_write = []

for idx, each_yaml_file in enumerate(yaml_file_names):
    print("Processing file ", idx+1, "of", len(yaml_file_names), "file name:", each_yaml_file)
    with open(each_yaml_file) as f:
        data = yaml.load(f)

        for each_dict in data['degrees']:
            for each_nested_dict in each_dict['electiveGroups']:
                for each_option in each_nested_dict['options']:
                    # write to csv yaml_file_name, each_nested_dict['label'], each_option
                    rows_to_write.append([each_yaml_file, each_nested_dict['label'], each_option])



with open('output_csv_file.csv', 'w') as out:
    csv_writer = csv.writer(out, delimiter='|', quotechar=' ')
    csv_writer.writerows(rows_to_write)
    print("Output file output_csv_file.csv created")

Edit：正如您在评论中要求跳过那些yaml没有的文件electiveGroup部分，这是更新的程序：

import yaml
import csv
import glob


yaml_file_names = glob.glob('./*.yaml')
# yaml_file_names = ['data.yaml', 'data2.yaml']

rows_to_write = []

for idx, each_yaml_file in enumerate(yaml_file_names):
    print("Processing file ", idx+1, "of", len(yaml_file_names), "file name:", each_yaml_file)
    with open(each_yaml_file) as f:
        data = yaml.load(f)

        for each_dict in data['degrees']:
            try:
                for each_nested_dict in each_dict['electiveGroups']:
                    for each_option in each_nested_dict['options']:
                        # write to csv yaml_file_name, each_nested_dict['label'], each_option
                        rows_to_write.append([each_yaml_file, each_nested_dict['label'], each_option])
            except KeyError:
                print("No electiveGroups or options key found in", each_yaml_file)


with open('output_csv_file.csv', 'w') as out:
    csv_writer = csv.writer(out, delimiter='|', quotechar=' ')
    csv_writer.writerows(rows_to_write)
    print("Output file output_csv_file.csv created")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本的相关文章

Python BigQuery 存储。并行读取多个流

我有以下玩具代码 import pandas as pd from google cloud import bigquery storage v1beta1 import os import google auth os environ G
InterfaceError：连接已关闭（使用 django + celery + Scrapy）

当我在 Celery 任务中使用 Scrapy 解析函数有时可能需要 10 分钟时我得到了这个信息我用姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar

随机推荐

在 UIAlertController 的文本字段中选择文本

我需要在 UIAlertController 出现后立即选择文本字段的文本但是我在标准 UITextField 中选择文本的方式在这里不起作用这就是我尝试过的但我似乎无法让它发挥作用 let ac UIAlertController
D3.js - 更改鼠标悬停时元素的不透明度 IF 条件 = false

我正在制作一个带有过滤器的交互式 D3 js 图表当用户单击选定的复选框时该过滤器会显示点此外在鼠标悬停事件上所选点旁边将出现一个弹出窗口其中包含一些信息由于图表上的点数量相对较多因此我选择在取消选中相应复选框时使相关点变得
cellForRowAtIndexPath：未调用

我的应用程序有两种状态已登录和未登录并且我有以下架构大大简化 ViewController A 包含一个搜索框和一个表视图 ViewController B 用于登录应用程序流程如下用户未登录 A 被压入堆栈在viewWillA
连接到没有元数据的网络服务

我想连接到此网络服务 https training api temando com schema 2009 06 server wsdl https training api temando com schema 2009 06 serve
Android 2.2 中不带预览的相机捕获

我需要捕获图像而不显示预览我想在后台作为服务来完成它可以这样做吗是有可能实现的您应该定义一个处理 Camera 对象的类例如调用 Camera open 等不要为相机对象提供以下行以禁用预览 mCamera setPreview
如何检测应用程序正在运行的 .NET 版本？

我尝试使用Environment Version ToString 确定目标计算机上正在使用什么 NET 框架但安装了 4 0 版本时它说我正在使用 NET 2 0 如何检测目标计算机上正在运行的 NET Framework 版本 En
如何让 STDOUT 和 STDERR 都转到终端和日志文件？

我有一个脚本将由非技术用户交互式运行该脚本将状态更新写入 STDOUT 以便用户可以确定脚本运行正常我希望将Stdout和STDERR重定向到终端以便用户可以看到脚本正在工作并查看是否存在问题我还希望将两个流都重定向到日志文件
更新实时智能合约

如果我有一个智能合约其中硬编码了一些其他智能合约的地址例如也许我的合约有一些外部流动性挖矿金库的地址它会定期存入一些余额现在假设我想更新该地址列表并迁移它而不扰乱当前合约的操作最好的方法是什么以太坊字节码是不可变的所以简单的
本地提交推送到中央服务器

在工作中我们使用 perforce 并被鼓励定期对其进行承诺我对此很满意然而我想运行像 Mercurial 这样的东西这样我就可以在本地提交正在进行的工作并且不一定编译运行的东西然后从中定期提交到中央 perforce 服务器
Matplotlib 渲染日期、图像的问题

我在使用 conda forge 的 Matplotlib v 3 1 3 和 python 3 7 时遇到问题我拥有 Matplotlib 所需的所有依赖项当我输入这段代码时它应该可以工作我得到了泼溅艺术它基于此 YouTube
无法从 HBase 导出表

我无法将表从 HBase 导出到 HDFS 下面是错误跟踪它的尺寸相当大还有其他方法可以导出吗我使用下面的命令来导出我增加了 rpc 超时但作业仍然失败 sudo u hdfs hbase Dhbase rpc timeout 10
如何在JasperReport中插入分页符

我有一个 JasperReports 模板带有填充的细节带如果我运行该报告我的页数为 27 27 个详细信息行我希望详细信息行号 12 以新页面开始因此我必须在页数 11 之后插入分页符但我找不到 pagebreak 元素它在
WebCore::UserGestureIndicator::processingUserGesture 中的 EXC_BAD_ACCESS (SIGSEGV)

我有一个使用 UIWebView 和 HTML5 websockets 构建的 iOS 应用程序该应用程序经历了看似随机的崩溃它发生在用户与其交互时以及在用户和应用程序之间没有发生交互的寿命测试期间崩溃日志都有以下内容 Excepti
如何有效地计算另一列中每个元素的较大元素的数量？

我有以下内容df name created utc 0 t1 cqug90j 1430438400 1 t1 cqug90k 1430438400 2 t1 cqug90z 1430438400 3 t1 cqug91c 143043840
如何将登录哈希 bcrypt 更改为 hash256

我正在尝试更改 Laravel 中的哈希值所以我在 RegisterController 中使用 salt 定制了 SHA256 注册完成但如何更改登录信息 protected function create array data sal
PostgreSQL 强制使用小写名称？

刚刚开始通过C和libpq在linux上学习PostgreSQL 9 1 现在我检查连接连接创建数据库创建表和其他基本内容但我注意到在创建表期间 PQ 将我的数据库名称转换为小写然后我看到表名和字段名也被强制小写但是当我尝试连
如何隐藏或删除 Android HoneyComb 中的状态栏？

如何隐藏或删除 Android HoneyComb 中的状态栏每次运行应用程序时我都会发现某些内容必须被状态栏覆盖我尝试改变AndroidManifest xml 但没有任何改变你不知道它被认为是永久的屏幕装饰就像电容式主页菜
在 Android Studio 中打开上次关闭的选项卡

我是 Android Studio 的新手想知道是否有任何快捷方式选项可以重新打开上次关闭的选项卡没有分配快捷方式但您可以轻松分配新的快捷方式 Go to IDE settings Keymap Main menu Window E
如何运行 Mike Bostock 的 D3 示例？

我一直在尝试经营迈克博斯托克透视地球仪 http bl ocks org mbostock 6747043例如但是如果您尝试在本地重现它则对其 json 文件的引用是不正确的问题来自于这行代码 d3 json mbostock raw
需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本

我对 python 很陌生但我很感激您帮助指导我创建一个简单的脚本该脚本读取一堆 yaml 文件同一目录中的大约 300 个文件并从 yaml 文件并将其转换为 csv yaml 文件中内容的示例 code 9313 degrees

需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本

需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本 的相关文章

随机推荐

热门标签

需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本的相关文章