嵌套 XML 到 Pandas 数据框

2023-12-08

我正在尝试创建一个脚本来将嵌套 XML 文件转换为 Pandas 数据帧。我找到了这篇文章https://medium.com/@robertopreste/from-xml-to-pandas-dataframes-9292980b1c1c，它很好地达到了第二级（父母，孩子），但我既不知道如何进入更深的层次（例如孙子），也不知道如何获得孩子的属性（例如“邻居” - > “姓名”）。

这是我的 XML 结构：

<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
            <neighbor2 name="Italy" direction="S"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>

这是我的代码：

import pandas as pd
import xml.etree.ElementTree as et

def parse_XML(xml_file, df_cols): 

    xtree = et.parse(xml_file)
    xroot = xtree.getroot()
    rows = []

    for node in xroot: 
        res = []
        res.append(node.attrib.get(df_cols[0]))
        for el in df_cols[1:]: 
            if node is not None and node.find(el) is not None:
                res.append(node.find(el).text)
            else: 
                res.append(None)
        rows.append({df_cols[i]: res[i] 
                     for i, _ in enumerate(df_cols)})

    out_df = pd.DataFrame(rows, columns=df_cols)

    return out_df

xml_file= "example.xml"
df_cols = ["name","year","direction"]

out_df=parse_XML(xml_file, df_cols)
out_df

我想要获得的是如下结构：

| name          | year | neighbor name 1 | neighbor direction 1 | neighbor2 name 1 |
|---------------|------|-----------------|----------------------|------------------|
| Liechtenstein | 2008 | Austria         | E                    | Italy            |
|               |      |                 |                      |                  |
|               |      |                 |                      |                  |

该结构需要尽可能灵活，以便只需很少的编辑即可用于不同的文件。我正在获取具有不同数据结构的 XML 文件，因此我希望每次都能进行一些最少的编辑。

多谢！！

我已经为类似的用例制作了一个包。它也可以在这里工作。

pip install pandas_read_xml

你可以做类似的事情

import pandas_read_xml as pdx

df = pdx.read_xml('filename.xml', ['data'])

要压平，你可以

df = pdx.flatten(df)

df = pdx.fully_flatten(df)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

xml

pandas

嵌套 XML 到 Pandas 数据框的相关文章

多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
使用 powershell 将 XML 转换为特定的 JSON 结构

需要有关将 xml 转换为特定 json 结构的帮助 XML 看起来像这样

随机推荐

我用 Set.Fold F# 做错了什么

着色问题你好我正在尝试实现一个 bool 函数当颜色可以扩展到一个国家地区时该函数返回 true 否则返回 false 但我在使用集合时遇到问题因为我们无法对它们进行模式匹配我的代码 type Country string t
如何为 std::string 对象预分配内存？

我需要将文件复制到字符串中我需要某种方式为该字符串对象预分配内存以及直接将文件内容读入该字符串内存的方法 std string has a reserve method用于预分配 std string s s reserve 104857
XMLHttpRequest 文件上传在 IE11 中不起作用

您好我的页面上有以下 JS 它在 Chrome 和 Firefox 上运行良好但它不适用于 Internet Explorer 11 我是一名 salesforce 开发人员我不太了解 javascript 您能帮我找出问题出在哪里吗
在javascript中对两个布尔数组进行逻辑与运算？

在 ES6 中对两个布尔数组进行与运算的优雅功能解决方案是什么 const a1 true false false const a2 true true false 应该导致 true false false 使用可以使用数组 map迭代第
WordPress Ajax 请求返回 0

我不明白为什么没有返回任何内容我是 Ajax 的真正初学者我刚刚阅读了很多有关在 Wordpress 中使用 Ajax 的主题但这些示例对我来说非常高级这是我的JS代码combo checkout iRange js jQuery
如果我不关闭Python SQLite中的数据库连接怎么办

我正在做这样的事情 conn sqlite3 connect db filename with conn cur conn cursor cur execute with自动提交更改但文档没有提到关闭连接其实我可以用conn在后面的陈述
Swift 3.0：“IndexSet”类型的值没有成员“enumerateIndexesUsingBlock”

接收Value of type IndexSet has no member enumerateIndexesUsingBlock enumerateIndexesUsingBlock 处出错 Extension for creating
pandoc 生成的 docx 遗漏了方程中的斜体变量

我有以下带有嵌入 LaTeX 方程的 Markdown 片段 Fisher s linear discriminant newcommand cov mathrm cov newcommand A mathrm A renewcommand
jQuery：如何通过溢出获取不可见的内容：隐藏？

我试图将内容跨越多个页面 div 每个 div 的高度设置为 950px 这样我就可以正确输出为 pdf 我从一个 div 开始它使用溢出隐藏来嵌套所有内容理想情况下我想使用 jquery 查找超出查看范围隐藏的内容但我看不到
共享模式下的 Excel 下拉菜单

当我将 Excel 工作簿更改为共享模式并尝试复制并粘贴具有下拉列表数据验证列表的行时下拉列表消失只要工作簿不共享它就可以正常工作有什么解决办法吗将工作簿设置为取消共享复制粘贴您的数据然后再次共享工作簿共享工作簿有用的
高可用性计算：如何处理不返回的系统调用，而不冒误报的风险？

我有一个进程在 Linux 计算机上运行作为高可用性系统的一部分该进程有一个主线程用于接收来自网络上其他计算机的请求并响应它们还有一个心跳线程定期发送多播心跳数据包让网络上的其他进程知道该进程仍然存在并且可用如果它们在一段时间内
如何在代码中更改操作栏标题颜色

我在以编程方式更改 v11 及更高版本的 Android 操作栏标题颜色时遇到问题我可以在 xml 中完成它但需要在代码中动态更改它我该怎么办提前致谢您可以使用 SpannableString 和 ForegroundColorS
计算将 Box2D 主体移动到特定位置的正确冲击力或力 - Box2D

我有一个关于将 Box2D 主体移动到特定位置而不使用此示例的问题 body gt SetTransform targetVector body gt GetAngle 我有一些适用于 applyForce 的代码 here const f
Scala中的apply方法是什么，特别是在类型定义中使用

我知道apply方法在伴生对象中使用时是语法糖然而什么是apply方法在类型定义中使用时如下所示 type Applyn def apply A f A gt A n Int x A A 这句话之间有区别吗据我猜测这句话是用于将通用
sourceupdated 事件未触发

我发现了主机这是ObservableCollection
如何在 Flutter 中处理不同屏幕尺寸上的定位元素（在 Stack 中）？

以下是包含堆栈和其中一些定位小部件的代码 Stack children Positioned top 50 bottom 0 left 30 child Text Mon Sat style TextStyle color Colors w
BUG：Java Swing 键绑定在 OSX 中使用 awt setFullScreenWindow 时 JDK 7 失去功能

编辑 1 16 2013 原始问题已被删除这似乎是 mac OSX 上 JDK 7 的一个错误我已向 Sun Oracle 提交了错误报告下面的文件使用 awt 类 GraphicsEnvironment 和方法 setFullScr
禁用鼠标垂直滚动[重复]

这个问题在这里已经有答案了可能的重复如何通过鼠标停止垂直滚动我在网络浏览器中使用 javascript Jquery 我制作了一个自定义水平滚动条它与鼠标滚轮或鼠标滚动一起使用通常鼠标滚动与垂直条配合使用所以它和我编程的水平滚动
创建子文档后如何填充猫鼬？

我正在向 item comments 列表添加评论在将其输出到响应中之前我需要获取 comment created by 用户数据我该怎么做 Item findById req param itemid function err it
嵌套 XML 到 Pandas 数据框

我正在尝试创建一个脚本来将嵌套 XML 文件转换为 Pandas 数据帧我找到了这篇文章https medium com robertopreste from xml to pandas dataframes 9292980b1c1c 它

嵌套 XML 到 Pandas 数据框

嵌套 XML 到 Pandas 数据框 的相关文章

随机推荐

热门标签

嵌套 XML 到 Pandas 数据框的相关文章