如何将XML数据转换为data.frame？

2023-11-22

我正在努力学习RXML包裹。我正在尝试从 books.xml 示例 xml 数据文件创建 data.frame。这是我得到的：

library(XML)
books <- "http://www.w3schools.com/XQuery/books.xml"
doc <- xmlTreeParse(books, useInternalNodes = TRUE)
doc
xpathApply(doc, "//book", function(x) do.call(paste, as.list(xmlValue(x))))
xpathSApply(doc, "//book", function(x) strsplit(xmlValue(x), " "))
xpathSApply(doc, "//book/child::*", xmlValue)

这些 xpathSApply 中的每一个都没有让我接近我的意图。应该如何构建一个结构良好的 data.frame？

通常，我建议尝试xmlToDataFrame()函数，但我相信这实际上会相当棘手，因为它一开始的结构就不是很好。

我建议使用这个函数：

xmlToList(books)

一个问题是每本书有多个作者，因此您在构建数据框架时需要决定如何处理这个问题。

一旦您决定如何处理多作者问题，那么将您的图书列表转换为数据框架就相当简单了ldply()plyr 中的函数（或者仅使用 lapply 并使用 do.call("rbind"... 将返回值转换为 data.frame ）。

这是一个完整的例子（不包括作者）：

library(XML)
books <-  "w3schools.com/xsl/books.xml"
library(plyr)
ldply(xmlToList(books), function(x) { data.frame(x[!names(x)=="author"]) } )

   .id        title.text title..attrs year price   .attrs
 1 book  Everyday Italian           en 2005 30.00  COOKING
 2 book      Harry Potter           en 2005 29.99 CHILDREN
 3 book XQuery Kick Start           en 2003 49.99      WEB
 4 book      Learning XML           en 2003 39.95      WEB

这是包含作者的内容。你需要使用ldply在这种情况下，因为列表是“锯齿状的”...lapply 无法正确处理。 [否则你可以使用lapply with rbind.fill（也是哈德利提供的），但为什么还要麻烦呢？plyr自动为您做吗？]：

ldply(xmlToList(books), data.frame)

   .id        title.text title..attrs              author year price   .attrs
1 book  Everyday Italian           en Giada De Laurentiis 2005 30.00  COOKING
2 book      Harry Potter           en        J K. Rowling 2005 29.99 CHILDREN
3 book XQuery Kick Start           en      James McGovern 2003 49.99      WEB
4 book      Learning XML           en         Erik T. Ray 2003 39.95      WEB
     author.1   author.2   author.3               author.4
1        <NA>       <NA>       <NA>                   <NA>
2        <NA>       <NA>       <NA>                   <NA>
3 Per Bothner Kurt Cagle James Linn Vaidyanathan Nagarajan
4        <NA>       <NA>       <NA>                   <NA>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何将XML数据转换为data.frame？的相关文章

解析时区并转换为夏令时

我有一个 pandas 数据框Datetime column Datetime 0 2019 01 01 17 02 00 1 2019 01 01 17 03 00 2 2019 01 01 17 04 00 3 2019 01 01 1
如何计算 pandas datetime 对象的均值和方差？

如何计算 YYYY MM DD 形式的 python 日期时间对象的汇总统计数据均值和标准差我想对具有不同 ID 的不同日期时间对象组执行此操作数据如下 import datetime as dt df pd DataFrame Da
带 R 的多彩标题

我想添加颜色某些词在我的图表标题中我已经能够在这里找到一些先例 http blog revolutionanalytics com 2009 01 multicolor text in r html 具体来说我希望用撇号括起来的文本在
如何计算嵌套函数中的粘合表达式？

我正在尝试嵌套一个函数该函数将两个字符串粘合在一起该函数使用组合字符串来命名数据帧的列然而问题似乎是粘合表达式没有足够早地评估为字符串我可以并且应该强制在将表达式作为参数传递给另一个函数之前对其进行求值吗 library ti
在 R 中使用 Huggingface Transformer 模型

我正在尝试在 R 中使用不同的 Huggingface 模型这是通过 reticulate 导入 Transformer 包来实现的谢谢 https rpubs com eR ic transfoRmers https rpubs co
R 中的 Websocket

我设法在 R 中建立到 Mtgox websocket 的连接规格如下 url https socketio mtgox com mtgox Currency USD https socketio mtgox com mtgox Curr
GGPLOT2：如何在 ggplot() 脚本中绘制特定选择

这是一个名为的大型数据集的峰值P 其中有 10 个优惠 CS 有不同的商店 SHP 具有多个数值数据集列出了按周排序的它们 WK 2 tm 52 它创建一个大文件仅前 6 行出现峰值 WK MND CS SHP RevCY RevLY
替换字符串/文本中“从第 n 次到最后一次”出现的单词

这个问题以前曾被问过但尚未得到令提问者满意的答案 https stackoverflow com questions 36368712 how to use stringrs replace all function to replace
如何在不使用外部库（如Numpy、Pandas）的情况下读取CSV文件？

这是面试中经常出现的问题我知道如何使用读取 csv 文件Pandas 然而我正在努力寻找一种在不使用外部库的情况下读取文件的方法 Python 是否带有任何可以帮助读取 csv 文件的模块你最有可能将需要用于读取 CSV 文件的库虽
如何修改秤包生成的标签？

所以我正在制作金字塔可视化我在用着scale y continuous labels scales label number si accuracy 0 1 来生产标签但是我想去掉图表女性部分的负号我认为保留 SI 后缀但删除负号的
在多行中打印带有列名称的 R 数据框

我有一个带有长列名称的 R 数据框所以当我打印数据框时它太宽了有没有一种简单的方法可以将数据框打印到屏幕上并且列名出现在多行中我知道我可以缩短名字但我不想这样做当奥斯卡的答案被接受时我想这可能真的是一个答案不幸的是这只是复
如何将 xmlns:* 属性与 XSLT 匹配？

我怎样才能匹配xmlns XSLT 1 0 的属性我尝试使用 RDF 文档
ggplot 直方图相对于轴的位置不正确

我试图这样绘制直方图 Todo lo haremos con base en un variable aleatoria Uniforme 0 1 set seed 26 n 10000 U lt runif n n Supongamos
R - Quantstart：多种股票的测试策略

我正在使用一些指标构建基本交易策略我的问题是我希望它在多个股票上运行而不必指定我想要测试的每个单独的股票目前我可以使用向量一次获取多个符号如下所示 Get Shares from Yahoo Finance Stocks lt AS
来自外部 XML 的 Android 本地化

是否可以使用从服务接收到的 XML 在运行时翻译 Android 应用程序如果可能的话请有人指出我正确的方向谢谢 Warning 我读到的所有内容都表明让您的应用程序更改语言不是一个好主意因为 Android 框架不支持它并且可
XSL 和命名空间

这可能是一个非常简单的问题但我似乎无法理解这个问题并且我正在抓狂我有以下 XML
如何访问 log4net 附加程序文件值并在 azure 管道中替换

我正在尝试替换管道中的日志文件路径
在Python中创建一个新表

我正在尝试从数控机床中提取数据事件每毫秒发生一次我需要过滤掉一些用管道分隔的变量分隔符 PuTTy exe 程序生成的日志文件我尝试阅读熊猫但列不在同一位置 df pd read table data log sep 日志文件的一
R 包与 Rcpp 的链接错误：“未定义符号：LAPACKE_dgels”

我正在创建一个 R 包 lapacker 以使用 R API 头文件 R ext Lapack h 为 R 提供和使用的内部 LAPACK 库仅具有双精度和双复数提供 C 接口源代码 https github com ypan1988
基于条件反应逻辑闪亮的 Flexdashboard

我正在尝试有条件地进行一种类型的渲染 renderPlot 或其他 renderText 基于一些输入这是我尝试过的 title Citation Extraction output flexdashboard flex dashboar

随机推荐

Tensorflow Data Augmentation 给出警告：Using a while_loop for conversion

我按照官方的TensorFlow使用数据增强tutorial 首先我创建一个具有增强层的顺序模型 def getAugmentationFunction self if not self augmentation return None
org.hibernate.PersistentObjectException：传递的分离实体与内存数据库中的 H2 保持一致

我在内存数据库中使用H2进行测试我的配置如下 1 SpringTesting配置 Configuration ComponentScan basePackages com myapp data excludeFilters Filter
pandas 随机替换 k%

有一个简单的 pandas 数据框有 2 列例如id and value where value或者是0 or 1我想随机更换10 of all value 1 with 0 我怎样才能用熊猫实现这种行为 pandas answer u
MySQL Workbench：查询错误 (1064)：第 1 行“VISIBLE”附近的语法错误

任何想法为什么VISIBLE下面引起了问题 CREATE TABLE IF NOT EXISTS setting uuid INT 10 NOT NULL type VARCHAR 255 NOT NULL code VARCHAR 255
检查 PHP 中的字符串是否只有用逗号分隔的整数

我在正则表达式方面真的很空这就是为什么无法了解如何在 PHP 中创建正则表达式来检查字符串是否具有这种特定的字符序列 str 2323 321 329 34938 23123 54545 123123 312312 意味着检查字符串是否仅
如何将我的 Gatsby 站点的索引页面设置为动态生成的页面之一？

我有一个 Gatsby 网站它使用 GraphQL 从 Wordpress REST API 查询信息以动态创建网站页面我想将我的索引页面设置为动态创建的主页即home html 我看到这个帖子类似在 Gatsby CMS 上如何将
networkx - 根据边缘属性更改颜色/宽度 - 结果不一致

我设法正确地生成了图表但通过更多测试发现以下两行不同代码的结果不一致 colors h edge i j color for i j in h edges iter widths h edge i j width for i j in h
高效地多次使用准备好的语句

下面是我用来插入的代码multiple records around 5000 7000 在Oracle数据库中使用Prepared Statement 我现在的做法好不好或者可以使用一些方法来进一步改进batch thing pstat
是否可以使用javascript调用java方法？

java有一个脚本管理器允许java调用javascript 如下所示 import javax script public class ExecuteScript public static void main String args
Android：点击按钮时如何打开键盘编辑EditText？

我的情况是我有一个禁用焦点的 EditText 字段除了 EditText 字段之外我还有两个用于输入法的按钮所以我想当单击第一个按钮时打开软键盘并在 EditText 字段中编辑文本我尝试了很多方法 InputMethodMa
将 n 个函数的列表应用于数据帧的每一行？

我有一个函数列表 funs lt list fn1 function x x 2 fn2 function x x 3 fn3 function x sin x fn4 function x x 1 in reality these are
我们可以添加到数据表的总行数

我想知道我们可以添加到数据表的行数是否有限制我正在 C 和 NET 2005 中执行此操作实际上我的应用程序正在读取大约 40 MB 的大型文本文件应用程序逐行读取文本文件并在所有文件读取后将其作为行添加到数据表中然后调用更新方
如何打印（使用打印机）QML 对象？

我用 Qt Quick 设计了一张销售收据我想用打印机打印它我怎样才能做到这一点这是我的main cpp QtQuick2ApplicationViewer viewer viewer setMainQmlFile QStringLi
如何将资源嵌入到单个可执行文件中？

如果您曾经使用过 Game Maker 这个工具它有点像那样我希望能够获取所有声音图像和其他所有类似内容并将它们嵌入到单个 C 可执行文件中 Game Maker 有一个内置编辑器并将图像嵌入到 gmk 文件中当您打开它时它会
在 Spring WebFlux webclient 中设置超时

我正在使用 Spring Webflux WebClient 从我的 Spring boot 应用程序进行 REST 调用而且每次都在30秒内超时这是我尝试在 Spring webfulx 的 WebClient 中设置套接字超时的一些
设置 jQuery 的 font-weight 属性

我正在尝试更改元素的字体粗细我尝试了以下方法但似乎不起作用 opt i attr font weight bold 另外 prop 和 attr 有什么区别这和我的问题有关系吗 use the css 函数而不是 attr opt i
Windows Mobile 应用程序中 DataGrid 的列宽

我在尝试调整数据网格列的宽度时遇到问题我使用了发布的答案here 但我无法解决它我使用对象列表作为数据源在这个简单的示例中我刚刚创建了一个智能设备应用程序并添加了一个数据网格那么我的代码是这样的 public Form1 Ini
Winforms 数据绑定：可以使用 TypeConverter 代替 Format/Parse 事件吗？

在 Winforms 表单中我想在输入字段包含无效值时向用户提供视觉提示为此我想绑定ForeColor输入字段标签的属性布尔值 IsPropertyValid底层模型的属性使得标签在以下情况下变为红色 IsPropertyVali
现场未显示欧元符号

我的一个字段 latin1 swedish ci 似乎在 PHPMYADMIN 字段内显示了欧元符号然而当我尝试在我网站上的表单输入字段中回显它时它在 Firefox 中显示为问号这是 html php sql mysql quer
如何将XML数据转换为data.frame？

我正在努力学习RXML包裹我正在尝试从 books xml 示例 xml 数据文件创建 data frame 这是我得到的 library XML books lt http www w3schools com XQuery books

如何将XML数据转换为data.frame？

如何将XML数据转换为data.frame？ 的相关文章

随机推荐

热门标签

如何将XML数据转换为data.frame？的相关文章