在 R 中编辑 XML 文件

2024-03-01

我有一个包含以下元素的 xml 文档：

<sequence id = "ancestralSequence"> 
    <taxon id="test">
     </taxon>       
    ACAGTTGACACCCTT
</sequence>

并想解析“taxon”标签内的新字符序列。我开始研究 XML 包文档，但还找不到简单的解决方案。我的代码：

# load packages
require("XML")

# create a new sequence
newSeq <- "TGTCAATGGAACCTG"

# read the xml
secondPartXml <- xmlTreeParse("generateSequences_secondPart.xml")

我用 xmlParse 读取它，然后用 XPath 表达式得到我想要的部分。例如，对于您的测试数据，以下是如何获取序列标记中文本的值：

x=xmlParse("test.xml")
xmlValue(xpathApply(x,"//sequence")[[1]])
## [1] "\n            \n    ACAGTTGACACCCTT\n"

-- 两个空行，一些空格，然后是碱基。

要获取分类单元标签中的文本：

xmlValue(xpathApply(x,"//sequence/taxon")[[1]])
## [1] "\n     "

——空，只是一个空行。

现在，要将一个字符串替换为另一个字符串，您只需找到“文本节点”，它是一些带有隐形魔法的 XML，因此它看起来就像文本，但实际上并非如此，并将其值设置为某个值。

给定一些包含几个序列的数据，假设您想将每个序列括起来，开头为 CCCCC，结尾为 GGGGGGG：

<data>
<sequence id = "ancestralSequence"> 
    <taxon id="test">Taxon
     </taxon>       
    ACAGTTGACACCCTT
</sequence>
<sequence id = "someotherSequence"> 
    <taxon id="thing">Taxoff
     </taxon>       
    GGCGGCGCGGGGGGG
</sequence>
</data>

代码如下：

# read in to a tree:
x = xmlParse("test.xml")

# this returns a *list* of text nodes under sequence
# and NOT the text nodes under taxon
nodeSet = xpathApply(x,"//sequence/text()")

# now we loop over the list returned, and get and modify the node value:
sapply(nodeSet,function(G){
  text = paste("CCCCC",xmlValue(G),"GGGGGGG",sep="")
  text = gsub("[^A-Z]","",text)
  xmlValue(G) = text
})

请注意，这是完成的引用这在 R 中很奇怪。毕竟，对象x已经改变了，尽管我们没有直接对其做任何事情。我们在循环中使用的节点是对存储在x object.

无论如何，这应该对你有用。请注意，“解析”根本不意味着替换，而是关于我们如何分析表达式中的语法，在本例中挑选出 XML 文档的标签、属性和内容。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xml

r

在 R 中编辑 XML 文件的相关文章

如何在不循环的情况下添加组ID？

我有数据框例如 productid ordernum p1 10 p2 20 p3 30 p4 5 p5 20 p6 8 我想添加另一列称为 groupid 它将产品按顺序分组在一起一旦 sum ordernum 达到 30 分配一个
如何访问 Scala XML 中的父元素

The scala xml包表示带有标记树节点的 XML 但是这棵树在 Scala 2 7 中是单向的吗因为似乎没有办法访问Elem给定的父级Elem 这似乎同样适用于父母Document 例如在 XOM 中你有getParent an
ggplot 中的错误问题：“grid.Call(”L_textBounds“, as.graphicsAnnot(x$label), x$x, x$y, … 中的错误”[重复]

这个问题在这里已经有答案了我试图在 ggplot 中制作一个条形图其中我通过强制其中一些标签为长度为零的字符串即来指定要显示的标签但是我收到错误 Error in grid Call L textBounds as graphi
C#：DataSet.readXML( "filepath" ) 如何处理包含对象内对象内对象的 XML 文件？

我有一个 xml 文件格式如下
查找数据帧列表中同一列中的所有重复值并将其转换为 NULL

我有一个清单BELGIAN COAST list包含数百个数据帧 df1 df2 15 列 X 1000 行每个数据帧的最后一列称为Chemicals并包含一些字符例如Sulfate or Ammonia 但是这一列有很多行Chemic
R 中的发散积分可在 Wolfram 中求解

我知道我以前问过同样的问题但由于我是新来的这个问题问得不好而且不可重现因此我在这里尝试做得更好如果我只编辑旧的可能没有人会读它我有一个想要积分的二重积分 ff lt function g t exp 16 g exp 8 t t
关闭 XDOCUMENT 的实例

我收到这个错误该进程无法访问文件 C test Person xml 因为它是被另一个进程使用 IOException 未处理保存文件内容后如何关闭 xml 文件的实例 using System using System Collec
在 R 中绘制对数正态概率密度

我正在尝试在 R 中生成对数正态概率密度图其中包含 3 个不同的均值对数和标准差对数我尝试了以下方法但我的图表太丑了看起来一点也不好看 x lt seq 0 10 length 100 a lt dlnorm x meanlog 0
将 VLMC 拟合到很长的序列

我正在尝试将 VLMC 拟合到最长序列为 296 个状态的数据集我这样做如下所示 Load libraries library PST library RCurl library TraMineR Load and transform d
将 sf voronoi 多边形裁剪到边界框时出错

我正在尝试将 voronoi polygons 使用 sf package 创建剪辑到边界框但它引发了我无法定义的错误我对 R 的空间世界不太有经验感谢所有帮助样本数据 stations lt structure list ST
逻辑回归/二项式的 glmnet 误差

当尝试将 glmnet 与 family binomial 配合以进行逻辑回归拟合时出现此错误 gt data lt read csv DAFMM HE16 matrix csv header F gt x lt as data fram
为绘图制作 2D 图例 - 双变量分区统计图

我一直在玩双变量 choropleth 地图并且一直在如何创建类似于 2d 图例的问题上陷入困境约书亚史蒂文斯 http www joshuastevens net cartography make a bivariate chorop
(Kiss)XML xpath 和默认命名空间

我正在开发一个 iPhone 项目需要解析一些 xml xml 可能包含也可能不包含默认名称空间我需要知道如何解析 xml 以防它使用默认命名空间由于我需要读取和写入 xml 因此我倾向于使用 KissXML 但我愿意接受建议这是我
使用outer代替expand.grid

我正在寻找尽可能快的速度并留在基地做该做的事expand grid做我用过outer为过去类似的目的创建一个向量像这样的东西 v lt outer letters LETTERS paste0 unlist v lower tri v
有没有一种简单的方法来判断存储在一个列表中的许多数据帧是否包含相同的列？

我有一个包含许多数据框的列表 df1 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df2 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df3 lt data frame
R - 通过覆盖和递归合并列表

假设我有两个带有名字的列表 a list a 1 b 2 c list d 1 e 2 d list a 1 b 2 b list a 2 c list e 1 f 2 d 3 e 2 我想递归地合并这些列表如果第二个参数包含冲突的值则
R：将 JSON 时间格式转换为 POSIX

我有一个 JSON 字符串并将其放入数据框中我能够做到这一点但我在使用 apply 函数之一将所有时间字符串转换为 POSIX 格式时遇到问题 See here https stackoverflow com questions 90
如何匹配 R 中的所有匹配项？

我有 1000 个名字的列表说A 我还有另外 5 个名字的清单说B 我想找出这5个名字出现在1000个号码列表中的第几行例如 Amy 在 A 中可以出现 25 次 B 里有艾米我想知道 Amy 出现在 A 中的哪些行我以前使用过
使用predictNLS围绕R中的拟合值创建置信区间？

我想使用 R 中 propogate 包中的 PredictNLS 围绕一大组拟合值构建置信区间作为示例我将使用它们在函数描述中引用的数据集 https rdrr io github anspiess propagate man pre
如何将 ggrough 图表另存为 .png

说我正在使用R包裹ggrough https xvrdm github io ggrough https xvrdm github io ggrough 我有这个代码取自该网页 library ggplot2 library ggroug

随机推荐

在 Spark DataFrame-Scala 中格式化 TimestampType

当我尝试将字符串字段转换为 Spark DataFrame 中的 TimestampType 时输出值具有微秒精度 yyyy MM dd HH mm ss S 但我需要的格式是yyyy MM dd HH mm ss即不包括微秒精度另外
CGAL：线段和多边形之间的交点？

我有一组多边形我想测试它和线段之间的交集我检查了手册但找不到匹配的功能点线线段三角形平面之间确实存在交点并且多边形之间的交点也在那里我的问题是有这样的功能吗如果不是是否意味着我需要将多边形分解成段并在这些段之间进行
是否可以在 Perl foreach 循环中分配两个变量？

是否可以在 Perl foreach 循环中将数组中的相同数据分配给两个变量我正在使用 Perl 5 我想我在 Perl 6 中遇到了一些东西像这样的东西 my var1 my var2 foreach var1 var2 array
postgresql 中的临时表在所有客户端会话中都可见吗？

我想创建一个临时表以便能够将其连接到几个表因为将这些表与建议的临时表的内容连接起来需要花费大量时间获取临时表的内容非常耗时重复它一遍又一遍地花费越来越多的时间当我的需求完成时我将删除临时表我想知道这些临时表是否在其他客户端会话
如何让 fontawesome 在 Azure 网页部署上工作？

我们正在使用 Twitter Bootstrap 和字体真棒 http fortawesome github com Font Awesome用于图标支持当部署到我们的一台 IIS 服务器时我需要添加 MIME 支持当部署到Azure
调整图像大小而不丢失 EXIF 数据？

我编写了一个小脚本可以从 FTP 服务器下载 TIFF 图像然后调整它们的大小并将它们保存为 JPG 到目前为止一切顺利但在压缩步骤如下所列中我丢失了文件中的 EXIF 数据有没有一种优雅的方法可以在不丢失 EXIF 数据的
如何从 Python ConfigParser .items() 中排除默认值？

我使用 ConfigParser 从配置文件加载数据如下所示测试 conf myfiles fileone datadir s somefile foo filetwo datadir s nudderfile foo load py
尝试实施 Azure Active Directory B2C 时出现 404 错误

我正在尝试在我正在开发的新页面中实现 Azure Active Directory B2C 但我得到了这个404 File or directory not found尝试从我的页面登录时出错我创建了租户注册了我的应用程序创建了我的政
Elasticsearch 使用带有同义词的 shingle 过滤器

我有以下文件 south africa north africa 我想从以下位置检索我的南非文档 s africa a southafrica b safrica c 我定义了以下过滤器和分析器 POST test index sett
非 2xx 状态代码响应是否应包含 CORS 特定标头

非 2XX 状态代码响应是否仍包含 CORS 特定标头例如Access Control Allow Origin Access Control Allow Methods and Access Control Max Age 这对客户来说
Bootstrap 4 - 如何使固定顶部导航栏在滚动时消失

使用 Bootstrap 4 如何使固定顶部导航栏在滚动时消失我在下面附上了默认 Bootstrap 4 导航栏的 html 代码
无法加载 DLL“db2app64.dll”

我正在写一个 NET框架应用程序并尝试连接到服务器上的 DB2 数据库尝试时我收到错误 System DllNotFoundException 无法加载 DLL db2app64 dll 找不到指定的模块 HRESULT 异常 0x80
PDF：什么是 DeviceRGB？

Is this a 自己的色彩空间例如 Adob eRGB 和 sRGB 或者是这个 b 设备使用的 RGB 色彩空间的名称如果是 b 应该使用什么颜色空间来渲染 pdf sRGB 是默认使用的吗 pdf 查看器应用程序是否应该能够更改
在 Xcode 7 GM 上启用僵尸对象会导致 _NSZombie_BSXPCMessage 类在两者中实现？和？

刚刚下载了 XCode 7 GM 并在我的应用程序的 iOS 9 模拟器上尝试一下但是我在控制台上收到一条奇怪的消息 objc 2213 Class NSZombie BSXPCMessage is implemented in bot
在 MVC 应用程序中使用 jquery 与 ajax 和 json [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在开发一个 MVC 应用程序使
HTML 验证：为什么将交互元素放入交互元素内无效？

免责声明我知道它不是有效的 HTML 我想了解为什么不允许 W3C 建议像这样的交互元素button or a不得包含其他交互元素我可以找到很多提到此规则和一些解决方法的资源还有一些与此规则如何影响可访问性和屏幕阅读器相关的资源但几
PHP 日期时间设置时区 2038

我在项目中使用 DateTime 转换所有日期从 UTC 到欧洲维也纳现在我的日期超过 2038 年但无法获得正确的时间示例代码 met new DateTimeZone Europe Vienna utc new DateTim
为什么我无法更改 UILabel 的框架？

我这两天一直在尝试修改一个框架UILabel 哪个很荒谬 UILabel是一个 IBOutlet 但这不是原因为什么它不起作用我试图创建一个UILabel以编程方式和它仍然不起作用我是这样做的 self descriptionLa
即使 Windows 重新启动后，C# AddFontResource 仍无法工作

我正在尝试使用下面的代码使用 C 代码安装字体调用InstallFont不会抛出任何异常并返回1 我认为这表明它已经安装了字体但是该字体既没有出现在 Windows Fonts 文件夹中的已安装字体列表中也没有出现在检查 Insta
在 R 中编辑 XML 文件

我有一个包含以下元素的 xml 文档

在 R 中编辑 XML 文件

在 R 中编辑 XML 文件 的相关文章

随机推荐

热门标签

在 R 中编辑 XML 文件的相关文章