使用 PIG 从 Hive 表解析嵌套 XML 字符串

2024-03-19

我正在尝试使用 PIG 从 Hive 表中的字段而不是从 XML 文件中提取一些 XML（这是我读过的大多数示例的假设）。 XML 来自排列如下的表：

ID, {XML_string}

XML 字符串包含 n. 行，始终包含最多 10 个属性中的至少一个。我们可以假设属性#1 将始终存在并且是唯一的。

<row>
 <att1></att1>
 <att2></att2>
 ...
</row>
<row>
 <att1></att1>
 <att2></att2>
 ...
</row>
...

我想将其转换为一个新表，其中 XML 字符串中的每一行都分解为新表中的单独行，但我仍然想包含现有表中的 ID。

ID, att1, att2, att3
==  ====  ====  ====
1   1     xxx   xxx
1   2     xxx   xxx
1   3     xxx   xxx
2   1     xxx   xxx

到目前为止，我已经在 PIG 中使用 XPathAll 解决了这个问题。我读过很多建议避免使用 Regex 进行 XML 解析的建议。

REGISTER /home/piggybank-0.12.0.jar
DEFINE XPathAll org.apache.pig.piggybank.evaluation.xml.XPathAll();
A = LOAD 'HiveTable' USING org.apache.hive.hcatalog.pig.HCatLoader();
B= FOREACH A GENERATE id, 
    XPathAll(xml_string,'ROW/_ATT1') as att1;
    XPathAll(xml_string,'ROW/_ATT2') as att2;
    XPathAll(xml_string,'ROW/_ATT3') as att3;
dump B;

假设第 1 项有三个行实例，这会产生以下输出：

(1 (Att1-i1,Att1-i2,Att1-i3),(Att2-i1,Att2-i2,Att2-i3),(Att3-i1,Att3-i2,Att3-i3))

所有信息似乎都在那里，我似乎无法解锁将每个嵌入元组中的第一个元素提取到新行中的方法，然后提取第二个元素，依此类推。换句话说：

(1, Att1-i1, Att2-i1, Att3-i1)
(1, Att1-i2, Att2-i2, Att3-i2)
(1, Att1-i3, Att2-i3, Att3-i3)

我坚信这可以使用 Hive + Pig 来完成，而不必求助于 Java 等。我将不胜感激任何见解。我对迄今为止采取的方法并不珍惜，所以如果我走了很长的路，请告诉我！

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xml

Hadoop

xpath

hive

apachepig

使用 PIG 从 Hive 表解析嵌套 XML 字符串的相关文章

如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
扩展 XSD 文件

我有一个带有枚举类型的 XSD 文件我想创建一个扩展 XSD 文件它添加一些额外的枚举但其他方面的行为就像主 XSD 一样例如主 XSD 文件包含以下内容
在 Delphi 中使用 XML（将特定数据返回到变量）

过去几天我一直在尝试使用 Delphi 2010 和 MSXML 我是一个极端的新手需要一点指导 var MemoryStream TMemoryStream XMLPath String sName String XMLDoc vari
选择具有 SQL Server XML 列类型的特定行

我正在尝试从类似于以下定义的表中选择数据 Column Data Type Id Int DataType Int LoggedData XML 但我只想选择具有特定 DataType 值并且在 LoggedData 列中包含字符串或评估
在 XSLT 中使用“<”而不是简单的“<”进行比较有什么大不了的？

好的在 XSLT 中我经常看到
XSLT-选择以下项目直到特定标记

假设我有这个 XML 文件
如何在hadoop mapreduce/yarn中设置VCORES？

以下是我的配置 mapred site xml map mb 4096 opts Xmx3072m reduce mb 8192 opts Xmx6144m yarn site xml resource memory mb 40GB min
Hadoop 减速器数量配置选项优先级

以下3个设置reduce数量的选项的优先级是什么换句话说如果三者都设置了会考虑哪一个呢 Option1 setNumReduceTasks 2 within the application code Option2 D mapredu
在activity_main.xml中注释

我是安卓新手据我所知 XML 中的注释与 HTML 中的注释相同使用形式我想在 Android 项目的 Activity main xml 配置文件中写一些注释但它给了我错误值得注意的是我使用的是 Eclipse 但目前我直
如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2？

我正在尝试在 Hadoop 环境中执行 NLTK 以下是我用于执行的命令 bin hadoop jar HADOOP HOME contrib streaming hadoop streaming 1 0 4 jar input user
XML 渲染错误 Android 预览 N

更新后我已将 android SDK 更新为 android Preview N 但收到此 xml 渲染错误单击详细信息后它显示以下堆栈跟踪如何避免这种情况 org jetbrains android uipreview Renderi
Solr 索引在分隔符上分割字段

我正在尝试使用一些数据设置 Solr 索引但是我想将我的字段之一作为管道分隔发送并在 Solr 端拆分例如
关闭 XDOCUMENT 的实例

我收到这个错误该进程无法访问文件 C test Person xml 因为它是被另一个进程使用 IOException 未处理保存文件内容后如何关闭 xml 文件的实例 using System using System Collec
如何在 C# 中使用 XmlDsigC14NTransform 类

我正在尝试使用规范化 xml 节点System Security Cryptography Xml XMLDsigC14nTransformC net Framework 2 0 的类该实例需要三种不同的输入类型 NodeList Str
Hive：为现有文件夹结构添加分区

我在 HDFS 中有一个文件夹结构如下所示但是实际上没有使用以下命令在表上创建分区ALTER TABLE ADD PARTITION命令即使文件夹结构的设置就像表有分区一样如何自动将所有分区添加到Hive表中 Hive 1 0 外
org.apache.hadoop.security.AccessControlException：客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS] 问题

我正在使用 java 客户端通过 Kerberos 身份验证安全访问 HDFS 我尝试打字klist在服务器上它显示已经存在的有效票证我收到的异常是客户端无法通过以下方式进行身份验证 TOKEN KERBEROS 帮助将不胜感激这是一
Pig Udf 显示结果

我是 Pig 的新手我用 Java 编写了一个 udf 并且包含了一个 System out println 其中的声明我必须知道在 Pig 中运行时该语句在哪里打印假设你的UDF 扩展了 EvalFunc 您可以使用从返回的 Log
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
如何配置Hive仓库路径？

我修改了这部分
使用 C# 读取 Soap 消息

随机推荐

如何在 ILNumerics 中有效地绘制大曲面（例如 1000x1000）？

这是我使用的代码 public partial class Form1 Form private ILPlotCube plotcube null private ILSurface surface null public Form1 In
使用字符串中的名称获取变量的值

我想从变量的名称中获取其值澄清一下 XML 文档以字符串形式提供变量名称我想获得价值像这样的东西 string bublegumA strawberry string bubblegumB banana get which varia
将基于视图的 NSOutlineView 绑定到 Core Data

我正在尝试将新的基于视图的 OutlineView 实现为我的 Mac 应用程序中的源列表不过我无法获取要显示的值因此我从核心数据应用程序模板制作了一个小型测试应用程序但也无法让它在其中正常工作我在数据模型中定义了两个简单的类我
在 null 上调用成员函数 store() - laravel 5.4

我正在尝试上传图像但每次提交时都会返回 store 错误我已将表单设置为 enctype multipart form data 这没有帮助有人能指出我正确的方向吗 Thanks 控制器内部功能 public function sto
来自 Android 的 Facebook Score API 调用未在时间轴/股票代码上显示高分

我正在尝试让 Android 应用程序将高分发布到 Facebook 类似于 Facebook 上的愤怒的小鸟的做法它显示在时间轴上也显示在股票代码中请记住该游戏仅在 Android 上运行并且没有 FB Canvas 应用程
GiST 和 GIN 索引之间的区别

我正在实现一个表其中有一列的数据类型为tsvector我想了解什么索引更好使用 GIN 还是 GiST 在浏览中postgres 文档在这里 http www postgresql org docs 9 1 static textsear
模拟安全警报的解决方案 - X509TrustManager 的不安全实现

因此最近我在开发人员控制台中收到以下警告为了解决该问题我已完成了所需的修复根据谷歌的建议 here https support google com faqs answer 6346016 要确认您已进行正确的更改请将应用程序的更
CouchDB 备份和克隆数据库

我们正在寻找 CouchdDB 作为类似 CMS 的应用程序围绕备份我们的生产数据库有哪些常见模式最佳实践和工作流程建议我对克隆数据库以用于开发和测试的过程特别感兴趣仅从实时运行的实例下复制磁盘上的文件就足够了吗您可以在两个实时运
TabLayout 使用自定义视图更新选项卡内容

我在用着TabLayout新的材料设计我有一个问题创建选项卡后我无法更新自定义视图的选项卡内容我可以用以下方法简化 PagerAdapter 中的方法 public View setTabView int position boole
记录器服务错误：鼠标左键按下：无法找到匹配的元素 - Xcode 错误

我正在尝试通过 XCTest 自动化我的 mac 应用程序当尝试从 XCode 记录应用程序时我收到以下错误消息当我点击按钮时会发生这种情况按钮层次结构是按钮 gt 堆栈视图 gt NSView 这里 button是NSButto
外键和索引问题

我正在使用 SQL Server 2008 Enterprise 我有一个表其中一个列引用另一个表在同一个数据库中中的另一列作为外键这是相关的SQL语句更详细地说表 Foo 中的列 AnotherID 引用了另一个表表 Goo
如何使用 sass 正确避免在 HTML 上嵌入 twitter bootstrap 类名

我正在开发一个刚刚开始的 Rails 项目我们想使用 twitter bootstrap 作为我们样式的基础一开始我们只是直接在 HTML 代码上使用 bootstrap 的类名就像 bootstrap 的文档中所示但在阅读以下文章
如何检查 Python 数组中是否存在某个元素（相当于 PHP in_array）？

我是 Python 新手我正在寻找一个标准函数来告诉我数组中是否存在某个元素我找到了index方法但如果未找到该元素则会抛出异常我只需要一些可以返回的简单函数true如果该元素在数组中或者false if not 基本上相当于 P
hook_user()：将额外的字段插入数据库而不仅仅是表单

我可以在注册中添加一个额外的字段我需要知道的是我需要采取什么步骤来获取该输入并将其插入到 drupal 的用户表中下面的代码位于我的模块中它仅向表单添加一个字段但是当提交时它不会对数据执行任何操作 function perscri
如何组合两个索引不同的 pandas 系列？

我尝试将两个不同索引的系列组合在一起相同的行数我试过pd concat s1 s2 axis 1 例如 s1 为 index s1 0 1 5 1 2 s2 是 index s2 a 1 b 2 但我得到 index s1 s2 0 1
批量从文本文件中删除重复行

是否可以从文本文件中删除重复的行如果是怎么办当然可以但就像大多数批处理文本文件一样它并不漂亮而且不是特别快该解决方案在查找重复项时忽略大小写并对行进行排序文件名作为第一个也是唯一一个参数传递给批处理脚本 echo off
运行 jQuery 函数 onclick

所以我实现了一些 jQuery 它基本上通过由滑块激活的滑块来切换内容 a 标签现在考虑一下我宁愿让保存链接的 DIV 本身就是链接我正在使用的 jQuery 在我的脑海中看起来像这样 a
用 jQuery 收集表单中的所有项目

如何收集 jQuery 中的所有复选框和下拉列表项进行保存或者对于最新版本的 jquery 您可以使用 http docs jquery com Ajax serialize http docs jquery com Ajax seri
如何解决DEP6500和DEP6701错误？

我有一个项目叫BTLE在它自己的解决方案中加载项目并使用手机上的调试器运行它可以找到我有第二个解决方案可以很好地加载和编译我添加了BTLE项目添加现有项目到第二个解决方案编译它并尝试在调试器中运行它我可以看到应用程序已正确
使用 PIG 从 Hive 表解析嵌套 XML 字符串

我正在尝试使用 PIG 从 Hive 表中的字段而不是从 XML 文件中提取一些 XML 这是我读过的大多数示例的假设 XML 来自排列如下的表 ID XML string XML 字符串包含 n 行始终包含最多 10 个属性中的至少一个

使用 PIG 从 Hive 表解析嵌套 XML 字符串

使用 PIG 从 Hive 表解析嵌套 XML 字符串 的相关文章

随机推荐

热门标签

使用 PIG 从 Hive 表解析嵌套 XML 字符串的相关文章