根据 Pig 中的数据将关系拆分为不同的输出文件

2024-01-07

目前，我的数据如下所示：

1 A a
1 A b
2 B b
2 B c
3 A a
3 B b
3 C c

我想根据第一列中的数据将它们存储在不同的文件中。所以，我希望我的输出与此类似

1.out包含

A a
A b

2.out包含

B b
B c

3.out包含

A a
B b
C c

有没有办法使用带有/不带有 UDF 的 Pig 来实现这一点？

非常感谢。

我远离我现在使用的集群，所以我不能 100% 确定，但这应该是在正确的路径上：

-- Assuming myData.txt is formatted like:
-- 1 A b
-- 2 B c
-- etc.
A = LOAD 'myData.txt' USING PigStorage(' ') 
                      AS (number: int, val1: chararray, val2: chararray) ;
STORE A INTO 'myOutputDir'
        -- Stores using \t as the input separator
        USING org.apache.pig.piggybank.storage.MultiStorage('myOutputDir', '0') ;

如果您这样做，那么将创建 3 个目录（1、2 和 3），并且在这些目录中，只有与文件夹名称具有相同编号的文件才会位于它们下面。然而，在每个目录中都可以有许多不同的文件（每个映射器/减速器一个）。此外，字段 0 也必须被存储。因此，输出可能如下所示：

--myOutputDir
|
|-->1
| |-->1-00000 #Contains 1 A a
| |-->1-00001 #Contains 1 A b
|
|-->2
| |-->2-00000 #Contains 2 B b
| |-->2-00001 #Contains 2 B c
|
|-->3
| |-->3-00000 #Contains 3 A a, 3 B b
| |-->3-00001 #Contains 3 C c
|

3-00000的内容：

3   A   a
3   B   b

但是，因为您知道输出文件的名称，所以您可以加载您创建的每个输出目录并根据需要格式化它们：

-- Repeat this for all the numbers
A3 = LOAD 'myOutputDir/3' AS (number: int, val1: chararray, val2: chararray) ;
B3 = FOREACH A3 GENERATE val1, val2 ; 
STORE B3 INTO 'myOutputDir/stripped3' ;

所以现在输出将如下所示：

A    a
B    b
C    c

但根据映射器作业的数量，数据仍然可以拆分到多个文件中。如果它们需要全部位于同一个文件中，我建议编写一个将各个部分合并在一起的脚本。我使用这样的东西（但显然更通用）：

import os
import glob
partfiles = os.path.join('myOutputDir', 'stripped3', 'part-m-[0-9]*')
with open('part-m-COMPLETE-3', 'w') as outfile:
    for myfile in glob.glob(partfiles):
        with open(myfile, 'r') as infile:
            for line in infile:
                outfile.write(line)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachepig

根据 Pig 中的数据将关系拆分为不同的输出文件的相关文章

Pig默认JsonLoader架构问题

我有以下需要使用 Pig 解析的数据 Data Name BBQ Chicken Sizes Size Large Price 14 99 Size Medium Price 12 99 Toppings Barbecue Sauce Ch
在 Pig 中的 ToDate(unix) 中指定时区

在我的数据集中我有 Unix 时间戳中的日期我想将它们转换为 Apache Pig 中的日期时间为此我可以使用ToDate 功能如所描述here 不过我知道我的 Unix 时间戳是 GMT UTC 但是使用转换ToDate 将导致我当
Hadoop Pig：传递命令行参数

有没有办法做到这一点例如传递要处理的文件的名称等这出现在另一个问题 https stackoverflow com questions 3515481 pig latin load multiple files from a date
对相关包进行排序

我有一个 Pig 脚本它生成了一个关系 A x chararray B y chararray z int 我想根据 B y 对 A 进行排序但是以下代码给了我错误语法错误 z 处或附近出现意外符号 output foreach A
PIG UDF 处理多行元组拆分为不同的映射器

我有一个文件其中每个元组跨越多行例如 START name Jim phone 2128789283 address 56 2nd street New York USA END START name Tom phone 6308789
可以使用 PIG 读取的文件格式

使用PIG可以读取哪些类型的文件格式如何以不同的格式存储它们假设我们有 CSV 文件我想将其存储为 MXL 文件如何做到这一点每当我们使用 STORE 命令时它都会创建目录并将文件存储为part m 00000 我如何更改文件名
将行值聚合到列中

我有这样的数据 2013 11 localhost kern 2013 11 localhost kern 2013 11 192 168 0 59 daemon 2013 12 localhost kern 2013 12 localho
在 Pig 中编写 udf 有点像教程

我是 Pig 新手并且正在尝试编写 udf 函数所以基本上这是问题陈述我有一个这样的虚拟数据 user id movie id date time stamp 所以我想做的就是这个如果交易是在 9 am and 11 am gt b
Pig 和 Hive 之间的区别？为什么两者都有？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我的背景进入 Hadoop 世界已经 4 周了使用 Cloudera 的 Hadoop VM 涉足 Hive Pig 和 Hadoop 读过
如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce？

有人可以解释 MapReduce 如何与 Cassandra 6 配合使用吗我已经阅读了字数统计示例但我不太明白 Cassandra 端与客户端端发生的情况 https svn apache org repos asf cassan
合并 Pig 中的两行

我想为下面的查询编写一个猪脚本输入是 ABC DEF GHI JKL MNO PQR STU VWX 输出应该是 ABC DEF GHI JKL MNO PQR STU VWX 有人可以帮我吗使用土猪很难解决这个问题一种选择是下载da
Apache Pig：无法运行我自己的pig.jar 和pig-withouthadoop.jar

我有一个运行 Hadoop 0 20 2 和 Pig 0 10 的集群我有兴趣向 Pig 的源代码添加一些日志并在集群上运行我自己的 Pig 版本我做了什么使用 ant 命令构建项目有pig jar和pig without had
使用 Pig 中的elephantbird 进行 Json 解析

我无法在 Pig 中解析以下数据这是 Twitter API 在获取某个用户的所有推文后返回的内容源数据我删除了一些数字以免无意中侵犯任何人的隐私 created at Sat Nov 01 23 15 45 0000 2014 i
PIG 将文本行转换为稀疏向量

我必须使用 Apache PIG 将需要合并的文件第一个文件包含书名列表就像这样每个书名都单独一行 Ted Dunning Mahout in Action Leo Tolstoy War and Peace Douglas Adam
我有 50 个字段，pig 中有没有选项可以打印 Apache Pig 中的前 40 个字段？我需要类似 $0-$39 范围的东西

我有 50 个字段 pig 中有没有选项可以打印前 40 个字段我需要的范围是 0 39 美元我不想指定每个字段例如 0 1 2 等当列数较少时给出每一列是可以接受的但是当列数很大时情况又如何呢您可以使用符号前 40 个
将文件夹名称添加到输出 Pig Latin

我在 HDFS 中有下一个目录结构 logs folder 2021 03 01 log1 log2 log3 2021 03 02 log1 log2 2021 03 03 log1 log2 日志由文本数据组成数据中没有日期因为它已
使用 Apache Pig 的数据透视表

我想知道是否可以在 Apache Pig 中一次性旋转一张表 Input Id Column1 Column2 Column3 1 Row11 Row12 Row13 2 Row21 Row22 Row23 Output Id Name V
猪的组连接等效吗？

试图在 Pig 上完成这个任务寻找 MySQL 的 group concat 等效项例如在我的表中我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
Windows 上的 Apache Pig 在运行“pig -x local”时出现“hadoop-config.cmd”未被识别为内部或外部命令”错误

如果您由于以下错误而无法在 Windows 上运行 Apache Pig hadoop 2 4 0 bin hadoop config cmd is not recognized as an internal or external com
Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获

随机推荐

多次函数调用后保持变量的生命周期？

假设 def myfunc x my list list append x 是否有关键字可以阻止变量 my list 被重新分配假设 NA 是关键字 def myfunc x NA listv list append x 以这种方式该行
resource_stall.other 可能意味着什么

Whiskey Lake i7 8565U The RESOURCE STALLS OTHER英特尔文档看起来并没有很好地解释计算由于其他原因而停止执行时的周期数资源问题我在一个内存副本的例子上进行了实验16MiB循环中随机生成的数据
加载静态数据到Ext.data.TreeStore

我可以加载一些静态数据吗Ext data TreeStore实例对于 Ext data Store 来说非常简单我们所要做的就是添加数据参数 http docs sencha com ext js 4 0 api Ext data S
使用 Bjam for Boost.Python 包含系统库

这可能是一个非常基本的问题但我无法在任何地方找到解决方案我正在使用 Boost Python 在 C 中构建 Python 扩展并且需要将我的项目与 libpcap 链接但我指定的任何内容似乎都无法将 bjam 指向正确的位置 Pc
如何使用 Swift 保存远程图像？

我正在尝试用 Swift 显示和保存图像第一次点击时它在 imageview 上显示远程图像第二次点击时它显示空白 imageview 而不是第一次点击时保存的本地图像 var paths NSSearchPathForDirect
如何在 JAX-RS 中设置响应标头以便用户看到 Excel 的下载弹出窗口？

我编写了使用 REST JAX RS 生成 Excel 文件的代码并确认生成的 Excel 文件位于 GlassFish 服务器目录中但我的目标是当用户单击按钮生成 Excel xls 时我希望显示下载弹出窗口询问用户是否保存或
使用 Maven Shade 插件的 Spring Boot - 控制器未映射（404 错误）

对于我的带有嵌入式 tomcat 的 Spring boot 应用程序由于一些限制我需要取消spring boot maven plugin并且需要使用maven shade plugin 使用 maven package 命令我可以成
如何代理对 api.twitter.com 的请求（包括 SSL 证书）？

我正在使用 Twitter 的新功能面料SDK https dev twitter com twitter kit android对于安卓我已经设置了Charles http www charlesproxy com 作为我的 Mac 上
如何将方向数据写入 UIImage iOS SDK

我有一个问题我从 imagePicker 相机而不是库获得了 UIImage 但是当我使用 UIImageJPEGRepresentation writeToFile atomically 将其写入文件时我丢失了方向数据所有图像都是
使用 matplotlib 绘制没有周末间隙的时间序列烛台

从雅虎财经导入数据后尝试绘制烛台系列我正在使用 python 2 7 我已经绘制了一个系列我想添加与烛台相同的系列但我不知道如何做到这一点 import matplotlib pyplot as plt from matplotlib
Rails 教程：RSpec 测试解耦

我正在尝试做第 8 5 章练习 2 http ruby railstutorial org book ruby on rails tutorial sec sign in out exercises在迈克尔哈特尔的Ruby on Rail
使用 SP_SEND_DBMAIL 的存储过程向所有收件人发送重复的电子邮件

我有一个每天晚上运行的存储过程它应该将查询结果发送给多个收件人然而在大多数情况下它最终会在一分钟后发送一封重复的电子邮件我使用的代码如下所有电子邮件和数据库引用均已更改 EXEC msdb dbo sp send dbmail
如果 Clean Architecture 的接口适配器无法了解其所适配的基础设施的详细信息，那么它们如何才能适配接口呢？

根据我对 Clean Architecture 的理解每一层都只能直接依赖于内部层而与外部层相关只有抽象才允许通过 DIP 设置为依赖项遵循这个规则适配器层可以直接依赖于应用程序层并且只能通过抽象的方式将基础设施层作为依赖项在
显示来自 EXT:news 的特定语言记录

我正在尝试以与默认语言不同的语言显示新闻记录但默认语言中不存在记录多语言配置是 config sys language mode strict sys language overlay 0 页面上的插件设置为所有语言仅以默认语言存在
无法将 .p12 证书导入到 cacerts

导入时 p12 to cacerts我面临以下问题第一行说别名已经存在然后当我尝试覆盖它时它说找不到别名请帮我解决这个问题 usr java default jre bin keytool importkeystore destst
Laravel：存储未将文件放入公共文件夹中

当我使用时 Storage putFile documents content public 我期望公共目录中的文件夹结构例如 storage app public documents XyZ pdf 代替 storage app doc
WebAudio 在开始和结束时播放声音

每当我使用以下代码播放声音时 binaryData a wave file from a websocket let ctx new AudioContext ctx decodeAudioData binaryData function
R 绘图标题大写和斜体

我正在尝试使用斜体和大写文本制作标题现在我有这个代码行 main substitute paste italic S aureus 10 6 growth inhibition 知道如何将 6 变成大写吗我们可以尝试 plot 1 ma
Mysql 事件不工作

我通过 phpmyadmin 在我的 mysql 数据库上添加了以下简单的测试事件 CREATE DEFINER root localhost EVENT my event ON SCHEDULE EVERY 1 MINUTE STARTS
根据 Pig 中的数据将关系拆分为不同的输出文件

目前我的数据如下所示 1 A a 1 A b 2 B b 2 B c 3 A a 3 B b 3 C c 我想根据第一列中的数据将它们存储在不同的文件中所以我希望我的输出与此类似 1 out包含 A a A b 2 out包含 B b

根据 Pig 中的数据将关系拆分为不同的输出文件

根据 Pig 中的数据将关系拆分为不同的输出文件 的相关文章

随机推荐

热门标签

根据 Pig 中的数据将关系拆分为不同的输出文件的相关文章