在 PIG 中加载文件时如何忽略“（双引号）？

2024-05-25

我的文件中有以下数据

"a","b","1","2"
"a","b","4","3"
"a","b","3","1"

我正在使用以下命令读取此文件

File1 = LOAD '/path' using PigStorage (',') as (f1:chararray,f2:chararray,f3:int,f4:int)

但这里忽略了字段3和4的数据

如何正确读取该文件或任何使 PIG 跳过的方法'"'

其他信息我正在使用 Apache Pig 版本 0.10.0

您可以使用REPLACE http://pig.apache.org/docs/r0.10.0/func.html#replace函数（不过它不会一次性完成）：

file1 = load 'your.csv' using PigStorage(',');
data = foreach file1 generate $0 as (f1:chararray), $1 as (f2:chararray), REPLACE($2, '\\"', '') as (f3:int), REPLACE($3, '\\"', '') as (f4:int);

您还可以使用正则表达式REGEX_EXTRACT http://pig.apache.org/docs/r0.10.0/func.html#regex-extract :

file1 = load 'your.csv' using PigStorage(',');
data = foreach file1 generate $0, $1, REGEX_EXTRACT($2, '([0-9]+)', 1), REGEX_EXTRACT($3, '([0-9]+)', 1);

当然，你可以删除"对于 f1 和 f2 以同样的方式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachepig

HDFS

在 PIG 中加载文件时如何忽略“（双引号）？的相关文章

group by 之后的拉丁猪袋到元组

我有以下带有架构的数据 t0 chararray t1 int t2 int B 4 2 A 2 3 A 3 2 B 2 2 A 1 2 B 1 2 我想生成以下结果按 t0 分组并按 t1 排序 A 1 2 2 3 3 2 B 1 2
Hive 和 PIG/Grunt shell 挂在 cygwin 上

我在 Windows 7 机器 32 位上以本地模式运行 Hadoop 我已将 HIVE PIG Hadoop Java6 全部安装在 C 驱动器上我使用的 Cygwin 版本 2 819 我已将 C 安装在 cygwin 上我可以从
如何使用通配符投影别名？

一旦我做了一个join A by id B by id 我得到一个带有字段的别名A f B f 有没有办法只将其投影到A fields C join A by id B by id D filter C by B n lt 1000 E f
WEBHDFS REST API 将文件从 Windows 服务器/本地文件夹/桌面复制/移动到 HDFS

使用 WEBHDFS REST API 调用我可以将文件从 Windows 计算机即 Windows 服务器或 Windows 本地文件夹或桌面传输或复制到 Hadoop HDFS 文件系统吗如果是有任何示例命令信息吗我已经尝试
使用 PIG 从 Hive 表解析嵌套 XML 字符串

我正在尝试使用 PIG 从 Hive 表中的字段而不是从 XML 文件中提取一些 XML 这是我读过的大多数示例的假设 XML 来自排列如下的表 ID XML string XML 字符串包含 n 行始终包含最多 10 个属性中的至少一个
如何将位于 HDFS 上的类型安全配置文件添加到 Spark-Submit（集群模式）？

我有一个 Spark Spark 1 5 2 应用程序它将数据从 Kafka 流式传输到 HDFS 我的应用程序包含两个 Typesafe 配置文件来配置某些内容例如 Kafka 主题等现在我想在集群中使用spark submit 集
Hadoop 顺序数据访问

根据 Hadoop 权威指南 HDFS 是一个文件系统设计用于存储非常大的文件流式或顺序数据访问模式什么是流式或顺序数据访问它如何减少磁盘的寻道时间这并不是 Hadoop 特有的顺序访问模式是指按顺序读取数据通常是从开始到结束
Spark 作业在 YARN 模式下失败

我有一个用 Scala 编写的 Spark 程序它从 HDFS 读取 CSV 文件计算新列并将其保存为 parquet 文件我正在 YARN 集群中运行该程序但每次我尝试启动它时执行程序都会在某个时候失败并出现此错误您能帮我找出
HBase如何实现对HDFS的随机访问？

鉴于HBase是一个数据库其文件存储在HDFS中那么它如何实现对HDFS中单个数据的随机访问呢这是通过什么方法实现的呢 From Apache HBase 参考指南 http hbase apache org book archite
远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
使用Spring批处理从HDFS读取文件

我必须编写一个 Spring 批处理它将从 HDFS 读取文件并更新 MySQL DB 中的数据 HDFS 中的源文件包含一些 CSV 格式的报告数据有人能给我举一个从 HDFS 读取文件的例子吗 Thanks The FlatFile
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
在 PIG 中加载文件时如何忽略“（双引号）？

我的文件中有以下数据 a b 1 2 a b 4 3 a b 3 1 我正在使用以下命令读取此文件 File1 LOAD path using PigStorage as f1 chararray f2 chararray f3 int f
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
Flink从hdfs读取数据

我是 Flink 的新生我想知道如何从 hdfs 读取数据有人可以给我一些建议或一些简单的例子吗谢谢你们如果您的文件采用文本文件格式则可以使用 ExecutionEnvironment 对象中的 readTextFile 方法这
Hadoop 超立方体

嘿我正在启动一个基于 hadoop 的超立方体具有灵活的维度数有人知道这方面现有的方法吗我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它另一种方法是Z
Hadoop fs 查找块大小？

在 Hadoop fs 中如何查找特定文件的块大小我主要对命令行感兴趣例如 hadoop fs hdfs fs1 data 但看起来这并不存在有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量但是要

随机推荐

为什么将域连接到“Shopify”需要 CNAME 和 A 记录？

为什么将域连接到 Shopify 需要CNAME and ARecord ref https help shopify com en manual domains add a domain using existing domains co
在 Slime 中复制/猛拉整个 Lisp 表单

有没有办法在 Slime Emacs 中复制猛拉整个表单例如如果我有以下功能 myfunc lst myotherfunc lst 我想复制复制 myotherfunc lst 当我的光标位于该表单的左括号或右括号时在 Slime
需要澄清 NSAutoreleasePool

每当我们打电话时autorelease方法它的对象将是NSAutoreleasePool 当池耗尽时它会向池中的所有对象发送释放消息我的问题是 main函数中有一个NSAutoreleasePool 我想知道当我们调用autorel
如何在 Zend 中使用 cookie？

如何使用 Zend Http Cookie 来设置和读取 cookie 我尝试像这样设置cookie cookie new Zend Http Cookie TestCookie TestValue localhost com 但没有生成c
使用 django-profiles 以配置文件形式编辑相关模型

我在用着Django 配置文件 http bitbucket org ubernostrum django profiles wiki Home在我的应用程序中因为它为我提供了一些简单的视图可以帮助我更快地到达我想去的地方但是我有一
Flex HTTPservice 和 POST，发送文件？

我使用基本的 Post 将数据发送到 Django 服务器数据由flex动态创建的base64编码的640 380 PNG图像组成成分
哪些具体用例需要通过 WebSockets 和长轮询使用 BOSH？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
公共领域有哪些替代方案？

我正在用 java 编写一个游戏正如问题标题建议的那样我在类中使用公共字段暂且据我所知公共领域很糟糕我有一些理解其中的原因但如果有人能澄清为什么你不应该使用它们那将不胜感激问题是从我所看到的来看这似乎是合乎逻辑的是使
你能在 Clojure 中获取加载函数的“代码即数据”吗？

换一种方式好吧代码就是数据 http groups google com group clojure browse thread thread 554cdc59d8a46f01 该线程解决了如何从源文件中读取的问题但我想知道如何将已加
析构函数、dispose 和 Finalize 方法之间的区别

我正在研究垃圾收集器在 C 中的工作原理我对使用感到困惑Destructor Dispose and Finalize方法根据我的研究和理解在我的类中拥有析构函数方法将告诉垃圾收集器以析构函数方法中提到的方式执行垃圾收集该方法不能在
如何使用 C# 调用 REST API？

这是我到目前为止的代码 public class Class1 private const string URL https sub domain com objects json api key 123 private const str
Facebook 帐户工具包已弃用 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案 I just saw https developers facebook com blog post
sed/awk/bash 用外部文件内容替换两个字符串之间的文本

我正在编写一个脚本命令它将采用 inputFile1 在其中查找特定的开始和结束字符串并替换它们之间的所有文本包含 inputFile2 的完整内容理想情况下但不是强制性的这应该不需要转义特殊字符即可工作因此我可以将字符串放
HYBRIS - 组件和插槽如何在 JSP 文件中工作？

最近我正在使用 Hybris 我无法理解这些组件是如何工作的我知道如何创建和定义一个如何将它们添加到我想要的页面等但我不明白如何使用该标签
服务器端包含与 ASP.NET 技术之间是否存在性能差异？

我最近受聘更新 ASP NET 1 0 站点该站点是在母版页可用之前创建的因此这些页面有服务器端包含 ssi 例如我打算使用包含先前在 ssi 中的标记的母版页来更新 aspx 页面我相信这是正确的做法特别是从可维护性的角度来看
AWS SimpleDB 上属性的最大大小

我正在构建一个移动应用程序 iPhone Android 并希望将应用程序数据存储到亚马逊的 SimpleDB 上因为我们不想托管自己的服务器来提供这些服务我已经浏览了所有文档元素值的最大存储大小是 1024 字节就我而言我们需要
最有用的 jQuery 原生 API 函数

前 5 10 个最常用的 jQuery 本机 API 函数是什么请不要建议 jQuery 函数本身因为毫无疑问这是最常用的函数如果可能的话还请提供它们所涵盖的场景提出这个问题的原因是我尝试创建一个类似 jQuery 的 API充足
如何在 WordPress 中按标题获取帖子？

Wordpress 3 0 我想通过使用将特定帖子的内容放入页面中title帖子的据我所知我不能直接使用get post 我可以假设暴力方式可能是什么但我怀疑还有更优雅的方式吗 get page by title id OBJECT
跨浏览器兼容音频有哪些选项？

我正在使用这个功能 function playSound file MyAudio new Audio file MyAudio play 不幸的是我正在努力寻找一种适用于所有浏览器的文件类型 Mp3 适用于 Chrome Safari
在 PIG 中加载文件时如何忽略“（双引号）？

我的文件中有以下数据 a b 1 2 a b 4 3 a b 3 1 我正在使用以下命令读取此文件 File1 LOAD path using PigStorage as f1 chararray f2 chararray f3 int f

在 PIG 中加载文件时如何忽略“（双引号）？

在 PIG 中加载文件时如何忽略“（双引号）？ 的相关文章

随机推荐

热门标签

在 PIG 中加载文件时如何忽略“（双引号）？的相关文章