无法从 HBase 导出表

2024-05-24

我无法将表从 HBase 导出到 HDFS。下面是错误跟踪。它的尺寸相当大。还有其他方法可以导出吗？

我使用下面的命令来导出。我增加了 rpc 超时但作业仍然失败。

sudo -u hdfs hbase -Dhbase.rpc.timeout=1000000 org.apache.hadoop.hbase.mapreduce.Export My_Table /hdfs_path

15/05/05 08:50:27 INFO mapreduce.Job:  map 0% reduce 0%
15/05/05 08:50:55 INFO mapreduce.Job: Task Id : attempt_1424936551928_0234_m_000001_0, Status : FAILED
Error: org.apache.hadoop.hbase.DoNotRetryIOException: Failed after retry of OutOfOrderScannerNextException: was there a rpc timeout?
        at org.apache.hadoop.hbase.client.ClientScanner.next(ClientScanner.java:410)
        at org.apache.hadoop.hbase.mapreduce.TableRecordReaderImpl.nextKeyValue(TableRecordReaderImpl.java:230)
        at org.apache.hadoop.hbase.mapreduce.TableRecordReader.nextKeyValue(TableRecordReader.java:138)
        at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.nextKeyValue(MapTask.java:553)
        at org.apache.hadoop.mapreduce.task.MapContextImpl.nextKeyValue(MapContextImpl.java:80)
        at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.nextKeyValue(WrappedMapper.java:91)
        at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:144)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:784)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
        at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:168)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:415)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1642)
        at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:163)
Caused by: org.apache.hadoop.hbase.exceptions.OutOfOrderScannerNextException: org.apache.hadoop.hbase.exceptions.OutOfOrderScannerNextException: Expected nextCallSeq: 1 But the nextCallSeq got from client: 0; request=scanner_id: 229 number_of_rows: 100 close_scanner: false next_call_seq: 0
        at org.apache.hadoop.hbase.regionserver.HRegionServer.scan(HRegionServer.java:3198)
        at org.apache.hadoop.hbase.protobuf.generated.ClientProtos$ClientService$2.callBlockingMethod(ClientProtos.java:29925)
        at org.apache.hadoop.hbase.ipc.RpcServer.call(RpcServer.java:2031)
        at org.apache.hadoop.hbase.ipc.CallRunner.run(CallRunner.java:108)
        at org.apache.hadoop.hbase.ipc.RpcExecutor.consumerLoop(RpcExecutor.java:116)
        at org.apache.hadoop.hbase.ipc.RpcExecutor$1.run(RpcExecutor.java:96)
        at java.lang.Thread.run(Thread.java:745)

        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)
        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
        at java.lang.reflect.Constructor.newInstance(Constructor.java:526)
        at org.apache.hadoop.ipc.RemoteException.instantiateException(RemoteException.java:106)
        at org.apache.hadoop.ipc.RemoteException.unwrapRemoteException(RemoteException.java:95)
        at org.apache.hadoop.hbase.protobuf.ProtobufUtil.getRemoteException(ProtobufUtil.java:304)
        at org.apache.hadoop.hbase.client.ScannerCallable.call(ScannerCallable.java:204)
        at org.apache.hadoop.hbase.client.ScannerCallable.call(ScannerCallable.java:59)
        at org.apache.hadoop.hbase.client.RpcRetryingCaller.callWithRetries(RpcRetryingCaller.java:114)
        at org.apache.hadoop.hbase.client.RpcRetryingCaller.callWithRetries(RpcRetryingCaller.java:90)
        at org.apache.hadoop.hbase.client.ClientScanner.next(ClientScanner.java:355)
        ... 13 more
Caused by: org.apache.hadoop.hbase.ipc.RemoteWithExtrasException(org.apache.hadoop.hbase.exceptions.OutOfOrderScannerNextException): org.apache.hadoop.hbase.exceptions.OutOfOrderScannerNextException: Expected nextCallSeq: 1 But the nextCallSeq got from client: 0; request=scanner_id: 229 number_of_rows: 100 close_scanner: false next_call_seq: 0
        at org.apache.hadoop.hbase.regionserver.HRegionServer.scan(HRegionServer.java:3198)
        at org.apache.hadoop.hbase.protobuf.generated.ClientProtos$ClientService$2.callBlockingMethod(ClientProtos.java:29925)
        at org.apache.hadoop.hbase.ipc.RpcServer.call(RpcServer.java:2031)
        at org.apache.hadoop.hbase.ipc.CallRunner.run(CallRunner.java:108)
        at org.apache.hadoop.hbase.ipc.RpcExecutor.consumerLoop(RpcExecutor.java:116)
        at org.apache.hadoop.hbase.ipc.RpcExecutor$1.run(RpcExecutor.java:96)
        at java.lang.Thread.run(Thread.java:745)

        at org.apache.hadoop.hbase.ipc.RpcClient.call(RpcClient.java:1457)
        at org.apache.hadoop.hbase.ipc.RpcClient.callBlockingMethod(RpcClient.java:1661)
        at org.apache.hadoop.hbase.ipc.RpcClient$BlockingRpcChannelImplementation.callBlockingMethod(RpcClient.java:1719)
        at org.apache.hadoop.hbase.protobuf.generated.ClientProtos$ClientService$BlockingStub.scan(ClientProtos.java:30328)
        at org.apache.hadoop.hbase.client.ScannerCallable.call(ScannerCallable.java:174)
        ... 17 more

我建议查看代码并进行分阶段导出。

如果桌子真的很大，这里有一些tips你可以通过查看代码来尝试Export命令您可以调整缓存大小，应用扫描过滤器

请看下面Export usage来自 hbase

Export https://github.com/apache/hbase/blob/rel/1.5.0/hbase-server/src/main/java/org/apache/hadoop/hbase/mapreduce/Export.java#L1491.5 版本之前
导出工具 https://github.com/apache/hbase/blob/master/hbase-mapreduce/src/main/java/org/apache/hadoop/hbase/mapreduce/ExportUtils.java#L602.0发布后

请参阅使用命令：它为您提供了更多选项。

以我的经验cachesize（不是批量大小 = 一次的列数）和或
自定义过滤条件应该适合您。例如：如果您的密钥以 0_ 开头，其中 0 是区域名称，则首先通过指定过滤器导出这些行然后是下一个区域数据......等等。下面是 ExportFilter 片段，您可以通过它了解它的工作原理。

  private static Filter getExportFilter(String[] args) { 
138     Filter exportFilter = null; 
139     String filterCriteria = (args.length > 5) ? args[5]: null; 
140     if (filterCriteria == null) return null; 
141     if (filterCriteria.startsWith("^")) { 
142       String regexPattern = filterCriteria.substring(1, filterCriteria.length()); 
143       exportFilter = new RowFilter(CompareOp.EQUAL, new RegexStringComparator(regexPattern)); 
144     } else { 
145       exportFilter = new PrefixFilter(Bytes.toBytesBinary(filterCriteria)); 
146     } 
147     return exportFilter; 
148   } 

/* 
151    * @param errorMsg Error message.  Can be null. 
152    */ 
153   private static void usage(final String errorMsg) { 
154     if (errorMsg != null && errorMsg.length() > 0) { 
155       System.err.println("ERROR: " + errorMsg); 
156     } 
157     System.err.println("Usage: Export [-D <property=value>]* <tablename> <outputdir> [<versions> " + 
158       "[<starttime> [<endtime>]] [^[regex pattern] or [Prefix] to filter]]\n"); 
159     System.err.println("  Note: -D properties will be applied to the conf used. "); 
160     System.err.println("  For example: "); 
161     System.err.println("   -D mapreduce.output.fileoutputformat.compress=true"); 
162     System.err.println("   -D mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.GzipCodec"); 
163     System.err.println("   -D mapreduce.output.fileoutputformat.compress.type=BLOCK"); 
164     System.err.println("  Additionally, the following SCAN properties can be specified"); 
165     System.err.println("  to control/limit what is exported.."); 
166     System.err.println("   -D " + TableInputFormat.SCAN_COLUMN_FAMILY + "=<familyName>"); 
167     System.err.println("   -D " + RAW_SCAN + "=true"); 
168     System.err.println("   -D " + TableInputFormat.SCAN_ROW_START + "=<ROWSTART>"); 
169     System.err.println("   -D " + TableInputFormat.SCAN_ROW_STOP + "=<ROWSTOP>"); 
170     System.err.println("   -D " + JOB_NAME_CONF_KEY 
171         + "=jobName - use the specified mapreduce job name for the export"); 
172     System.err.println("For performance consider the following properties:\n" 
173         + "   -Dhbase.client.scanner.caching=100\n" 
174         + "   -Dmapreduce.map.speculative=false\n" 
175         + "   -Dmapreduce.reduce.speculative=false"); 
176     System.err.println("For tables with very wide rows consider setting the batch size as below:\n" 
177         + "   -D" + EXPORT_BATCHING + "=10"); 
178   }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hbase

无法从 HBase 导出表的相关文章

选择合适的IDE

您会推荐使用以下哪种 IDE 语言来在 Windows 下开发涉及识别手势并与操作系统交互的项目我将使用 OpenCV 库来执行图像处理任务之后我将使用 win32 API 或 NET 框架与操作系统交互具体取决于您建议的工具性能

随机推荐

如何将 PhoneGap 调试控制台与 CLI 集成？

PhoneGap 网站上的此页面http docs phonegap com en 3 3 0 guide cli index md html The 20Command Line 20Interface http docs phonega
以模态方式呈现 UIImagePickerController 时出错

我有一个奇怪的问题UIImagePickerController在我的 iOS 6 应用程序中以模态方式显示这XCode给我这个错误 Warning Attempt to present
使用 unnest() 返回行？

我尝试在完成后返回一组行UPDATE 像这样的东西 UPDATE Notis new noti SET notis noti record type FROM SELECT FROM Notis WHERE user id 2 FOR UP
APC 将数据存储在哪里？

我想用apc store 缓存一些结果但我需要知道数据将存储在哪里以及限制是什么它总是存储在内存中吗或者也写入磁盘我希望将不经常访问的数据存储在磁盘上我应该为此使用不同的缓存系统吗这就是极限了吗 apc shm size 32
我们如何在 Go 中使用通道来代替互斥锁？

通道将通信值的交换与同步相结合保证两个计算 goroutine 处于已知状态如何使用 Google Go 中的通道来执行互斥量的功能 package main import sync var global int 0 var m s
如何在 Nest js 中启用或禁用缓存？

假设我们希望在开发服务器上运行时禁用缓存并在生产服务器上启用缓存机制而不是添加和删除 CacheInterceptor 拦截器我们该怎么做呢 Get UseInterceptors CacheInterceptor getData re
SQL Union All 查询中的排序规则冲突

有一个 Union All 查询如下所示当在 SQL Server 中触发时出现错误无法解决 SELECT 语句中第 1 列的排序规则冲突请问在哪里添加带有此 Union All 查询的 Collat e database de
ClearCase：查找仅具有一个特定标签而不是更多标签的文件

我想在 ClearCase 中查找标有特定标签的文件但是没有设置任何其他标签例如如果我有这样标记的文件 file1 LBL A LBL B file2 LBL A 我想要一个只提供 file2 而不是 file1 的查询有没有办法用
尽管有障碍，Open CL 仍不同步

我刚刚开始通过 Python 的 PyOpenCL 接口使用 OpenCL 我尝试创建一个非常简单的循环程序其中每个内核中每个循环的结果取决于上一个循环周期的另一个内核的输出但我遇到了同步问题 kernel void part1 g
在 UIAlertController 的文本字段中选择文本

我需要在 UIAlertController 出现后立即选择文本字段的文本但是我在标准 UITextField 中选择文本的方式在这里不起作用这就是我尝试过的但我似乎无法让它发挥作用 let ac UIAlertController
D3.js - 更改鼠标悬停时元素的不透明度 IF 条件 = false

我正在制作一个带有过滤器的交互式 D3 js 图表当用户单击选定的复选框时该过滤器会显示点此外在鼠标悬停事件上所选点旁边将出现一个弹出窗口其中包含一些信息由于图表上的点数量相对较多因此我选择在取消选中相应复选框时使相关点变得
cellForRowAtIndexPath：未调用

我的应用程序有两种状态已登录和未登录并且我有以下架构大大简化 ViewController A 包含一个搜索框和一个表视图 ViewController B 用于登录应用程序流程如下用户未登录 A 被压入堆栈在viewWillA
连接到没有元数据的网络服务

我想连接到此网络服务 https training api temando com schema 2009 06 server wsdl https training api temando com schema 2009 06 serve
Android 2.2 中不带预览的相机捕获

我需要捕获图像而不显示预览我想在后台作为服务来完成它可以这样做吗是有可能实现的您应该定义一个处理 Camera 对象的类例如调用 Camera open 等不要为相机对象提供以下行以禁用预览 mCamera setPreview
如何检测应用程序正在运行的 .NET 版本？

我尝试使用Environment Version ToString 确定目标计算机上正在使用什么 NET 框架但安装了 4 0 版本时它说我正在使用 NET 2 0 如何检测目标计算机上正在运行的 NET Framework 版本 En
如何让 STDOUT 和 STDERR 都转到终端和日志文件？

我有一个脚本将由非技术用户交互式运行该脚本将状态更新写入 STDOUT 以便用户可以确定脚本运行正常我希望将Stdout和STDERR重定向到终端以便用户可以看到脚本正在工作并查看是否存在问题我还希望将两个流都重定向到日志文件
更新实时智能合约

如果我有一个智能合约其中硬编码了一些其他智能合约的地址例如也许我的合约有一些外部流动性挖矿金库的地址它会定期存入一些余额现在假设我想更新该地址列表并迁移它而不扰乱当前合约的操作最好的方法是什么以太坊字节码是不可变的所以简单的
本地提交推送到中央服务器

在工作中我们使用 perforce 并被鼓励定期对其进行承诺我对此很满意然而我想运行像 Mercurial 这样的东西这样我就可以在本地提交正在进行的工作并且不一定编译运行的东西然后从中定期提交到中央 perforce 服务器
Matplotlib 渲染日期、图像的问题

我在使用 conda forge 的 Matplotlib v 3 1 3 和 python 3 7 时遇到问题我拥有 Matplotlib 所需的所有依赖项当我输入这段代码时它应该可以工作我得到了泼溅艺术它基于此 YouTube
无法从 HBase 导出表

我无法将表从 HBase 导出到 HDFS 下面是错误跟踪它的尺寸相当大还有其他方法可以导出吗我使用下面的命令来导出我增加了 rpc 超时但作业仍然失败 sudo u hdfs hbase Dhbase rpc timeout 10

无法从 HBase 导出表

我建议查看代码并进行分阶段导出。

无法从 HBase 导出表 的相关文章

随机推荐

热门标签

无法从 HBase 导出表的相关文章