HDFS

当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs

Hadoop HDFS

运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs

Oracle Hadoop MapReduce HDFS SQOOP

在 PIG 中加载文件时如何忽略“（双引号）？

我的文件中有以下数据 a b 1 2 a b 4 3 a b 3 1 我正在使用以下命令读取此文件 File1 LOAD path using PigStorage as f1 chararray f2 chararray f3 int f

apachepig HDFS

从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal

Hadoop HDFS datatransfer

Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD

Hadoop HDFS apachespark Cloudera

使用 PyArrow 从 HDFS 读取镶木地板文件

我知道我可以使用 pyarrow 连接到 HDFS 集群pyarrow hdfs connect 我也知道我可以使用读取镶木地板文件pyarrow parquet s read table 然而 read table 接受文件路径而hdf

HDFS parquet pyarrow

HDFS 中的文件数量与块数量

我正在运行单节点 hadoop 环境当我跑的时候 hadoop fsck user root mydatadir block 我真的对它给出的输出感到困惑 Status HEALTHY Total size 998562090 B Tot

Hadoop HDFS

如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx

python Hadoop HDFS

HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以

Java scala Hadoop HDFS

运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce

Dictionary Hadoop MapReduce HDFS reduce

非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存

Hadoop HDFS HPC Hadoop2

使用Spring批处理从HDFS读取文件

我必须编写一个 Spring 批处理它将从 HDFS 读取文件并更新 MySQL DB 中的数据 HDFS 中的源文件包含一些 CSV 格式的报告数据有人能给我举一个从 HDFS 读取文件的例子吗 Thanks The FlatFile

Spring springboot HDFS SpringBatch

Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD

apachespark HDFS hadoopyarn distributedcomputing partitioning

MiniDFSCluster UnsatisfiedLinkError org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

做时 new MiniDFSCluster Builder config build 我得到这个异常 java lang UnsatisfiedLinkError org apache hadoop io nativeio NativeIO

Java Maven Hadoop HDFS Junit5

Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束

Hadoop HDFS Hadoop2 webhdfs

使用 Python3 与 HDFS 交互的最佳模块是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我看到有 hdfs3 snakebite 和其他一些哪一个支持最好且最全面据我所知可能性并不像人们想象的那么多但我建议使用官方的Pyth

python3x HDFS pythonhdfs

尝试将稀疏 df 保存到 hdf5 时，获取“SparseDtype”对象没有属性“itemsize”？

我正在尝试将大型稀疏数据帧保存到 hdf5 文件但出现归因错误 one hot pd get dummies my DF columns cat sparse True one hot to hdf content data h5 tab

python pandas HDFS

连接到 Hive 时使用 Spark 进行 Kinit

我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗更新我的 Spark 与 Hadoop 位于不同的集

apachespark hive HDFS kerberos

Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF

Hadoop cURL HDFS

无法使用 PDI 步骤连接到 HDFS

我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常而且我还可以从 Windows 浏览器查看 Namenode 附图如下所以我的主机名是 ubu

Hadoop HDFS pentaho dataintegration