Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
当我将文件存储在 HDFS 中时,它们会被复制吗?
我是 Hadoop 新手 当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中 复制因子为3 我的问题是 是否需要3份并分别存储到3个节点中 这是 HDFS 工作的漫画 https docs
Hadoop
HDFS
运行 Sqoop 导入和导出时如何找到最佳映射器数量?
我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库 运行 Sqoop 命令时 例如这样 sqoop import fs
Oracle
Hadoop
MapReduce
HDFS
SQOOP
在 PIG 中加载文件时如何忽略“(双引号)?
我的文件中有以下数据 a b 1 2 a b 4 3 a b 3 1 我正在使用以下命令读取此文件 File1 LOAD path using PigStorage as f1 chararray f2 chararray f3 int f
apachepig
HDFS
从 HDFS 传出文件
我想将文件从 HDFS 传输到另一台服务器的本地文件系统 该服务器不在 hadoop 集群中 而是在网络中 我本可以这样做 hadoop fs copyToLocal
Hadoop
HDFS
datatransfer
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法
我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
Hadoop
HDFS
apachespark
Cloudera
使用 PyArrow 从 HDFS 读取镶木地板文件
我知道我可以使用 pyarrow 连接到 HDFS 集群pyarrow hdfs connect 我也知道我可以使用读取镶木地板文件pyarrow parquet s read table 然而 read table 接受文件路径 而hdf
HDFS
parquet
pyarrow
HDFS 中的文件数量与块数量
我正在运行单节点 hadoop 环境 当我跑的时候 hadoop fsck user root mydatadir block 我真的对它给出的输出感到困惑 Status HEALTHY Total size 998562090 B Tot
Hadoop
HDFS
如何从hdfs读取文件[重复]
这个问题在这里已经有答案了 我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行 而不将 mr txt 文件下载到本地 但我无法从 hdfs 打开 mr tx
python
Hadoop
HDFS
HDFS:使用 Java / Scala API 移动多个文件
我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件 例如 我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
Java
scala
Hadoop
HDFS
运行时异常:java.lang.NoSuchMethodException:tfidf$Reduce.
()
如何解决这个问题 tfidf是我的主类 为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
Dictionary
Hadoop
MapReduce
HDFS
reduce
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化
我已经实例化了 Hadoop 2 4 1 集群 并且发现运行 MapReduce 应用程序的并行化方式会有所不同 具体取决于输入数据所在的文件系统类型 使用 HDFS MapReduce 作业将生成足够的容器 以最大限度地利用所有可用内存
Hadoop
HDFS
HPC
Hadoop2
使用Spring批处理从HDFS读取文件
我必须编写一个 Spring 批处理 它将从 HDFS 读取文件并更新 MySQL DB 中的数据 HDFS 中的源文件包含一些 CSV 格式的报告数据 有人能给我举一个从 HDFS 读取文件的例子吗 Thanks The FlatFile
Spring
springboot
HDFS
SpringBatch
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数
我有一个文件夹 里面有 14 个文件 我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
apachespark
HDFS
hadoopyarn
distributedcomputing
partitioning
MiniDFSCluster UnsatisfiedLinkError org.apache.hadoop.io.nativeio.NativeIO$Windows.access0
做时 new MiniDFSCluster Builder config build 我得到这个异常 java lang UnsatisfiedLinkError org apache hadoop io nativeio NativeIO
Java
Maven
Hadoop
HDFS
Junit5
Namenode高可用客户端请求
谁能告诉我 如果我使用java应用程序请求一些文件上传 下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里 我的意思是客户端如何知道哪个名称节点处于活动状态 如果您提供一些工作流程类型图或详细解释请求步骤 从开始到结束
Hadoop
HDFS
Hadoop2
webhdfs
使用 Python3 与 HDFS 交互的最佳模块是什么? [关闭]
Closed 这个问题是基于意见的 help closed questions 目前不接受答案 我看到有 hdfs3 snakebite 和其他一些 哪一个支持最好且最全面 据我所知 可能性并不像人们想象的那么多 但我建议使用官方的Pyth
python3x
HDFS
pythonhdfs
尝试将稀疏 df 保存到 hdf5 时,获取“SparseDtype”对象没有属性“itemsize”?
我正在尝试将大型稀疏数据帧保存到 hdf5 文件 但出现归因错误 one hot pd get dummies my DF columns cat sparse True one hot to hdf content data h5 tab
python
pandas
HDFS
连接到 Hive 时使用 Spark 进行 Kinit
我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证 有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗 更新 我的 Spark 与 Hadoop 位于不同的集
apachespark
hive
HDFS
kerberos
Curl下载到HDFS
我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中 该文件将移动到 HDF
Hadoop
cURL
HDFS
无法使用 PDI 步骤连接到 HDFS
我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常 而且我还可以从 Windows 浏览器查看 Namenode 附图如下 所以 我的主机名是 ubu
Hadoop
HDFS
pentaho
dataintegration
1
2
3
4
5
6
...22
»