Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
猪的组连接等效吗?
试图在 Pig 上完成这个任务 寻找 MySQL 的 group concat 等效项 例如 在我的表中 我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
mysql
Hadoop
apachepig
适用于 Hadoop 的 DynamoDB 输入格式
我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据 我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它 我对 Dynamo DB 不熟悉 所以我猜测
Hadoop
amazonwebservices
MapReduce
amazondynamodb
elasticmapreduce
运行时异常:java.lang.NoSuchMethodException:tfidf$Reduce.
()
如何解决这个问题 tfidf是我的主类 为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
Dictionary
Hadoop
MapReduce
HDFS
reduce
如何将SQL数据加载到Hortonworks中?
我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件 并以表结构的方式获取它 这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中 我将如何做
sql
Hadoop
hive
ODBC
hortonworksdataplatform
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化
我已经实例化了 Hadoop 2 4 1 集群 并且发现运行 MapReduce 应用程序的并行化方式会有所不同 具体取决于输入数据所在的文件系统类型 使用 HDFS MapReduce 作业将生成足够的容器 以最大限度地利用所有可用内存
Hadoop
HDFS
HPC
Hadoop2
将数据从 oracle 移动到 HDFS,处理并从 HDFS 移动到 Teradata
我的要求是 将数据从 Oracle 移至 HDFS 处理HDFS上的数据 将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理 源数据量可能接近50GB 处理后的数据也可能相同 在网上搜索了很多之后 我发现 PRARO
Oracle
Hadoop
teradata
apachestorm
将 CSV 转换为序列文件
我有一个 CSV 文件 我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用 我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
Hadoop
mahout
sequencefile
纱线上的火花,连接到资源管理器 /0.0.0.0:8032
我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点 当然都在linux机器上 我在idea IDE中以spark独立模式运行spark程序 它运行成功
Java
Hadoop
apachespark
hadoopyarn
YARN UNHEALTHY 节点
在我们的 YARN 集群已满 80 的情况下 我们看到一些纱线节点管理器被标记为不健康 在深入研究日志后 我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
Hadoop
distributedcomputing
Cloudera
hadoopyarn
clouderacdh
MiniDFSCluster UnsatisfiedLinkError org.apache.hadoop.io.nativeio.NativeIO$Windows.access0
做时 new MiniDFSCluster Builder config build 我得到这个异常 java lang UnsatisfiedLinkError org apache hadoop io nativeio NativeIO
Java
Maven
Hadoop
HDFS
Junit5
在映射器的单个输出上运行多个减速器
我正在使用地图缩减实现左连接功能 左侧有大约 6 亿条记录 右侧有大约 2300 万条记录 在映射器中 我使用左连接条件中使用的列来创建键 并将键值输出从映射器传递到减速器 我遇到性能问题 因为两个表中的值数量都很高的映射器键很少 例如分别
Hadoop
MapReduce
reduce
Hadoop2
mapper
伪分布式模式下的 Hadoop。连接被拒绝
P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时 我得到以下输出 starting namenode logging to home raveesh Hado
Ubuntu
SSH
Hadoop
Hive“添加分区”并发
我们有一个外部 Hive 表 用于处理原始日志文件数据 这些文件每小时一次 并按日期和源主机名分区 目前 我们正在使用简单的 python 脚本导入文件 这些脚本每小时触发几次 该脚本根据需要在 HDFS 上创建子文件夹 从临时本地存储复制
Hadoop
hive
Hive - 线程安全的自动递增序列号生成
我遇到一种情况 需要将记录插入到特定的 Hive 表中 其中一列需要是自动递增的序列号 即在任何时间点都必须严格遵循 max value 1 规则 记录从许多并行的 Hive 作业插入到这个特定的表中 这些作业每天 每周 每月批量运行 现在
Hadoop
hive
apachezookeeper
distributedcomputing
带有安全 Kafka 抛出的 Spark 结构化流:无权访问组异常
为了在我的项目中使用结构化流 我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成 我正在运行下面的示例代码来检查集成 我能够在 Spark 本地模式下的
Hadoop
apachespark
ApacheKafka
kerberos
kafkaconsumerapi
hive 从两个数组创建映射或键/值对
我有两个具有相同数量值的数组 它们映射为 1 1 我需要从这两个数组创建一个键 值对或映射 键 值 任何想法或提示都会有帮助 当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
Arrays
Hadoop
Dictionary
hive
keyvalue
猪参考
我正在学习 Hadoop Pig 并且我总是坚持引用元素 请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray
Hadoop
apachepig
如何通过Python访问Hive?
https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
python
Hadoop
hive
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项?
我想知道如何指定mapreduce配置 例如mapred task timeout mapred min split size等等 当使用自定义 jar 运行流作业时 当我们使用 ruby 或 python 等外部脚本语言运行时 我们可以使
Java
Hadoop
MapReduce
elasticmapreduce
EMR
如何通过sparkSession向worker提交多个jar?
我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
Java
Hadoop
apachespark
1
2
3
4
5
6
...100
»