流数据和 Hadoop？（不是 Hadoop 流）

2024-03-26

我想使用 MapReduce 方法分析连续的数据流（通过 HTTP 访问），因此我一直在研究 Apache Hadoop。不幸的是，Hadoop 似乎希望以固定大小的输入文件开始作业，而不是在新数据到达时将其传递给消费者。事实确实如此，还是我错过了什么？是否有其他 MapReduce 工具可以处理从开放套接字读取的数据？可扩展性是这里的一个问题，所以我更愿意让 MapReducer 处理混乱的并行化工作。

我玩过级联 http://www.cascading.org/并能够在通过 HTTP 访问的静态文件上运行作业，但这实际上并不能解决我的问题。我可以使用curl作为中间步骤，将数据转储到Hadoop文件系统上的某个位置，并编写一个看门狗来在每次新数据块准备就绪时启动新作业，但这是一个肮脏的黑客行为；必须有一些更优雅的方法来做到这一点。有任何想法吗？

您描述的黑客或多或少是做事的标准方式——Hadoop从根本上来说是一个面向批处理的系统（一方面，如果数据没有结束，Reducers就永远无法启动，因为它们必须在数据结束之后启动）地图阶段已完成）。

轮换您的日志；当您轮换它们时，将它们转储到 HDFS 中。让一个看门狗进程（可能是分布式进程，使用 ZooKeeper 进行协调）监视垃圾场并启动新的处理作业。您需要确保作业在足够大的输入上运行，以保证开销。

Hbase 是 hadoop 生态系统中的 BigTable 克隆，您可能会对它感兴趣，因为它允许连续的插入流；但是，您仍然需要以批处理模式运行分析查询。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

流数据和 Hadoop？（不是 Hadoop 流）的相关文章

从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
以不同用户身份运行 MapReduce 作业

我有一个与 Hadoop 交互的 Web 应用程序 Cloudera cdh3u6 特定的用户操作应在集群中启动新的 MapReduce 作业该集群不是一个安全集群但它使用简单的组身份验证因此如果我以自己的身份通过 ssh 连接到它
sqoop 通过 oozie 导出失败

我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常但是当我通过调用oozie 它出现以下错误并失败我还包括了罐子没有描述性日志 sqoop脚本 export c
以编程方式读取 Hadoop Mapreduce 程序的输出

这可能是一个基本问题但我在谷歌上找不到答案我有一个映射缩减作业它在其输出目录中创建多个输出文件我的 Java 应用程序在远程 hadoop 集群上执行此作业作业完成后需要使用以下命令以编程方式读取输出org apache had
Hive 聚集在多个列上

据我所知当配置单元表聚集在一列上时它会执行该分桶列的哈希函数然后将该行数据放入其中一个桶中每个桶都有一个文件即如果有 32 个桶那么 hdfs 中就有 32 个文件将 clustered by 放在多个列上意味着什么例如假
是否可以通过编写单独的mapreduce程序并行执行Hive查询？

我问了一些关于提高 Hive 查询性能的问题一些答案与映射器和减速器的数量有关我尝试使用多个映射器和减速器但在执行中没有看到任何差异不知道为什么可能是我没有以正确的方式做或者我错过了其他东西我想知道是否可以并行执行 Hive
伪模式下没有名称节点错误

我是hadoop新手正处于学习阶段根据 Hadoop Definitve 指南我已将 hadoop 设置为伪分布式模式一切正常昨天我什至能够执行第三章中的所有示例今天当我重新启动我的unix并尝试运行start dfs sh然
将数据从 .txt 文件加载到 Hive 中以 ORC 形式存储的表

我有一个数据文件位于 txt格式我正在使用该文件将数据加载到 Hive 表中当我将文件加载到类似表中时 CREATE TABLE test details txt visit id INT store id SMALLINT STORE
Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用？

我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
MapReduce 中的分区到底是如何工作的？

我认为我总体上对 MapReduce 编程模型有一定的了解但即使在阅读了原始论文和其他一些来源之后我仍然不清楚许多细节特别是关于中间结果的分区我将快速总结到目前为止我对 MapReduce 的理解我们有一个可能非常大的输入数据集
Hadoop 超立方体

嘿我正在启动一个基于 hadoop 的超立方体具有灵活的维度数有人知道这方面现有的方法吗我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它另一种方法是Z
如何修复“任务尝试_201104251139_0295_r_000006_0 未能报告状态 600 秒”。

我编写了一个 MapReduce 作业来从数据集中提取一些信息该数据集是用户对电影的评分用户数量约25万电影数量约30万地图的输出是
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113

随机推荐

Event.MOUSE_LEAVE 在 AS3 中不起作用

我只是将这个超级简单的代码示例扔到 Flash CS4 IDE 框架脚本中但它不会在控制台中输出任何内容我只是将鼠标悬停在窗口上没有单击任何内容什么也没有发生为什么这不能按我的预期工作 stage addEventListener
Visual Studio 2008 SP1 使用什么 ClearCase 插件

在工作中我必须将 ClearCase v7 0 1 2 和 ClearQuest v7 0 1 0 与 Visual Studio 2008 SP1 一起使用我在 Windows XP SP2 机器上运行我已经进行了一些搜索但尚未找
如何在 Delphi 10.2 中将警告视为错误，同时将某些警告设置为 False

在 Delphi 10 2 中有一个选项可以将警告视为错误项目选项 gt Delphi 编译器 gt 提示和警告 gt 输出警告选项是True False and as errors 当设置为as errors编译器会将每个警告视为错
报表查看器 11 (2012) Visual Studio 2010

我正在使用 Visual Studio 2010 并且安装了 Microsoft Report Viewer 2012 Runtime 希望能够测试 SQL 2012 中的新报告系统之后我从 Web config 中清除了对 Micro
如何从 shell 脚本启动编辑器？

我希望我的 tcsh 脚本启动一个编辑器例如 vi emacs bin tcsh vi my file 这将使用 my file 启动 vi 但首先显示警告 Vim 警告输出不是到终端并且我的击键不会出现在屏幕上在我杀死 vi 后
如何使用 QCustomPlot 高效地绘制大型时间序列？

我目前正在 Qt 中绘制数字信号QCustomPlot但似乎当样本数大于10000000时操作变得非常慢我有一个time向量和一个data矢量我设置数据如下 QCustomPlot plot QCPGraph graph graph
PHP SoapClient 格式错误的 xml

我正在使用 SOAP 与 php 中的 Web 服务进行通信这是我的代码 data array name gt test age gt 20 WDSL http xxx xxxxx xxx wdsl ibs wsdl SOAP new S
SFINAE 用于测试另一个命名空间中的自由函数

我试图想出一个 hack 来测试是否std isnan在预处理器中没有特殊大小写编译器的情况下定义并提出了以下内容我希望它能正常工作 include
SQL - 如何选择具有最大值列的行（+分组依据）

我正在建立这里引用的问题 SQL 如何选择具有最大值的列的行 https stackoverflow com questions 2854257 sql how to select a row having a column with ma
找不到主要出口来加载“LocalizationListComponent”

我正在创建一个 Angular 2 RC5 应用程序每个模块都是延迟加载的当应用程序启动时它会显示来自的列表LocalizationListComponent 按预期但控制台中有一条消息说Cannot find primary ou
如何设置正确的 json 标头？

htaccess 有没有办法确保我的 json 标头正确更新有人发现这些 json 标头有什么问题吗 Date Mon 26 Jul 2010 08 31 11 GMT Server Apache 2 2 15 Unix mod ssl
如何使用 watir 在弹出窗口中输入密码？

我正在编写一些 watir 测试用例 browser goto http egauge2592 egaug es browser link href settings html click browser text field index
Scala 中反射的奇怪行为

我试图遵循另一个问题的例子但我发现了一些我无法解释的事情 scala gt import scala reflect runtime currentMirror gt m import scala reflect runtime curr
从 html 链接中提取标题

我有以下 HTML 字符串 a href tothepage title the page The Link a 如何轻松从 HTML 片段中提取标题首选正则表达式或其他 VB NET 解决方案但 C 也可以我想要页面而不是链接文
自定义键盘 InputAccessoryView 在 iOS 11 中不可见

我已经实现了自定义输入附件视图直到 iOS 10 3 1 为止它都工作正常但在 iOS 11 beta 中是看不到的有人遇到过这个问题吗你问的问题没有太多细节但是当我为文本字段使用 inputAccessoryView 和自定义
java中获取某些进程的cpu使用率的正确命令行是什么

给定进程 ID 在 Java 中从进程获取当前 cpu 使用情况的正确命令是什么命令 typeperf Memory Available bytes processor total process time 不适用于特定进程并且任何第
在具有子类型的类上创建 Scalaz 相等实例

我有以下简单的 ADT 如何实现相等类型类的实例而不求助于显式模式匹配所有可能的组合 import scalaz import Scalaz sealed trait Billinginfo case class CreditCard n
如何在反应中将商品添加到购物车页面

当用户单击添加到购物车按钮时我尝试将商品添加到购物车页面 import React from react import bootstrap import useParams from react router dom function
-fprofile-use 和 -fauto-profile 之间有什么区别？

有什么区别 fprofile use and fauto profile 这是文档所说的 https gcc gnu org onlinedocs gcc Optimize Options html Optimize Options htt
流数据和 Hadoop？（不是 Hadoop 流）

我想使用 MapReduce 方法分析连续的数据流通过 HTTP 访问因此我一直在研究 Apache Hadoop 不幸的是 Hadoop 似乎希望以固定大小的输入文件开始作业而不是在新数据到达时将其传递给消费者事实确实如此还是我

流数据和 Hadoop？ （不是 Hadoop 流）

流数据和 Hadoop？ （不是 Hadoop 流） 的相关文章

随机推荐

热门标签

流数据和 Hadoop？（不是 Hadoop 流）

流数据和 Hadoop？（不是 Hadoop 流）的相关文章