hadoop集群优化(三)：开启日志汇聚服务

2023-10-27

文章目录

说明
分享
操作
总结

说明

hadoop平台有大量组件，上线后yarn执行全平台任务，各任务日志分散在集群各节点，为了高效追踪任务执行状态，确认异常时问题，hadoop提供了日志汇聚服务，并提供yarn页面查看，默认版本该功能关闭，需要配置开启。

大数据博客列表
开发记录汇总
个人java工具库项目https://gitee.com/wangzonghui/object-tool
- 包含json、string、集合、excel、zip压缩、pdf、bytes、http等多种工具，欢迎使用。

操作

修改配置

登录hadoop102，修改文件 /opt/module/hadoop-3.3.4/etc/hadoop/yarn-site.xml 增加如下配置

  <!--开启日志聚集功能-->
  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
  </property>

  <!-- 设置日志聚集服务器地址 -->
  <property>
    <name>yarn.log.server.url</name>
    <value>http://hadoop102:19888/jobhistory/logs</value>
  </property>

  <!-- 设置日志保留时间，单位秒 -->
  <property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
  </property>

分发

hadoop102 控制台执行：xsync /opt/module/hadoop-3.3.4/etc/hadoop/yarn-site.xml

重启集群

hadoop 自身脚本

关闭NodeManager、ResourceManager、HistoryServer
- hadoop102 关闭historyServer服务：mapred --daemon stop historyserver
- hadoop103 关闭yarn并重启： /opt/module/hadoop-3.3.4/sbin/stop-yarn.sh
启动：
- hadoop103 启动yarn：/opt/module/hadoop-3.3.4/sbin/start-yarn.sh
- hadoop102 启动历史服务器： mapred --daemon start historyserver

自定义脚本

使用自定脚本 myhadoop，重启整个集群：myhadoop restart

总结

日志记录程序执行信息，是追踪程序异常的重要依据，所有这个配置很关键，某些时候，程序本地环境测试ok，上线因为集群环境或数据引发异常，只能通过日志追踪修正。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

大数据

分布式

hadoop集群优化(三)：开启日志汇聚服务的相关文章

我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
在蜂巢中出现错误

当我连接到 ireport 时如果说在 hive shell 中显示表则会出现此错误元数据错误 java lang RuntimeException 无法实例化 org apache hadoop hive metastore Hiv
Hadoop-reducer 如何获取数据？

据我所知映射器为每个减速器生成 1 个分区减速器如何知道要复制哪个分区假设有 2 个节点运行用于字数统计程序的映射器并且配置了 2 个缩减器如果每个映射节点生成 2 个分区并且两个节点中的分区都可能包含相同的单词作为键那么减速
适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
如何有效地将数据从 Kafka 移动到 Impala 表？

以下是当前流程的步骤 Flafka http blog cloudera com blog 2014 11 flafka apache flume meets apache kafka for event processing 将日志写入
使用 Java API 在 Hadoop 中移动文件？

我想使用 Java API 在 HDFS 中移动文件我想不出办法做到这一点 FileSystem 类似乎只想允许在本地文件系统之间移动但我想将它们保留在 HDFS 中并将它们移动到那里我错过了一些基本的东西吗我能想到的唯一方法是从输
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
如何对 RDD 进行分区

我有一个文本文件其中包含大量由空格分隔的随机浮动值我正在将此文件加载到 scala 中的 RDD 中这个RDD是如何分区的另外是否有任何方法可以生成自定义分区以便所有分区都具有相同数量的元素以及每个分区的索引 val dRDD
Hive 聚集在多个列上

据我所知当配置单元表聚集在一列上时它会执行该分桶列的哈希函数然后将该行数据放入其中一个桶中每个桶都有一个文件即如果有 32 个桶那么 hdfs 中就有 32 个文件将 clustered by 放在多个列上意味着什么例如假
伪模式下没有名称节点错误

我是hadoop新手正处于学习阶段根据 Hadoop Definitve 指南我已将 hadoop 设置为伪分布式模式一切正常昨天我什至能够执行第三章中的所有示例今天当我重新启动我的unix并尝试运行start dfs sh然
将数据从 .txt 文件加载到 Hive 中以 ORC 形式存储的表

我有一个数据文件位于 txt格式我正在使用该文件将数据加载到 Hive 表中当我将文件加载到类似表中时 CREATE TABLE test details txt visit id INT store id SMALLINT STORE
MapReduce 中的分区到底是如何工作的？

我认为我总体上对 MapReduce 编程模型有一定的了解但即使在阅读了原始论文和其他一些来源之后我仍然不清楚许多细节特别是关于中间结果的分区我将快速总结到目前为止我对 MapReduce 的理解我们有一个可能非常大的输入数据集
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
Hadoop fs 查找块大小？

在 Hadoop fs 中如何查找特定文件的块大小我主要对命令行感兴趣例如 hadoop fs hdfs fs1 data 但看起来这并不存在有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量但是要

随机推荐

C++ 用两个栈实现一个队列

首先我们要看看栈和队列的特点栈的特点先进后出队列的特点先进先出队列的出队顺序与栈的出栈是相反的我们把数据压入第一个栈如果再把这个栈里面的元素依次压入第二个栈此时栈2里面的元素的顺序相当于对一组数据进行了两次倒序此时对第二
python 的继承重写和 super函数

1 super函数实现父类方法的继承和重写 class Car1 def init self color weight self color color self wheel 4 self weight weight self speed
防止连接Mysql超时，JDBC探活配置

我们知道Mysql有两个关于连接超时的参数默认为8小时 MySQL gt show global variables like timeout wait timeout 28800 非交互连接等待时间 interactive timeou
php 检测用户名已存在错误,验证用户名时出现PHP错误

我正在使用PHP构建一个网站我需要验证用户输入的名称是否正确由于JavaScript是客户端的我不能完全依赖它所以这是我的服务器端函数来验证用户名 function validate name name name trim name
Intellij IDEA安装YAML插件

1 下载插件 http pan baidu com s 1nvgECTN 2 安装插件 Intellij IDEA File gt Settings gt Plugins gt Install plugin from disk gt 选择插
Mac下安装Metaspoit

Mac下安装Metaspoit 在mac下安装的方式 1 先去官网上下载对应的dmg文件想要不花钱的话就可以对应的去下载社区版本的连接 https osx metasploit com metasploitframework late
PhpStorm 上面的git集成用法

phpStrom这个php的 IDE完美的集合了git 对于有些对命令行不是很熟悉的同学来说这可以带来很大的帮助下面我给大家说一下具体的用法 1 我们提交自己的代码 a 在我们的项目上右击如图所示相当于 git add 这个大家都
使用DS18B20模块的Arduino模拟温度计

有时我们需要在项目中添加一个温度指示器因此在本篇文章中您将学习如何使用Arduino和DS18B20温度传感器制作一款模拟温度计 DS18B20模块首先 Maxim DS18B20数字温度计提供9位至12位摄氏温度测量并具有报警
linux机试题,智一面之荣耀机试题 2021.04 ~05

记录下最近面试的算法题题目记得不是特别清楚了大致描述一 2021 04 17荣耀机试 1 数组排序题目描述输入多个数字按数字从小到大排序输入描述多个整数保证都在int范围内用空格隔开输出描述从小到大的值用空格隔开
qt 带复选框的下拉列表

参考 Qt之QComboBox定制核心思想 void QComboBox setView QAbstractItemView itemView void QComboBox setModel QAbstractItemModel mode
pandas dataframe类型数据的反转（reverse）

data iloc 1
瀑布流实现的三种方法js jq css3

一样式 div div class box div class pic img src images 1 jpg div div div class box div class pic img src images 2 jpg div d
LeetCode 题解——岛屿数量

大家好我是前端西瓜哥今天我们做一道经典算法题岛屿数量 LeetCode 上对应题目为 200 题 https leetcode cn com problems number of islands 这道题归属于岛屿问题是有固定套路的
selenium处理各类滑块验证码

selenium处理各类滑块验证码滑动验证码案例展示实现滑块拼图验证码案例展示实现滑块拼图验证码 Canvas 案例展示实现滑动验证码案例展示这种只要用鼠标点击并移动指定距离就可以完成验证 x轴实现 coding u
I2C总线时序以及ACK和NACK（NAK），SCL被从机拉低？

1 I2C协议详解及裸机程序分析简书通俗易懂根据上图我们首先设置IICCON 来设置时钟时钟源是PCLK 是50MHZ 太快了我们需要设置这个分频系数把时钟降低降低到我们想要的SCL 然后我们要发出start信号我们需要设置
VUE ＞＞＞ /deep/ ::v-deep

深层样式 gt gt gt 别名 deep v deep 给父元素添加类名需要借助于深层样式 gt gt gt 只可使用于css deep 如果有scoped 但不使用第三方css扩展语言可以使用 v deep 使用scss或者其
vue 地图坐标相互转换（GCJ-02，BD-09，WGS84）百度，火星，高德等坐标相互转换（最全代码，开箱即用）

封装好的 js 代码 GCJ 02 中国坐标偏移标准 Google Map 高德腾讯使用 BD 09 百度坐标偏移标准 Baidu Map使用百度坐标 WGS 84 是国际标准 GPS坐标 Google Earth使用或者GPS模块
详解先序树遍历VS递归树形结构

通常树形结构的存储是在子节点上存储父节点的编号来确定各节点的父子关系如图与之对应的表数据 department 部门表结构 id 部门编号 name 部门名称 level 所在树层级 parent id 上级部门编号 1 问题来了传
cartographer当机器人不动时，同时收到landmark，如何解决定位问题？

上一次我们通过修改代码实现了当机器人静止不动时不再向后端发送回环检测即不再向后端添加node 这样造成的结果就是如果有landmark同时发送过来也不会立即进行后端优化如何解决这个问题呢我给出了一种解决办法如下 1 为前端
hadoop集群优化(三)：开启日志汇聚服务

文章目录说明分享操作修改配置分发重启集群 hadoop 自身脚本自定义脚本总结说明 hadoop平台有大量组件上线后yarn执行全平台任务各任务日志分散在集群各节点为了高效追踪任务执行状态确认异常时问题 hadoo

hadoop集群优化(三)：开启日志汇聚服务

文章目录

说明

分享

操作

修改配置

分发

重启集群

hadoop 自身脚本

自定义脚本

总结

hadoop集群优化(三)：开启日志汇聚服务 的相关文章

随机推荐

热门标签

hadoop集群优化(三)：开启日志汇聚服务的相关文章