hive数据表去重方法

2023-11-17

1、hive 0.8.0数据表去重方法

问题描述：hive的外部表test中，在若干字段上存在重复现象，现在需要将若干字段上值相同的多条记录，只保其中留一条，
          舍弃其余的。

解决思路：
   （1）group by的方法

     首先新建与test表完全相同的新表test_pure,然后利用group by在有相同值的若干字段上进行分组统计，正常情况下，hive sql的select是无法取到非group by的字段，采用
collect_set(非group by字段)[0]，从分组统计的非group by字段值集合中，取到其中一个，按此方式取得所有非group by字段，然后将
所有字段的值，insert 到新建的表中。

    a、建表
       set mapred.job.name = 'chachong';
           set mapred.job.map.capacity = 300;
       set mapred.job.reduce.capacity = 300;
           set hive.exec.reducers.max = 300;
           set hive.mapred.mode=nonstrict;
           set hive.map.aggr=true;
           set hive.groupby.skewindata=true;
       set mapred.job.priority=VERY_HIGH;

           db = database me;
           use db;
           drop table if exists yuliao_pure;
       create external table if not exists yuliao_pure(
           content_id string,
           content string,
           host string,
           subject string,
           brand string,
           industry string,
           critic string,
           time string
               )
               partitioned by (dt string)
               row format delimited
               fields terminated by '\t'
               lines terminated by '\n'
               stored as textfile;

    b、去重

insert into table test_pure
partition (dt='${hivevar:new_dt}')
select
    collect_set(content_id)[0],
    content,
    collect_set(host)[0],
    collect_set(subject)[0],
    collect_set(brand)[0],
    collect_set(industry)[0],
    collect_set(critic)[0],
    time
from
    test
where
    industry="aaa"
    and time like '%201501%'
    and dt >= "20150520"
    and dt <= "20151027"
group by
    content,time;

2、利用row_number去重

由于的hive.0.11.0版本加入了对row_number()的内建函数的支持，但是0.8.0仍然不支持，因此通过编写UDF内建函数来完成，具体如下：

(1)下载hive-exec-1.0.1.jar;

(2)编写row_number的用户自定义的UDF；

package com.blue.hive.udf;
import org.apache.hadoop.hive.ql.exec.UDF;
public class RowNumber extends UDF {
   private static int MAX_VALUE = 50;
    private static String comparedColumn[] = new String[MAX_VALUE];
    private static int rowNum = 1;

    public int evaluate(Object... args)
    {
        String columnValue[] = new String[args.length];
        for (int i = 0; i < args.length; i++)
            columnValue[i] = args[i].toString();
        if (rowNum == 1)
        {
            for (int i = 0; i < columnValue.length; i++)
                comparedColumn[i] = columnValue[i];
        }
        for (int i = 0; i < columnValue.length; i++)
        {
            if (!comparedColumn[i].equals(columnValue[i]))
            {
                for (int j = 0; j < columnValue.length; j++)
                {
                    comparedColumn[j] = columnValue[j];
                }
                rowNum = 1;
                return rowNum++;
            }
        }
        return rowNum++;
    }
}

该类继承自hive的UDF类，该类是按若干列的值进行分组，在相同组内对记录进行编号。每扫描一行记录，该类的evaluate方法就会被执行，evaluate方法的内部逻辑是：comparedColumn数组用于跟踪上一条记录的分组列的值，碰到上一条记录在若干列上的值与当前记录的若干列的值相同，便将rowNumber++，一旦碰到值不同的

便将当前记录的若干列的值赋给comparedColumn数组，作为新的编号起点，依次下去，直到扫描完所有记录为止。

（3）将该类生成jar文件，打jar包时，不用将hive-exec-1.0.1.jar一块儿打入，rz -be 上传该jar文件到某一路径下；

（4）内建函数的使用方法，如下：

add jar /home/work/zcc/data_checksame/blueudf.jar;
create temporary function row_number as 'com.blue.hive.udf.RowNumber';

insert into table test_pure
select
t.content_id,t.content,t.host,t.subject,t.brand,t.industry,t.critic,t.time
from
( select
     content_id,content,host,subject,brand,industry,critic,time,
     row_number() over (distribute by content,time sort by time) as rn
     from yuliao
     where
     industry="${hivevar:industry}"
     and time like '%${hivevar:month}%'
     and dt in ("20150521")

) t where t.rn=1;

总结：(1)hive如何获取非group by字段；

(2)hive表的查重策略；

(3)hive表的UDF使用方法；

(4) Execution Error, return code [-101] (unknow error) from org.apache.hadoop.hive.ql.exec.FunctionTask异常解决方法，务必保证UDF的编译jdk版本与运行hive的jdk版本保持一致。

后续提供hive表的不同查重方法的优化性能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hive数据表去重方法的相关文章

Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
如何防止用户控件表单在 C# 中处理键盘输入（箭头键）

我的用户控件包含其他可以选择的控件我想实现使用箭头键导航子控件的方法问题是家长控制拦截箭头键并使用它来滚动其视图什么是我想避免的事情我想自己解决控制内容的导航问题我如何控制由箭头键引起的标准行为提前致谢 MTH 这通常是通过重写
如何在发布期间复制未版本化的测试资源：执行？

我的问题与 Maven 在发布时不会复制未跟踪的资源 https stackoverflow com questions 10378708 maven doesnt copy untracked resources while releas
如何确定所有角度2分量都已渲染？

当所有 Angular2 组件完成渲染时是否会触发一个角度事件 For jQuery 我们可以用 function 然而对于 Angular2 当domready事件被触发 html 只包含角度组件标签每个组件完成渲染后 domrea
如何在执行新操作时取消先前操作的执行？

我有一个动作创建器它会进行昂贵的计算并在每次用户输入内容时调度一个动作基本上是实时更新但是如果用户输入多个内容我不希望之前昂贵的计算完全运行理想情况下我希望能够取消执行先前的计算并只执行当前的计算没有内置功能可以取消Pro
如何从日期中查找该月的最后一天？

如何在 PHP 中获取该月的最后一天 Given a date 2009 11 23 我要2009 11 30 并给出 a date 2009 12 23 我要2009年12月31日 t返回给定日期所在月份的天数请参阅的文档date ht
Redis如何存储关联数组？设置、散列还是列表？

我对 Redis 的所有可用存储选项有点困惑我想做一些简单的事情并且不想过度设计它我正在与phpredis and Redis v2 8 6 我有一个需要存储的简单关联数组我还需要能够通过其键检索项目并循环遍历所有项目 a arra
如何使用asm.js进行测试和开发？

最近我读到asm js规范看起来很酷但是是否有任何环境工具来开发和测试这个工具这还只是处于规范阶段吗您可以尝试使用 emscripten 和 ASM JS 1 并从侧分支在 firefox 构建中运行它有关 asm js 的链接
Vue.js[vuex] 如何从突变中调度？

我有一个要应用于 json 对象的过滤器列表我的突变看起来像这样 const mutations setStars state payload state stars payload this dispatch filter setRev
Spring Boot @ConfigurationProperties 不从环境中检索属性

我正在使用 Spring Boot 1 2 1 并尝试创建一个 ConfigurationProperties带有验证的bean 如下所示 package com sampleapp import java net URL import j
对来自流读取器的过滤数据执行小计

编辑问题未得到解答我有一个基于 1 个标准的过滤输出前 3 个数字是 110 210 或 310 给出 3 个不同的组从流阅读器控制台问题已编辑因为第一个答案是我给出的具体示例的字面解决方案我使用的实际字符串长度为 450 个
用于验证目的的动态查找方法

我正在使用 Ruby on Rails 3 0 7 我想在运行时查找一些记录以进行验证但为该查找方法传递设置一个值也就是说在我的班级中我有以下内容 class Group lt lt ActiveRecord Base valid
neo4j - python 驱动程序，服务不可用

我对 neo4j 非常陌生我正在尝试建立从 python3 6 到 neo4j 的连接我已经安装了驱动程序并且刚刚开始执行第一步导入请求导入操作系统导入时间导入urllib 从 neo4j v1 导入 GraphDatabas
rspec 中的模拟方法链

有一系列方法可以获得user目的我试图模拟以下内容以返回user in my Factory Girl current user AuthorizeApiRequest call request headers result 我可以模拟该
使用 xpath 和 vtd-xml 以字符串形式获取元素的子节点和文本

这是我的 XML 的一部分
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip
Erlang dict的时间复杂度

我想知道 Erlang OTP 是否dict模块是作为哈希表实现的在这种情况下它是否能提供这样的性能平均情况 Search O 1 n k Insert O 1 Delete O 1 n k 最坏的情况下 Search O n Inse
升级到 Rails 6 时是否有一种编程方法可以检测 Zeitwerk::NameError？

我目前正在将旧的 Rails 应用程序迁移到 Rails 6 好像项目中有些文件和里面定义的类不一致运行应用程序测试时我没有看到此错误但部署后我收到如下错误 Zeitwerk NameError expected file app my
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50
如何在react-highcharts中使用图表工具提示格式化程序？

如何使用图表工具提示格式化程序我正在使用高图表的反应包装器我有这样的配置 const CHART CONFIG tooltip formatter tooltip gt var s b this x b each this points

随机推荐

常用运放电路分析

1 运算放大器电路分析方法由于运放的电压放大倍数很大一般通用型运算放大器的开环电压放大倍数都在80 dB以上而运放的输出电压是有限的一般在 10 V 14 V 因此运放的差模输入电压不足1 mV 两输入端近似等电位相当于短路开
亚马逊云科技云技能学习

文章目录前言一云技能学习的优势二云技能学习的学习路径三云技能学习的未来前景总结前言亚马逊云科技 Amazon Web Services AWS 作为全球领先的云计算服务提供商提供了众多创新的云技术解决方案在这些方案中
[转载]一分钟讲明白区块链数据不可篡改和51%攻击原理

转载一分钟讲明白区块链数据不可篡改和51 攻击原理如果你回家过年需要向亲戚朋友讲区块链这篇文章能让你一分钟讲明白区块链最大的优点数据不可篡改图片发自简书App 第1章不可篡改的数据库其实并不新鲜我们都有微信群微信群的聊天记录
Swing组件中面板(JPanel)的使用

JPanel组件定义面板实际上是一种容器组件用来容纳各种其他轻量级组件此外用户还可以用这种面板容器绘制图形 JPanel的构造方法如下 JPanel 创建具有双缓冲和流布局 FlowLayout 的面板 JPanel LayoutMa
SadTalker 让图片说话

参考 https github com OpenTalker SadTalker 其他类似参考 https www d id com 输入图片加音频产生2d视频安装使用 1 拉取github 下载对应安装库 2 下载对应模型baidu网盘
Windows如何开机自动全屏打开chrome浏览器

创建一个bat文件 C Program Files Google Chrome Application chrome exe explicitly allowed ports 10080 18080 start fullscreen url
【嵌入式】用STM32F103c8t6芯片完成对SD卡的数据读写

目录一 SD卡协议 1 SD卡的体系架构 2 SD卡寄存器列表 3 SD卡初始化 SPI模式 4 SD卡读写 SPI模式二 STM32CubeMX 三 Keil代码修改四电路连接五烧录运行结果六心得体会七参考链接一 S
Linux tcpdump抓包命令

1 tcpdump抓包命令 c 指定抓取包的数量即最后显示的数量 i 指定tcpdump监听的端口未指定选择系统中最小的以配置端口 i any 监听所有网络端口 i lo 监听lookback接口 nn 对监听地址以数字方式呈现且对
新版TCGA的突变数据SNP下载和整理

关于TCGAbiolinks包的学习前面一共介绍了5篇推文今天继续学习如何使用TCGAbiolinks下载和整理MAF格式的突变数据之前的TCGA的MAF文件是可以下载的每个癌症包含4种软件得到的突变文件后来就改版了不让你随便下载
网络篇 OSPF的路由器类型-42

OSPF路由器类型在OSPF初篇的时候就说到了OSPF是一种比EIGRP协议更加复杂的大型网络配置协议它的路由器类型也分为了好几种现在我们通过下图来了解一个OSPF路由器类型 1 内部路由器所有的接口都接入到同一个区域中的路由器
自定义类型——结构体、枚举、联合

一结构体我们知道数组是将相同类型的元素放在一起类似于数组结构体是将相同或不同的元素放在一起 eg struct example example是结构体名可以省略但不建议省略内部的是结构体成员 int a char c flo
冲量在线创始人刘尧：以信创软硬件结合场景为突破口“占山为王”

数据大爆炸的时代发展信创保证数据的安全与流通便成为刻不容缓的议题专注于数据智能互联解决方案的科技创新企业冲量在线致力于促进数据生产要素在社会间的互联互通构建可信安全隐私公平高效的数据互链网作为隐私计算结合信创的先行者
php简单密码验证txt,php用户名和密码的简单验证

5 php页面提交form表单 username password 5 1 php页面接收form表单并进行处理设置用户名和密码 arr user array user pwd arr pwd array user gt 1111 pw
React 生命周期

React 类组件的生命周期就是组件从创建到消耗的过程只有类组件才有生命周期分为挂载阶段更新阶段卸载阶段挂载阶段钩子函数 constructor 创建组件时最先执行作用初始化 state 创建 Ref 使用 bind
单机版kubernetes

Kubernetes 集群的搭建是有一定难度的官方安装推荐了MiniKube作为单机调试学习 1 centos安装 1 1 先决条件安装VirtualBox KVM Note Minikube 也支持 vm driver none 选
【leecode】小练习(简单8题)

def twoSum nums target 给定 nums 2 7 11 15 target 9 因为 nums 0 nums 1 2 7 9 所以返回 0 1 type nums List int type target int rty
nfs漏洞的处理：目标主机showmount -e信息泄露(CVE-1999-0554)

文章目录前言一漏洞内容二配置现状 1 nfs server节点 etc exports文件的配置 2 client节点执行showmount e 测试三 nfs server节点增加访问控制的配置 1 etc hosts all
Node.js中Redirect拼接参数方法，带参数重定向

一在Node js里req redirect 里拼接URL是这样的 client1 req query client client1是你获取到的需要拼接的变量 res redirect allNode client client1 注意冒
openstack实战之使用sysprep工具封装windows7镜像

openstack实战之使用sysprep工具封装windows7镜像在openstack云平台环境下使用sysprep封装windows7系统主要目的是清理虚拟机的SID 避免使用同一windows7镜像克隆出的虚拟机出现相同的SID
hive数据表去重方法

1 hive 0 8 0数据表去重方法问题描述 hive的外部表test中在若干字段上存在重复现象现在需要将若干字段上值相同的多条记录只保其中留一条舍弃其余的解决思路 1 group by的方法首先新建与test表完全相同的新

hive数据表去重方法

hive数据表去重方法 的相关文章

随机推荐

热门标签

hive数据表去重方法的相关文章