使用 hive SQL 提取不同字符之间的字符串

2023-12-08

我有一个名为 geo_data_display 的字段，其中包含国家/地区、地区和 DMA。这 3 个值包含在 = 和 & 字符之间 - 第一个“=”和第一个“&”之间的国家/地区、第二个“=”和第二个“&”之间的区域以及第三个“=”和第三个“”之间的 DMA &”。这是该表的可重复版本。国家/地区始终是字符，但区域和 DMA 可以是数字或字符，并且并非所有国家/地区都存在 DMA。

一些示例值是：

country=us&region=tx&dma=625&domain=abc.net&zipcodes=76549
country=us&region=ca&dma=803&domain=abc.com&zipcodes=90404 
country=tw&region=hsz&domain=hinet.net&zipcodes=300
country=jp&region=1&dma=a&domain=hinet.net&zipcodes=300

我有一些示例 SQL，但 geo_dma 代码行根本不起作用，并且 geo_region 代码行仅适用于字符值

SELECT 

UPPER(REGEXP_REPLACE(split(geo_data_display, '\\&')[0], 'country=', '')) AS geo_country
,UPPER(split(split(geo_data_display, '\\&')[1],'\\=')[1]) AS geo_region
,split(split(cast(geo_data_display as int), '\\&')[2],'\\=')[2] AS geo_dma
FROM mytable

您可以使用str_to_map像这样：

select  geo_map['country']  as geo_country
       ,geo_map['region']   as geo_region
       ,geo_map['dma']      as geo_dma

from   (select  str_to_map(geo_data_display,'&','=')    as geo_map
        from    mytable
        ) t
;

+--------------+-------------+----------+
| geo_country  | geo_region  | geo_dma  |
+--------------+-------------+----------+
| us           | tx          | 625      |
| us           | ca          | 803      |
| tw           | hsz         | NULL     |
| jp           | 1           | a        |
+--------------+-------------+----------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

hive

HiveQL

使用 hive SQL 提取不同字符之间的字符串的相关文章

Sqoop 导出分区的 Hive 表

我在尝试导出分区的 Hive 表时遇到了一些问题这是否完全受支持我尝试用谷歌搜索并找到一张 JIRA 票证 sqoop export connect jdbc mysql localhost testdb table sales exp
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
在蜂巢中出现错误

当我连接到 ireport 时如果说在 hive shell 中显示表则会出现此错误元数据错误 java lang RuntimeException 无法实例化 org apache hadoop hive metastore Hiv
Hadoop-reducer 如何获取数据？

据我所知映射器为每个减速器生成 1 个分区减速器如何知道要复制哪个分区假设有 2 个节点运行用于字数统计程序的映射器并且配置了 2 个缩减器如果每个映射节点生成 2 个分区并且两个节点中的分区都可能包含相同的单词作为键那么减速
Mapreduce shuffle 阶段出现内存不足错误

我在运行时遇到奇怪的错误类似字数统计映射缩减程序我有一个包含 20 个从站的 hadoop 集群每个从站都有 4 GB RAM 我将 Map 任务配置为 300MB 堆 Reduce 任务槽为 1GB 我每个节点有 2 个映射槽和 1
如何有效地将数据从 Kafka 移动到 Impala 表？

以下是当前流程的步骤 Flafka http blog cloudera com blog 2014 11 flafka apache flume meets apache kafka for event processing 将日志写入
全部配对图表上的所有路径

这可能是一个没有最佳解决方案的问题假设我有一个有向图不知道它是否有循环循环检测将是这个问题的方面之一给定一组顶点可能是数百万个顶点我需要计算给定图的所有唯一对之间的所有不同路径没有重复顶点的路径我该如何应对这种情况让我们看
如何对 RDD 进行分区

我有一个文本文件其中包含大量由空格分隔的随机浮动值我正在将此文件加载到 scala 中的 RDD 中这个RDD是如何分区的另外是否有任何方法可以生成自定义分区以便所有分区都具有相同数量的元素以及每个分区的索引 val dRDD
以不同用户身份运行 MapReduce 作业

我有一个与 Hadoop 交互的 Web 应用程序 Cloudera cdh3u6 特定的用户操作应在集群中启动新的 MapReduce 作业该集群不是一个安全集群但它使用简单的组身份验证因此如果我以自己的身份通过 ssh 连接到它
如何在Hadoop中序列化List集合对象？

有没有办法在 Hadoop 中序列化 java 集合 The Writable接口仅适用于 Java 原语我有以下类属性 private String keywords private List
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
以编程方式读取 Hadoop Mapreduce 程序的输出

这可能是一个基本问题但我在谷歌上找不到答案我有一个映射缩减作业它在其输出目录中创建多个输出文件我的 Java 应用程序在远程 hadoop 集群上执行此作业作业完成后需要使用以下命令以编程方式读取输出org apache had
是否可以通过编写单独的mapreduce程序并行执行Hive查询？

我问了一些关于提高 Hive 查询性能的问题一些答案与映射器和减速器的数量有关我尝试使用多个映射器和减速器但在执行中没有看到任何差异不知道为什么可能是我没有以正确的方式做或者我错过了其他东西我想知道是否可以并行执行 Hive
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
Hadoop - 直接从 Mapper 写入 HBase

我有一个 hadoop 作业其输出应写入 HBase 我并不真正需要减速器我想要插入的行类型是在映射器中确定的如何使用 TableOutputFormat 来实现此目的从所有示例中我看到的假设是 reducer 是创建 Put 的
MapReduce 中的分区到底是如何工作的？

我认为我总体上对 MapReduce 编程模型有一定的了解但即使在阅读了原始论文和其他一些来源之后我仍然不清楚许多细节特别是关于中间结果的分区我将快速总结到目前为止我对 MapReduce 的理解我们有一个可能非常大的输入数据集
没有函数映射到名称“coord:formatTime”

我正在尝试使用 oozie 中的以下内容获取当前时间戳
MapReduce 中 1 个任务的减速器数量

在典型的 MapReduce 设置如 Hadoop 中 1 个任务使用多少个减速器例如计算单词数我对 Google MapReduce 的理解意味着只涉及 1 个减速器那是对的吗例如单词计数会将输入分为 N 个块并且 N 个
使用 HttpClient 的 .NET Core SPNEGO 身份验证

我目前正在编写一个简单的基于 NET Core 的客户端用于通过 WebHCat 与 Hadoop 集群进行交互并且我正在尝试弄清楚如何使用 SPNEGO 进行身份验证就像在curl 或 Powershell Core 等中一样使用

随机推荐

SQL LIKE 查询失败 - 准备好的语句中出现致命错误

我有以下代码 countQuery SELECT ARTICLE NO FROM WHERE upper ARTICLE NAME LIKE if numRecords con gt prepare countQuery numRecord
实体框架支持多线程吗？

我正在编写一个针对实体框架 6 1 3 的 C NET4 5 控制台应用程序我使用工作单元范例如下 public class UnitOfWork IUnitOfWork IDisposable private readonly Data
cordova平台添加android在JAVA_HOME中出现错误

我刚刚在 Windows 8 中安装了 cordova 3 3 当我使用命令 cordova platform add android 时我收到此错误消息 Error failed to run java version make sur
Scala slick 2.0 updateAll 相当于 insertALL？

寻找一种使用 slick 进行批量更新的方法是否有与 insertALL 等效的 updateAll 到目前为止古尔的研究让我失败了我有一个具有不同状态的案例类别列表每个都有不同的数值因此我无法运行典型的更新查询同时我想保存多
如果 VBA 中出现错误？

是否可以在 VBA 中使用具有与 Iferror value value if error 或 Iserror value 类似功能的东西我试着写 If IsError Cells i c curr Then CODE BLOCK 1 e
使用database/sql时如何获取返回的行数？

给定以下函数 func me OrderService GetOrders orderTx sql Tx orderId int orders sql Rows orders err ecommTx Query SELECT FROM or
如何为nginx配置pem文件？

我有3个文件添加信任外部CARoot crt COMODORSAAddTrustCA crt COMODORSADomainValidationSecureServerCA crt 还有一个密钥库如何创建 pem 文件我试图将其内容放
警告消息“newdata”有 1 行，但在 R 中找到的变量有 16 行

我应该使用预测函数来预测何时fjbjor是 5 5 我总是收到此警告消息我尝试了很多方法但它总是出现所以有人能看到我在这里做错了什么吗这是我的代码 fit lm lt lm fjbjor amagn data bjor summar
缩放和镜像 SVG 对象

如何最轻松地首先缩放对象例如当前大小的 2 倍然后垂直和水平翻转或两者都翻转截至目前我可以设置 scale 2 2 使其变为宽度和高度的 2 倍但无法与垂直翻转的scale 1 1 同时翻转它我正在以编程方式创建 SVG 对象
从 html 源中删除所有换行符

好吧我知道混淆是个坏主意但我希望所有的 html 代码都放在一长行中所有的html标签都是通过PHP生成的所以我认为这是可能的我知道替换 n r来自正则表达式但不知道如何做到这一点如果我不清楚这里有一个例子 output p
Javascript - 事件监听器无法在外部 js 文件中工作

我试图删除 html 中的 onClick 标签并将 EventListener 添加到我的外部 js 文件中但似乎无法让它工作以下行有效
从 Perl 中的 Windows 注册表读取[重复]

这个问题在这里已经有答案了我试图在不检查一系列硬编码路径的情况下获取程序的安装位置希望从 Windows 注册表中存储的路径中获取它但是当我尝试读取所需的键值我读过关于使用 Perl 解析 Windows 注册表我想我已经将所有答
函数局部、自引用、惰性斐波那契数列

我想创建一个返回斐波那契数的惰性扩展无限序列的函数现在我可以使我的序列在顶级命名空间中可用如下所示 def fibonacci numbers lazy cat 0 1 map fibonacci numbers rest fibon
Oracle SQL - 将表行透视为列并在透视中使用子查询

我正在处理 Oracle 12c R1 db 并有一个包含示例数据的示例视图如下所示视图名称 CUST HOTEL VIEW Customer Hotel Booked Status John Smith Beverly Hills B
如何使python的日期时间对象以小写形式显示AM和PM？

在这里 https docs python org 2 library datetime html strftime and strptime behavior它说 p显示上午下午它显示了这个 AM PM en US am pm de
下面的字符串连接是如何工作的

按照以下字符串连接时Java字符串池如何工作对话 String a hello world String b hello world boolean compare a b The compare应该是正确的但是我有以下代码 Stri
Python如何确保调用len时__len__的返回值为整数？

class foo def init self data self data data def len self return self data 如果我通过传递一个字符串来运行它data调用时出现错误len在这个类的一个实例上具体来说我
MongoDB C# 查询包含属性值的对象数组

我的文档中有一个数组属性我们将其称为 arrayProperty 如下所示 id mongoObjectIdThingy arrayProperty string1 aString otherProperty somethingelse
.environmentObject() 视图运算符与 @EnvironmentObject 的目的是什么？

我正试图从这里众所周知的新手深渊中爬出来我开始掌握 EnvironmentObject 的使用直到我注意到文档中的 environmentObject 视图运算符这是我的代码 import SwiftUI struct Seconda
使用 hive SQL 提取不同字符之间的字符串

我有一个名为 geo data display 的字段其中包含国家地区地区和 DMA 这 3 个值包含在和字符之间第一个和第一个之间的国家地区第二个和第二个之间的区域以及第三个和第三个之间的 DMA 这是该表的可

使用 hive SQL 提取不同字符之间的字符串

使用 hive SQL 提取不同字符之间的字符串 的相关文章

随机推荐

热门标签

使用 hive SQL 提取不同字符之间的字符串的相关文章