Spark：如何通过 python-api 使用 HBase 过滤器，例如 QualiferFilter

2024-03-03

我想通过使用像 python-api 中的 QualiferFilter 这样的过滤器从 HBase 获取行。
我知道如何从 HBase 获取行，就像在代码下一样。

host = 'localhost'
keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter"
valueConv = "org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter"
conf = {"hbase.zookeeper.quorum": host, "hbase.mapreduce.inputtable": "user",
                "hbase.mapreduce.scan.columns": "u:uid",
                "hbase.mapreduce.scan.row.start": "1", "hbase.mapreduce.scan.row.stop": "100"}
rdd = sc.newAPIHadoopRDD("org.apache.hadoop.hbase.mapreduce.TableInputFormat",
                             "org.apache.hadoop.hbase.io.ImmutableBytesWritable",
                         "org.apache.hadoop.hbase.client.Result",
                         keyConverter=keyConv, valueConverter=valueConv, conf=conf)

但是，我也想通过使用过滤器来获取行。
我需要添加什么类型的代码？

您好，您可以检查此代码......

def  doYourStuff(row):
     text = row.split("\n")
     data = {} 
     for row in text:
        if json.loads(row)["qualifier"] == "message":
              data["message"] = json.loads(row)["value"]
        if json.loads(row)["qualifier"] == "domain":
              data["domain"] = json.loads(row)["value"]
        data["rowKey"] = json.loads(row)["row"]
      return DoWhatYouWantToDo(data)

    def save_record(rdd):
        host = '172.31.@@.@@'
        table = 'TableName'
        keyConv1 = "org.apache.spark.examples.pythonconverters.StringToImmutableBytesWritableConverter"
        valueConv1 = "org.apache.spark.examples.pythonconverters.StringListToPutConverter"
        conf = {"hbase.zookeeper.quorum": host,
                "hbase.mapred.outputtable": table,
                "mapreduce.outputformat.class": "org.apache.hadoop.hbase.mapreduce.TableOutputFormat",
                "mapreduce.job.output.key.class": "org.apache.hadoop.hbase.io.ImmutableBytesWritable",
                "mapreduce.job.output.value.class": "org.apache.hadoop.io.Writable"}
         rdd.saveAsNewAPIHadoopDataset(
            keyConverter=keyConv1, valueConverter=valueConv1,conf=conf)


    hbaseRdd = hbaseRdd.map(lambda x: x[1])  # message_rdd = hbase_rdd.map(lambda x:x[0]) will give only row-key

    processedRdd = hbaseRdd.map(lambda x: doYourStuff(x))
    save_record(processedRdd)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

Hbase

PySpark

Spark：如何通过 python-api 使用 HBase 过滤器，例如 QualiferFilter 的相关文章

让 VoiceChannel.members 和 Guild.members 返回完整列表的问题

每当我尝试使用 VoiceChannel members 或 Guild members 时它都不会提供适用成员的完整列表我从文本命令的上下文中获取 VoiceChannel 和 Guild 如下所示 bot command name
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

在 Jmeter 中使用 JsonPath 和 != 条件从 JSON 中提取一些值

我有以下 JSON 我需要获取没有 type Jenkins 的实例的 id 值 data id 35002399 6fd7 40b7 b0d0 8be64e4ec09c name 94Jenkins url http 127 0 0 1
React-native run-android 在 :app:processDebugResources 上失败

我最近使用以下方式向我的应用程序添加了推送通知反应本机 https github com oney react native gcm android 20module因为在看似随机的时间我收到了诸如添加的照片中的消息任务执行失败 app
Android GUI爬虫

有人知道抓取 Android 应用程序 GUI 的好工具吗我发现this http code google com p android crawler source checkout但不知道如何运行它就我个人而言我认为使用以下命令制作
Java BouncyCastle ECC 密钥和自签名证书

我在互联网上搜索了几个小时寻找用于创建椭圆曲线 EC 密钥和自签名证书的 Java 示例到目前为止我只找到了片段和示例其中许多都不起作用 UPDATE 我在这里取得了一些进展这是我的代码供任何可能觉得有用的人使用现在只需要弄清
URLComponents queryItems 在突变时丢失编码百分比

使用时URLComponents s queryItems我发现如果您有一个查询项其值包含一些百分比编码字符在我的情况下被编码为 2F 那么如果你构造一个URLComponents对象从一个String包含此类查询项的 URL 然后更
如何使用 Realm 编写更好的数据访问层

我一直在一些小项目中使用 Realm 我非常喜欢它我希望继续在更大的项目中使用它并且我正在寻找更好的数据访问层结构我遇到过这个类似的question https stackoverflow com q 33592572 1077789
如何检查仅包含空对象的数组 [{}]

我有一个变量如下所示 let response 这是一个带有空对象的数组我应该进行什么样的检查来确定这个响应是否与此完全相等 IE response returns false 如果响应是我想要一个返回 false 的检查我怎么做
使用 python 请求的多部分数据 POST：未找到多部分边界

我有一个表单数据以及要在同一个帖子中发送的文件例如持续时间 2000 文件 test wav 我在这里看到了使用 python 请求进行多部分表单数据发布的许多线程它们很有用尤其是this one https stackoverf
React-native 无法连接到 Android 设备上的开发服务器

设备已连接 Package Server 正在运行存在端口问题8081 这就是为什么我开始使用这个react native run android and react native start port 8089 But still un
在 try/finally 外部或内部初始化一次性资源

我见过两种获取和处置资源的方式任何一个 Resource resource getResource try do something with resource finally resource close or Resource res
项目级 Leiningen 插件

在 Leiningen 版本 1 x x 中我能够定义一个lein foo通过将以下内容放入该项目的任务中该任务仅在单个项目中有效project clj defproject tester 0 1 0 SNAPSHOT descripti
PHP 防止创建未在类中定义的属性
自定义ActionBar TabBar (ActionBarSherlock)

我已经被这个问题困扰好几天了任何人都可以帮助我自定义操作栏下方显示的选项卡导航模式为NAVIGATION MODE TABS 我基本上想更改选项卡的背景颜色和当前所选选项卡的下划线颜色到目前为止这就是我所做的但它不起作用我在用A
Jest TLSWRAP 使用简单的 node-postgres pool.query() 修复了 setTimeout 延迟的打开句柄错误，但为什么呢？

当我运行以下测试时 afterAll async gt await runDbBuild await pool end describe queries newteetypes select all gt test Test 1 objec
PHP Exec 未运行，但命令工作正常！

我有以下脚本来获取 PHP 中上传的 PDF 并调用 ImageMagick Ghostscript 将其转换为指定大小的图像 tmp exec convert strPDF resize 500X500 strOut results 然而
@font-face 停止滚动捕捉点工作？

我知道它仍然是非常新的和实验性的但一直在使用 css roll snap 并且有一段时间无法让它工作我最终意识到当我在 CSS 中使用 font face 时滚动捕捉不起作用如果我将字体系列更改为 Arial 而不是我定义的字体
asp.net mvc int 属性绑定异常

我的类中有一个 int 属性想要验证用户是否输入了字符串我如何使用数据注释来做到这一点当我传递非整数值时我收到如下异常 The value asdasd is not valid for property 例如使用此验证属性 Ran
如何在 R 中将多个 JSON 文件合并为一个文件

我有三个 JSON 文件 json1包含 1 5 5 7 8 10 json2包含 5 6 4 5 5 8 json3包含 4 7 3 4 4 8 我想将它们合并到一个文件中jsonmerge 1 5 5 7 8 10 5 6 4 5 5
将日期 yyyy-mm-dd 转换为 mmm-yy SQL Server 2016

我想将日期 yyyy mm dd 存储为日期格式转换为 mmm yy 格式网站上之前的问题没有完全匹配我尝试过子字符串和转换函数正在考虑创建一个标量函数但这花了我一段时间希望有人有一个简单的解决方案您可以使用字符串操作构造格式
Spark：如何通过 python-api 使用 HBase 过滤器，例如 QualiferFilter

我想通过使用像 python api 中的 QualiferFilter 这样的过滤器从 HBase 获取行我知道如何从 HBase 获取行就像在代码下一样 host localhost keyConv org apache spark

Spark：如何通过 python-api 使用 HBase 过滤器，例如 QualiferFilter

Spark：如何通过 python-api 使用 HBase 过滤器，例如 QualiferFilter 的相关文章

随机推荐

热门标签