python 处理hbase数据

2023-10-26

使用Python调用happybase库。

1.thrift 是facebook开发并开源的一个二进制通讯中间件，通过thrift，我们可以用Python来操作Hbase

首先开启Hadoop平台的HadoopMaster的thrift服务，用Xshell连接HadoopMaster，用root用户登录，如果想关闭终端之后，thrift服务继续运行，可以用daemon模式运行

2.安装happybase和thrift

pip install happybase

pip install thrift

3.尝试连接Hbase

import happybase

connection = happybase.Connection('10.1.13.111')
print connection.tables()

此时会出现下面的错误：

thriftpy.parser.exc.ThriftParserError: ThriftPy does not support generating module with path in protocol 'c'

解决的办法请参考这个连接：

http://stackoverflow.com/questions/39220102/error-import-impyla-library-on-windows

即将 C:\Python27\Lib\site-packages\thriftpy\parser\parser.py , line 488

if url_scheme == '':

修改为

if len(url_scheme) <= 1:

4.happybase的使用

请参考http://happybase.readthedocs.io/en/latest/index.html

在此做一下简单的使用介绍

（1）建立连接

import happybase

connection = happybase.Connection('10.1.13.111')

当connection被创建的时候，默认自动与Hbase建立socket连接的。

若不想自动与Hbase建立socket连接，可以将autoconnect参数设置为False

connection = happybase.Connection('10.1.13.111', autoconnect=False)

然后手动与Hbase建立socket连接

connection.open()

（2）连接建立好之后查看可以使用的table

print connection.tables()

因为还没有创建table，所以返回结果是 []

（3）创建一个table

connection.create_table(
    'my_table',
    {
        'cf1': dict(max_versions=10),
        'cf2': dict(max_versions=1, block_cache_enabled=False),
        'cf3': dict(),  # use defaults
    }
)

此时，我们再通过connection.tables()查看可以使用的table，结果为['my_table']

创建的table即my_table包含3个列族：cf1、cf2、cf3

（4）获取一个table实例

一个table被创建好之后，要想对其进行操作，首先要获取这个table实例

table = connection.table('my_table')

（5）使用table的命名空间

因为一个Hbase会被多个项目共同使用，所以就会导致table的命名冲突，为了解决这个问题，可以在创建table的时候，手动加上项目的名字作为table名字的前缀，例如myproject_xyz。

但是这样做比较麻烦，happybase帮我们做好了工作，我们可以在与Hbase建立连接的时候，通过设置table_prefix参数来实现这个功能

connection = happybase.Connection('10.1.13.111', table_prefix='myproject')

此时connection.tables()只会返回包含在该命名空间里的tables，且返回的tables的名字会以简单的形式显示，即不包含前缀。

（6）存储数据：Hbase里存储的数据都是原始的字节字符串

cloth_data = {'cf1:content': u'牛仔裤', 'cf1:price': '299', 'cf1:rating': '98%'}
hat_data = {'cf1:content': u'鸭舌帽', 'cf1:price': '88', 'cf1:rating': '99%'}
shoe_data = {'cf1:content': u'耐克', 'cf1:price': '988', 'cf1:rating': '100%'}
author_data = {'cf2:name': u'LiuLin', 'cf2:date': '2017-03-09'}

table.put(row='www.test1.com', data=cloth_data)
table.put(row='www.test2.com', data=hat_data)
table.put(row='www.test3.com', data=shoe_data)
table.put(row='www.test4.com', data=author_data)

使用put一次只能存储一行数据

如果row key已经存在，则变成了修改数据

（7）更好的存储数据

table.put()方法会立即给Hbase Thrift server发送一条命令。其实这种方法的效率并不高，我们可以使用更高效的table.batch()方法。

# 使用batch一次插入多行数据
bat = table.batch()
bat.put('www.test5.com', {'cf1:price': 999, 'cf2:title': 'Hello Python', 'cf2:length': 34, 'cf3:code': 'A43'})
bat.put('www.test6.com', {'cf1:content': u'剃须刀', 'cf1:price': 168, 'cf1:rating': '97%'})
bat.put('www.test7.com', {'cf3:function': 'print'})
bat.send()

更有用的方法是使用上下文管理器来管理batch，这样就不用手动发送数据了，即不再需要bat.send()

# 使用with来管理batch
with table.batch() as bat:
    bat.put('www.test5.com', {'cf1:price': '999', 'cf2:title': 'Hello Python', 'cf2:length': '34', 'cf3:code': 'A43'})
    bat.put('www.test6.com', {'cf1:content': u'剃须刀', 'cf1:price': '168', 'cf1:rating': '97%'})
    bat.put('www.test7.com', {'cf3:function': 'print'})

还可以删除数据

# 在batch中删除数据
with table.batch() as bat:
    bat.put('www.test5.com', {'cf1:price': '999', 'cf2:title': 'Hello Python', 'cf2:length': '34', 'cf3:code': 'A43'})
    bat.put('www.test6.com', {'cf1:content': u'剃须刀', 'cf1:price': '168', 'cf1:rating': '97%'})
    bat.put('www.test7.com', {'cf3:function': 'print'})
    bat.delete('www.test1.com')

batch将数据保存在内存中，知道数据被send，第一种send数据的方法是显示地发送，即bat.send()，第二种send数据的方法是到达with上下文管理器的结尾自动发送。这样就存在一个问题，万一数据量很大，就会占用太多的内存。所以我们在使用table.batch()的时候要通过batch_size参数来设置batch的大小

# 通过batch_size参数来设置batch的大小
with table.batch(batch_size=10) as bat:
    for i in range(16):
        bat.put('www.test{}.com'.format(i), {'cf1:price': '{}'.format(i)})

（8）扫描一个table里的数据

# 全局扫描一个table
for key, value in table.scan():
    print key, value

结果如下：

这种全局扫描一个表格其实代价是很大的，尤其是当数据量很大的时候。我们可以通过设置开始的row key 或结束的row key或者同时设置开始和结束的row key来进行局部查询

# 通过row_start参数来设置开始扫描的row key
for key, value in table.scan(row_start='www.test2.com'):
    print key, value

# 通过row_stop参数来设置结束扫描的row key
for key, value in table.scan(row_stop='www.test3.com'):
    print key, value

# 通过row_start和row_stop参数来设置开始和结束扫描的row key
for key, value in table.scan(row_start='www.test2.com', row_stop='www.test3.com'):
    print key, value

另外，还可以通过设置row key的前缀来进行局部扫描

# 通过row_prefix参数来设置需要扫描的row key
for key, value in table.scan(row_prefix='www.test'):
    print key, value

（9）检索数据

# 检索一行数据
row = table.row('www.test4.com')
print row

直接返回该row key的值（以字典的形式），结果为：

{'cf2:name': 'LiuLin', 'cf2:date': '2017-03-09'}

# 检索多行数据
rows = table.rows(['www.test1.com', 'www.test4.com'])
print rows

返回的是一个list，list的一个元素是一个tuple，tuple的第一个元素是row key，第二个元素是row key的值

如果想使检索多行数据即table.rows()返回的结果是一个字典，可以这样处理

# 检索多行数据，返回字典
rows_dict = dict(table.rows(['www.test1.com', 'www.test4.com']))
print rows_dict

如果想使table.rows()返回的结果是一个有序字典，即OrderedDict，可以这样处理

# 检索多行数据，返回有序字典
from collection import OrderedDict
rows_ordered_dict = OrderedDict(table.rows(['www.test1.com', 'www.test4.com']))
print rows_ordered_dict

（10）更好地检索数据

# 通过指定列族来检索数据
row = table.row('www.test1.com', columns=['cf1'])
print row

# 通过指定列族中的列来检索数据
row = table.row('www.test1.com', columns=['cf1:price', 'cf1:rating'])
print row
print row['cf1:price']

在Hbase里，每一个cell都有一个时间戳timestamp，可以通过时间戳来检索数据

# 通过指定时间戳来检索数据，时间戳必须是整数
row = table.row('www.test1.com', timestamp=1489070666)
print row

默认情况下，返回的数据并不会包含时间戳，如果你想获取时间戳，这样就可以了

# 在返回的数据里面包含时间戳
row = table.row(row='www.test1.com', columns=['cf1:rating', 'cf1:price'], include_timestamp=True)
print row

对于同一个单元的值，Hbase存储了多个版本，在创建表的时候可以通过max_versions参数来设置一个列族的最大版本号，如果想检索某一cell所有的版本，可以这样

# 检索某一个cell所有的版本
cells = table.cells(b'www.test1.com', column='cf1:price')
print cells

也可以通过version参数来指定需要检索的前n个版本，如下

# 通过设置version参数来检索前n个版本
cells = table.cells(b'www.test1.com', column='cf1:price', versions=3)
print cells

（11）删除数据

# 删除一整行数据
table.delete('www.test4.com')

# 删除一个列族的数据
table.delete('www.test2.com', columns=['cf1'])

# 删除一个列族中几个列的数据
table.delete('www.test2.com', columns=['cf1：name', 'cf1:price'])

（12）使用连接池

Hbase自带有线程安全的连接池，踏允许多个线程共享和重用已经打开的连接。这对于多线程的应用是非常有用的。当一个线程申请一个连接，它将获得一个租赁凭证，在此期间，这个线程单独享有这个连接。当这个线程使用完该连接之后，它将该连接归还给连接池以便其他的线程可以使用

# 创建连接，通过参数size来设置连接池中连接的个数
pool = happybase.ConnectionPool(size=3, host='10.1.13.111', table_prefix='myProject')

# 获取连接
with pool.connection() as connection:
   print connection.tables()

转自：https://my.oschina.net/wolfoxliu/blog/856175

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python 处理hbase数据的相关文章

类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
Pandas set_levels，如何避免标签排序？

我使用时遇到问题set levels多索引 from io import StringIO txt Name Height Age Metres A 1 25 B 95 1 df pd read csv StringIO txt heade
Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的

随机推荐

Maven 常用配置

常用命令打包指定模块跳过测试 mvn clean package pl web am Dmaven test skip true 打包并构建docker镜像详情参考 https blog csdn net u014438244 art
地理坐标系和投影坐标系之间的关系

转自 http blog csdn net qq 34149805 article details 65634252 基本概念地理坐标系为球面坐标参考平面地是椭球面坐标单位经纬度投影坐标系为平面坐标参考平面地是水平面坐标单
C# 串口接收1次数据会进入2次串口接收事件serialPort1_DataReceived，第2次进入时串口缓冲区为空

在C 中使用串口接收数据时发现在完整的接收完一次数据后还会再次进入串口接收事件在网上搜索资料发现其他开发者也有遇到该问题 1 c 串口事件接受一次数据莫名其妙会触发两次原文链接 https www 52pojie cn thread
剑指Offer 06.从尾到头打印链表

原题链接思路首先扫描一遍链表算出链表中有多少个元素再一次扫描链表映射到数组的相应位置上就行如果说链表中 3 个元素第一个元素对应的位置就是 2 第二个元素对应的位置就是 1 第三个元素对应的位置就是 0 代码 class S
UGUI聊天消息气泡随文本内容自适应

游戏中需要用做UGUI做聊天界面其中聊天气泡ChatItem的UI要求能随着聊天内容文本的长度自适应的网上搜了一下聊天气泡的UI 发现都不太符合咱的需求具体来说是文本宽度不足一行时文本宽度自增文本宽度大于一行时文本高度自增效果
大数据导论学习日志Day1

第一章大数据概述 1数据 1 1数据的概念数据是指对客观事件进行记录并可以鉴别的符号是对客观事物的性质状态以及相互关系等进行记载的物理符号或这些物理符号的组合是可识别的抽象的符号数据和信息是两个不同的概念信息是较为宏观的概念
mysql 唯一索引为null_mysql 唯一索引与null.md

mysql 的唯一索引要求所有参与的列都不能够为 null 值如果唯一索引中的任何一个元素含有 null 值则唯一约束将不起作用示例代码 create table tb a int b int c int unique index a
go并发爬虫

说明最大20线程搜索深度不大于3的网页并打印出来当搜索的不是网页的时候存在bug 还在学习希望有大佬告知怎么解决 package main import fmt log net http golang org x net htm
ReactNative系列之三十一业务bundle拆分及动态加载实例

2018 12 17日志 1 github上的源代码更新修复windows上生成bundle内路径的异常处理暂时先放出思路近期会做一期视频解析及源码下载敬请关注演示视频 https pan baidu com s 1FYVYgSe
http请求状态码204

今天在调试接口的时候遇到个问题一个请求走了两次一次204 一次200 且请求204的 Request Method 是 OPTIONS 在网上查看资料后得知是因为跨域而引起的 OPTIONS是一种预检请求浏览器在处理跨域访问的请
【C++】基础语法7--继承

继承意义增加代码利用率语法 class 类名1 权限父类2 类名1被称为子类或者派生类类名2被称为父类或者基类 class dog public class Taidi public dog 继承方式公共继承方式 p
刷脸支付成功路上任何事都需要经过历练

刷脸支付自出世以来争议从未断过有人认为刷脸支付十分安全便捷是可以替代扫码支付的支付方式首选也有人认为刷脸支付会泄露人脸信息造成安全隐患从而拒绝使用关于刷脸支付安全性支付宝微信早已出面解释并表示刷脸支付十分安全也承诺若有因刷脸支
一步一步学习openfire+spark（1）

以前写过一篇关于openfire的文章内容比较孤立写的也比较简单没有实际意义正好公司使用的是这个平台现在从新开始对openfire这个框架进行系统性的学习深入的了解openfire以及和openfire配套的spark的开发
按步长对遥感数据进行批量裁剪

该代码支持多图像裁剪先将tif格式的图片转为png 再对多个png图片进行批量裁剪批量裁剪 import os import gdal makeData import numpy as np from osgeo import gdal
量化策略——准备1 系列简介

文章目录系列简介系列重点避坑系列简介量化策略 xxxx 是博主近期新开的一个系列主要有以下四个方面的内容量化选股选择大概率赚钱的好股票量化择时选择低买高卖的好时机量化套利利用不同市场品种价格共识等进行价差套利
零基础可以学习Python吗？转行小白怎么学Python？

Python学习常用的技巧有这些一是要明确自己的学习目的二是从易到难循序渐进三是合理的选择资料有所取舍四是坚定自己的信念以下是关于Python学习技巧的具体介绍 1 明确自己的学习目的每个人学Python的初衷绝对是不一样的
【工具类】工具类中使用@Autowired

Component public class Util private static String b Autowired private String a PostConstruct public void init b a Compon
SQL server删除表信息代码

SQL server删除表信息代码 1 delete删除 delete from table 只是删除了表中的内容并没有把表删除 2 drop删除 drop table 表名把整个表都删除 3 truncate删除 truncate t
通用mybatis执行sql工具系列解决方案lingdu

整套逻辑可执行保存到数据库中的sql例如 select from a where a name ling name ling name中的name是由前端传入的参数经过Lingdu类的动态封装传入到mapper xml中的sql字符串中
python 处理hbase数据

使用Python调用happybase库 1 thrift 是facebook开发并开源的一个二进制通讯中间件通过thrift 我们可以用Python来操作Hbase 首先开启Hadoop平台的HadoopMaster的thrift服务

python 处理hbase数据

python 处理hbase数据 的相关文章

随机推荐

热门标签

python 处理hbase数据的相关文章