内存数据库的分布式数据库架构

2023-11-14

author:skate

time:2012/02/16


转载一篇文章:


本文提出了一种通过引入内存数据库层,建立两层多分区分布式数据库架构。此方案用于解决海量高并发系统的数据存储和访问问题,尤其适用于电子商务等数据模型复杂且业务复杂的互联网站。

 

这些年互联网站发展迅猛,为应对海量数据下的高并发访问,产生了各种分布式架构设计思想,例如Key-Value引擎,数据分区等。而对于电子商务类网站,海量数据问题还有一个重要特点,就是数据结构化及数据之间的关联,淘宝如此,阿里巴巴也是如此,这是与社区、视频、 博客等互联网站的显著差异。

 

1.  NoSQL 是灵丹妙药吗?

NoSQLKey-Value 引擎如BigTableCassendra等在很多大型网站被采用,很好的解决了海量数据存储和访问问题。而对于电子商务类网站,Key-ValueNoSQL并不是解决此问题的灵丹妙药。最多它们仅能用于一些数据模型较为简单的应用。

原因有两个方面:

1)数据模型复杂

淘宝和阿里巴巴的会员、宝贝、供求、订单等核心实体数据模型复杂,属性个数几十到上百个。例如:会员(Member)就包含基本信息、联系、工商、账户等多个域的信息;另外,核心实体之间,外围实体与核心实体之间还存在复杂的关联。

2)业务复杂:

模型的复杂源于业务和逻辑的复杂。电子商务网站大量查询场景是结构化查询,例如:

在淘宝上查询“卖家在江浙沪,价格在50-200元的男士T恤”,

在阿里巴巴上“列出某个会员所有待发货的订单”

这类查询(当然,阿里巴)主要针对多个非主键字段, 即便对于BigTableCassandra 这样的基于ColumnKey-Value数据库,其简单的Query API还无法胜任此类需求。 因此在阿里巴巴和淘宝,OracleMySQL 等关系数据库将仍然扮演重要角色。

 

2. MySQL 集群

引入K-V引擎等非关系数据库无非是要解决海量数据在高并发环境下的高效读写问题,最大程度在可靠的持久化(Durable)与高访问性能 (Performance) 之间选择一个平衡点。在高度结构化系统中,同样的考虑驱使我们需要考虑另外的解决方案。

目前一种通行的做法是 MySQL 读写分离式集群,1个或少数Master写,多数Slave读,MasterSlave进行变更数据的同步。首先,这种方案经过大量的实践,可靠且可行。

然而,直接向DB执行写操作,仍然比较耗时(参见表1,表2),数据复制,也可能存在不一致延时的情形。是否还有更快的方案?

3. 内存型关系数据库

可靠的持久化指数据存储到磁盘等设备上。图1展示了传统磁盘数据库的基本访问模式。

 



 图
1

抛开持久化的可靠性,即数据可以先不存储到磁盘上(Disk),内存存储的性能远高于磁盘存储。下表展示了针对OracleAltibase所做的性能对比,后者在插入和查询上性能是Oracle5-7倍。

 

数据库

测试结果

TPS

Oracle

203

246/

Altibase

28.32

1785/

1. OracleAltibase性能对比 -插入5万条 7

 

数据库

测试结果

TPS

Oracle

885

112/

Altibase

170

588/

2 OracleAltibase性能对比 关联查询10万条7

 

由此可见:Pm  >>>  Pd 

Pm - 内存数据库读写性能, Pd - 磁盘数据库读写性能)

 

结合前面分析的模型复杂性和业务复杂性原因,关系数据库(RDBMS)必须采用。因此,这两点考虑可以推导出另一个解决思路:内存型关系数据库。

 

 

磁盘型关系数据库

Key-Value引擎

内存型关系数据库

功能 -结构化操作和查询等

Y

N

Y

性能

3. DB选型对比分析

 

这个方案里,我们可以将内存先看做一种“磁盘”,读写操作都针对内存数据库进行,不再直接与磁盘数据库交互,这较好的避免了单纯MySQL 读写分离架构存在的时间延迟和一致性问题。如下图所示:

 



 图
2

4. 内存数据库的持久化

数据最终还是要存储到磁盘(Disk)上,内存数据库中的数据变化需要复制到与磁盘数据库上。这时,从内存向磁盘复制数据的过程可以看作原始写操作的异步操作,显然,异步操作使得前端的写操作显得更快。如下图所示:

 



 图
3

在事务型(OLTP)系统中,内存数据库中在启动时需要和磁盘数据库保持一致。 因此,内存数据库需要有相同的库表定义;并且在第一启动时,将所需库表数据加载到内存数据库中。

 

5. 内存数据库集群化

目前,经典的MySQL集群,通过读写分离,水平切分,实现海量数据存储。为应对海量数据存储,内存数据库同样需要做集群。垂直和水平切分策略,可用性策略与MySQL集群架构设计基本相同。如下图所示,其中 Ameoba 是分布式数据库代理,它进行数据路由等控制。

唯一的不同是,由于内存数据库的高性能,可以不再进行读写分离设计。

 



 图
4

 

6. 混合分区(Hybrid Shard

接第4节的分析,内存数据最终仍需要持久化到磁盘。这里需要一种混合分区(Hybrid Shard)来解决。即原来一个MySQL节点承担的一个水平分区,将由一个内存数据库节点和一个MySQL节点共同组成。

H-Shard = MDB + MySQL.

 

这种数据库架构将形成由两级数据库(2LDB),混合分区构成的集群。的如下图所示:

 



 图
5

 

7. 内存数据库选型

常见的内存数据库产品包括商业版和免费版两类。商业版如:AltibaseTimestenBerkley DB等。他们在电信,金融,证券等高性能计算应用中运用较为广泛。商业版功能强大,然而,价格比较昂贵,不适合目前“廉价PC+免费软件”的架构搭建思想。

笔者曾就职与中国移动系统提供商,其中计费、运营等系统就运用Timesten提供高性能运算,但还主要用于高频度小数据计算,如计费批价,优惠计算,信控等,采用单节点模式使用。

开源领域产品主要有H2HsqlDBDerby等。在混合分区架构中,内存数据库将承担OLTP的职责,因此除了读写性能外,功能的完备,事务等都需要作为优先评估的因素。

 

8. 新架构的挑战

通过引入内存数据库作为中间持久层,再加入分布式架构以支撑海量数据访问,这种架构设计颇具挑战。最先而易见的情况就是新架构的复杂度,正如大规模MySQL集群架构诞生初始一样。

我们以 H2 ,一个开源的高性能内存数据库为例说明:

1)  整合 Ameoba H2

Ameoba 是分布式数据库代理,它与 MySQL 整合已经在阿里巴巴核心业务中成功运用。如果仅将数据库节点看作一个存储,MySQL Node H2 Node 并无本质区别。JDBC驱动,DB切分,路由,皆由Ameoba 统一负责。

 

2)  异步持久化

每个逻辑混合分区= H2 + MySQL,谁来完成H2 中的数据变更异步写入 MySQL

比较好的方案是内存数据库提供实时增量的复制器(Replicator) ,例如:基于联机日志复制的双机热备机制。AltiBase 等产品就提供了此功能。

 

3)高可用性

内存数据库一旦崩溃,数据不复存在。因此首先要做到数据快速异步写入MySQL作持久化存储。同时要有健壮的容错和Failover机制,保证一个H2节点崩溃,同一逻辑分区中的替补H2节点立即顶替工作。

一种方案是分布式数据库代理如 Ameoba 来解决,例如:每个ShardH2至少设2个节点,采用Primary-Secondary模式,如图6所示:

 



 图
6

 

另一种方案是前面提到的内存数据库实时复制功能。

虽然有些内存DBH2自身能支持内存,磁盘两级存储,但其自身提供的磁盘存储和访问方案可靠性不如 MySQL。因此,使用内存式Primary-Secondary 模式更为可行。

 

4)分布式事务

数据库切分架构带来分布式事务问题,对一些事务要求较高的场景,这颇具挑战。Ameoba 目前还在解决中。Ameoba + H2组合面临同样的挑战。

目前一种比较一致意见和做法就是冷处理——尽量不用事务。 一致性问题根据业务的特点,采用数据订正来解决;个别业务使用补偿事务。因为目前大部分应用,即便是核心业务,对事务的要求也不高。

 

9. 进一步思考

1) 多种数据切分模式

    在一个大型互联网站,不同的应用和数据需要做不同的处理。在总体垂直切分模式基础上,选择数据量大的功能进行水平切分,例如:供求、订单、交易记录。

   

2)数据缓存(Data Cache

虽然内存数据库层(MDB)能更高效支撑交易型数据库,特别是应对结构化应用及复杂查询服务,但对高频度的查询(Query)和实体查找(Find)Key-Value缓存仍然是一项必要的设计。Cache能提供更高的查询速度,并减少对MDB的访问压力,特别是读写密集的高并发场景。因为这个架构中,内存数据库仍然作为一种存储Store,而不是Cache

 



 图
7

上图展示了,MDB层之上还需要DCL层来提供高性能缓存服务。

 

10. 总结

本文提出了一种通过引入内存数据库层,并建立两层,多分区的分布式数据库架构。此方案用于解决海量高并发系统的高性能数据存储和访问问题,尤其是电子商务类等业务复杂的互联网站。其核心思想是:

1)高性能:是通过内存数据库提供高性能关系数据库存取服务,这是此架构的最主要目标;

2)持久化:通过两级数据库及异步写完成持久化;

3)海量数据支撑:通过垂直和水平分区实现海量数据的支撑;

4)高可用性:在Ameoba基础上,通过主备节点进一步实现MDB的高可用性;二级磁盘数据库可以实现数据的快速恢复。

 

【参考资料】

1.  阿里巴巴 Ameoba分布式数据库设计和实践

2. 岳旭强, 《淘宝网架构师岳旭强的年度展望》, http://www.infoq.com/cn

3. 广东移动BOSS2.0分布式数据库架构方案,计费系统设计和实践.

4. Cassandrahttp://cassandra.apache.org/

5. Oracle, Timesten 官方文档, http://www.oracle.com/timesten/index.html

6. Fenng,Oracle 内存数据库-TimesTen, http://www.dbanotes.net/database/oracle_timesten.html

7. 张澄,包文菖,《内存数据库在BSS账务处理中的应用》,《计费&OSS世界》,http://database.51cto.com/art/200612/36973.htm

8. Titan,《常用内存数据库介绍》,http://titan.javaeye.com/blog/364345

9. Ricky Ho, NoSQL的模式》,程序员2010-1;《NoSQL 数据库的查询处理》,程序员2010-2


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

内存数据库的分布式数据库架构 的相关文章

  • MySQL 全文搜索不适用于某些单词,例如“house”

    我已经在 3 个字段中的一小部分记录上设置了全文索引 也尝试了 3 个字段的组合 并得到了相同的结果 有些单词返回结果很好 但某些单词如 house 和 澳大利亚 不这样做 有趣的是 澳大利亚 和 家乡 这样做 这似乎是奇怪的行为 如果我添
  • PHP PDO相关:更新SQL语句未更新数据库内容

    我正在尝试使用准备好的语句来实现更新语句PHP http en wikipedia org wiki PHP脚本 但它似乎没有更新数据库中的记录 我不确定为什么 所以如果您能分享一些见解 我将不胜感激 Code query UPDATE D
  • 什么时候不应该使用 Cassandra? [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 相关话题已经有很多讨论了卡桑德拉 http cassandra apache org lately Twitter Digg Facebook
  • 如何以最少的查询次数获取帖子列表和关联标签

    我的表格结构如下 标签 更多的是一个类别 id 标签名称 描述 slug POSTS ID 标题 网址 邮戳 id idPost idTag USERS ID 用户名 userSlug VOTES id idPost idUser 每个帖子
  • 在 MacOSX10.6 上运行 python 服务器时 MySQLdb 错误

    运行我的服务器 python manage py runserver 产生以下错误 django core exceptions ImproperlyConfigured 加载 MySQLdb 模块时出错 没有名为 MySQLdb 的模块
  • MySql 最后插入 ID,连接器 .net

    我正在使用 MySql Connector net 我需要获取最后一个查询生成的插入 id 现在 我假设返回值是MySqlHelper ExecuteNonQuery应该是最后一个插入id 但它只返回1 我正在使用的代码是 int inse
  • 比较表中的行以了解字段之间的差异

    我有一个包含 20 多列的表 客户端 其中大部分是历史数据 就像是 id clientID field1 field2 etc updateDate 如果我的数据如下所示 10 12 A A 2009 03 01 11 12 A B 200
  • Hibernate 对集合的查询过滤器

    我想执行以下查询 from Item i where i categoryItems catalogId catId 然而 这会产生以下异常 非法尝试取消引用集合 所以我用谷歌搜索 找到了这个 Hibernate 论坛帖子https for
  • MYSQL 区分大小写的 utf8 搜索(使用 hibernate)

    我的登录表具有 utf8 字符集和 utf8 排序规则 当我想要检查用户名并检索该特定用户名的其他信息时 hql 查询会为我提供小写和大写相同的结果 我应该如何处理适用于案例的 HQL 查询 我使用 Mysql 5 和 java hiber
  • InnoDB 因读未提交而死锁! - Java - Glassfish - EJB3(JPA/Hibernate)

    几天来 我在使用 Glassfish EJB3 和 Mysql InnoDB 的 Java 应用程序上遇到了死锁问题 配置 Mysql InnoDB Ver 14 12 Distrib 5 0 51a 适用于 debian linux gn
  • 如何正确转义mysql?

    我刚刚发现如果我写 select from tbl where name like foo 然后添加 foo 作为参数及其值 a 用户数据 它不会正确转义 我勒个去 它想要 a 即使我使用参数 我还是忍不住觉得我对 sql 注入持开放态度
  • 为什么我的 if 语句没有按我预期的方式工作?

    我正在尝试实现以下目标 我向我的 SQL 数据库询问使用SELECT FROM subjects 这样做之后我要求使用数组mysqli fetch assoc 在那之前一切都很好 现在的问题是 当我尝试在每个循环中修改 genero 的值
  • 无法通过套接字“/var/lib/mysql/mysql.sock”连接到本地 MySQL 服务器 (2)

    当我尝试连接 mysql 时出现以下错误 Can t connect to local MySQL server through socket var lib mysql mysql sock 2 这个错误有解决办法吗 其背后的原因可能是什
  • MySQL PHP邮政编码比较具体距离

    我试图找出比较一个邮政编码 用户提供的 和一大堆其他邮政编码 现在大约有 200 个邮政编码 之间的距离的最有效方法 相对于加载时间 但它会随着时间的推移而增加 我不需要任何精确的东西 只是在球场上 我下载了整个美国的邮政编码 csv 文件
  • 即使使用“autoReconnect=true”,MySql JDBC 也会超时[重复]

    这个问题在这里已经有答案了 有时 我的 Java Tomcat6 Debian Squeeze 应用程序无法与 MySql 服务器通信 Tomcat 应用程序位于前端服务器上 而 MySql 位于单独的 仅限 MySql 的机器上 一个典型
  • gem install mysql:无法构建 gem 本机扩展 (Mac Lion)

    我为 Mac OS X Lion 安装了 MySQL 5 5 27 来自 dmg 现在我尝试安装 mysql gem gem install mysql Building native extensions This could take
  • Mysql 将 int 转换为 MAC

    我有一些数据可以转换 其中有 2 列 其中一列有 IP 它包含整数值 我在 mysql 查询中使用了以下函数 是否有一个函数可以用来转换我的 mac 列 其中包含整数和数据类型是bigint to MAC地址 SELECT INET NTO
  • PDO PHP 连接,致命错误

    我的连接类 firstcode php class DB functions public db function construct try db new PDO mysql localhost dbname xxx charset ut
  • 如何使用 Perl 更改 mysql 密码

    我需要使用 Perl 脚本更改一些 mysql 密码 以下内容在更改数据库条目时有效 但是当我针对 mysql 用户更改修改它时 它将它们重置为空白密码 最后 刷新权限 也很好 但我还没有找到方法 usr bin perl use DBI
  • 同一配置文件上的两个不同提供程序

    我在用着实体框架 6 1 0 I have 2 家提供者 MysqlClient 和 SQLServerCE 我需要创建2个不同的DBContext 这迫使我创造2个配置类因为mysql有一些不同的东西 但是当我初始化应用程序时 Datab

随机推荐

  • 微信小程序:动画效果集合

    Life is like riding a bicycle To keep your balance you must keep moving 生活就像骑自行车 为了保持平衡 你必须不断前进 微信小程序 心跳动画 https blog cs
  • 使用 appium 进行微信小程序的自动化测试

    目录 前言 微信小程序结构 自动化用例的调整 示例代码 后记 前言 微信小程序是一种流行的移动应用程序 它在移动设备上提供了丰富的功能和用户体验 为了确保微信小程序的质量和稳定性 自动化测试是必不可少的一环 Appium是一个强大的自动化测
  • assert断言(没有返回值,不需要console.log,断言未通过会抛出错误,通过不会抛出错误)

    1 assert value message 保证value是true就不会抛出错误 2 assert deepEqual actual expected message 表达式 1 表示测试 actual 参数与 expected 参数是
  • Custom numeric format strings

    string Multiplier Multiplier 0 Console WriteLine string Format Multiplier 1000000 string LiteralChar LiteralChar 0 000 C
  • vue3 图片路径转base64 base64转file(二进制一般后台需要格式) file转base64

    1 图片路径转64 function imageUrlToBase64 url let homeImage new Image 解决跨域问题 homeImage setAttribute crossOrigin anonymous home
  • 为什么前端监控要用GIF打点

    1背景 我们知道 目前主流的前端监控 百度统计 友盟 谷歌统计 都在用GIF进行打点 但是 为什么这些系统都会使用GIF 难道是因为没有其他的解决方案吗 这得从前端监控的原理说起 2前端监控的原理 所谓的前端监控 其实是在满足一定条件后 由
  • DataTable筛选出现异常

    异常详细信息 System ArgumentException 在 Range 对象中 Min 37 必须小于或等于 max 1 解决方法 转化字段类型为int 再次出现问题 HH gt 0 and HH lt 35 出来的数据序列为 1
  • Android Jetpack 之 DataStore

    1 概述 Google 推出了 JetPack 的新成员 DataStore DataStore 是一种新的数据存储方案 DataStore 以异步 一致的事务方式存储数据 克服了 SharedPreferences 的一些缺点 Jetpa
  • 相机标定及点云拼接

    文章目录 前言 一 相机标定原理 二 关键代码 2 1 相机标定代码1 2 2 相机标定代码2 2 3 点云拼接代码 三 结果展示 总结 前言 在上一篇中已经完成了从图像到点云的转换 但是只针对单个相机 在这一篇中将再进一步 从两个相机拍摄
  • 【Python 1-5】Python教程之——详解字符串

    字符串或串 String 是由数字 字母 下划线组成的一串字符 字符串 字符串就是一系列字符 在Python中 用引号括起的都是字符串 其中的引号可以是单引号 也可以是双引号 如下所示 This is a string This is al
  • vba中function(自定义函数)

    自定义函数 顾名思义 就是自己定义的函数 为什么使用自定义函数 exce内置了很多有用的函数 但仍无法满足工作需求 自定义函数的作用 简化复杂的公式 可以和工作表函数相互嵌套使用 Function 函数名 参数1 参数2 代码 函数名 代码
  • Go语言面试题--进阶语法(32)

    文章目录 1 关于 channel 下面描述正确的是 2 下面的代码有什么问题 3 下面的代码有什么问题 4 下面代码输出什么 1 关于 channel 下面描述正确的是 A close 可以用于只接收通道 B 单向通道可以转换为双向通道
  • 大端小端以及内存对齐的优势

    为什么区分大小端 编程语言中不同类型的变量所占的字节大小不一样 大端 低位数据存放在高位地址为大端编码 小端 低位数据存放在低位地址为小端编码 如图所示 对于选择大端小端对程序性能的思考 首先 数据离散程度不同 字节序会在很大程度上影响速度
  • 零基础学习cJSON 源码详解与应用 (三)cJSON_Print();打印json

    文章目录 一 cJSON Print 源码分析 二 print value 2 1 ensure 2 2 print string 2 3 print number 2 4 print array 2 5 print object 三 up
  • 在Windows中使用虚拟机

    文章目录 VirtualBox使用教程 安装教程 获取 CentOS 及版本选择 在虚拟机上安装CentOS 在虚拟机中允许linux系统卡的原因 配置CentOS 安装图形界面系统 X Window System 安装图形界面程序 GNO
  • 版本控制工具

    版本控制工具 版本控制工具如何下拉库里边的内容 从无到有 在SVN中 在本地库中右键单击 选择tortoise SVN 版本库浏览器 然后输入地址 账号密码登录 登陆完毕后选择要下载的文件右键单击选择检出即可下拉到本地库 在GIT中 在本地
  • JQuery纯手搓轮播图【支持自动轮播、划动轮播、圆点联动】

    HTML div class lunbo div class lunbo content div class imgContent img class imgItem activeImg Started src img lunbo01 jp
  • RebornDB:下一代分布式Key-Value数据库

    http www csdn net article 2015 07 13 2825186 现实世界有许多的Key Value数据库 它们都被广泛应用于很多系统 比如 我们能够用Memcached数据库存储一个MySQL查询结果集给后续相同的
  • Thread类的用法 && 线程安全 && 多线程代码案例 && 文件操作和 IO && 网络原理初识 &&UDP socket

    第 1 题 编程题 题目名称 编写代码 实现多线程数组求和 题目内容 给定一个很长的数组 长度 1000w 通过随机数的方式生成 1 100 之间的整数 实现代码 能够创建两个线程 对这个数组的所有元素求和 其中线程1 计算偶数下标元素的和
  • 内存数据库的分布式数据库架构

    author skate time 2012 02 16 转载一篇文章 本文提出了一种通过引入内存数据库层 建立两层多分区分布式数据库架构 此方案用于解决海量高并发系统的数据存储和访问问题 尤其适用于电子商务等数据模型复杂且业务复杂的互联网