设计数据仓库时使用临时数据库的好处

2024-01-01

我正在设计数据仓库架构。 在探索从生产中提取数据并将其放入数据仓库的各种选项时,我遇到了许多文章,主要建议以下两种方法 -

  1. 生产数据库---->数据仓库(星型模式)---->OLAP立方体
  2. 生产数据库---->暂存数据库----> 数据仓库(星型模式)----> OLAP 立方体

我仍然不确定哪种方法在性能和减少生产数据库的处理负载方面是更好的方法。

您在设计数据仓库时发现哪种方法更好?


以下几点摘自,DWBI 组织 https://dwbi.org/etl/etl/52-why-do-we-need-staging-area-during-etl-load article

如果您有以下任一情况,则可能需要暂存区:

  1. 德尔塔装载:您的数据是从源增量读取的,您需要一个中间存储,可以临时存储增量数据集以用于转换目的
  2. 转型需求:在使用仓库中的数据之前需要进行数据清理、验证等操作
  3. 解耦:您的处理需要花费大量时间,并且您不希望在整个处理过程中保持与源系统的连接(大概源系统正在不断地被实际业务用户使用),因此,更愿意只阅读一次性从源系统获取数据,断开与源的连接,然后继续在“自己这边”处理数据
  4. 调试目的:您不需要一直返回源,您可以仅从暂存区解决问题(如果有)
  5. 故障恢复:源系统可能是暂时的,数据的状态可能会发生变化。如果您遇到任何上游故障,您可能无法重新提取数据,因为那时源已更改。拥有本地副本会有所帮助

性能和减少处理可能不仅仅是考虑因素。添加分期有时可能会增加latency(即业务事件发生与报告之间的时间延迟)。但我希望以上几点能够帮助您做出更好的判断。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

设计数据仓库时使用临时数据库的好处 的相关文章

  • 如何使用 django 更新会计应用程序中的余额?

    我正在学习 Django 尝试制作一个会计应用程序来跟踪我的开支等 我使用两种模型创建数据库 一种用于帐户 一种用于操作 但我不知道如何在每次操作时更新我的 余额 我在想 也许每次我保存一个新操作时 我都会通过覆盖操作模型的保存方法来更新余
  • InnoDB 或 MyISAM - 为什么不两者都使用呢?

    我读过各种关于两者之间哪个更好的主题InnoDB and MyISAM 看来争论的都是使用还是其他 根据表的不同 是否不能同时使用两者 这样做会有什么缺点 据我所知 发动机可以在CREATE TABLE命令 因此 某些经常读取的表可以设置为
  • 数据库“key/ID”设计思想、代理键、主键等

    因此 我最近看到多次提到代理键 但我不太确定它是什么以及它与主键有何不同 我总是假设 ID 是表中的主键 如下所示 Users ID Guid FirstName Text LastName Text SSN Int 然而 维基百科将代理键
  • 设计 Cassandra 数据模型的最佳实践是什么? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 以及需要避免哪些陷阱 您有任何交易中断吗 例如 我听说导出 导入 Cassandra 数据非常困难 这让我想知道这是否会妨碍将生产数据
  • 在 LINUX 上使用 Python 连接到 OLAP 多维数据集

    我知道如何在 Windows 上使用 Python 连接到 MS OLAP 多维数据集 嗯 至少有一种方法 通常我使用 win32py 包并调用 COM 对象进行连接 import win32com client connection wi
  • 在 SQL Server 2005 IMAGE 列中存储 20 Meg 文件的最有效方法

    我们将文档存储在 SQL Server 2005 数据库表中 列格式为 Image 每次我尝试存储大于 1 Meg 的 PDF 文件时 它都会以某种方式损坏 NET 中是否有任何特别有效的方法来序列化大文件 10megs 并将其存储到数据库
  • 当两个表非常相似时,什么时候应该将它们合并?

    我有事件和照片 然后对两者进行评论 现在 我有两个评论表 一个用于与事件相关的评论 另一个用于照片评论 架构与此类似 CREATE TABLE EventComments CommentId int EventId int Comment
  • 数据库分区 - 水平与垂直 - 规范化和行拆分之间的区别?

    我试图理解不同的概念数据库分区这就是我的理解 水平分区 分片 将表拆分为不同的表 其中将包含初始表中的行的子集 如果按大陆拆分用户表 我见过很多这样的示例 例如北美的子表 欧洲的另一个子表 ETC 每个分区位于不同的物理位置 理解 机器 据
  • drupal 7 将实际内容存储在数据库中的哪里?

    我打开了 drupal 7 的数据库并在表中查找node node revisions and node types并且找不到 drupal 存储实际的位置body节点 内容 的 有人有线索吗 哦 我刚刚找到了 在 D7 中 他们实现了字段
  • 非规范化如何提高数据库性能?

    我听说过很多关于非规范化的内容 它是为了提高某些应用程序的性能而进行的 但我从来没有尝试过做任何相关的事情 所以 我只是好奇 规范化数据库中的哪些地方会使性能变差 或者换句话说 非规范化原则是什么 如果我需要提高性能 如何使用此技术 非规范
  • 多租户 Rails 应用:不同技术的优缺点是什么?

    我最初是为一位客户编写 Ruby on Rails 应用程序的 现在 我正在更改它 以便它可以用于不同的客户 我的最终目标是某些用户 不是我 可以单击按钮并创建一个新项目 然后生成所有必要的更改 新架构 新表 代码处理 无需任何人需要我编辑
  • 将歌词存储在 MySQL 数据库中

    我想知道在 mysql 数据库中存储音乐 歌词 的最佳方式是什么 以及用于此目的的设置是什么 另外 我想要表格来存储断线 我正在考虑使用 指示新行并使用 php 替换字符串 我不知道从哪里开始 或者使用什么参数 varchar int 我知
  • 本地 SQLite 与远程 MongoDB

    我正在设计一个新的 Web 项目 在研究了一些旨在可扩展性的选项后 我提出了两个数据库解决方案 为可扩展方式精心设计的本地 SQLite 文件 每个 X 用户一个新的数据库文件 因为写入将取决于用户内容 不存在跨用户数据依赖性 远程 Mon
  • 如何将子表的删除级联到父表?

    我准备了a fiddle这说明了问题 http sqlfiddle com 15 e25c5 2 CREATE TABLE parent parent id integer primary key CREATE TABLE child ch
  • MySQL标签中如何存储标签,总共一个字段还是每个标签一个字段?

    我正在开发一个接近 stackoverflow com 的产品 发帖者需要为其问题或任务输入标签 如何将这些标签存储在数据库中 是总共一个字段 列 还是一个标签一个字段 列 我觉得多对多 http en wikipedia org wiki
  • 在 MySQL 数据库中存储图像文件或 URL?哪个更好? [复制]

    这个问题在这里已经有答案了 可能的重复 在数据库中存储图像 是还是否 https stackoverflow com questions 3748 storing images in db yea or nay 数据库中的图像与文件系统中的
  • 限制 sqlite 表的最大行数

    我希望实现一种 活动日志 表 其中用户执行的操作存储在 sqlite 表中 然后呈现给用户 以便他们可以看到他们所做的最新活动 然而 自然地 我觉得没有必要保留每一个历史记录 所以我想知道是否有一种方法可以配置表以在达到最大设置限制后开始修
  • 对于数据库来说,选择正确的数据类型会影响性能吗?

    如果是这样 为什么 我的意思是 tinyint 的搜索速度比 int 快吗 如果是这样 性能上的实际差异是什么 是的 根据数据类型 它确实有所不同 int vs tinyint不会在速度上产生明显的差异 但会在数据大小上产生差异 假设tin
  • 数据库表设计

    我在选择数据库表的变量类型时遇到问题 有人可以给我一些关于如何选择类型的一般准则吗 以下是我的一些问题 用户 ID 应该是什么 INT 看起来很小 因为设计时应该考虑到大量用户 那么如果不是 INT 还有什么呢 大整数 VARCHAR 难道
  • 实现软删除的最佳方法是什么?

    目前在做一个项目 我们要对大部分用户 用户角色 实现软删除 我们决定添加一个is deleted 0 数据库中每个表的字段并将其设置为 1 如果特定用户角色点击特定记录上的删除按钮 现在为了将来的维护 每个SELECT查询需要确保它们不包含

随机推荐

  • 通过FlexibleInstances“重载”可以返回不同的类型,或者匹配类型类吗?

    我很好奇 Haskell 的类型类可以通过 FlexibleInstances 完成什么样的 重载 作为一个简单的测试 这里是一个调整器类型数据类型的例子 它定义了一个adjust根据是否包含整数或双精度值 将为其值添加不同金额的操作 LA
  • MongoDB 聚合框架 - 如何按日期范围、按天分组以及每天返回平均值进行匹配?

    我刚刚学习 MongoDB 的聚合框架 我想知道是否有人可以帮助我改进这个查询以执行以下操作 查找 匹配日期在提交范围内的记录 按天对结果进行分组 每天的回报平均值 这是我的模型 有一些有用的属性可以使编写此查询变得更容易 例如day财产
  • 对浮点数进行四舍五入,使它们的总和恰好为 1

    我有一段相当粗糙的代码 它必须或多或少随机生成一堆百分比 并存储为十进制浮点数 也就是说 它确定材料一占总数的 13 307 然后将其存储在字典中为 0 13307 问题是 我永远无法让这些数字加起来恰好为一 老实说 我并不完全确定问题是什
  • Javascript:location.hostname 和 document.domain 之间的区别?

    使用 location hostname 和 document domain 有什么区别 我认为用例子来解释会很有帮助 看起来document domain is a 只读属性 但在 Mozilla 中除外 它允许您更改用于 例如 AJAX
  • 从 WINAPI 获取文件的先前版本

    在 Windows 7 中 可以获取以前版本的文件 如下图所示 有没有办法通过代码检索文件的先前版本 因为我找不到任何API 感谢先进 这个问题列出了几个标签 因此 尚不清楚是否需要严格的 c c 方法 或者脚本等是否有效 任何状况之下 以
  • Ansi-C 中的单行注释

    我已经习惯了 标记来自 Java 和 Visual Studio 的单行注释 令人惊讶的是 Ansi C 不存在这种注释 使用 my comment 很烦人 使用 Ansi C 时还有其他方法标记单行注释吗 ANSI C 不可以 但当前的标
  • 我们如何使用 APK 主扩展文件中的图像?

    我最近 2 天面临一个问题 我们如何在 Google Play 上上传大小超过 50Mb 的 apk 文件 然后我找到了一种从链接上传带有 APK 扩展文件的 apk 文件的方法http developer android com guid
  • 轻量级 Java 对象缓存 API [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • ASP.NET - 获取 DirectoryEntry / SID 的主体 / 相对标识符 (RID)

    我在自定义 MembershipProvider 类中使用 Active Directory 对 ASP NET 2 0 Intranet 应用程序中的用户进行身份验证 并将其 sid 与该应用程序的配置文件相关联 当 的时候ActiveD
  • ColdFusion 和移动应用程序结构和安全性

    Overview 我希望开始使用 HTML5 jQuery 和 ColdFusion 开发 iOS 应用程序 我对此的理解是让 jQuery 为所有后端函数调用 ColdFusion API 伟大的 我的问题主要是关于页面结构和 API 安
  • 如何设置cassandra读写一致性

    我找不到这方面的文档 我知道cqlsh中有一致性命令 但是读一致性和写一致性没有区别 如何为读取和写入设置不同的一致性级别 此外 还提到了 默认 一致性级别 默认设置在哪里 它是用于读还是写 如何为读取和写入设置不同的一致性级别 如果您只想
  • struts2 + hibernate3 + jasper-report 5.0 ----- 得到空白报告

    我创建了一个应用程序 它使用 jasper report 5 0 struts2 和 hibernate 打印报告 jasper报告使用hql 该应用程序工作正常 但问题是我得到空白报告在浏览器中 当我触发 struts 操作时 但是当我在
  • VSCode 语法突出显示不适用于 Vue / Vetur

    在过去一周左右的时间里 我使用的每个 VUE 文件都没有语法突出显示 我通常有扩展名Vetur帮助对 VUE 文件进行语法突出显示和其他调整 到目前为止我尝试过的事情 卸载 重新安装 Vetur 更改 VScode 中的文件关联 确保 vu
  • Moose 结构类型

    我想在 Moose 中创建一个结构化类型 可以用作另一个 Moose 属性的类型 例如 我希望能够创建一个name有自己的属性value and error属性 因此 我想知道实现这一目标的最佳方法 我通过定义一个简单的 Moose 类来表
  • 将给定的十进制数转换为二进制数并计算连续的 1 并显示

    问题 将给定的十进制数转换为二进制数并统计连续的1并显示 示例案例1 5的二进制表示为101 因此连续1的最大数量为1 示例案例2 13 的二进制表示为 1101 因此连续 1 的最大数量为 2 解决方案 bin python3 impor
  • 为什么将 1 添加到 byte.MaxValue 会导致 256 而不是溢出[重复]

    这个问题在这里已经有答案了 我在 C 中有一段简单的代码 用于在向类型的 MaxValue 添加 1 时显示溢出错误 using System using System Collections Generic using System Li
  • dart 控制台应用程序中的 Ctrl+c

    Is there a way to catch CTRL C in dart console application For example press CTRL C to send clean closing packet to web
  • Ansible 循环遍历模板中的字母范围

    我正在尝试生成一个 Ansible 模板 该模板按字母顺序而不是数字顺序递增 有没有类似的功能range x 那可以帮助我吗 伪代码示例 for letter in range a d letter endfor 预期产出 a b c d
  • Prolog if 语句

    我正在尝试实现一个按如下方式工作的谓词 pred do this always if statement do this only when if statement is true do this also always independ
  • 设计数据仓库时使用临时数据库的好处

    我正在设计数据仓库架构 在探索从生产中提取数据并将其放入数据仓库的各种选项时 我遇到了许多文章 主要建议以下两种方法 生产数据库 gt 数据仓库 星型模式 gt OLAP立方体 生产数据库 gt 暂存数据库 gt 数据仓库 星型模式 gt