设计数据仓库时使用临时数据库的好处

2024-01-01

我正在设计数据仓库架构。在探索从生产中提取数据并将其放入数据仓库的各种选项时，我遇到了许多文章，主要建议以下两种方法 -

生产数据库---->数据仓库（星型模式）---->OLAP立方体

生产数据库---->暂存数据库----> 数据仓库（星型模式）----> OLAP 立方体

我仍然不确定哪种方法在性能和减少生产数据库的处理负载方面是更好的方法。

您在设计数据仓库时发现哪种方法更好？

以下几点摘自，DWBI 组织 https://dwbi.org/etl/etl/52-why-do-we-need-staging-area-during-etl-load article

如果您有以下任一情况，则可能需要暂存区：

德尔塔装载：您的数据是从源增量读取的，您需要一个中间存储，可以临时存储增量数据集以用于转换目的
转型需求：在使用仓库中的数据之前需要进行数据清理、验证等操作
解耦：您的处理需要花费大量时间，并且您不希望在整个处理过程中保持与源系统的连接（大概源系统正在不断地被实际业务用户使用），因此，更愿意只阅读一次性从源系统获取数据，断开与源的连接，然后继续在“自己这边”处理数据
调试目的：您不需要一直返回源，您可以仅从暂存区解决问题（如果有）
故障恢复：源系统可能是暂时的，数据的状态可能会发生变化。如果您遇到任何上游故障，您可能无法重新提取数据，因为那时源已更改。拥有本地副本会有所帮助

性能和减少处理可能不仅仅是考虑因素。添加分期有时可能会增加latency（即业务事件发生与报告之间的时间延迟）。但我希望以上几点能够帮助您做出更好的判断。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

databasedesign

datawarehouse

OLAP

设计数据仓库时使用临时数据库的好处的相关文章

如何使用 django 更新会计应用程序中的余额？

我正在学习 Django 尝试制作一个会计应用程序来跟踪我的开支等我使用两种模型创建数据库一种用于帐户一种用于操作但我不知道如何在每次操作时更新我的余额我在想也许每次我保存一个新操作时我都会通过覆盖操作模型的保存方法来更新余
InnoDB 或 MyISAM - 为什么不两者都使用呢？

我读过各种关于两者之间哪个更好的主题InnoDB and MyISAM 看来争论的都是使用还是其他根据表的不同是否不能同时使用两者这样做会有什么缺点据我所知发动机可以在CREATE TABLE命令因此某些经常读取的表可以设置为
数据库“key/ID”设计思想、代理键、主键等

因此我最近看到多次提到代理键但我不太确定它是什么以及它与主键有何不同我总是假设 ID 是表中的主键如下所示 Users ID Guid FirstName Text LastName Text SSN Int 然而维基百科将代理键
设计 Cassandra 数据模型的最佳实践是什么？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案以及需要避免哪些陷阱您有任何交易中断吗例如我听说导出导入 Cassandra 数据非常困难这让我想知道这是否会妨碍将生产数据
在 LINUX 上使用 Python 连接到 OLAP 多维数据集

我知道如何在 Windows 上使用 Python 连接到 MS OLAP 多维数据集嗯至少有一种方法通常我使用 win32py 包并调用 COM 对象进行连接 import win32com client connection wi
在 SQL Server 2005 IMAGE 列中存储 20 Meg 文件的最有效方法

我们将文档存储在 SQL Server 2005 数据库表中列格式为 Image 每次我尝试存储大于 1 Meg 的 PDF 文件时它都会以某种方式损坏 NET 中是否有任何特别有效的方法来序列化大文件 10megs 并将其存储到数据库
当两个表非常相似时，什么时候应该将它们合并？

我有事件和照片然后对两者进行评论现在我有两个评论表一个用于与事件相关的评论另一个用于照片评论架构与此类似 CREATE TABLE EventComments CommentId int EventId int Comment
数据库分区 - 水平与垂直 - 规范化和行拆分之间的区别？

我试图理解不同的概念数据库分区这就是我的理解水平分区分片将表拆分为不同的表其中将包含初始表中的行的子集如果按大陆拆分用户表我见过很多这样的示例例如北美的子表欧洲的另一个子表 ETC 每个分区位于不同的物理位置理解机器据
drupal 7 将实际内容存储在数据库中的哪里？

我打开了 drupal 7 的数据库并在表中查找node node revisions and node types并且找不到 drupal 存储实际的位置body节点内容的有人有线索吗哦我刚刚找到了在 D7 中他们实现了字段
非规范化如何提高数据库性能？

我听说过很多关于非规范化的内容它是为了提高某些应用程序的性能而进行的但我从来没有尝试过做任何相关的事情所以我只是好奇规范化数据库中的哪些地方会使性能变差或者换句话说非规范化原则是什么如果我需要提高性能如何使用此技术非规范
多租户 Rails 应用：不同技术的优缺点是什么？

我最初是为一位客户编写 Ruby on Rails 应用程序的现在我正在更改它以便它可以用于不同的客户我的最终目标是某些用户不是我可以单击按钮并创建一个新项目然后生成所有必要的更改新架构新表代码处理无需任何人需要我编辑
将歌词存储在 MySQL 数据库中

我想知道在 mysql 数据库中存储音乐歌词的最佳方式是什么以及用于此目的的设置是什么另外我想要表格来存储断线我正在考虑使用指示新行并使用 php 替换字符串我不知道从哪里开始或者使用什么参数 varchar int 我知
本地 SQLite 与远程 MongoDB

我正在设计一个新的 Web 项目在研究了一些旨在可扩展性的选项后我提出了两个数据库解决方案为可扩展方式精心设计的本地 SQLite 文件每个 X 用户一个新的数据库文件因为写入将取决于用户内容不存在跨用户数据依赖性远程 Mon
如何将子表的删除级联到父表？

我准备了a fiddle这说明了问题 http sqlfiddle com 15 e25c5 2 CREATE TABLE parent parent id integer primary key CREATE TABLE child ch
MySQL标签中如何存储标签，总共一个字段还是每个标签一个字段？

我正在开发一个接近 stackoverflow com 的产品发帖者需要为其问题或任务输入标签如何将这些标签存储在数据库中是总共一个字段列还是一个标签一个字段列我觉得多对多 http en wikipedia org wiki
在 MySQL 数据库中存储图像文件或 URL？哪个更好？ [复制]

这个问题在这里已经有答案了可能的重复在数据库中存储图像是还是否 https stackoverflow com questions 3748 storing images in db yea or nay 数据库中的图像与文件系统中的
限制 sqlite 表的最大行数

我希望实现一种活动日志表其中用户执行的操作存储在 sqlite 表中然后呈现给用户以便他们可以看到他们所做的最新活动然而自然地我觉得没有必要保留每一个历史记录所以我想知道是否有一种方法可以配置表以在达到最大设置限制后开始修
对于数据库来说，选择正确的数据类型会影响性能吗？

如果是这样为什么我的意思是 tinyint 的搜索速度比 int 快吗如果是这样性能上的实际差异是什么是的根据数据类型它确实有所不同 int vs tinyint不会在速度上产生明显的差异但会在数据大小上产生差异假设tin
数据库表设计

我在选择数据库表的变量类型时遇到问题有人可以给我一些关于如何选择类型的一般准则吗以下是我的一些问题用户 ID 应该是什么 INT 看起来很小因为设计时应该考虑到大量用户那么如果不是 INT 还有什么呢大整数 VARCHAR 难道
实现软删除的最佳方法是什么？

目前在做一个项目我们要对大部分用户用户角色实现软删除我们决定添加一个is deleted 0 数据库中每个表的字段并将其设置为 1 如果特定用户角色点击特定记录上的删除按钮现在为了将来的维护每个SELECT查询需要确保它们不包含

随机推荐

通过FlexibleInstances“重载”可以返回不同的类型，或者匹配类型类吗？

我很好奇 Haskell 的类型类可以通过 FlexibleInstances 完成什么样的重载作为一个简单的测试这里是一个调整器类型数据类型的例子它定义了一个adjust根据是否包含整数或双精度值将为其值添加不同金额的操作 LA
MongoDB 聚合框架 - 如何按日期范围、按天分组以及每天返回平均值进行匹配？

我刚刚学习 MongoDB 的聚合框架我想知道是否有人可以帮助我改进这个查询以执行以下操作查找匹配日期在提交范围内的记录按天对结果进行分组每天的回报平均值这是我的模型有一些有用的属性可以使编写此查询变得更容易例如day财产
对浮点数进行四舍五入，使它们的总和恰好为 1

我有一段相当粗糙的代码它必须或多或少随机生成一堆百分比并存储为十进制浮点数也就是说它确定材料一占总数的 13 307 然后将其存储在字典中为 0 13307 问题是我永远无法让这些数字加起来恰好为一老实说我并不完全确定问题是什
Javascript：location.hostname 和 document.domain 之间的区别？

使用 location hostname 和 document domain 有什么区别我认为用例子来解释会很有帮助看起来document domain is a 只读属性但在 Mozilla 中除外它允许您更改用于例如 AJAX
从 WINAPI 获取文件的先前版本

在 Windows 7 中可以获取以前版本的文件如下图所示有没有办法通过代码检索文件的先前版本因为我找不到任何API 感谢先进这个问题列出了几个标签因此尚不清楚是否需要严格的 c c 方法或者脚本等是否有效任何状况之下以
Ansi-C 中的单行注释

我已经习惯了标记来自 Java 和 Visual Studio 的单行注释令人惊讶的是 Ansi C 不存在这种注释使用 my comment 很烦人使用 Ansi C 时还有其他方法标记单行注释吗 ANSI C 不可以但当前的标
我们如何使用 APK 主扩展文件中的图像？

我最近 2 天面临一个问题我们如何在 Google Play 上上传大小超过 50Mb 的 apk 文件然后我找到了一种从链接上传带有 APK 扩展文件的 apk 文件的方法http developer android com guid
轻量级 Java 对象缓存 API [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
ASP.NET - 获取 DirectoryEntry / SID 的主体 / 相对标识符 (RID)

我在自定义 MembershipProvider 类中使用 Active Directory 对 ASP NET 2 0 Intranet 应用程序中的用户进行身份验证并将其 sid 与该应用程序的配置文件相关联当的时候ActiveD
ColdFusion 和移动应用程序结构和安全性

Overview 我希望开始使用 HTML5 jQuery 和 ColdFusion 开发 iOS 应用程序我对此的理解是让 jQuery 为所有后端函数调用 ColdFusion API 伟大的我的问题主要是关于页面结构和 API 安
如何设置cassandra读写一致性

我找不到这方面的文档我知道cqlsh中有一致性命令但是读一致性和写一致性没有区别如何为读取和写入设置不同的一致性级别此外还提到了默认一致性级别默认设置在哪里它是用于读还是写如何为读取和写入设置不同的一致性级别如果您只想
struts2 + hibernate3 + jasper-report 5.0 ----- 得到空白报告

我创建了一个应用程序它使用 jasper report 5 0 struts2 和 hibernate 打印报告 jasper报告使用hql 该应用程序工作正常但问题是我得到空白报告在浏览器中当我触发 struts 操作时但是当我在
VSCode 语法突出显示不适用于 Vue / Vetur

在过去一周左右的时间里我使用的每个 VUE 文件都没有语法突出显示我通常有扩展名Vetur帮助对 VUE 文件进行语法突出显示和其他调整到目前为止我尝试过的事情卸载重新安装 Vetur 更改 VScode 中的文件关联确保 vu
Moose 结构类型

我想在 Moose 中创建一个结构化类型可以用作另一个 Moose 属性的类型例如我希望能够创建一个name有自己的属性value and error属性因此我想知道实现这一目标的最佳方法我通过定义一个简单的 Moose 类来表
将给定的十进制数转换为二进制数并计算连续的 1 并显示

问题将给定的十进制数转换为二进制数并统计连续的1并显示示例案例1 5的二进制表示为101 因此连续1的最大数量为1 示例案例2 13 的二进制表示为 1101 因此连续 1 的最大数量为 2 解决方案 bin python3 impor
为什么将 1 添加到 byte.MaxValue 会导致 256 而不是溢出[重复]

这个问题在这里已经有答案了我在 C 中有一段简单的代码用于在向类型的 MaxValue 添加 1 时显示溢出错误 using System using System Collections Generic using System Li
dart 控制台应用程序中的 Ctrl+c

Is there a way to catch CTRL C in dart console application For example press CTRL C to send clean closing packet to web
Ansible 循环遍历模板中的字母范围

我正在尝试生成一个 Ansible 模板该模板按字母顺序而不是数字顺序递增有没有类似的功能range x 那可以帮助我吗伪代码示例 for letter in range a d letter endfor 预期产出 a b c d
Prolog if 语句

我正在尝试实现一个按如下方式工作的谓词 pred do this always if statement do this only when if statement is true do this also always independ
设计数据仓库时使用临时数据库的好处

我正在设计数据仓库架构在探索从生产中提取数据并将其放入数据仓库的各种选项时我遇到了许多文章主要建议以下两种方法生产数据库 gt 数据仓库星型模式 gt OLAP立方体生产数据库 gt 暂存数据库 gt 数据仓库星型模式 gt

设计数据仓库时使用临时数据库的好处

设计数据仓库时使用临时数据库的好处 的相关文章

随机推荐

热门标签

设计数据仓库时使用临时数据库的好处的相关文章