为 Databricks 生成数据库架构图

2024-02-27

我正在创建一个 Databricks 应用程序，并且数据库架构变得非常重要。有没有办法为 Databricks 数据库生成架构图（类似于可以从 mysql 生成的架构图）？

有两种可能的变体：

使用 Spark SQL 与show databases, show tables in <database>, describe table ...
using spark.catalog.listDatabases, spark.catalog.listTables, spark.catagog.listColumns.

当数据库/命名空间中有很多表时，第二个变体的性能不是很好，尽管以编程方式使用它稍微容易一些。但在这两种情况下，实现都只是 3 个嵌套循环，迭代数据库列表，然后迭代数据库内的表列表，然后迭代表内的列列表。该数据可用于使用您最喜欢的图表工具生成图表。

这是生成源代码的代码PlantUML https://plantuml.com/（完整代码是here https://github.com/alexott/spark-playground/blob/master/pyspark/generate_database_diagram.py):

# This script generates PlantUML diagram for tables visible to Spark.
# The diagram is stored in the db_schema.puml file, so just run
# 'java -jar plantuml.jar db_schema.puml' to get PNG file

from pyspark.sql import SparkSession
from pyspark.sql.utils import AnalysisException

# Variables

# list of databases/namespaces to analyze.  Could be empty, then all existing 
# databases/namespaces will be processed
databases = ["a", "airbnb"] # put databases/namespace to handle
# change this if you want to include temporary tables as well
include_temp = False

# implementation
spark = SparkSession.builder.appName("Database Schema Generator").getOrCreate()

# if databases aren't specified, then fetch list from the Spark
if len(databases) == 0:
    databases = [db["namespace"] for db in spark.sql("show databases").collect()]

with open(f"db_schema.puml", "w") as f:
    f.write("\n".join(
        ["@startuml", "skinparam packageStyle rectangle", "hide circle",
         "hide empty methods", "", ""]))

    for database_name in databases[:3]:
        f.write(f'package "{database_name}" {{\n')
        tables = spark.sql(f"show tables in `{database_name}`")
        for tbl in tables.collect():
            table_name = tbl["tableName"]
            db = tbl["database"]
            if include_temp or not tbl["isTemporary"]:
                lines = []
                try:
                    lines.append(f'class {table_name} {{')
                    cols = spark.sql(f"describe table `{db}`.`{table_name}`")
                    for cl in cols.collect():
                        col_name = cl["col_name"]
                        data_type = cl["data_type"]
                        lines.append(f'{{field}} {col_name} : {data_type}')

                    lines.append('}\n')
                    f.write("\n".join(lines))
                except AnalysisException as ex:
                    print(f"Error when trying to describe {tbl.database}.{table_name}: {ex}")

        f.write("}\n\n")

    f.write("@enduml\n")

然后可以将其转换为图片：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为 Databricks 生成数据库架构图的相关文章

在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
使用 Spark pandas_udf 创建列，具有动态数量的输入列

我有这个 df df spark createDataFrame row a 5 0 0 0 11 0 row b 3394 0 0 0 4543 0 row c 136111 0 0 0 219255 0 row d 0 0 0 0 0
使用 Spark 版本 2.2 的 row_number() 函数创建 PySpark DataFrame 中每行的行号

我有一个 PySpark DataFrame valuesCol Sweden 31 Norway 62 Iceland 13 Finland 24 Denmark 52 df sqlContext createDataFrame valu
Spark-获取RDD中的文件名

我正在尝试处理每天都在增长的 4 个文本文件目录我需要做的是如果有人试图搜索发票号码我应该给他们包含该发票号码的文件列表我能够通过将文本文件加载为 RDD 来映射和减少文本文件中的值但是如何获取文件名和其他文件属性呢从 Spar
获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
如何在spark Streaming中定期更新rdd

我的代码是这样的 sc SparkContext ssc StreamingContext sc 30 initRDD sc parallelize path to data lines ssc socketTextStream local
在 IntelliJ 中运行 Spark 字数统计

我花了几个小时浏览 You Tube 视频和教程试图了解如何在 Scala 中运行 Spark 字数统计程序并将其转换为 jar 文件我现在完全糊涂了我运行了 Hello World 并且了解了如何在 Apache spark sp
如何在 apache Spark 作业中执行阻塞 IO？

如果当我遍历 RDD 时我需要通过调用外部阻塞服务来计算数据集中的值怎么办您认为如何才能实现这一目标值 Future RDD Double Future sequence tasks 我尝试创建一个 Futures 列表但由于
默认情况下，Spark sql 模式中的可为空性是建议性的。严格执行的最佳方法是什么？

我正在开发一个简单的 ETL 项目它读取 CSV 文件执行对每列进行一些修改然后将结果以 JSON 格式写出我想要读取我的结果的下游进程确信我的输出符合一个商定的模式但我的问题是即使我定义我的输入模式的所有字段都为 nu
cassandra 添加列（如果不存在）

我需要通过 CQL 脚本将新列插入到现有列族中我想做类似的事情 alter COLUMNFAMILY rules ADD rule template text IF NOT EXISTS 我怎样才能纯粹用 CQL 脚本实现这一点没有可选
合并 BPM 图表的最佳实践

我们在 Java 环境中使用 Alfresco 活动图这些图是有版本的我们确实使用 GIT 我们经常会遇到合并分支的合并冲突解决这个问题确实很痛苦因为我们必须比较文件的文本内容来检查差异有时重新应用更改比合并更轻松是否有合并此
如何从spark中的hbase表中获取所有数据

我在 hbase 中有一个大表名称为 UserAction 它具有三个列族歌曲专辑歌手我需要从歌曲列族中获取所有数据作为 JavaRDD 对象我尝试了这段代码但效率不高有更好的解决方案来做到这一点吗 static Spa

随机推荐

Once_flag 可以移动吗？

这是怎么回事标准没有提到once flag的可移动性我希望应用与 std mutex 相同的参数至少对于 gcc 4 8 版来说移动似乎被禁用了如果某个编译器允许移动那么最终可能会得到不可移植的代码概要是 30 4 thre
ASP.NET MVC 3 Razor 性能

重要更新请参阅底部的更新 5 asp net mvc 3 中没有性能问题这是基准问题我在 asp net mvc2 3 aspx 和 3 razor 中制作了一个简单的 hello world 项目并对它们进行了基准测试我看到的是
如何在 Windows 上安装 OpenJPEG 并将其与 Pillow 一起使用？

我想使用Python Pillow库将16位灰度数组保存在jp2 JPEG 2000 格式我在尝试在 Windows 计算机上安装所需的 OpenJPEG 库时遇到了困难这文档 https github com uclouvain op
调用非托管函数，该函数采用指向指针参数的指针

我正在尝试从我的 Net Core 应用程序调用 C 中的函数深入了解一下 C 函数来自libmpv 渲染 h https github com mpv player mpv blob master libmpv render h函数的头
如何为给定的 JavaScript 生成调用图？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我见过 https stackoverflow com questions 1385335 how to generate funct
显示名称而不是电子邮件的电子邮件标题的格式是什么？

我正在尝试创建一个 php 脚本该脚本将使用 mySQL 数据库为我处理邮件列表并且我已经准备好了大部分内容不幸的是我似乎无法让标题正常工作而且我不确定问题是什么 headers From email protected cdn
Julia 中的 ifelse 和三元运算符有什么区别？

假设我有这样的代码 cond true a cond 1 2 b ifelse cond 1 2 两种操作有什么区别在你写的例子中没有任何有效的区别但是如果这两个分支比简单的整数字面更复杂则存在差异 julia gt f prin
适用于 Android 的 OpenGL ES 工具

在哪里可以找到用于在 OpenGL ES 中设计复杂对象的所有工具像正方形立方体球体等只需对对象进行建模并将其导出为 OBJ 文件然后即可将 OBJ 文件加载到场景中这是我编写的用于加载 OBJ 文件的代码我将它们从 Maya
无法删除 Kubernetes 中的所有 Pod - 清除/重启 Kubernetes

我正在尝试删除删除我的环境中运行的所有 Pod 当我发出码头工人我得到以下输出这是一个示例屏幕截图可以看到都是K8 我想删除所有 Pod 删除它们我尝试了以下所有方法但它们不断出现 sudo kubectl delete a
std::async 是如何实现的？

我想知道使用它有多合适std async在面向性能的代码中具体来说从工作线程捕获异常到主线程是否有任何惩罚如何从worker返回到main的值 ref 传递的输入参数实际上永远不会被复制吗我计划将一个繁重的会话对象传递给线程或写入s
kafka 和 kafka-client 有什么区别？

我发现maven仓库里有几个kafka apache的maven仓库中有两个kafka https mvnrepository com artifact org apache kafka kafka https mvnrepository
在Android中安排重复任务

我正在设计一个应用程序只要该应用程序位于前台该应用程序就会重复执行将状态发送到专用服务器的任务在我在网络上的搜索中我看到了几种不同的方法并想知道最好的方法是什么安排服务器调用的最佳方式是什么我看到的选项是 Timer http
GitHub 中未经验证的提交

在我的 GitHub 存储库中我有一个分支其中有一些未经验证的提交有什么办法可以将它们更改为已验证吗未经验证意味着您的签名是错误的如果您提交时使用了错误的电子邮件密码如果您尚未在 GitHub 上在该帐户上上传签名或者上
Spring Boot：Jdbc javax.net.ssl.SSLException：在接收对等方的 close_notify 之前关闭入站

我目前正在学习有关在 Spring Boot Web 应用程序中实现 JDBC 和使用数据库的更多信息并且我遇到了在帖子底部编写的以下堆栈跟踪我创建了一个简单的 Employee 模型并且尝试在 main 所在的同一个类上执行一些数据
Lambda/Linq 包含多个关键字的条件

我必须列出带有评论字段的主列表要搜索的关键字列表我想搜索每条记录的每个注释字段中的关键字在 SQL 中如下所示 select from MainList where Comment like keyword1 or Comment
在Slave redis db上写入

我有一个主 Redis 服务器 S1 还有 6 个其他服务器我希望他们有本地redis从属服务器因此redis主服务器上的任何更改都将复制到每个本地服务器上的从属服务器我可以在一个从站上写入并让该从站更新主站然后主站将更新其他从站吗
从另一个浏览器打开一个浏览器[重复]

这个问题在这里已经有答案了我正在 Firefox 上运行我的 Web 应用程序我在其中一个页面上有超链接当我单击它时它会打开另一个应用程序作为新的弹出窗口但 Firefox 不支持该应用程序所以我想在 Internet Expl
将 Android CheckBox 设置为不同的图像...然后返回原始图像

我正在使用以下非常常见代码来更改 Android 应用程序中的复选框图像 mCheck CheckBox findViewById R id chkMine mCheck setButtonDrawable R drawable my
如何通过属性名称和/或值查找锚标记？ [复制]

这个问题在这里已经有答案了这是我正在尝试自动化的网络 https www supremenewyork com shop sweatshirts xi9sboa21 u2te1fdw8 https www supremenewyork c
为 Databricks 生成数据库架构图

我正在创建一个 Databricks 应用程序并且数据库架构变得非常重要有没有办法为 Databricks 数据库生成架构图类似于可以从 mysql 生成的架构图有两种可能的变体使用 Spark SQL 与show databas

为 Databricks 生成数据库架构图

为 Databricks 生成数据库架构图 的相关文章

随机推荐

热门标签

为 Databricks 生成数据库架构图的相关文章