是否有将 JSON 数据转换为具有多个表的关系数据库的标准方法?我们需要从 MongoDB 实例导出数据并将其导入 Redshift 集群。唯一的问题是一些 MongoDB 字段包含对象和数组。 Redshift 集群接受 CSV,因此我认为每个新表的输出至少是一个 CSV 文件。
我不需要具体的实现。我只是想了解如何有效地将 JSON/NoSQL 数据转换为关系格式的概念。
我们有存储 JSON 数据的 mongo DB。我们希望将数据迁移到 Redshift 以用于某些查询目的。
我们使用 mongoexport csv 从 mongo 表创建 csv 并将其上传到 S3。我们在 Redshift 中创建了相应的关系模式,并使用复制命令将这些 csv 数据从 s3 加载到 redshift。
我们可以使用java api来查询mongo并创建csv并将其上传到s3。同样可以加载到redshift。
真正的问题是,由于我们使用 mongo (json) 或 NoSQL,对于属于同一个表(如 JSON)的给定对象,我们可能有不同的列数,但在 Redshift 中,每个表的列数是固定的,因此在这种情况下,您需要创建所有可能的列并加载数据。对于那些不具有所有列的对象,我们可以为它们填充空值。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)