1. 背景
分布式 DataX 基于 datax 打造的语义分分布式 ETL 平台。Datax 提供 reader-framework-writer 框架,方便开发两种异构数据源数据同步,但开源的 datax 缺少分布式特性,本文介绍基于 elastic 平台和 elastic-scheduler 改造分布式 datax 详细(落地)设计
2. 参考和术语
ETL Extract-Transform-Load 的缩写,数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端
《分布式 datax 架构设计》分布式架构设计文档,分布式 datax 概念和高层的时间
《elastic 平台设计》分布式支撑服务设计说明
《分布式时间槽架构设计》 介绍分布式时间槽详细设计
3. 概览
下图展示分布式 datax 概览
![](https://img-blog.csdnimg.cn/img_convert/105aac0b61aef1108a8659d8dfbef8eb.png)
rbt 全量同步,