Spark Streaming + Spark SQL 实现配置化ETL流程

2023-05-16

Spark Streaming 非常适合ETL。但是其开发模块化程度不高,所以这里提供了一套方案,该方案提供了新的API用于开发Spark Streaming程序,同时也实现了模块化,配置化,并且支持SQL做数据处理。

项目地址

前言

传统的Spark Streaming程序需要:

  • 构建StreamingContext
  • 设置checkpoint
  • 链接数据源
  • 各种transform
  • foreachRDD 输出

通常而言,你可能会因为要走完上面的流程而构建了一个很大的程序,比如一个main方法里上百行代码,虽然在开发小功能上足够便利,但是复用度更方面是不够的,而且不利于协作,所以需要一个更高层的开发包提供支持。

如何开发一个Spark Streaming程序

我只要在配置文件添加如下一个job配置,就可以作为标准的的Spark Streaming 程序提交运行:

{

  "test": {
    "desc": "测试",
    "strategy": "streaming.core.strategy.SparkStreamingStrategy",
    "algorithm": [],
    "ref": [],
    "compositor": [
      {
        "name": "streaming.core.compositor.kafka.MockKafkaStreamingCompositor",
        "params": [
          {
            "metadata.broker.list":"xxx",
            "auto.offset.reset":"largest",
            "topics":"xxx"
          }
        ]
      },
      {
        "name": "streaming.core.compositor.spark.JSONTableCompositor",
        "params": [{"tableName":"test"}
        ]
      },
      {
        "name": "streaming.core.compositor.spark.SQLCompositor",
        "params": [{"sql":"select a from test"}
        ]
      },
      {
        "name": "streaming.core.compositor.RDDPrintOutputCompositor",
        "params": [
          {
          }
        ]
      }
    ],
    "configParams": {
    }
  }
}

上面的配置相当于完成了如下的一个流程:

  1. 从Kafka消费数据
  2. 将Kafka数据转化为表
  3. 通过SQL进行处理
  4. 打印输出

是不是很简单,而且还可以支持热加载,动态添加job等

特性

该实现的特性有:

  1. 配置化
  2. 支持多Job配置
  3. 支持各种数据源模块
  4. 支持通过SQL完成数据处理
  5. 支持多种输出模块

未来可扩展的支持包含:

  1. 动态添加或者删除job更新,而不用重启Spark Streaming
  2. 支持Storm等其他流式引擎
  3. 更好的多job互操作

配置格式说明

该实现完全基于ServiceframeworkDispatcher 完成,核心功能大概只花了三个小时。

这里我们先理出几个概念:

  1. Spark Streaming 定义为一个App
  2. 每个Action定义为一个Job.一个App可以包含多个Job

配置文件结构设计如下:

{

  "job1": {
    "desc": "测试",
    "strategy": "streaming.core.strategy.SparkStreamingStrategy",
    "algorithm": [],
    "ref": [],
    "compositor": [
      {
        "name": "streaming.core.compositor.kafka.MockKafkaStreamingCompositor",
        "params": [
          {
            "metadata.broker.list":"xxx",
            "auto.offset.reset":"largest",
            "topics":"xxx"
          }
        ]
      } ,  
    ],
    "configParams": {
    }
  },
  "job2":{
   ........
 } 
}

一个完整的App 对应一个配置文件。每个顶层配置选项,如job1,job2分别对应一个工作流。他们最终都会运行在一个App上(Spark Streaming实例上)。

  • strategy 用来定义如何组织 compositor,algorithm, ref 的调用关系
  • algorithm作为数据来源
  • compositor 数据处理链路模块。大部分情况我们都是针对该接口进行开发
  • ref 是对其他job的引用。通过配合合适的strategy,我们将多个job组织成一个新的job
  • 每个组件( compositor,algorithm, strategy) 都支持参数配置

上面主要是解析了配置文件的形态,并且ServiceframeworkDispatcher 已经给出了一套接口规范,只要照着实现就行。

模块实现

那对应的模块是如何实现的?本质是将上面的配置文件,通过已经实现的模块,转化为Spark Streaming程序。

以SQLCompositor 的具体实现为例:

class SQLCompositor[T] extends Compositor[T] {

  private var _configParams: util.List[util.Map[Any, Any]] = _
  val logger = Logger.getLogger(classOf[SQLCompositor[T]].getName)

//策略引擎ServiceFrameStrategy 会调用该方法将配置传入进来
  override def initialize(typeFilters: util.List[String], configParams: util.List[util.Map[Any, Any]]): Unit = {
    this._configParams = configParams
  }

// 获取配置的sql语句
  def sql = {
    _configParams(0).get("sql").toString
  }

  def outputTable = {
    _configParams(0).get("outputTable").toString
  }

//执行的主方法,大体是从上一个模块获取SQLContext(已经注册了对应的table),
//然后根据该模块的配置,设置查询语句,最后得到一个新的dataFrame.
// middleResult里的T其实是DStream,我们会传递到下一个模块,Output模块
//params参数则是方便各个模块共享信息,这里我们将对应处理好的函数传递给下一个模块
  override def result(alg: util.List[Processor[T]], ref: util.List[Strategy[T]], middleResult: util.List[T], params: util.Map[Any, Any]): util.List[T] = {
    var dataFrame: DataFrame = null
    val func = params.get("table").asInstanceOf[(RDD[String]) => SQLContext]
    params.put("sql",(rdd:RDD[String])=>{
      val sqlContext = func(rdd)
      dataFrame = sqlContext.sql(sql)
      dataFrame
    })
    middleResult
  }
}

上面的代码就完成了一个SQL模块。那如果我们要完成一个自定义的.map函数呢?可类似下面的实现:

abstract class MapCompositor[T,U] extends Compositor[T]{
  private var _configParams: util.List[util.Map[Any, Any]] = _
  val logger = Logger.getLogger(classOf[SQLCompositor[T]].getName)

  override def initialize(typeFilters: util.List[String], configParams: util.List[util.Map[Any, Any]]): Unit = {
    this._configParams = configParams
  }

  
  override def result(alg: util.List[Processor[T]], ref: util.List[Strategy[T]], middleResult: util.List[T], params: util.Map[Any, Any]): util.List[T] = {
    val dstream = middleResult(0).asInstanceOf[DStream[String]]
    val newDstream = dstream.map(f=>parseLog(f))
    List(newDstream.asInstanceOf[T])
  }
  def parseLog(line:String): U
}

class YourCompositor[T,U] extends MapCompositor[T,U]{

 override def parseLog(line:String):U={
     ....your logical
  }
}

同理你可以实现filter,repartition等其他函数。

总结

该方式提供了一套更为高层的API抽象,用户只要关注具体实现而无需关注Spark的使用。同时也提供了一套配置化系统,方便构建数据处理流程,并且复用原有的模块,支持使用SQL进行数据处理。

广告

这个只是我们大系统的一小部分,愿意和我们一起进一步完善该系统么?欢迎加入我们(请私信我)

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Spark Streaming + Spark SQL 实现配置化ETL流程 的相关文章

随机推荐

  • 单目VIO算法测评

    单目VIO算法测评
  • imu_utils IMU内参标定工具 imu_utils安装教程 imu_utils使用教程

    标题imu utils IMU内参标定工具 imu utils安装教程 imu utils使用教程 安装教程 xff1a 1 安装依赖项 sudo apt get install libdw dev 2 下载imu utils和code u
  • LARVIO代码学习以及基本框架

    LARVIO代码学习以及基本框架 最近由于项目原因 xff0c 对MSCKF进行了一定的研究 xff0c 在其基础上进行开发 xff0c 但是17年开源的代码不管是初始化还是后期跟踪 悬浮等问题 xff0c 均为解决 xff0c 在20年3
  • LARVIO 不能初始化问题

    LARVIO 不能初始化问题 在运行过程中 xff0c 发现存在一定bug xff0c 使用其他数据包时 xff0c 一致不能完成动态初始化成功 xff0c 最终发现 xff1a 在动态对准过程中 xff1a DynamicInitiali
  • LARVIO 安装并运行

    LARVIO 安装并运行 LARVIO是基于MSCKF框架开发的一款实时SLAM xff0c 具体开源代码 xff1a https github com PetWorm LARVIO 1 依赖 1 1 Ubuntu and ROS 环境为U
  • MSCKF_VIO算法框架

    SCKF VIO算法 1 MSCKF视觉惯性融合算法简介 惯性导航利用惯性测量单元 IMU 测量得到的角速度 加速度信息进行惯性导航解算得到运载体的位置 速度 姿态 含航向 等信息 xff0c 具有实时性好 动态性能好等优点 xff1b 但
  • First Estimate Jacobian (FEJ) 如何理解SLAM中的First Estimate Jacobian

    First Estimate Jacobian FEJ 如何理解SLAM中的First Estimate Jacobian First Estimate Jacobian是Visual Inertial中的一个很重要的概念 xff0c 今天
  • 移动开发者大会--除了App,软件,我们还应该考虑什么

    今天有幸参加 移动者开发大会 xff0c 也是我第二次参与这个活动了 随着智能机的普及 xff0c 尤其是安卓千元的手机迅猛发展 xff0c 2011年可以说事移动领域的积累期 xff0c 2012年将会是蓬勃的发展期 各大厂商也在努力学习
  • 野火的freeRTOS工程怎么移植到正点原子上

    目录 简介 xff1a 时钟 xff1a 串口波特率设置问题 xff1a 滴答时钟的中断的时长问题 xff1a 简介 xff1a 正点原子的freeRTOS教程和野火系列的对比跟玩一样 xff0c 教的不细致 xff0c 代码注释也还没有野
  • ORB特征点提取代码详解 四叉树均匀化

    ORB特征点提取代码详解 ExtractORB 最近在尝试将ORB提取特征点机制放置于芯片上 xff0c 便于后期调用 xff0c 减小CPU的计算负担 xff0c 故最近对ORB特征点提取代码进行了研读 xff0c 记录一下 xff0c
  • Docker 使用教程

    Docker 使用教程 1 基本使用教程 使用docker docker 下载镜像 span class token function sudo span span class token function docker span pull
  • os.popen os.system subprocess shutil区别

    os popen os system subprocess shutil 区别 最近由于工作需求接触python xff0c 记录下遇到的问题 1 os popen os system 的区别 xff1a 总结 xff1a os popen
  • json与pickle相同和区别

    json与pickle相同和区别 1 json是可以在不同语言之间交换数据的 xff0c 而pickle只在python之间使用 2 json只能序列化最基本的数据类型 xff0c 而pickle可以序列化所有的数据类型 xff0c 包括类
  • 【id:58】【20分】C. 复数运算(友元函数)

    时间限制 1s 内存限制 128MB 题目描述 复数类的声明如下 xff1a class Complex private double real 实部 double imag 虚部 public Complex Complex double
  • Melodic + Realsense D435i 配置及错误问题解决

    Melodic 43 Realsense D435i 配置及错误问题解决 安装环境 xff1a RealSense SDK安装1 克隆SDK2 安装相关依赖3 安装权限脚本4 进行编译与安装5 测试安装是否成功6 错误汇总0x01 进行编译
  • Realsense-Ros安装配置介绍与问题解决

    Realsense Ros安装配置介绍与问题解决 Realsense Ros安装配置功能包克隆与编译编译错误与问题分析解决方案 结束语 本文主要讲述在如何进行Realsense Ros的安装与配置 xff0c 以及提出在安装配置过程中遇到相
  • 树莓派3 Ubuntu Meta16.04 操作系统烧录教程及系统换源

    树莓派3 Ubuntu Meta16 04 操作系统烧录教程及系统换源 1 写在开头 xff1a 2 操作系统烧录软件下载3 Ubuntu Meta 操作系统下载4 操作系统烧录4 1 SD 存储卡格式化4 2 操作系统写入4 3 换源更新
  • Ubuntu nautilus 快速打开文件浏览器

    Ubuntu nautilus 快速打开文件浏览器 1 问题描述2 nautilus 命令说明3 bashrc 下使用 alias 创建命令别名Reference 测试时间 xff1a 2022年6月20日 测试平台 xff1a Ubunt
  • 结构体嵌套结构体,及其的初始化

    作用 xff1a 结构体的的参数成员包含另一个结构体 利用 操作符来逐级访问结构体中的元素 1 先来个普通的结构体嵌套 xff0c xff08 不涉及数组 xff09 span class token macro property span
  • Spark Streaming + Spark SQL 实现配置化ETL流程

    Spark Streaming 非常适合ETL 但是其开发模块化程度不高 xff0c 所以这里提供了一套方案 xff0c 该方案提供了新的API用于开发Spark Streaming程序 xff0c 同时也实现了模块化 xff0c 配置化