Spark Streaming + Spark SQL 实现配置化ETL流程

2023-05-16

Spark Streaming 非常适合ETL。但是其开发模块化程度不高，所以这里提供了一套方案，该方案提供了新的API用于开发Spark Streaming程序，同时也实现了模块化，配置化，并且支持SQL做数据处理。

项目地址

前言

传统的Spark Streaming程序需要：

构建StreamingContext
设置checkpoint
链接数据源
各种transform
foreachRDD 输出

通常而言，你可能会因为要走完上面的流程而构建了一个很大的程序，比如一个main方法里上百行代码，虽然在开发小功能上足够便利，但是复用度更方面是不够的，而且不利于协作，所以需要一个更高层的开发包提供支持。

如何开发一个Spark Streaming程序

我只要在配置文件添加如下一个job配置，就可以作为标准的的Spark Streaming 程序提交运行：

{

  "test": {
    "desc": "测试",
    "strategy": "streaming.core.strategy.SparkStreamingStrategy",
    "algorithm": [],
    "ref": [],
    "compositor": [
      {
        "name": "streaming.core.compositor.kafka.MockKafkaStreamingCompositor",
        "params": [
          {
            "metadata.broker.list":"xxx",
            "auto.offset.reset":"largest",
            "topics":"xxx"
          }
        ]
      },
      {
        "name": "streaming.core.compositor.spark.JSONTableCompositor",
        "params": [{"tableName":"test"}
        ]
      },
      {
        "name": "streaming.core.compositor.spark.SQLCompositor",
        "params": [{"sql":"select a from test"}
        ]
      },
      {
        "name": "streaming.core.compositor.RDDPrintOutputCompositor",
        "params": [
          {
          }
        ]
      }
    ],
    "configParams": {
    }
  }
}

上面的配置相当于完成了如下的一个流程：

从Kafka消费数据
将Kafka数据转化为表
通过SQL进行处理
打印输出

是不是很简单，而且还可以支持热加载，动态添加job等

特性

该实现的特性有：

配置化
支持多Job配置
支持各种数据源模块
支持通过SQL完成数据处理
支持多种输出模块

未来可扩展的支持包含：

动态添加或者删除job更新，而不用重启Spark Streaming
支持Storm等其他流式引擎
更好的多job互操作

配置格式说明

该实现完全基于ServiceframeworkDispatcher 完成，核心功能大概只花了三个小时。

这里我们先理出几个概念：

Spark Streaming 定义为一个App
每个Action定义为一个Job.一个App可以包含多个Job

配置文件结构设计如下：

{

  "job1": {
    "desc": "测试",
    "strategy": "streaming.core.strategy.SparkStreamingStrategy",
    "algorithm": [],
    "ref": [],
    "compositor": [
      {
        "name": "streaming.core.compositor.kafka.MockKafkaStreamingCompositor",
        "params": [
          {
            "metadata.broker.list":"xxx",
            "auto.offset.reset":"largest",
            "topics":"xxx"
          }
        ]
      } ,  
    ],
    "configParams": {
    }
  }，
  "job2"：{
   ........
 } 
}

一个完整的App 对应一个配置文件。每个顶层配置选项，如job1,job2分别对应一个工作流。他们最终都会运行在一个App上(Spark Streaming实例上)。

strategy 用来定义如何组织 compositor,algorithm, ref 的调用关系
algorithm作为数据来源
compositor 数据处理链路模块。大部分情况我们都是针对该接口进行开发
ref 是对其他job的引用。通过配合合适的strategy，我们将多个job组织成一个新的job
每个组件( compositor,algorithm, strategy) 都支持参数配置

上面主要是解析了配置文件的形态，并且ServiceframeworkDispatcher 已经给出了一套接口规范，只要照着实现就行。

模块实现

那对应的模块是如何实现的？本质是将上面的配置文件，通过已经实现的模块，转化为Spark Streaming程序。

以SQLCompositor 的具体实现为例：

class SQLCompositor[T] extends Compositor[T] {

  private var _configParams: util.List[util.Map[Any, Any]] = _
  val logger = Logger.getLogger(classOf[SQLCompositor[T]].getName)

//策略引擎ServiceFrameStrategy 会调用该方法将配置传入进来
  override def initialize(typeFilters: util.List[String], configParams: util.List[util.Map[Any, Any]]): Unit = {
    this._configParams = configParams
  }

// 获取配置的sql语句
  def sql = {
    _configParams(0).get("sql").toString
  }

  def outputTable = {
    _configParams(0).get("outputTable").toString
  }

//执行的主方法，大体是从上一个模块获取SQLContext(已经注册了对应的table),
//然后根据该模块的配置，设置查询语句，最后得到一个新的dataFrame.
// middleResult里的T其实是DStream,我们会传递到下一个模块，Output模块
//params参数则是方便各个模块共享信息，这里我们将对应处理好的函数传递给下一个模块
  override def result(alg: util.List[Processor[T]], ref: util.List[Strategy[T]], middleResult: util.List[T], params: util.Map[Any, Any]): util.List[T] = {
    var dataFrame: DataFrame = null
    val func = params.get("table").asInstanceOf[(RDD[String]) => SQLContext]
    params.put("sql",(rdd:RDD[String])=>{
      val sqlContext = func(rdd)
      dataFrame = sqlContext.sql(sql)
      dataFrame
    })
    middleResult
  }
}

上面的代码就完成了一个SQL模块。那如果我们要完成一个自定义的.map函数呢？可类似下面的实现：

abstract class MapCompositor[T,U] extends Compositor[T]{
  private var _configParams: util.List[util.Map[Any, Any]] = _
  val logger = Logger.getLogger(classOf[SQLCompositor[T]].getName)

  override def initialize(typeFilters: util.List[String], configParams: util.List[util.Map[Any, Any]]): Unit = {
    this._configParams = configParams
  }

  
  override def result(alg: util.List[Processor[T]], ref: util.List[Strategy[T]], middleResult: util.List[T], params: util.Map[Any, Any]): util.List[T] = {
    val dstream = middleResult(0).asInstanceOf[DStream[String]]
    val newDstream = dstream.map(f=>parseLog(f))
    List(newDstream.asInstanceOf[T])
  }
  def parseLog(line:String): U
}

class YourCompositor[T,U] extends MapCompositor[T,U]{

 override def parseLog(line:String):U={
     ....your logical
  }
}

同理你可以实现filter,repartition等其他函数。

总结

该方式提供了一套更为高层的API抽象,用户只要关注具体实现而无需关注Spark的使用。同时也提供了一套配置化系统，方便构建数据处理流程，并且复用原有的模块，支持使用SQL进行数据处理。

【HaaS Python硬件积木】土壤湿度传感器

来这里发现更多拿来即用的传感器 HaaS开发框架 HaaS积木方案 xff0c 赋能生态开发者 xff0c 让您快速找到自己需要的解决方案 xff0c 硬件主板与外设 xff0c 以及各种应用组件 https haas iot aliyun
【HaaS Python硬件积木】空气质量检测模块 - CCS811

空气质量检测模块 CCS811 来这里发现更多拿来即用的硬件积木 https haas iot aliyun com solution detail hardware 一产品简介通过CCS811传感器模块可以测量环境中TVOC 总挥发性
阿里云IoT | HaaS开源百校科技助力计划 —— 开源大使招募

x1f44b Hi xff0c 各位爱好科技的同学们在这个技术快速升级重构的时代有这样一个活动 xff0c 你不容错失它就是HaaS开源百校科技助力计划这是一项由阿里云IoT HaaS技术团队在全国高校推出的活动帮助未来的新一代
HaaS Python 2.2 版本发布，更好更快更稳，将开发易用性进行到底

x1f44b Hello 好久不见 HaaS Python 2 2 版本升级如期发布来看看又多了哪些激动人心的新功能吧 HaaS Studio 版本升级布局全新改版 xff0c 热门动态首页直达支持从案例列表中快速创建案例支持快速引入传
【HaaS Tuesday】物联网局域通信选择 Wi-Fi or 蓝牙？听工程师们笑谈技术发展史

物联网局域通信 Wi Fi or 蓝牙 xff1f 听大佬们笑谈技术发展史 HaaS Tuesday 第二期上线快来交出你的一键三连 xff01
用大数据思维做运维监控

今天一大早就看到了一篇文章 xff0c 叫大数据对于运维的意义该文章基本上是从三个层面阐述的 xff1a 工程数据 xff0c 譬如工单数量 xff0c SLA可用性 xff0c 基础资源 xff0c 故障率 xff0c 报警统计业务数
饭碗空空猫猫流泪用HaaS Python DIY一个宠物自动投食器再也不用担心主子挨饿

来这里发现更多有趣案例 HaaS趣味案例 1 简介自动投食器是一种可以自动投喂宠物粮的设备 xff0c 致力于解决当家中无人时宠物无法喂养的问题该设备具备云端接入能力 xff0c 可通过手机进行控制 xff0c 拥有两种投喂模式可供选
【HaaS Hands-On】全新视频节目上线创意案例我们一起上手做第一期E01：物联网工程师和你一起上手做遥控机械臂

HaaS Hands On 物联网大佬和你一起上手做遥控机械臂
Python + ESP32 DIY炫酷的物联网远程机械臂

来这里发现更多创意案例 HaaS开发框架 HaaS积木方案 xff0c 赋能生态开发者 xff0c 让您快速找到自己需要的解决方案 xff0c 硬件主板与外设 xff0c 以及各种应用组件 https haas iot aliyun com
Python+ESP32 DIY 一个【赛博朋克逗猫机】喵喵喵？今天的主子看起来有点奇怪

来这里发现更多创意案例 HaaS开发框架 HaaS积木方案 xff0c 赋能生态开发者 xff0c 让您快速找到自己需要的解决方案 xff0c 硬件主板与外设 xff0c 以及各种应用组件 https haas iot aliyun com
ESP32 + Python 还不知道怎么垃圾分类？用HaaS DIY一个智能垃圾桶吧

来这里发现更多创意案例 HaaS开发框架 HaaS积木方案 xff0c 赋能生态开发者 xff0c 让您快速找到自己需要的解决方案 xff0c 硬件主板与外设 xff0c 以及各种应用组件 https haas iot aliyun com
羡慕《钢铁侠》电影里科技感满满的全息手势交互吗？现在你也可以！试试这款【本地手势识别案例】

来这里发现更多有趣案例 HaaS开发框架 HaaS积木方案 xff0c 赋能生态开发者 xff0c 让您快速找到自己需要的解决方案 xff0c 硬件主板与外设 xff0c 以及各种应用组件 https haas iot aliyun com
Python + ESP32 DIY自动感应智能皂液器避免触摸更安全

来这里发现更多有趣案例 https haas iot aliyun com solution https haas iot aliyun com solution 下图是本案例除硬件连线外的4步导学 xff0c 每个步骤中实现的功能请参考图
Python + ESP32 制作车辆定位系统，终于可以随时随地知道爱车的位置了

来这里发现更多有趣案例 HaaS开发框架 HaaS积木方案 xff0c 赋能生态开发者 xff0c 让您快速找到自己需要的解决方案 xff0c 硬件主板与外设 xff0c 以及各种应用组件 https haas iot aliyun com
使用Python做一个语音播报温湿度系统，元气满满的一天从听到他开始

来这里发现更多有趣案例 HaaS开发框架 HaaS积木方案 xff0c 赋能生态开发者 xff0c 让您快速找到自己需要的解决方案 xff0c 硬件主板与外设 xff0c 以及各种应用组件 https haas iot aliyun com
这也行？动手用Python做一个酒精检测仪，数据还能直接上云

来这里发现更多有趣案例 HaaS开发框架 HaaS积木方案 xff0c 赋能生态开发者 xff0c 让您快速找到自己需要的解决方案 xff0c 硬件主板与外设 xff0c 以及各种应用组件 https haas iot aliyun com
基于Spark的机器学习经验

这篇内容基于我去年的一些感悟写的 xff0c 但是今年才在Stuq 的微信群做的分享从技术角度而言 xff0c 对Spark的掌握和使用还是显得很手生的但是今天一位做数据分析相关的朋友说 xff0c 受这篇内容影响 xff0c 他接受了
动手做个智能水族箱

下图是本案例除硬件连线外的3步导学 xff0c 每个步骤中实现的功能请参考图中的说明 1 简介 1 1 背景伴随着人们生活水平的提高 xff0c 养鱼已经成为了一种新的时尚 xff0c 各种桌面鱼缸层出不穷 xff0c 但是市面上的鱼缸系
这个夏天太热了，只能用他来保命，ESP32 + Python做一个检测紫外线设备

来这里发现更多创意案例 HaaS开发框架 HaaS积木方案 xff0c 赋能生态开发者 xff0c 让您快速找到自己需要的解决方案 xff0c 硬件主板与外设 xff0c 以及各种应用组件 https haas iot aliyun com
catkin_make 运行存在问题 Could not find a package configuration file provided by "cmake_modules"

Could not find a package configuration file provided by 34 cmake modules 34 catkin make 运行存在问题找不到cmake modules 于是我就开始了采

随机推荐

单目VIO算法测评

单目VIO算法测评
imu_utils IMU内参标定工具 imu_utils安装教程 imu_utils使用教程

标题imu utils IMU内参标定工具 imu utils安装教程 imu utils使用教程安装教程 xff1a 1 安装依赖项 sudo apt get install libdw dev 2 下载imu utils和code u
LARVIO代码学习以及基本框架

LARVIO代码学习以及基本框架最近由于项目原因 xff0c 对MSCKF进行了一定的研究 xff0c 在其基础上进行开发 xff0c 但是17年开源的代码不管是初始化还是后期跟踪悬浮等问题 xff0c 均为解决 xff0c 在20年3
LARVIO 不能初始化问题

LARVIO 不能初始化问题在运行过程中 xff0c 发现存在一定bug xff0c 使用其他数据包时 xff0c 一致不能完成动态初始化成功 xff0c 最终发现 xff1a 在动态对准过程中 xff1a DynamicInitiali
LARVIO 安装并运行

LARVIO 安装并运行 LARVIO是基于MSCKF框架开发的一款实时SLAM xff0c 具体开源代码 xff1a https github com PetWorm LARVIO 1 依赖 1 1 Ubuntu and ROS 环境为U
MSCKF_VIO算法框架

SCKF VIO算法 1 MSCKF视觉惯性融合算法简介惯性导航利用惯性测量单元 IMU 测量得到的角速度加速度信息进行惯性导航解算得到运载体的位置速度姿态含航向等信息 xff0c 具有实时性好动态性能好等优点 xff1b 但
First Estimate Jacobian (FEJ) 如何理解SLAM中的First Estimate Jacobian

First Estimate Jacobian FEJ 如何理解SLAM中的First Estimate Jacobian First Estimate Jacobian是Visual Inertial中的一个很重要的概念 xff0c 今天
移动开发者大会--除了App,软件，我们还应该考虑什么

今天有幸参加移动者开发大会 xff0c 也是我第二次参与这个活动了随着智能机的普及 xff0c 尤其是安卓千元的手机迅猛发展 xff0c 2011年可以说事移动领域的积累期 xff0c 2012年将会是蓬勃的发展期各大厂商也在努力学习
野火的freeRTOS工程怎么移植到正点原子上

目录简介 xff1a 时钟 xff1a 串口波特率设置问题 xff1a 滴答时钟的中断的时长问题 xff1a 简介 xff1a 正点原子的freeRTOS教程和野火系列的对比跟玩一样 xff0c 教的不细致 xff0c 代码注释也还没有野
ORB特征点提取代码详解四叉树均匀化

ORB特征点提取代码详解 ExtractORB 最近在尝试将ORB提取特征点机制放置于芯片上 xff0c 便于后期调用 xff0c 减小CPU的计算负担 xff0c 故最近对ORB特征点提取代码进行了研读 xff0c 记录一下 xff0c
Docker 使用教程

Docker 使用教程 1 基本使用教程使用docker docker 下载镜像 span class token function sudo span span class token function docker span pull
os.popen os.system subprocess shutil区别

os popen os system subprocess shutil 区别最近由于工作需求接触python xff0c 记录下遇到的问题 1 os popen os system 的区别 xff1a 总结 xff1a os popen
json与pickle相同和区别

json与pickle相同和区别 1 json是可以在不同语言之间交换数据的 xff0c 而pickle只在python之间使用 2 json只能序列化最基本的数据类型 xff0c 而pickle可以序列化所有的数据类型 xff0c 包括类
【id:58】【20分】C. 复数运算（友元函数）

时间限制 1s 内存限制 128MB 题目描述复数类的声明如下 xff1a class Complex private double real 实部 double imag 虚部 public Complex Complex double
Melodic + Realsense D435i 配置及错误问题解决

Melodic 43 Realsense D435i 配置及错误问题解决安装环境 xff1a RealSense SDK安装1 克隆SDK2 安装相关依赖3 安装权限脚本4 进行编译与安装5 测试安装是否成功6 错误汇总0x01 进行编译
Realsense-Ros安装配置介绍与问题解决

Realsense Ros安装配置介绍与问题解决 Realsense Ros安装配置功能包克隆与编译编译错误与问题分析解决方案结束语本文主要讲述在如何进行Realsense Ros的安装与配置 xff0c 以及提出在安装配置过程中遇到相
树莓派3 Ubuntu Meta16.04 操作系统烧录教程及系统换源

树莓派3 Ubuntu Meta16 04 操作系统烧录教程及系统换源 1 写在开头 xff1a 2 操作系统烧录软件下载3 Ubuntu Meta 操作系统下载4 操作系统烧录4 1 SD 存储卡格式化4 2 操作系统写入4 3 换源更新
Ubuntu nautilus 快速打开文件浏览器

Ubuntu nautilus 快速打开文件浏览器 1 问题描述2 nautilus 命令说明3 bashrc 下使用 alias 创建命令别名Reference 测试时间 xff1a 2022年6月20日测试平台 xff1a Ubunt
结构体嵌套结构体，及其的初始化

作用 xff1a 结构体的的参数成员包含另一个结构体利用操作符来逐级访问结构体中的元素 1 先来个普通的结构体嵌套 xff0c xff08 不涉及数组 xff09 span class token macro property span
Spark Streaming + Spark SQL 实现配置化ETL流程

Spark Streaming 非常适合ETL 但是其开发模块化程度不高 xff0c 所以这里提供了一套方案 xff0c 该方案提供了新的API用于开发Spark Streaming程序 xff0c 同时也实现了模块化 xff0c 配置化

Spark Streaming + Spark SQL 实现配置化ETL流程

前言

如何开发一个Spark Streaming程序

特性

配置格式说明

模块实现

总结

广告

Spark Streaming + Spark SQL 实现配置化ETL流程 的相关文章

随机推荐

热门标签

Spark Streaming + Spark SQL 实现配置化ETL流程的相关文章