datax的使用以及参数解释,快速入门版

2023-11-01

datax的使用以及参数解释



前言

本文我们介绍一下datax的基础用法,让初学者能够实现快速入门,即刻应用


一、datax是什么?

首先,来了解一下datax是什么,datax简单可以理解为数据同步的一个工具,将一个系统中存储的数据存储到另一个系统中。
举例来说,我们将数据存储到了HDFS中,但是现在我们想要使用这些数据来进行可视化分析,那么我们就要用到datax,将HDFS中的数据同步到MYSQL中,便于可视化的使用。

二、文件配置说明

文件安装我们就不多赘述了,直接开始讲解datax如何使用。

1.查看配置文件

{
    "job": {
        "setting": {
            "speed": {
                "channel": 3
            }
        },
        "content": [
            {
                "reader": {
                    "name": "hdfsreader",
                    "parameter": {
                        "path": "/user/spark_design/output/user_anaylse/",
                        "defaultFS": "hdfs://master:9000",
                        "column": [
                               {
                                "index": 0,
                                "type": "string"
                               },
                               {
                                "index": 1,
                                "type": "long"
                               }
                            
                        ],
                        "fileType": "text",
                        "encoding": "UTF-8",
                        "fieldDelimiter": ","
                    }

                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "writeMode": "insert",
                        "username": "root",
                        "password": "123456",
                        "column": [
                            "province",
                            "number"
                        ],
                        "preSql": [
                            "delete from user_anaylse"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://127.0.0.1:3306/spark_design?useUnicode=true&characterEncoding=UTF-8",
                                "table": [
                                    "user_anaylse"
                                ]
                            }
                        ]
                    }
                }


            }
        ]
    }
}

2. 配置参数解释

上面的部分的代码是datax使用必须配置的json文件,没有这个文件datax是不能使用的,这个文件规定了数据的来源和同步位置。

首先channel这个数据,规定的是异步的线程数,快速入门的化可以先不管这个参数。

我们主要看content中的reader和writer部分

3. reader参数解释

首先我们要知道,这个配置文件是一个简单的从HDFS中将数据同步到MySQL的json文件

reader部分:顾名思义,reader就是数据原本的位置。

name–起个名字即可

path–就是文件在HDFS中存储的位置,需要的化直接将这个json文件中的路径改为自己文件在HDFS中的路径即可

defaultFS–就是Hadoop主节点的ip+端口

column–就是数据存储的文件中的列数,列数从0开始,在规定列的位置的同时需要规定好该列的数据类型
在这里插入图片描述
filetype–数据文件的类型,虽然由csv文件这个选项,时间上我们将csv文件进行同步时选择text类型,将fieldDelimiter设置为”,“ 即可即可。

encoding–文件编码格式,就UTF-8即可,无需更改。

fieldDelimiter–数据中的分隔符,类似于hive中的field delimited
在这里插入图片描述

4. writer参数解释

name–一样。起个名字即可

writeMode–控制写入数据到目标表采用 insert into 或者 replace into 或者 ON DUPLICATE KEY UPDATE 语句

username–数据库的用户名

password–数据库的密码

column–数据库表中的列名以及数据类型,这个数据类型按照MySQL中的数据类型即可(由于这个的writer的目标是MySQL)

preSql–数据插入之前执行的SQL语句

jdbcUrl–数据库的连接信息

table–要插入的表


总结

本文仅限于datax的快速入门,简单理解为,零时抱佛脚系列文章
具体学习还是看datax官网: 点我跳转

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

datax的使用以及参数解释,快速入门版 的相关文章

  • 插入最大日期(独立于数据库)

    在我的本地设置中 我使用一个简单的 H2 数据库 托管 解决方案将有另一个 类似但不相同 数据库 我需要将最大可能日期插入到日期时间列中 我尝试使用 Instant MAX 但是 这会导致列中出现 169104626 12 11 20 08
  • 如何创建一个显示 Spinners 的 x 和 y 值的表格?

    我想创建一个位于图表右侧的表格 其中显示 2 列 x 和 y 值已输入到xSpin and ySpin旋转器 我已经画了一张我想要桌子放置的位置的图 我尝试过在网格窗格布局中使用文本框来创建表格并将值直接输入到文本框网格中 但是我无法将它们
  • org.apache.sling.api.resource,version=[2.3,3) -- 无法解析

    您好 我无法访问我的项目内容 我已经上传了从 CQ 访问内容所需的所有包 我唯一能看到的是 org apache sling api resource version 2 3 3 无法解析 这是否是异常的原因 如果是 请告诉我如何解决 中Q
  • 如何使用 Java 处理 Selenium WebDriver 中的新窗口?

    这是我的代码 driver findElement By id ImageButton5 click Thread sleep 3000 String winHandleBefore driver getWindowHandle drive
  • Java AES 128 加密方式与 openssl 不同

    我们遇到了一种奇怪的情况 即我们在 Java 中使用的加密方法会向 openssl 生成不同的输出 尽管它们在配置上看起来相同 使用相同的键和 IV 文本 敏捷的棕色狐狸跳过了懒狗 加密为 Base64 字符串 openssl A8cMRI
  • JavaFX 中具有自定义内容的 ListView

    How i can make custom ListView with JavaFx for my app I need HBox with image and 2 Labels for each line listView 您可以通过查看
  • Cassandra java驱动程序协议版本和连接限制不匹配

    我使用的java驱动程序版本 2 1 4卡桑德拉版本 dsc cassandra 2 1 10cql 的输出给出以下内容 cqlsh 5 0 1 Cassandra 2 1 10 CQL spec 3 2 1 Native protocol
  • 如何安全地解决这个 Java 上下文类加载器问题?

    我的数百名用户中只有一位在启动我的 Java 桌面应用程序时遇到问题 他只有大约三分之一的时间开始 另外三分之二的时间在启动时抛出 NullPointerException Exception in thread AWT EventQueu
  • 我需要什么库才能在 Java 中访问这个 com.sun.image.codec.jpeg?

    我正在用java创建一个图像水印程序 并导入了以下内容 import com sun image codec jpeg JPEGCodec import com sun image codec jpeg JPEGEncodeParam im
  • Hazelcast 分布式锁与 iMap

    我们目前使用 Hazelcast 3 1 5 我有一个简单的分布式锁定机制 应该可以跨多个 JVM 节点提供线程安全性 代码非常简单 private static HazelcastInstance hInst getHazelcastIn
  • 在 Netbeans 8 上配置 JBoss EAP 的问题

    我已经下载了 JBoss EAP 7 并正在 Netbeans 8 上配置它 我已经到达向导 实例属性 其中要求从选择框中选择 域 当我打开选择框时 它是空的 没有什么可以选择的 因此 完成 按钮也处于非活动状态 这使得无法完成配置 我通过
  • Java 8 流 - 合并共享相同 ID 的对象集合

    我有一系列发票 class Invoice int month BigDecimal amount 我想合并这些发票 这样我每个月都会收到一张发票 金额是本月发票金额的总和 例如 invoice 1 month 1 amount 1000
  • 具有 java XSLT 扩展的数组

    我正在尝试使用 java 在 XSLT 扩展中使用数组 我收到以下错误 Caused by java lang ClassCastException org apache xpath objects XObject cannot be ca
  • Java 中的“Lambdifying”scala 函数

    使用Java和Apache Spark 已用Scala重写 面对旧的API方法 org apache spark rdd JdbcRDD构造函数 其参数为 AbstractFunction1 abstract class AbstractF
  • Javafx过滤表视图

    我正在尝试使用文本字段来过滤表视图 我想要一个文本字段 txtSearch 来搜索 nhs 号码 名字 姓氏 和 分类类别 我尝试过在线实施各种解决方案 但没有运气 我对这一切仍然很陌生 所以如果问得不好 我深表歉意 任何帮助将不胜感激 我
  • Java整数双除法混淆[重复]

    这个问题在这里已经有答案了 方案1 int sum 30 double avg sum 4 result is 7 0 not 7 5 VS 方案2 int sum 30 double avg sum 4 0 Prints lns 7 5
  • 游戏内的java.awt.Robot?

    我正在尝试使用下面的代码来模拟击键 当我打开记事本时 它工作正常 但当我打开我想使用它的游戏时 它没有执行任何操作 所以按键似乎不起作用 我尝试模拟鼠标移动和点击 这些动作确实有效 有谁知道如何解决这个问题 我发现这个问题 如何在游戏中使用
  • 为什么这个作业不起作用?

    我有课Results which extends ArrayList
  • Trie 数据结构 - Java [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 是否有任何库或文档 链接提供了在 java 中实现 Trie 数据结构的更多信息 任何帮助都会很棒 Thanks 你可以阅读Java特里树
  • 如何从 Maven 存储库引用本机 DLL?

    如果 JAR 附带 Maven 存储库中的本机 DLL 我需要在 pom xml 中放入什么才能将该 DLL 放入打包中 更具体地举个例子Jacob http search maven org artifactdetails 7Cnet s

随机推荐

  • 未查询到服务器角色信息,dcdiag结果如果排查:拥有 PDC 角色的服务器已关闭。无法找到时间服务器。 - 网络管理论坛 - 51CTO技术论坛_中国领先的IT技术社区...

    目录服务器诊断 正在执行初始化设置 正在尝试查找主服务器 正在验证本地计算机 HTTDC01 是否为目录服务器 主服务器 HTTDC01 正在连接到服务器 HTTDC01 上的目录服务 已识别的 AD 林 Collecting AD spe
  • iPhone XR 突然黑屏转圈圈的解决方法

    事件描述 今天早上我老婆的iphone xr突然黑屏转圈圈 过了好久也没有恢复正常 就找上我这个程序员了 这种机型的这种情况还不是个例 约几个月前我一个同事刚买到手就出现这个问题 当时困扰了他好久 我老婆买到现在却一直没有出现这种问题 她的
  • USB CDC虚拟串口复合设备

    CDC包含一个控制接口和一个数据接口 1 控制接口 必要的有CM功能描述符和接口绑定描述符 IAD Union 在我电脑上测试控制接口的中断端点也可以不需要 及控制接口端点数量可以为0 1 1 ACM功能描述符 在虚拟串口中 控制接口需要处
  • 类文件结构

    类文件结构 深入理解Java虚拟机 第2版 Java虚拟机不和包括Java在内的任何语言绑定 它只与 Class文件 这种特定的二进制文件格式锁关联 不管是Java代码编译为存储字节码的Class文件 还是使用JRuby等其他语言的编译器将
  • hive中的复杂类型使用

    在Hive 中如何使用符合数据结构 maps array structs 1 Array的使用 创建数据库表 以array作为数据类型 create table person name string work locations array
  • Qt designer 中设置背景图片,以及子窗体不继承父窗体背景的方法

    设置背景图片 子窗体不继承父窗体背景
  • html5扑克牌游戏源码,【web】纯JavaScript实现window经典纸牌游戏

    JavaScript 纯文本查看 复制代码 循环遍历将poker图片添加到数组中 var pokersList var flower 0 for var i 1 i lt 52 i var poker new Image poker src
  • Hexo 美化优化配置(持续更新)

    文章目录 添加网站运行时间 添加文章边框阴影效果 在Hexo博客中插入图片 src 链接 本地绝对路径 本地相对路径 Base64 格式 参考链接和工具 相册 某某地方玩 广告 新建文章时 在相同目录下创建同名文件夹 便于图片管理 评论系统
  • Qt控件增加属性并通过添加的属性设置样式

    Qt控件增加属性并通过添加的属性设置样式 1 应用场景 在Qt应用编程中经常要对应用的界面进行美化 这里要用到样式表qss 下面说的方法适用于对某一种控件在界面上有几种不用的风格样式 例如 界面上有两种风格的button 2 设置方法 给要
  • idea java项目转javaWeb

    Idea的java项目转换为javaWeb项目 file Project structure Modults Web 配置web xml文件位置 和web资源目录 注意 删除目录的时候要apply在添加 然后修改
  • 基于SSM的人才招聘网站

    末尾获取源码 开发语言 Java Java开发工具 JDK1 8 后端框架 SSM 前端 采用JSP技术开发 数据库 MySQL5 7和Navicat管理工具结合 服务器 Tomcat8 5 开发软件 IDEA Eclipse 是否Mave
  • 富文本插件 Tinymce图片上传 img地址变为本地地址

    描述 本人使用Tinymce富文本插件时出现的bug 图片上传 images upload handler blobInfo success gt new Promise resolve reject gt console log blob
  • RDS主/ECS从(只读)建立主从同步

    阿里云RDS 基础版 及阿里云ECS自建Mysql5 7主从 参考文章 新主从数据库搭建 gt gt http blog csdn net abcdocker article details 71249809 RDS高级版主从ECS搭建 g
  • 模拟定位原理

    背景描述 越来越多的用户通过位置模拟的方式 将自己的位置伪造成任意地点 通过发布有暗示性内容的动态进行用户引流或者杀猪盘操作 今天不讨论这些用户 单纯从技术的角度分析一下位置模拟是怎么实现的 目前常见位置信息模拟方式 基于开发者模式的位置修
  • C++的引用详解

    引用 注意事项 1 引用必须初始化 2 初始化后将不能更改 原因是int p a 相当于 int const p a 使用方法 1 给一个变量起一个别名 2 作为函数参数传参 函数中的操作同样对实参有效 3 作为函数返回值 int func
  • 使用element UI el-upload组件实现视频文件上传及上传进度显示方法总结

    使用element UI el upload组件实现视频文件上传及上传进度显示方法总结
  • Mysql学习笔记3: 查询截取分析

    第 3 章 查询截取分析 1 查询优化 1 1 MySQL 优化原则 mysql 的调优大纲 慢查询的开启并捕获 explain 慢SQL分析 show profile查询SQL在Mysql服务器里面的执行细节和生命周期情况 SQL数据库服
  • 第七周PCL学习--点云配准(七)

    目录 引言 一 点云配准 1 1 定义 1 2 含义 1 3 配准过程 1 4 算法原理 1 5 实验 二 总结 三 参考 引言 随着计算机辅助设计技术的发展 通过实物模型产生数字模型的逆向工程技术 由于它的独特魅力获得了越来越广泛的应用
  • CVE-2023-21839:Oracle WebLogic Server RCE

    CVE 2023 21839允许远程用户在未经授权的情况下通过 IIOP T3 进行 JNDI lookup 操作 当 JDK 版本过低或本地存在小工具 javaSerializedData 时 这可能会导致RCE漏洞 影响版本 Weblo
  • datax的使用以及参数解释,快速入门版

    datax的使用以及参数解释 文章目录 datax的使用以及参数解释 前言 一 datax是什么 二 文件配置说明 1 查看配置文件 2 配置参数解释 3 reader参数解释 4 writer参数解释 总结 前言 本文我们介绍一下data