DATAX 数据同步 My SQL->Hive

2023-10-31

DATAX 数据同步 My SQL->Hive

安装

DATAX官方地址:https://github.com/alibaba/DataX

DATAX-WEB官方地址:https://github.com/WeiYe-Jing/datax-web

注:官方已经给了很详细的安装文档。这里不过多解释。

遇到的问题

# 在跑job的时候遇到如下问题
/usr/bin/python: can't find '__main__' module in

# 解决办法
vim {datax-web}/modules/datax-executor/bin/datax-executor.sh 

# 找到对应的
JAVA_OPTS=${JAVA_OPTS}" -Dserver.port="${SERVER_PORT}" -Ddata.path="${DATA_PATH}" -Dexecutor.port="${EXECUTOR_PORT}" -Djson.path="${JSON_PATH}" -Dpython.path="${PYTHON_PATH}" -Ddatax.admin.port="${DATAX_ADMIN_PORT} 

# 修改如下
JAVA_OPTS=${JAVA_OPTS}" -Dserver.port="${SERVER_PORT}" -Ddata.path="${DATA_PATH}" -Dexecutor.port="${EXECUTOR_PORT}" -Djson.path="${JSON_PATH}" -Dpython.path="{datax}/bin/datax.py" -Ddatax.admin.port="${DATAX_ADMIN_PORT} 

# 最后重启datax-web
{datax-web}/bin/stop-all.sh 
{datax-web}/bin/start-all.sh 

问题二

# DataX报错解决办法 - 在有总bps限速条件下,单个channel的bps值不能为空,也不能为非正数
# 修改datax/conf/core.json
# 修改core -> transport -> channel -> speed -> "byte": 2000000
"core": {
        "dataXServer": {
            "address": "http://localhost:7001/api",
            "timeout": 10000,
            "reportDataxLog": false,
            "reportPerfLog": false
        },
        "transport": {
            "channel": {
                "class": "com.alibaba.datax.core.transport.channel.memory.MemoryChannel",
                "speed": {
                    "byte": 2000000,
                    "record": -1
                },
                "flowControlInterval": 20,
                "capacity": 512,
                "byteCapacity": 67108864
            },
            "exchanger": {
                "class": "com.alibaba.datax.core.plugin.BufferedRecordExchanger",
                "bufferSize": 32
            }
        },
}

mysqlToHiveDemo

  • 先新建一个项目

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CWuYJXIV-1679469085149)(./pic/1.jpg)]

  • 增加数据源

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9gr66ods-1679469085150)(./pic/2.jpg)]

  • 新构建任务

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R5vEHYGV-1679469085150)(./pic/3.jpg)]

  • 执行任务

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rDNvq7NU-1679469085151)(./pic/4.jpg)]

  • 查看日志

    图略。

注:这里说明一下分区表如何操作(这里演示静态分区)。

- 静态分区
create table student2(
    commentId int,
    newsId int,
    content String,
    userIP string,
    commentDate date
)
partitioned by (day string)
row format delimited fields terminated by '\t';

alter table student2 add partition (day=20230322);

执行脚本的时候修改如下

# 相关配置文件
"path": "/user/hive/warehouse/test.db/student2/day=20230322"

结果如下所示

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-U7e0cuqu-1679469085151)(./pic/5.jpg)]

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

DATAX 数据同步 My SQL->Hive 的相关文章

随机推荐

  • SQL 常用&高级 教程

    用SELECT INTO 或INSERT INTO复制表结构 数据 MySQL 数据库不支持 SELECT INTO 语句 但支持 INSERT INTO SELECT MySQL可以使用以下语句来 1 拷贝表结构及数据 CREATE TA
  • 【学习笔记】R数据科学(R for Data Science)—第3章 使用dplyr进行数据转换

    dplyr包是tidyverse中的一个核心R包 dplyr的5个核心函数 按值筛选观测 filter 对行进行重新排序 arrange 按名称选取变量 select 使用现有变量的函数创建新变量 mutate 将多个值总结为一个摘要统计量
  • 设置文本阴影和溢出效果

    一 文本阴影效果 方法一 显示字体时 根据要求 为文字阴影添加颜色以增强网页的吸引力 这时就需要用到CSS3样式中的text shadow属性 text shadow 阴影水平偏移值 可正负 阴影垂直偏移值 可正负 阴影模糊值 阴影颜色 后
  • 为什么 i&1 可以判断奇偶

    记录一下看到过几次但是总会遗忘的知识点 是位运算 在计算机里是只认识二进制的 我们人类用的一般是十进制 而二进制有个特点就是每一位上要么是0要么是1 还有一个特点是如果哪个位置是1 那一位的值就是2n 这个符号表示次方 n就是这个1所处的位
  • 吴恩达机器学习python代码练习三(多类别分类)

    import numpy as np import pandas as pd import matplotlib pyplot as plt import scipy io as sio from scipy optimize import
  • 使用ddt实现unittest的参数化测试

    0 前言 本文介绍如何使用ddt库来完成unitest的参数化设置 ddt的github地址 ddt的官方文档 1 为什么需要参数化 我们在写单测中 需要考虑到各种场景 通过输入各种场景的值执行目的的方法 来判断输出是否是我们所期待的值 如
  • Android 中WebView的使用详解

    博主前些天发现了一个巨牛的人工智能学习网站 通俗易懂 风趣幽默 忍不住也分享一下给大家 点击跳转到网站 前言 通过WebView控件可以实现加载网页的效果 加载URL 网络或者本地assets文件夹下的html文件 加载html代码 Nat
  • 测开学习技能清单

    一 代码语言 打好语言基础 python java 底层语言主要掌握java 更高级的语法可以选择python去学习 领域预演 DSL shell SQL Docker shell 是指一种应用程序 这个应用程序提供了一个界面 用户通过这个
  • 在Lumia 950 XL上运行Windows 10 ARM64,是种什么体验?

    本文于2019年02月01日首发于IT之家 地址 点击这里 2019年1月 据IT之家报道 微软Lumia 950 XL刷Windows 10 ARM64项目取得了巨大进展 显卡驱动已经成功运行 随后 适用于Lumia 950 XL的WiF
  • MYSQL 数据存在 (多条件同时满足)则更新,不存在则添加

    需求 提交数据时 数据不存在则添加 数据存在则更新 此处判断数据是否存在需要满足2个条件 cid date 如果两者同时满足的情况下 才更新数据 否则添加数据 表结构 使用的方法是 on duplicate key update INSER
  • 蓝桥杯 全球变暖 bfs学习

    全球变暖 你有一张某海域NxN像素的照片 表示海洋 表示陆地 如下所示 其中 上下左右 四个方向上连在一起的一片陆地组成一座岛屿 例如上图就有2座岛屿 由于全球变暖导致了海面上升 科学家预测未来几十年 岛屿边缘一个像素的范围会被海水淹没 具
  • 芜湖今年小升初计算机考试,刚刚!芜湖幼升小、小升初网上报名时间定了!附报名流程和具体安排...

    就在今天 芜湖发布了 关于做好2021年芜湖市义务教育网上报名审核工作的通知 其中明确幼升小和小升初的网上报名时间 家长们赶紧来看看 这则重要通知还说了哪些关于报名的重要信息吧 公办义务教育学校网上报名工作安排 民办义务教育学校网上报名工作
  • 使用torch以及tensorflow训练一个最简单网络的基本步骤

    torch import torch import torch nn functional as F import matplotlib pyplot as plt x torch Tensor unsqueeze torch Tensor
  • 本地域名解析hosts

    本地域名解析hosts 一 这个系统文件就是HOSTS文件 二 Hosts文件的基本内容和语法 三 Hosts文件的工作方式 问题 127 0 0 1 activate adobe com 这句话是什么意思 一 这个系统文件就是HOSTS文
  • conda环境中配置cuda+cudnn+pytorch深度学习环境

    本文参考 在conda虚拟环境中配置cuda cudnn pytorch深度学习环境 新手必看 简单可行 conda安装cudnn 江江ahh的博客 CSDN博客 一 创建虚拟环境 conda create n mytorch python
  • Connect函数第五个参数的作用

    第五个参数多线程才有意义 连接方式 默认 队列 直接 默认时 如果是多线程 默认使用队列方式 如果是单线程 默认使用直接方式 队列 槽函数所在的线程和信号接受者一样 直接 槽函数和所在线程和发送者一样
  • 使用mybatis无法向数据库中插入数据且后台无任何错误

    最近自己再搭建springboot mybatis的简单框架 但是一个insert功能纠结了我很长时间 头疼 insert不进去 那么检查点肯定是以下几种 后台是否报错 是否有异常抛出 没有 完全正常 还能返回到正常页面 无奈 mapper
  • C++中cout,cin,endl

    VC中头文件为 include
  • 常用的像素操作算法:图像加法、像素混合、提取图像中的ROI

    图像可以是看成是一个多维的数组 读取一张图片 可以看成是读入了一系列的像素内容 这些像素内容 按照不同的模式具有不同的格式 对于三通道的 RGB 位图来说 每个像素是一个 8 bit 整数的三元组 图像的像素操作是比较基础的图像算法 下面列
  • DATAX 数据同步 My SQL->Hive

    DATAX 数据同步 My SQL gt Hive 安装 DATAX官方地址 https github com alibaba DataX DATAX WEB官方地址 https github com WeiYe Jing datax we