jav中spark迁移hive到mongo（更新数据）

2023-10-31

业务中的数据库使用的mongo，离线使用spark计算的每天统计指标需要累加到历史指标中，然后将结果写到mongo库中。如果mongo库中已经有这条记录则覆盖，mongo库中没有此记录则为新增。

我们如果根据 MongoSpark.save()，这样的操作无法做到如果mongo库中已经有这条记录则覆盖，mongo库中没有此记录则为新增。

我们需要这样做

1、保证数据形式是Dateset，因为这样的格式才会更新

2、将将结果Dataset<Row>进行Append的形式写入mongo即可，因为mongo的主键是_id，所以要将Row的主键改成_id的列名。

具体操作如下：

Dataset<Row> dataset = sparkSession.sql(sql);
            MongoSpark.save(dataset);
            //因为mongo的主键是_id，所以将mongo的_id的值换成hive的id值
            Dataset<Row>mongoData = dataset.withColumnRenamed("id", "_id");
            Map<String, String> writeOverrides = new HashMap<>();
            writeOverrides.put("collection", targetTable);
            WriteConfig writeConfig =  WriteConfig.create(jc).withOptions(writeOverrides);
            //如果目标位置已经存在数据，那么将数据追加;相同_id的数据会直接覆盖
            MongoSpark.save(mongoData.write().mode(SaveMode.Append), writeConfig);

我们来看看SaveMode.Append这个方法，进入方法内部可以看到这些

具体的含义分别是这些

就上就可以实现

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MongoDB

大数据

NoSQL

spark

分布式

jav中spark迁移hive到mongo（更新数据）的相关文章

将 MongoDb 同步到 ElasticSearch

我正在寻找一种将 MongoDB 中的集合与 Elastic Search ES 同步的方法目标是以 MongoDB 作为主要数据源并使用 MongoDB 作为全文搜索引擎我的项目的业务逻辑是用python写的网上有多种方法可供选择
如何使用 mongo-cxx-driver 设置 Visual Studio 项目设置？

我已经在 Windows 10 上成功构建了用于 C 的 MongoDB 驱动程序版本 3 0 3 CMAKE INSTALL PREFIX C mongo cxx driver 但我不知道如何在 Visual Studio 2015 中设
如何访问 Pandas DataFrame 中嵌入的 json 对象？

TL DR 如果 Pandas DataFrame 中加载的字段本身包含 JSON 文档那么如何以类似 Pandas 的方式使用它们目前我直接从 Twitter 库转储 json 字典结果 twython https github co
当使用带 _id 的复合分片键时，MongoDB 是否确保唯一的 _id 字段值

我想启动分片如您所知分片键非常重要我发现使用 id 以外的分片键时 MongoDB 不确保 id 字段值唯一 http docs mongodb org manual faq sharding how does mongodb en
mongodb - 一个集合中的许多文档与多个集合中的许多文档

我使用 mongodb 作为数据库存储我的网络应用程序必须收集用户响应用户响应是 mongodb 中的文档或 sql 中的一行一个文档的长度大约是10 200 用户响应被分类仅到一个类别每个类别的用户响应数在100 5000之间
如何在 mongodb 查询中过滤数组

在 mongodb 中我有一个包含单个文档的集合如下所示 id ObjectId 5552b7fd9e8c7572e36e39df StackSummaries StackId arn aws cloudformation ap sou
使用 MongoDB 和 ASP.NET MVC 进行分页的有效方法

我们正在创建一个应用程序 MongoDB 作为数据库我们正在使用MongoDB 的官方 C 驱动程序 http docs mongodb org ecosystem drivers csharp 我们有一个包含数千条记录的集合我们想要创
如何获取 bson 文档的大小（以字节为单位）

bson文档的size 函数返回的int值是字节数吗无法找到此 API 的详细信息如何获取 bson 文档的大小以字节为单位这是我的代码 import org bson Document MongoDatabase db Mongo
为什么使用 MongoDB 的 $push 向数组添加新对象时会添加带有 ObjectID 的 _id ？

我正在使用 Node js 和 Mongoose 玩家和锦标赛变量是之前获取的 Mongoose 对象我想将一个新的tournamentSession对象不是Mongoose对象添加到玩家对象的tournamentSessions字段
如何在Mongodb java驱动程序中编写多个group by id字段

在下面的查询中 group id success success responseCode responseCode label label max timeStamp timeStamp 1 count responseCode sum
MongoDB $geoIntersects 不适用于包含负顶点的多边形

我已在数据库中存储了跨越 x 轴和 y 轴的多边形并且我想搜索包含给定点的多边形为此我使用 geoIntersects 运算符来指定一个点但是当多边形穿过轴时 MongoDB 不会返回任何多边形我可以对查询或架构进行任何小的更改
如何更改 MongoDB 用户权限？

例如如果我有这个用户 gt db system users find user testAdmin pwd some hash roles clusterAdmin otherDBRoles TestDB readWrite 我想给那个用
非关系数据库设计[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有兴趣了解您使用过的设计策略非关系型 nosql 数据库也就是说不使用传统关系设计或 SQL 的大多数是新的数据存储类例如
什么时候不应该使用 Cassandra？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案相关话题已经有很多讨论了卡桑德拉 http cassandra apache org lately Twitter Digg Facebook
使用 Spring Data MongoDB 查询纯 BSON

是否可以在 Spring Data MongoDB 中查询纯 JSON BSON 数据而无需将数据转换为实际的模型实现我能找到的只是 MongoOperation 的
Mongodb - 为现有集合添加架构

我的 MongoDB 中有一个包含 1300 万条记录的集合不幸的是当我创建这个集合时没有为其创建模式我想知道除了备份整个数据库创建架构并上传所有数据之外是否有任何方法可以添加 JSON 架构您可以使用以下方法将 JSON 架
使用 Tweepy 获取推文时出错

我有一个用于获取推文的 Python 脚本在脚本中我使用该库 Tweepy 我使用有效的身份验证参数运行此脚本后一些推文存储在我的 MongoDB 中有些则被 if 语句拒绝但我仍然收到错误 requests packages u
Pymongo 批量插入

我正在尝试批量插入文档但批量插入时不会插入超过 84 个文档给我这个错误 in insert pymongo errors InvalidOperation cannot do an empty bulk insert 是否可以批量插入
mongodb 聚合 - 累积字段的不同组值

如果我有Player表格文件 name String score Int 我有Group文档其中组代表玩家列表 groupName String players ObjectID 玩家可以属于多个组我想做一个聚合Player文档按以下
Mongoose 独特的验证不起作用。保存重复条目

我正在开发一个 NodeJS 应用程序其中express是框架 MongoDB是数据库我正在使用猫鼬插件我有一个父母模型我已经添加了独特真实到场 mobile 但是每当我添加相同的手机号码时唯一性验证就会失败除了保存重复的文档

随机推荐

Java实现微信扫码登录并实现认证授权

Java实现微信扫码登录并实现认证授权 1 登录流程及原理 1 1 OAuth2协议网站应用微信登录是基于OAuth2 0协议标准构建的微信OAuth2 0授权登录系统在进行微信OAuth2 0授权登录接入之前在微信开放平台注册开发者
java中的date_Java中Date类型详解

一 Date类型的初始化 1 Date int year int month int date 直接写入年份是得不到正确的结果的因为java中Date是从1900年开始算的所以前面的第一个参数只要填入从1900年后过了多少年就是你想要得
Spring：IOC控制反转、@Bean和@Component、日志、注入、注解

Spring核心知识点 Spring 核心功能 IOC 控制反转和 AOP 面向切面编程一什么是IOC Inversion of Control 控制反转 1 主动控制 2 控制反转二使用原生Spring创建Demo项目 1 导入
基于python的opencv入门到精通（一）

记录自己从0开始成长的研究生生活文章目录前言一 Anaconda是什么二已经安装了python如何与Anaconda共存三如何将PyCharm与Anaconda进行关联四配置Anaconda源五如何彻底删除python
使用tf.data.Dataset.from_tensor_slices五步加载数据集

前言最近在学习tf2 数据加载感觉蛮方便的这里记录下使用 tf data Dataset from tensor slices 进行加载数据集使用tf2做mnist kaggle 的代码思路 Step0 准备要加载的numpy数据
记：判断字符串中空格字符的个数

描述输入一行可能带空格的字符串输入其中空格字符的数量输入只有一组案例一行可能带空格的字符串s 输出一个正整数表示字符串s里空格字符的数量不要换行样例输入 abc xyz 样例输出 1 法一 string include
别只知道JVM 而不知道JMM

JAVA 内存模型 JMM 内存模型概念在特定的操作协议下对特定的内存或高速缓存进行读写访问的过程抽象 JMM 主要就是因为CPU的多核多级缓存为了优化代码而进行的指令重排序从而处理器会对代码乱序的问题保证最终的并发安全 JMM是
ROS与STM32F407实现消息通信（含源码）

关注微信公众号混沌无形后台回复 13462EE 免费获取完整工程源码本文参考STM32F1与ROS的通信工程 https blog csdn net qq 36349536 article details 82773064 针对STM
React (三) 修改props，React父传子、子传父、this绑定

Props介绍与应用什么是 props 如何使用父传子函数组件类组件默认值子传父修改 props 事件监听 this 绑定直接在 jsx 元素上进行绑定不推荐箭头函数推荐直接在 jsx 上使用箭头函数不推荐什么是
转：解析HTTP协议六种请求方法,get,head,put,delete,post有什么区别

解析HTTP协议六种请求方法 get head put delete post有什么区别标准Http协议支持六种请求方法即 1 GET 2 POST 3 PUT 4 Delete 5 HEAD 6 Options 但其实我们大部分情况下
如何双击打开vivado工程_【vivado(1)】vivado软件的简单使用

1 create project 为创建工程 open project 为打开工程 2 输入工程名称添加工程的创建位置一般创建一个专有的文件夹存放vivado工程 3 选择工程类型一般情况下VHDL Verilog选择RTL 4 Ad
proxy代理显示404 但请求方式、服务器地址都对

后端使用postman测试过接口没有问题反复检查后确定是代理配置的问题但配置格式也没错由报错看就是代理配置没起作用解决方法项目是vue cli2 创建的所以要在config文件夹里面的index js配置才能生效 vue3
[管理与领导-83]：IT基层管理者 - 核心技能 - 高效执行力 - 8- 提升执行力的三大方法：目标复述、任务分解、寻求帮助

目录前言一复述承诺法先复述再承诺获得正确的目标和需求的方法二分解法化繁为简三团队协作寻求协助的步骤前言高效执行除了通过规范的过程来保障同时在过程执行过程中还需要利用某些方法和技术来提高过程执行的效率和增大快
微信小程序和微信公众号关联

本篇讲述讲把微信小程序关联到微信公众号上使其能在微信公众号中直接进入小程序首先我们的微信小程序要是已经发布好的如果不知道怎么发布小程序可以看我的上一篇文章下面将小程序关联到微信公众号上去使用微信公众号账号登录微信公众平台进入
python wifi密码本下载_WifiPass下载 WifiPass(Python获取本机保存的所有WIFI密码) 免费版下载-脚本之家...

WifiPass Python获取本机保存的所有WIFI密码是由大神写的一个python脚本可用于获取PC上保存过的所有WIFI密码因为XP和Win7系统保存的位置不相同 XP在注册表而Win7 Vista等在ProgramData
网络编程套接字，Linux下实现echo服务器和客户端

目录 1 一些网络中的名词 1 1 IP地址 1 2 端口号port 1 3 端口号和进程ID 1 4 初始TCP协议 1 5 UDP协议 2 socket编程接口 2 1 socket 常见API 2 2 sockaddr结构 3 简
chatgpt赋能python：Python手动安装whl文件的方法

Python手动安装whl文件的方法 Python是目前最为流行的编程语言之一广泛应用于数据分析 AI Web开发等领域 Python的强大之处不仅在于其灵活的语法更在于丰富的第三方库资源这些库资源往往以 whl文件格式提供而手动安
kali linux破解wifi密码-超详细过程

前期准备 VMware Workstation虚拟机在虚拟机安装好kail linunx系统无线网卡芯片为3070或者1887L都支持Linux 或者直接某宝上查kali无线网卡一打开终端用airmon ng命令查看如果出现无
Matplotlib学习---用matplotlib画散点图，气泡图（scatter plot, bubble chart）

Matplotlib里有两种画散点图的方法一种是用ax plot画一种是用ax scatter画一用ax plot画 ax plot x y marker o color black 二用ax scatter画 ax scatte
jav中spark迁移hive到mongo（更新数据）

业务中的数据库使用的mongo 离线使用spark计算的每天统计指标需要累加到历史指标中然后将结果写到mongo库中如果mongo库中已经有这条记录则覆盖 mongo库中没有此记录则为新增我们如果根据 MongoSpark save

jav中spark迁移hive到mongo（更新数据）

jav中spark迁移hive到mongo（更新数据） 的相关文章

随机推荐

热门标签

jav中spark迁移hive到mongo（更新数据）的相关文章