Pyspark的dataframe写入hive表

2023-11-10

文章最前：我是Octopus，这个名字来源于我的中文名--章鱼；我热爱编程、热爱算法、热爱开源。所有源码在我的个人github ；这博客是记录我学习的点点滴滴，如果您对 Python、Java、AI、算法有兴趣，可以关注我的动态，一起学习，共同进步。

相关文章：

文章目录：

1. 创建pyspark的DataFrame

2.hive表的结构

3.pyspark的DSL风格写入Hive表

1. 创建pyspark的DataFrame

import pandas as pd
temp_dict ={
    'id':[1,2,3,4,9],
    'date':['2022-05-01','2022-05-02','2022-05-03','2022-05-04','2022-05-05'],
    'vol':[68,45,899,45,32],
    'need':[-4,18,66,18,65],
    'need2':[-4,19,66,18,65]
}
tempdf = pd.DataFrame(temp_dict)
df = spark.createDataFrame(tempdf)

2.hive表的结构

CREATE TABLE if NOT EXISTS tmp.table_5_15 (
  id int comment 'id',
  date string comment 'date',
  vol INT comment 'vol',
  need int comment 'need',
  nee2 int comment 'need2'
)
partitioned by
(dt string COMMENT '分区字段')stored as parquettblproperties('parquet.compression'='SNAPPY'

3.pyspark的DSL风格写入Hive表

spark.sql("set hive.exec.dynamic.partition.mode = nonstrict")
spark.sql("set hive.exec.dynamic.partition=true")
df.write.format("Hive") \
        .mode('overwrite') \
        .partitionBy("dt") \
        .option("header", "false") \
        .option("delimiter", "\t") \
        .saveAsTable("tmp.table_5_15")

pySpark直接存储hive，这里的"dt"是分区字段
mode分为"overwrite"'和”append"
"append”是向表中添加数据
"overwrite"是重新建表再写，意味着会删除原本的所有数据，而不仅仅只删除当前分区的数据

4.DSL风格写入hive表不删除其他分区

configs = [
    ('spark.app.name', 'algo2_spark2_demo'),
    ('spark.driver.memory', '4g'),
    ('spark.executor.memory', '4g'),
    ('spark.executor.instances', '2'),
    ('spark.executor.cores', '2'),
    ('spark.kryoserializer.buffer.max','128m'),
    ("hive.exec.dynamic.partition.mode", "nonstrict") ,
    ("spark.sql.sources.partitionOverwriteMode", "dynamic")
]

conf.setAll(configs)
sc = SparkContext.getOrCreate(conf=conf)
spark = HiveContext(sc)
df.write.insertInto("tmp.table_5_15", overwrite=True)

这个方式插入数据不会影响其他分区。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pyspark专栏

hive

Hadoop

大数据

Pyspark的dataframe写入hive表的相关文章

Hadoop NoSuchMethodError apache.commons.cli

我在用着hadoop 2 7 2我用 IntelliJ 做了一个 MapReduce 工作在我的工作中我正在使用apache commons cli 1 3 1我把库放在罐子里当我在 Hadoop 集群上使用 MapReduceJob
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
无法验证 serde：org.openx.data.jsonserde.jsonserde

我编写了这个查询来在配置单元上创建一个表我的数据最初是 json 格式所以我已经下载并构建了 serde 并添加了它运行所需的所有 jar 但我收到以下错误 FAILED Execution Error return code 1 fr
如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

问题最终解决检查底部的我的解决方案最近我尝试运行 Mahout in Action 的第 6 章列表 6 1 6 4 中的推荐示例但我遇到了一个问题我用谷歌搜索但找不到解决方案问题是我有一对映射器减速器 public fina
Sqoop 导出分区的 Hive 表

我在尝试导出分区的 Hive 表时遇到了一些问题这是否完全受支持我尝试用谷歌搜索并找到一张 JIRA 票证 sqoop export connect jdbc mysql localhost testdb table sales exp
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path
当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs
覆盖hadoop中的log4j.properties

如何覆盖hadoop中的默认log4j properties 如果我设置 hadoop root logger WARN console 它不会在控制台上打印日志而我想要的是它不应该在日志文件中打印 INFO 我在 jar 中添加了一个
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
以不同用户身份运行 MapReduce 作业

我有一个与 Hadoop 交互的 Web 应用程序 Cloudera cdh3u6 特定的用户操作应在集群中启动新的 MapReduce 作业该集群不是一个安全集群但它使用简单的组身份验证因此如果我以自己的身份通过 ssh 连接到它
sqoop 通过 oozie 导出失败

我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常但是当我通过调用oozie 它出现以下错误并失败我还包括了罐子没有描述性日志 sqoop脚本 export c
AWS EMR 引导操作为 sudo

我需要更新 etc hosts适用于我的 EMR 集群 EMR AMI 4 3 中的所有实例整个脚本无非就是 bin bash echo e ip1 uri1 gt gt etc hosts echo e ip2 uri2 gt gt e
Hadoop 超立方体

嘿我正在启动一个基于 hadoop 的超立方体具有灵活的维度数有人知道这方面现有的方法吗我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它另一种方法是Z
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
如何在hadoop mapreduce/yarn中设置VCORES？

以下是我的配置 mapred site xml map mb 4096 opts Xmx3072m reduce mb 8192 opts Xmx6144m yarn site xml resource memory mb 40GB min

随机推荐

《C++ Primer》学习笔记（十二）：动态内存

C Primer 学习笔记十二动态内存动态内存与智能指针 shared ptr 内存耗尽 shared ptr与new结合使用智能指针和异常 unique ptr weak ptr 动态数组 allocator类使用标准库设计文本
拉普拉斯近似算法小结

序在机器学习中经常遇到需要对复杂分布进行近似的情况目前常用的近似算法主要有三种拉普拉斯近似变分近似 Gibbs采样其中拉普拉斯近似算法是用一个高斯分布来近似原始分布当原始分布比较简单的时候效果会较好目标用一个高斯分布近似一
2024届暑期实习实录（阿里云大数据研发平台）

1 项目介绍介绍一下你觉得有挑战的项目 1 项目的痛点需求配置变更的痛点你做的目的是什么思考方向业务背景用户需求产品发展产品现有局限问题 2 项目技术的难点设计思考方向业务抽象技术调研架构梳理 3 有无涉及多线程
使用IDEA创建SpringBoot项目

参考慕课网廖师兄两小时学会Springboot http www imooc com learn 767 1 打开IDEA 创建新项目选择Spring Initializr 2 输入Artifact 3 勾选Web 4 点击fini
SpringFramework事件与监听机制（事件）

SpringBoot版本 2 0 2 RELEASE SpringFramework版本 RELEASE 文章目录 SpringFramework事件与监听机制 SpringFramework的事件 SpringFramework与Spri
爬取地铁站数据，计算两点距离

爬取地铁站数据计算两点距离爬取地铁站数据代码计算两点距离效果图爬取地铁站数据代码 import json import requests from bs4 import BeautifulSoup headers user age
[网络安全自学篇] 八十三.WHUCTF之CSS注入、越权、csrf-token窃取及XSS总结

这是作者网络安全自学教程系列主要是关于安全工具和实践操作的在线笔记特分享出来与博友们学习希望您喜欢一起进步前文分享了WHUCTF隐写和逆向题目包括文字解密图片解密佛语解码冰蝎流量分析逆向分析这篇文章将详细讲解一道CSS
D3D9Texture::_loadNormTex

D3D9Texture loadNormTex D3D9Texture loadImpl
消息中间件---RabbitMQ

目录 1 消息队列 1 1 MQ相关概念 1 1 1 什么是MQ 1 1 2 MQ的功能 1 2 RabbitMQ 1 2 1 概念 1 2 2 四大核心概念 1 2 3 RabbitMQ核心部分 1 2 4 名词介绍 2 Work Que
B. Permutation

Problem B Codeforces include
pandas中对列进行上下平移(shift)

在利用Python进行数据操作时有时需要对数据某列数据进行上下平移比如对某一列进行错位加减 pandas里的groupby和shift两个函数就能轻松实现上述操作 df pd DataFrame name a a a b b c val
新系统如何确定性能测试目标

前提新系统上线没有明确数字对比性能需求非可度量完成目标 1 服务器的某些资源已耗尽如CPU 内存句柄数据库存在大量slow query 2 需求证明系统是可水平扩展的即增加服务器配置系统TPS 吞吐量能上去
回忆，这一年（华师918血泪贴）

回忆这一年华师918血泪贴考研前夕回想一年前当时这个时候我应该刚通过了部门的实习答辩拿了不错的评分不出意外就等着签三方了打算骑牛找马看看秋招的机会但是双非出身的我一直希望摆脱那种囚笼困境需要付出比常人更多才能得到人家脱
【五一创作】跑alpaca-lora语言模型的常见问题（心得）

训练部署alpaca lora语言模型常见问题 Alpaca Lora是一个开源的自然语言处理框架使用深度学习技术构建了一个端到端的语言模型在训练和部署alpaca lora语言模型时可能会遇到一些常见问题本文将介绍一些这些问题及其
计算机应用基础绩点3.0,学分绩点和期末考说明(华师).doc

学分绩点和期末考说明华师 doc 由会员分享提供在线免费全文阅读可下载此文档格式为doc 更多相关学分绩点和期末考说明华师 doc 文档请在天天文库搜索 1 关于学分绩点的一些说明首先我们先来了解下几个概念吧1 学分是用于计算
【CANN训练营】Ascend目标检测与识别-定制自己的AI应用

参考 https gitee com ascend samples tree master cplusplus level3 application 1 cv detect and classify 1 准备工作 cd samples cp
python画易烊千玺_Python02

class A object def init self 私有在变量名称前加上私有不可继承不可在外部调用但是可以在内部调用 self a 1000 约定使用来表示私有 self def B self print self a A
python(数据分析)第4天：绘制网格

plt grid import matplotlib pyplot as plt import random import matplotlib from matplotlib import cycler from matplotlib f
解决ssh_exchange_identification: read: Connection reset by peer

解决ssh exchange identification read Connection reset by peer linux远程免密登陆出现上述报错 1 先在远程机器上 vi etc hosts allow 在里面写入允许所有ip连
Pyspark的dataframe写入hive表

文章最前我是Octopus 这个名字来源于我的中文名章鱼我热爱编程热爱算法热爱开源所有源码在我的个人github 这博客是记录我学习的点点滴滴如果您对 Python Java AI 算法有兴趣可以关注我的动态一起学习共同

Pyspark的dataframe写入hive表

1. 创建pyspark的DataFrame

2.hive表的结构

3.pyspark的DSL风格写入Hive表

4.DSL风格写入hive表不删除 其他分区

Pyspark的dataframe写入hive表 的相关文章

随机推荐

热门标签

4.DSL风格写入hive表不删除其他分区

Pyspark的dataframe写入hive表的相关文章