pandas将千万行数据分块保存为CSV文件，保存为HDF5文件

2023-05-16

从数据库读取数据保存为CSV，然后转换为HDF5，用于后面数据快速处理

from sqlalchemy import create_engine
import cx_Oracle as cx
import pandas as pd

class Analyze:
    dsnStr = cx.makedsn("ip", "port", service_name="spvdb")
    engine = create_engine("oracle://username:password@%s" % dsnStr)
    conn = engine.connect().execution_options(stream_results=True)

    def save_csv(self, query, filename):
        """
        保存为CSV文件
        """
        for chunk in pd.read_sql(sql=query, con=self.conn, chunksize=50000):
            chunk.to_csv(filename, encoding="utf_8_sig", mode="a", index=False)
            del chunk
            print("保存文件中...")

        print("保存CSV文件完成")

    def save_hdf5(self, csv_table, hdf_table):
        """
        保存为HDF5文件
        """
		# for chunk in pd.read_csv(csv_table, chunksize=50000):
		#     chunk.to_hdf(hdf_table, "data", mode="a")
		#     del chunk
		#     print("保存文件中...")
		# 
		# print("保存HDF5文件完成")  
		"""
		上面这种方法不行，最后只添加最后一分块的数据
		"""
		store = pd.HDFStore(hdf_table, mode="w")
		for chunk in pd.read_csv(csv_table, chunksize=50000):
		    chunk = pd.DataFrame(chunk).astype(str)
		    store.append("df", chunk)
		    del chunk
		    print("保存文件中...")
		store.close()
		print("保存HDF5文件完成")

    def read(self):
        realtime = pd.read_hdf("realtime.hd5")
        print(realtime)


if __name__ == '__main__':
    rs = Analyze()
    # 保存为CSV
    # rs.save_csv(query="select * from realtime", filename="realtime.csv")
    # 保存为HDF5
    # rs.save_hdf5(csv_table="realtime.csv", hdf_table="realtime.hd5")
    rs.read()

之前在网上找的分块读取的，但是实际使用的时候，速度太慢（千万行数据），记录一下

def query_result(query):
	chunk_list = []
	for chunk in pd.read_sql(query, con=conn, chunksize=50000):
	# for chunk in pd.read_csv(query, chunksize=50000):
		chunk_list.append(chunk)
		del chunk
	dfs = pd.concat(chunk_list, ignore_index=True)
	
	return dfs

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas将千万行数据分块保存为CSV文件，保存为HDF5文件的相关文章

求解gcd最大公约数的两种算法

文章目录 1 更相减损术2 辗转相除法3 两种算法的比较 1 更相减损术即 xff1a 辗转相减法是由我国古代九章算术提出的一种求解最大公约数 Grand Central Dispatch 的算法代码示例 xff1a span c
【AWVS】python调AWVS接口新建扫描并导出扫描报告（一）

文章目录前言一先上完整python代码二 AWVS介绍三准备工作1 获取 API KEY2 Header 设置1 接口介绍2 python代码 3 屏蔽警告四接口验证1 查看Targets扫描队列1 接口介绍2 python代码3
Echarts中国地图与世界地图实战

文章目录前言一先上代码1 中国地图2 世界地图二图示1 中国地图2 世界地图二 Echarts简介1 介绍2 实战流程1 引入echarts js2 定义一个图表容器DIV xff0c 定义id 61 xxx3 初始化echart
部署微软的Bringing-Old-Photos-Back-to-Life，实战和踩坑

在Windows 10上部署微软的 Bringing Old Photos Back to Life 关于 Bringing Old Photos Back to Life部署的步骤1 下载源代码2 下载组件2 1 下载PyTorch h
【AWVS】python调AWVS接口新建扫描并导出扫描报告 [自定义扫描报告]（三）

文章目录前言一代码二关键技术2 1 代码2 2 最重要的方法 replace 2 1 1 描述2 1 2 语法2 1 3 参数2 1 4 特别注意 2 3 实现方法2 3 1 修改左上角logo2 3 2 修改文字三修改图片的另一
【web】data:image/png；python-base64用法与实现（一）

文章目录一应用场景二 Data URI Scheme三 python base64文件编解码3 1 编码3 1 1 代码3 1 2 输出结果3 1 3 实现步骤 3 2 解码3 2 1 代码一应用场景在html的源码中 xff0c
【python】json.dumps() 与 json.loads() 用法

文章目录一 JSON介绍二 Python和Json数据类型的映射三 json load s 与json dump s 区别四测试4 1 json dumps 4 2 json loads 4 3 json dump 4 4 json l
【信息收集】利用Wappalyzer进行cms指纹识别（十）

文章目录一 Wappalyzer介绍二设计原理三 python实现代码一 Wappalyzer介绍 Wappalyzer 是一款浏览器插件 xff0c 通过 Wappalyzer 可以识别出网站采用了那种 web 技术它能够检测出
【word】批量添加图片题注与批量更新图注

一批量添加图注 1 选择一张图片插入题注 xff0c 选中题注 xff0c 然后快捷键shift 43 F9切换为域代码 2 CTRL 43 C复制 xff0c 然后CTRL 43 H打开查找和替换对话框注意只选择 x y 部分 xff
【Ubuntu】Ubuntu20基础配置+go开发配置

这里写自定义目录标题 1 基础配置1 1 安装ifconfig网络管理工具1 2 初始化root密码1 3 换镜像源1 4 关闭息屏休眠1 5 关闭自动更新 2 开发环境2 1 go2 1 1 建立软件目录并安装软件2 1 2 建立go工作
【git】git的一些基础操作

文章目录一 git下载二 git初次操作1 生成公钥2 修改全局用户名和邮箱地址 xff1a 3 本地仓库关联远端仓库4 本地初始化5 将项目上所有的文件添加到本地仓库6 提交到本地仓库7 创建main分支8 推送到main分支9 拉取远
【anaconda】anaconda学习总结

文章目录 1 anaconda介绍2 anaconda下载3 简单配置3 1 加入环境变量3 2 配置pycharm3 3 换源 4 相关命令 1 anaconda介绍 Anaconda指的是一个开源的Python发行版本 xff0c 其包
python项目打包成依赖

python项目打包成依赖 xff08 可以pip install 安装 xff09 python打包成pip包用途 xff1a 可以将别人的代码打包成pip包 xff0c 用pip安装到自己的项目中 xff0c 也可以将自己的代码打包
Linux热键详解：Tab键，Ctrl+c、Ctrl+d

1 Tab键接在一串命令的第一个字段后面 xff0c 则为命令补全 xff1b 若输入is后按两下Tab键则会把所有以is开头的命令都显示出来 xff0c 若时输入ifcon因为其对应的命令只有ifconfig xff0c 所以按一下Tab
UI自动化之driver.Tap坐标定位

相信做UI自动化的小伙伴都知道 xff0c appium不是左右页面的元素都能定位的到的 xff0c 尤其是原生中嵌套了H5页面 xff0c 所有这个时候我们可以通过坐标定位的方式去解决 xff0c 理论上坐标定位可以解决所有的元素识别问题
宣传片制作技巧

0x00 宣传片中故事脚本主要内容客户名称和产品名称 xff1b 宣传片的长度以及每个镜头的时间 xff1b 镜头画面及其文字说明 xff1b 镜头声音的文字描述 xff1b 镜头的拍摄方式与组接方式 xff1b 特殊要求及其他注意事项
2021年山东省职业院校技能大赛中职组“网络搭建与应用”赛项

2021年山东省职业院校技能大赛中职组网络搭建与应用赛项竞赛试题 2021年 12月 3日竞赛说明一竞赛内容分布网络搭建与应用竞赛共分三个部分 xff0c 其中 xff1a 第一部分 xff1a 网络搭建及安全部署项目 x
数组旋转问题【有n个整数，使前面各数顺序向后移m个位置，最后m个数变成最前面m个数】

目录一问题描述 xff1a 二解题思路三代码实现四运行结果一问题描述 xff1a 有n个整数 xff0c 使前面各数顺序向后移m个位置 xff0c 最后m个数变成最前面m个数比如原数组 xff1a 1 2 3 4 5 6 7
【计算机操作系统】（三）系统调用

一系统调用用户接口分为命令接口 xff08 允许用户直接使用 xff09 和程序接口 xff08 允许用户通过程序间接使用 xff09 程序接口由一种系统调用组成系统调用是操作系统提供给应用程序 xff08 程序员 xff09 使用
4.选择排序、冒泡排序、插入排序、计数排序

前言 xff1a 常见的排序操作有选择排序冒泡排序插入排序归并排序堆排序快速排序 xff08 二路快排三路快排 xff09 计数排序基数排序桶排序本文主要介绍的是选择排序冒泡排序插入排序计数排序注 xff1a 以下

随机推荐

Java实现KMP算法匹配字符串的子串

Java实现KMP算法匹配字符串的子串 span class token keyword public span span class token keyword class span KMP span class token punctu
离散数学——关系

关系关系关系的定义几种特殊的关系关系的表示集合表示法矩阵表示法关系图表示法关系的性质由关系图关系矩阵判别关系的性质复合关系与逆关系关系的并交补及对称差运算复合关系逆关系关系的闭包运算关系的闭包的概念关系的闭包的求法集合的划分
anaconda装好后，cmd不能使用conda等命令的解决
一个数组A中存有N（＞0）个整数，在不允许使用另外数组的前提下，将每个整数循环向右移M（≥0）个位置，即将A中的数据由（A0 A1⋯AN−1）变换为（AN−M ⋯AN−1 A0 A1⋯AN−M−1

一个数组A中存有N xff08 gt 0 xff09 个整数 xff0c 在不允许使用另外数组的前提下 xff0c 将每个整数循环向右移M xff08 0 xff09 个位置 xff0c 即将A中的数据由 xff08 A0 A1 AN 1
字符串的hash进阶（算法笔记）题目：给出N个只有小写字母的字符串，求其中不同的字符串的个数

字符串的hash进阶 xff08 算法笔记 xff09 题目 xff1a 给出N个只有小写字母的字符串 xff0c 求其中不同的字符串的个数 set总会自动将重复的数字删去 xff0c 因此选择用set span class token m
ROS虚拟机与树莓派通信

问题 xff1a 能否用手机热点作为虚拟机与树莓派的通信网络 xff1f 答案当然是可以的区别于路由器 xff0c 在使用手机热点时 xff0c 我发现此时虚拟机端可以发送数据到树莓派端 xff0c 而树莓派端不能将数据传送到虚拟机端解
UI自动化之aircv图像识别中心坐标点击

接上篇 xff1a UI自动化之driver Tap坐标定位上篇提到driver tap是一种盲点方法 xff0c 那么我们改如何解决 xff0c 这里我用到了aircv图像识别库 xff0c 安装 pip install aircv 思路
[详解]ArchLinux安装

1 无线网络连接如果你用的是有线网络 xff0c 请直接跳过此章节 iwctl span class token comment 进入iwctl span 进入后 xff1a device list span class token co
CSP CCF： 202012-2 期末预测之最佳阈值（C++）

目录题目来源题目描述解题过程完整代码题目来源链接 CCF 期末预测之最佳阈值题目描述解题过程题目要求为选取合适的安全指数阈值 Theta xff0c 使得该阈值对这 m 位同学上学期的挂科情况进行预测 xff0c 预测正确的次数
C++ 中将 Char 转换成 String

64 TOC 概览使用 string string size type count charT ch 构造器使用 push back 使用append 使用 insert 使用string string size type count c
CSP CCF： 201809-3 元素选择器（C++）

目录题目来源数据特点知识点30分60分80分代码完整思路100分题目来源元素选择器数据特点知识点大小写转换 xff1a tolower 大写转小写 xff08 其他字符不会变 xff09 c 43 43 大小写字符数字的判断及
51单片机0-99秒表计数器+60秒倒计时（数码管两位数）

51秒表计数器 43 倒计时 xff08 数码管两位数 xff09 一 xff1a 简介我们实践的效果是用数码管显示0 99并在按下转换键后 xff0c 实现60秒倒计时 xff0c 并用蜂鸣器报警提示 xff0c 兼并计数器和倒计时
系统调用的理解

文章目录系统调用什么是系统调用系统调用的分类系统调用与库函数的区别系统调用什么是系统调用什么是系统调用 xff1f 答操作系统的接口函数是连接应用软件与操作系统的中间桥梁 xff0c 系统调用其实就是操作系统提供给应用程序的接口函
AndroidStudio配置过程中遇到的一些问题

自己在安装并配置Android Studio时遇到的一些坑 xff0c 写出来方便大家解决问题问题一 xff1a BUILD FAILED in 1s Failed to create parent directory C Program
STM32F103C8T6汇编点灯

最简单的结构只有一个数据段只是为了不报错而已 area Reset span class token punctuation span data span class token punctuation span readonly sp
vscode c++连接mysql

因为踩坑太多所以写下该篇博客首先要下载mysql 这里用的是MySQL8 0 16 记住mysql的安装路径 xff0c 主要是include和lib的路径参考另外一个博主的文章https blog csdn net mzlogin a
python之下载及安装Anaconda

Python Python是一种面向对象的解释型计算机程序设计语言 xff0c 其使用 xff0c 具有跨平台的特点 xff0c 可以在Linux macOS以及Windows系统中搭建环境并使用 xff0c 其编写的代码在不同平台上运行时
UI自动化之TouchAction(dirver).long_press()长按

之前篇说过driver tap可以通过duration参数设置实现长按 xff0c 除外TouchAction也可以 xff0c 而且还可以用之实现多个点击的事件集 xff0c 废话不多说直接贴码 xff1a span class toke
python之 ffmpeg+opencv绿幕抠图，蒙版绿幕抠图，透明化处理，PIL检测图片是否包含透明通道

目录 OpenCV Python实现绿幕图像抠图 python利用蒙版批量抠图并实现透明化 jpeg格式图片进行批量背景透明化处理 PIL检测图片是否包含透明通道 OpenCV Python实现绿幕图像抠图 boy png xff1a 最终
pandas将千万行数据分块保存为CSV文件，保存为HDF5文件

从数据库读取数据保存为CSV xff0c 然后转换为HDF5 xff0c 用于后面数据快速处理 span class token keyword from span sqlalchemy span class token keyword i

pandas将千万行数据分块保存为CSV文件，保存为HDF5文件

从数据库读取数据保存为CSV，然后转换为HDF5，用于后面数据快速处理

pandas将千万行数据分块保存为CSV文件，保存为HDF5文件 的相关文章

随机推荐

热门标签

pandas将千万行数据分块保存为CSV文件，保存为HDF5文件的相关文章