从 MySQL 将 500 万行加载到 Pandas 中

2024-05-22

我在（本地）网络上的 MySQL 数据库中有 500 万行（连接速度非常快，而不是在互联网上）。

与数据库的连接工作正常，但如果我尝试这样做

f = pd.read_sql_query('SELECT * FROM mytable', engine, index_col = 'ID')

这需要一个really很久。甚至分块chunksize会很慢。此外，我真的不知道它只是挂在那里还是确实在检索信息。

我想问，对于那些在数据库上处理大数据的人来说，他们如何检索 Pandas 会话的数据？

例如，运行查询、返回包含结果的 csv 文件并加载会更“智能”吗？that变成熊猫？听起来比实际需要的要复杂得多。

最佳装载方式all从任何 SQL 数据库的表到 pandas 的数据是：

使用以下命令将数据从数据库中转储出来COPY http://www.postgresql.org/docs/9.1/static/sql-copy.html对于 PostgreSQL，选择到概要文件中 https://dev.mysql.com/doc/refman/5.1/en/select-into.html对于 MySQL 或类似的其他方言。
使用 pandas 读取 csv 文件the pandas.read_csv功能 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

连接器仅用于读取几行。 SQL 数据库的强大之处在于它能够基于索引提供小块数据。

交付整个表是您对转储所做的事情。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mysql

pandas

从 MySQL 将 500 万行加载到 Pandas 中的相关文章

MySQL 导入 125000 行 CSV 的最快方法？

这是我第一次使用 MySQL 除了对现有数据库进行一些基本查询之外所以我不擅长解决这个问题我有一个包含 125 000 条记录的 CSV 我想将其加载到 MySQL 中我安装了版本 8 和工作台我使用导入向导加载 CSV 它开始导入
MySQL有两个不同的密码？

我确信它们是不同事物的密码但我不确定是什么当在终端连接到 MySQL 时我输入 usr LOCAL mysql BIN mysql h host u username p然后系统会提示我输入密码密码是但是当使用 PHP 连接到 M
当数据表输入来自服务器的 JSON 数据时，更改 Google 图表栏颜色

我一直在努力使用谷歌图表 API 我在 SO 上发现了这个出色的例子PHP MySQL Google Chart JSON 完整示例 https stackoverflow com questions 12994282 php mysql
通过我的java代码导出数据库

我想使用我的 java 代码导出我的 MySQL 数据库但我还没有找到任何办法我想要做的就是我的应用程序中有一个按钮作为导出数据库单击该按钮时我的数据库应导出到指定的路径我使用了以下代码但它不起作用 Runtime runti
如何用 UNION 运算符替换 OR 运算符？

这是我的查询 SELECT h id h subject h body matnF h amount h keywords tags h closed h author id author h AcceptedAnswer h type h
MySQL 与 PHP 的连接无法正常工作

这是我的情况我正在尝试使用 Apache 服务器上的 PHP 文件连接到 MySQL 数据库现在当我从终端运行 PHP 时我的 PHP 可以连接到 MySQL 数据库使用 php f file php 但是当我从网页执行它时它只
Codeigniter 加入多个条件

我正在使用 Codeigniter Active Records 课程我想加入我的users与我的桌子clients表这样我就可以显示用户的真实姓名而不仅仅是他们的 ID 这是什么clients表看起来像示例列 a 1 a 2
MySQL 按主键排序

某些 SQL 服务器允许使用通用语句例如ORDER BY PRIMARY KEY 我不相信这适用于 MySQL 是否有任何此类解决方法可以允许跨多个表自动选择或者是否需要查找查询来确定主键我一直在研究的解决方法包括调用SHOW COL
Python Pandas——用前一列的值向前填充整行

pandas 开发新手如何使用先前看到的列中包含的值向前填充 DataFrame 独立的示例 import pandas as pd import numpy as np O 1 np nan 5 np nan H 5 np nan 5
如何使用 pandas 进行左连接

我有 2 个数据框它看起来像这样 DF1 Product Region ProductScore AAA R1 100 AAA R2 100 BBB R2 200 BBB R3 200 DF2 Region RegionScore R1
无法使用 Django 应用程序从容器连接到 MySQL docker 容器

当我尝试从运行 Django 应用程序的 docker 容器连接到运行 MySQL 的容器时出现以下错误 django db utils OperationalError 2003 Can t connect to MySQL serve
pandas.DF() 中的列是否单调递增？

我可以使用 is monotonic 方法检查 pandas DataFrame 的索引是否单调递增但是我想检查其中一列值的值浮点整数是否严格增加 In 13 my df pd DataFrame 1 2 3 5 7 6 9 In
当时间为 00:00 时，Pandas 读取 excel 返回类型对象

在更新版本的 Pandas 中我使用的是 1 2 3 当从 Excel 文件读取时间时时间为 00 00 00 时会出现问题下面的脚本其中 filepath 是我的 Excel 文件的路径其中包含一个标题名为 Time 的列 im
在 x 轴上操作日期 Pandas Matplotlib

我有一组非常简单的数据如下所示我正在寻找一种方法来绘制此堆积条形图并格式化 x 轴日期使其从 1996 年 31 月 12 日开始到 2016 年 31 月 12 日结束增量为 365 天我编写的代码绘制了每个日期因此 x
MySQL 存储过程将值分配给 select 语句中的多个变量

这是我的存储过程我在为声明的变量赋值时遇到问题当我执行它时插入和更新命令工作正常但声明变量的值保持为 0 但我在数据库中有一些价值我怎样才能正确地做到这一点 BEGIN DECLARE PaidFee INT DEFAULT 0
将记录分成两列

我的数据库中有一个学生表其中包含大约 5 000 条记录我想将这些记录显示在two分区如何在不执行查询两次的情况下做到这一点仅使用单个查询显示示例http www freeimagehosting net uploads f1
如何使用 python 从嵌套表结构中识别最终父级？

我有下表我的问题是我如何以编程方式识别最终父级以下是通过示例解释的规则 the id 5 0的父母是51 0 身份证号51 0没有父母因此 id5 0的最终父级是51 0 the id 6 0的父母是1 0 身份证号1 0的父母是1
pandas python 根据一个或多个其他列的子集更新 A 列的子集

Edit我修改了下面的部分描述以澄清功能和组的含义修复拼写错误并包含我尝试过的其他代码我的熊猫df有 450 万行和 23 列下表显示了几行df2这是从生成的df 它显示了两组 eeskin and hduquant 和三
对于数据库来说，选择正确的数据类型会影响性能吗？

如果是这样为什么我的意思是 tinyint 的搜索速度比 int 快吗如果是这样性能上的实际差异是什么是的根据数据类型它确实有所不同 int vs tinyint不会在速度上产生明显的差异但会在数据大小上产生差异假设tin
如何在 phpmyadmin 中创建 MySQL 触发器

我想在 MySQL 中创建一个触发器我运行以下命令 mysql gt delimiter mysql gt CREATE TRIGGER before insert money BEFORE INSERT ON money gt FOR

随机推荐

当动态列的 ng-prime 数据表中的行更新时如何更新行背景颜色？

我想在行更新时更改行颜色记录更新成功时如何设置行背景颜色 html
使用本地工件更新 Nexus 存储库

我最近将一些 Maven 工件直接下载到我的本地存储库 m2 repository 现在我安装了 Nexus Repository Manager 需要填充其存储空间而无需再次下载所有工件有没有一种方法可以将 Nexus 存储库更新为本
PHP 不使用“json_decode()”转换 JSON

我有一段非常简单的代码 pc1 POST post code1 pc2 POST post code2 url http maps google com maps nav q from pc1 20to pc2 url data file
使用EF Core开发过程中如何处理数据库变化？

在使用 NET Core 和 Entity Framework Core 进行开发期间我正在努力应对数据库更改当我创建新模型并将其添加到 dbContext 时即使使用dbContext Database EnsureCreated
装饰 Rails 中的属性

我有一个name上的属性Person模型每次我访问name属性我想要name capitalize被退回在模型内执行以下操作将不起作用 def name name capitalize end 那么还有什么选择呢我建议您使用自定义格
使用 jquery 删除输入占位符

有谁知道如何使用 jquery 删除输入占位符我想做的是如果其中之一inputbox得到一个值所有输入框占位符都将被删除有人知道该怎么做吗
Prettier vscode 扩展不支持 Django 模板标签 {% tag %}

Prettier Visual Studio 代码扩展不支持 Django 模板标签 tag 现在我该如何解决这个问题我是否必须禁用 html 文件的 Prettier 扩展或者还有其他解决方案吗 github 中的问题 5581 不支
从共享点下载文件

我正在尝试从共享点下载文件我有此代码并抛出错误代码 500 static void DownloadFile string serverFilePath Here goes my URL that open the file from a
为什么 openSession 不起作用但 getCurrentSession 在 Spring Hibernate 中起作用

我编写了一个示例 Spring Hibernate 应用程序以了解 Spring Hibernate 集成的工作原理这是我的 applicationContext xml
如何从 Rails 项目中删除 gem？

我正在尝试从我的项目中删除一个 gem 因此我进入了 gem 文件并将其注释掉 gem some gem gem gem I dont want gem another gem 然后我跑 bundle 为了检查宝石是否消失我输入 bund
如何在 iOS (safari) 中获取 mailto 链接以打开 Outlook 应用程序？

我注意到在使用 Outlook 应用程序且未配置本机邮件应用程序的 iPhone 用户上当他们单击 mailto 链接时系统会提示他们在 iOS 中创建新的电子邮件帐户而不是打开 Outlook 应用程序是否可以将 Outlook
在 Grails 中创建一个新的资源包？

我想创建另一个资源包来组织我的 Grails 应用程序 Grails 提供了一个 messages 资源包我需要创建一个 myApp 资源包如何创建新的资源包并使用 g message GSP 标记读取其属性你必须创建一个beangr
如何以编程方式禁用元素上的自动选择？

然后用户使用 TAB 或 SHIFT TAB 跳转到某个文本框并且该文本框恰好有一个值那么该值将被自动选择我想禁用此行为我认为这可以在 focusin 事件处理程序内部完成 input text focusin function
使用 ggplot 2 使用线条或线段将堆栈条形图与多个组连接起来

我正在对一些患有某种疾病的患者进行一项研究并在 3 个不同的时间点使用顺序量表评估功能状态我想在这些时间点的堆叠条形图中连接多个组我查看了这些主题但尚未使用这些建议使其发挥作用如何将线条放置在堆积条形图的边缘 https stac
节点：以编程方式检查包的最新版本

我希望我的节点包在 npm 上发布在新版本可用时提醒用户如何以编程方式检查已发布软件包的最新版本并将其与当前版本进行比较 Thanks 您可以结合npmview https npmjs com package npmview 用于获取
Dart 如何模拟过程

我如何去模拟一个过程与函数相反请参见here https stackoverflow com questions 23925384 dart mocking a function 例如给定以下 typedef 和过程 typedef
如何使用 SQL 对项目进行排序，然后按另一个条件再次排序

我正在使用 MySQL 我想对记录进行排序或者我想对记录进行分组然后按另一个条件再次对其进行排序例如我有 6 个项目 Names Group Jack G1 Dian G2 Emily G2 Dean G1 Teddy G2 Gabe
如何在 Pygame 中将具有一定透明度的 PNG 位图传输到表面上？

我试图将 PNG 图像传输到表面上但图像的透明部分由于某种原因变成黑色这是简单的代码 screen pygame display set mode 800 600 pygame DOUBLEBUF 32 world pygame Sur
SQL Server - 仅执行存储过程角色

如何创建只能运行的自定义 SQL Server 数据库服务器角色SELECT查询和存储过程这意味着该角色的用户不允许执行自定义查询但可以运行具有 CRUD 和 SysAdmin 语句的存储过程 UPDATES DELETES ALTE
从 MySQL 将 500 万行加载到 Pandas 中

我在本地网络上的 MySQL 数据库中有 500 万行连接速度非常快而不是在互联网上与数据库的连接工作正常但如果我尝试这样做 f pd read sql query SELECT FROM mytable engine inde

从 MySQL 将 500 万行加载到 Pandas 中

从 MySQL 将 500 万行加载到 Pandas 中 的相关文章

随机推荐

热门标签

从 MySQL 将 500 万行加载到 Pandas 中的相关文章