在“from_delayed”JSON 文件中发现 DASK 元数据不匹配

2023-12-22

我刚刚开始我的冒险DASK我正在学习 json 格式的示例数据集。我知道对于初学者来说这不是世界上最简单的数据格式:)

我有一个数据集json格式。我通过加载数据dd.read_json到数据框,一切顺利。问题发生在,例如,compute() or len()功能。

我收到此错误:

ValueError: Metadata mismatch found in `from_delayed`.

Partition type: `DataFrame`
+----------+-------+----------+
| Column   | Found | Expected |
+----------+-------+----------+
| column1  |   -   | object   |
| column2  |   -   | object   |
+----------+-------+----------+

我尝试了不同的方法,但没有任何帮助。我不知道如何处理这个错误。

请帮助,我将非常感激!


我的猜测是,您的 JSON 数据在数据的不同部分具有不同的列。当 Dask DataFrame 加载 JSON 数据时,它会查看第一个数据块以确定列名称和数据类型。然后它假设您的所有数据如下所示。

在您的情况下,这种假设被证明是错误的,并且可能有一些列仅稍后出现在文件中。

在确定列名称等元数据时,您可能会考虑增加 Dask 读取的样本大小。

df = dd.read_json(..., sample=2**26)

默认为 1MB (2**20)

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在“from_delayed”JSON 文件中发现 DASK 元数据不匹配 的相关文章

  • 如何在python中读取多个文件中的文本

    我的文件夹中有许多文本文件 大约有 3000 个文件 每个文件中第 193 行是唯一包含重要信息的行 我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数 该函数返回给定目录中所有文
  • InterfaceError:连接已关闭(使用 django + celery + Scrapy)

    当我在 Celery 任务中使用 Scrapy 解析函数 有时可能需要 10 分钟 时 我得到了这个信息 我用 姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
  • 如何在 Sublime Text 2 的 OSX 终端中显示构建结果

    我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它 让我困扰的一件事是默认的构建结果显示在 ST2 的底部 我的程序产生一些很长的结果 显示它的理想方式 如在 TM2 中 是并排查看它们 如何在 Mac 操作系统
  • Python 多处理示例不起作用

    我正在尝试学习如何使用multiprocessing但我无法让它发挥作用 这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
  • 如何使用包含代码的“asyncio.sleep()”进行单元测试?

    我在编写 asyncio sleep 包含的单元测试时遇到问题 我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间 当我尝试使用普通可调用对象运行测试时 这个库非常有用 但我找不到运行包含 asyncio sleep 的测
  • SQL Alchemy 中的 NULL 安全不等式比较?

    目前 我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较 其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
  • 如何使用 Scrapy 从网站获取所有纯文本?

    我希望在 HTML 呈现后 可以从网站上看到所有文本 我正在使用 Scrapy 框架使用 Python 工作 和xpath body text 我能够获取它 但是带有 HTML 标签 而且我只想要文本 有什么解决办法吗 最简单的选择是ext
  • 安装后 Anaconda 提示损坏

    我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是 安装后当我关闭提示窗口并打开新航站楼弹出
  • 如何使用装饰器禁用某些功能的中间件?

    我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
  • 在 NumPy 中获取 ndarray 的索引和值

    我有一个 ndarrayA任意维数N 我想创建一个数组B元组 数组或列表 其中第一个N每个元组中的元素是索引 最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
  • feedparser 在脚本运行期间失败,但无法在交互式 python 控制台中重现

    当我运行 eclipse 或在 iPython 中运行脚本时 它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么 但
  • Abaqus 将曲面转化为集合

    我一直试图在模型中找到两个表面的中心 参见照片 但未能成功 它们是元素表面 面 查询中没有选项可以查找元素表面的中心 只能查找元素集的中心 找到节点集的中心也很好 但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中 而且我找不到
  • 当玩家触摸屏幕一侧时,如何让 pygame 发出警告?

    我使用 pygame 创建了一个游戏 当玩家触摸屏幕一侧时 我想让 pygame 给出类似 你不能触摸屏幕两侧 的错误 我尝试在互联网上搜索 但没有找到任何好的结果 我想过在屏幕外添加一个方块 当玩家触摸该方块时 它会发出警告 但这花了很长
  • 表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

    这个问题在这里已经有答案了 我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
  • Python:尝试检查有效的电话号码

    我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字 现在我有了这个 如果启动不正确 它将允许您重新输入正确的数字 然后它会翻译输入的原始数字 我该如何解决 def main phon
  • Numpy 优化

    我有一个根据条件分配值的函数 我的数据集大小通常在 30 50k 范围内 我不确定这是否是使用 numpy 的正确方法 但是当数字超过 5k 时 它会变得非常慢 有没有更好的方法让它更快 import numpy as np N 5000
  • Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

    我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它 而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
  • 如何从没有结尾的管道中读取 python 中的 stdin

    当管道来自 打开 时 不知道正确的名称 我无法从 python 中的标准输入或管道读取数据 文件 我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
  • glpk.LPX 向后兼容性?

    较新版本的glpk没有LPXapi 旧包需要它 我如何使用旧包 例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
  • 您可以在 Python 类型注释中指定方差吗?

    你能发现下面代码中的错误吗 米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f

随机推荐

  • 无法解析符号“RequestQueue”

    我是 android studio 和 volley 库的新手 所以请耐心等待 我通过 GitHub 添加了 volley 库 然后添加了这一行来构建 gradle 文件 compile com android support appcom
  • 查找对象数组中最后一个匹配的对象

    我有一系列对象 我需要获取最后一个对象的对象类型 本例中为 形状 将其删除 然后找到数组中具有相同类型的前一个对象的索引 例如 形状 var fruits shape round name orange shape round name a
  • JSP中页面

    我收到了一项向 HTML 页面 JSP 添加功能的任务 该页面仅来自设计师 前端开发人员 因此在某些地方我需要更改a href to button or input但这会造成混乱 所有设计都改变了 这是一段代码 div class col
  • 如何绘制三列数据的热图

    我有三列文件 500 万行 它像是 x y z 3 4 6 7 9 4 7 8 X 和 y 是像素编号 z 是 x y 处的对应值如何绘制热图 二维图是我最初想法的妥协 你可以查看我的原帖如何使用 scipy interpolate 中的
  • 去打印大量

    我目前正在做 Go Lang 教程 准确地说是 数字常量 示例代码以以下语句开头 const Create a huge number by shifting a 1 bit left 100 places In other words t
  • 使用here()函数向上一级目录

    我想让这里的函数在开始下降目录级别之前上升一个级别 例如 我的项目位于目录 parent project root 中 因此here 将此视为默认目录 我想在 parent other dir 中读取一些数据 我需要传递什么参数到here
  • Elasticsearch:嵌套查询中的脚本字段

    有没有办法在嵌套查询中使用 script fields 将字段添加到返回的inner hits 例子 nested inner hits path companies score mode sum query script fields o
  • joblib中的batch_size和pre_dispatch到底是什么意思

    从这里的文档https pythonhosted org joblib parallel html parallel reference documentation https pythonhosted org joblib paralle
  • 编译器会优化转义内循环吗?

    我的代码如下所示 显示了完成的所有用法 bool done false for int i 0 i lt big i for int j 0 j lt wow j if foo i j done true break if done bre
  • TinyIoC:在单个实例上注册多个接口

    Autofac 允许使用 AsImplementedInterfaces 或链式 As 调用与 SingleInstance 轻松地将多个接口解析为同一实例 这也可以用 TinyIoC 来完成吗 我只找到了如何注册同一接口的多个实现 但没有
  • 持久存储的核心数据错误

    我正在尝试使用核心数据从模型加载简单数据并将其放入表视图中 这是我的持久存储的以下代码 AppDelegate m NSPersistentStoreCoordinator persistentStoreCoordinator if per
  • 返回 JSF 页面上的图像列表

    我有一个用户可以从中选择的项目的下拉列表 视图是 JSF 我希望在用户从下拉列表中选择一个项目后 图像出现在同一个 JSF 页面上 即用户从下拉列表中选择单词 Cat 并且出现一组不同的猫图像 我该如何在 JSF 中编写此代码 注意 我使用
  • 如何在 Bash 或 Unix shell 中检查字符串中的第一个字符?

    我正在 Unix 中编写一个脚本 其中我必须检查字符串中的第一个字符是否为 如果是 则分支 例如 我有一个字符串 some directory file 我希望它返回 1 并且 email protected cdn cgi l email
  • python selenium 检查此文本字段是否被禁用

    这是已从 UI 禁用的文本区域的 html 代码 div class ftnt input div
  • OpenShift 并在 .htaccess 中重定向

    我在 OpenShift 上部署了一个 Wordpress 应用程序并关联了一个域别名 即 www example org 现在我想添加另一个别名 即 www example2 org 并优雅地重定向来自 www example org g
  • 取消引用 cout 指针时的 C++ SegFault

    我是 C 新手 只是想掌握它 通常看起来还不错 但我偶然发现了这种奇怪 病态的段错误行为 int main int b b 27 int c b cout lt lt c points to lt lt c lt lt endl OK pr
  • 在 Visual Studio C# Express 2010 中调试 Nunit 测试

    我遵循这个建议来调试 NUnit 测试 http www blackwasp co uk NUnitCSharpExpress aspx http www blackwasp co uk NUnitCSharpExpress aspx 但是
  • Vue.js - 从指令发出事件

    是否可以发出自定义事件from该指令in该指令所附加的组件 我希望它能够像示例中描述的那样工作 但事实并非如此 例子 Basic Directive Basic Component
  • WPF 动画 GIF 使用过多内存来显示大 GIF 图像

    我想使用库显示 GIFWPF 动画 GIF https github com XamlAnimatedGif WpfAnimatedGif 但当房产PictureSource设置后 进程内存将从208MB to 1GB Why XAML
  • 在“from_delayed”JSON 文件中发现 DASK 元数据不匹配

    我刚刚开始我的冒险DASK我正在学习 json 格式的示例数据集 我知道对于初学者来说这不是世界上最简单的数据格式 我有一个数据集json格式 我通过加载数据dd read json到数据框 一切顺利 问题发生在 例如 compute or