我刚刚开始我的冒险DASK
我正在学习 json 格式的示例数据集。我知道对于初学者来说这不是世界上最简单的数据格式:)
我有一个数据集json
格式。我通过加载数据dd.read_json
到数据框,一切顺利。问题发生在,例如,compute()
or len()
功能。
我收到此错误:
ValueError: Metadata mismatch found in `from_delayed`.
Partition type: `DataFrame`
+----------+-------+----------+
| Column | Found | Expected |
+----------+-------+----------+
| column1 | - | object |
| column2 | - | object |
+----------+-------+----------+
我尝试了不同的方法,但没有任何帮助。我不知道如何处理这个错误。
请帮助,我将非常感激!
我的猜测是,您的 JSON 数据在数据的不同部分具有不同的列。当 Dask DataFrame 加载 JSON 数据时,它会查看第一个数据块以确定列名称和数据类型。然后它假设您的所有数据如下所示。
在您的情况下,这种假设被证明是错误的,并且可能有一些列仅稍后出现在文件中。
在确定列名称等元数据时,您可能会考虑增加 Dask 读取的样本大小。
df = dd.read_json(..., sample=2**26)
默认为 1MB (2**20)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)