我正在尝试对数据进行装箱并根据该装箱应用浮点值。我认为 pandas.cut 是实现此目的的工具,但显然它需要每个 bin 标签都有唯一的值。
values = [0.6, 0.5, 0.5, 0.6, 0.8, 0.9]
bins = [0, 2, 5, 10, 15, 25, 200]
binned = pd.cut(original_table[field], bins, labels=values)
>>> ValueError: Categorical categories must be unique
我的数据(original_table)非常大,迭代执行任何操作都非常慢,这就是为什么 cut 是一个有吸引力的工具。有没有解决方法可以让 pd.cut 为此工作?
这是我发现的另一种规避此问题的选择here https://github.com/pandas-dev/pandas/issues/33141#issuecomment-606356700。看起来也很快就会修复
import pandas as pd
import numpy as np
values = [0.6, 0.5, 0.5, 0.6, 0.8, 0.9]
bins = [0, 2, 5, 10, 15, 25, 200]
# Cut it
binned = pd.cut(original_table[field], bins, labels=pd.Categorical(values))
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)