如何在预测数据上使用 Pandas get_dummies?

2024-01-20

使用熊猫后get_dummies在 3 个分类列上获得一个热编码数据框,我训练了(取得了一些成功)感知器模型。

现在我想根据新的观察来预测结果,它不是热编码的。

有什么办法可以记录get_dummies列映射要重新使用吗?


据我所知,目前没有自动程序可以做到这一点。在未来的发布中sklearn CategoricalEncoder对于这项工作将会非常方便。如果你克隆的话,你已经可以得到它了sklearngithub master 分支并自行构建。目前我想到了两个选择:

  • use LabelEncoder+OneHotEncoder组合,参见这个答案,例如 https://stackoverflow.com/a/50443410/9640384;
  • 只需在训练 OHE 输出后检索(并存储,如果需要)列列表即可。然后运行pd.get_dummies在测试集/示例上。循环遍历输出测试 OHE 列,删除训练 OHE 中未出现的列,并添加测试 OHE 中缺失的列并用零填充。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何在预测数据上使用 Pandas get_dummies? 的相关文章

  • 使用 one-hot 代码的 Tensorflow 混淆矩阵

    我使用 RNN 进行多类分类 这是我的 RNN 主要代码 def RNN x weights biases x tf unstack x input size 1 lstm cell rnn BasicLSTMCell num unit f
  • 如何在 R 中使用大数据对多个变量进行热编码?

    我目前有一个包含 260 000 行和 50 列的数据框 其中 3 列是数字 其余是分类 我想要对分类列进行一次热编码 以便执行 PCA 并使用回归来预测类别 我怎样才能在 R 中完成下面的例子 Example V1 V2 V3 V4 V5
  • Python Numpy One 热销区域

    制作这个 One Hot 编码矩阵的最佳方法是什么 array 1 0 0 1 0 0 0 1 0 0 0 1 0 1 0 1 0 0 as array 0 0 1 2 1 0 换句话说 如何解码 One Hot 数组 Use np arg
  • 一种热编码映射

    为了离散化分类特征 我使用了 LabelEncoder 和 OneHotEncoder 我知道 LabelEncoder 按字母顺序映射数据 但是 OneHotEncoder 如何映射数据 我有一个熊猫数据框 dataFeat有 5 个不同
  • 将 one-hot 编码目标值映射到正确的标签名称

    我有一个标签名称列表 我枚举并创建了一个字典 my list b airplane b automobile b bird b cat b deer b dog b frog b horse b ship b truck label dic
  • Pandas One hot 编码:将不太常见的类别捆绑在一起

    我正在对一个分类列进行一次热编码 该列有大约 18 种不同类型的值 我想仅为那些出现超过某个阈值 假设为 1 的值创建新列 并创建另一个名为other values如果值不是那些频繁值 则值为 1 我正在将 Pandas 与 Scikit
  • keras 中的 One-hot 编码标签

    我有一组来自 CSV 文件中标签列的整数 1 2 4 3 5 2 班级数量为5即范围1 to 6 我想使用下面的代码对它们进行一次性编码 y df iloc 10 values y tf keras utils to categorical
  • Python:海量数据的 One-hot 编码

    我在尝试编码时不断遇到内存问题字符串标签到one hot编码 大约有 500 万行和大约 10000 个不同的标签 我已尝试以下方法 但不断出现内存错误 from sklearn import preprocessing lb prepro
  • 如何在预测数据上使用 Pandas get_dummies?

    使用熊猫后get dummies在 3 个分类列上获得一个热编码数据框 我训练了 取得了一些成功 感知器模型 现在我想根据新的观察来预测结果 它不是热编码的 有什么办法可以记录get dummies列映射要重新使用吗 据我所知 目前没有自动
  • 使用 numpy 进行一次热编码[重复]

    这个问题在这里已经有答案了 如果输入为零 我想创建一个如下所示的数组 1 0 0 0 0 0 0 0 0 0 如果输入是 5 0 0 0 0 0 1 0 0 0 0 对于上述内容我写道 np put np zeros 10 5 1 但它不起
  • ValueError:无法处理多标签指示器和二进制的混合

    我将 Keras 与 scikit learn 包装器一起使用 特别是 我想使用 GridSearchCV 进行超参数优化 这是一个多类问题 即目标变量只能在一组 n 个类上选择一个标签 例如 目标变量可以是 Class1 Class2 C
  • ValueError:列的长度必须与键的长度相同

    我运行下面的代码时遇到问题 数据是我的数据框 X 是列车数据的列列表 L 是具有数值的分类特征列表 我想对我的分类特征进行热编码 所以我这样做 但是会抛出 ValueError 列的长度必须与键相同 对于最后一行 经过长时间的研究我仍然不明
  • 将数值和分类数据混合到具有密集层的 keras 序列模型中

    我在 Pandas 数据框中有一个训练集 我将此数据框传递到model fit with df values 以下是有关 df 的一些信息 df values shape 981 5 df values 0 array 163 0 6 83
  • 如何将 Pandas Dataframe 中的字符串转换为字符列表或数组?

    我有一个名为的数据框data 其中一列包含字符串 我想从字符串中提取字符 因为我的目标是对它们进行一次性编码并使之可用于分类 包含字符串的列存储在预测因子如下 predictors pd DataFrame data columns Seq
  • 将索引数组转换为 NumPy 中的 one-hot 编码数组

    给定一个一维索引数组 a array 1 0 3 我想将其一次性编码为二维数组 b array 0 1 0 0 1 0 0 0 0 0 0 1 创建归零数组b有足够的列 即a max 1 然后 对于每一行i 设置a i 第 列 至1 gt
  • 当训练和测试的特征数量不同时,如何处理生产环境中的One-Hot Encoding?

    在做某些实验时 我们通常在 70 上进行训练 在 33 上进行测试 但是 当您的模型投入生产时会发生什么 可能会发生以下情况 训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过
  • 将 Scikit-Learn OneHotEncoder 与 Pandas DataFrame 结合使用

    我正在尝试使用 Scikit Learn 的 OneHotEncoder 将 Pandas DataFrame 中包含字符串的列替换为 one hot 编码的等效项 我的下面的代码不起作用 from sklearn preprocessin
  • 如何为DNA序列生成一种热编码?

    我想为一组 DNA 序列生成一个热编码 例如 序列ACGTCCA可以以转置方式表示如下 但下面的代码将以水平方式生成一种热门编码 我更喜欢以垂直方式生成 谁能帮我 ACGTCCA 1000001 A 0100110 C 0010000 G
  • 在Python中表示语料库句子的一种热门编码

    我是 Python 和 Scikit learn 库的初学者 我目前需要从事一个 NLP 项目 该项目首先需要通过 One Hot Encoding 来表示一个大型语料库 我已经阅读了 Scikit learn 关于 preprocessi
  • Pytorch LSTM:计算交叉熵损失的目标维度

    我一直在尝试在 Pytorch 中使用 LSTM LSTM 后跟自定义模型中的线性层 但在计算损失时出现以下错误 Assertion cur target gt 0 cur target lt n classes failed 我用以下函数

随机推荐

  • 如何设置默认的Windows套件(SDK)版本?

    我曾经在我的 C 应用程序中使用 Windows 8 1 SDK 一切正常 今天我安装了 Windows 10 SDK 但找不到一种方法将其设为默认 我可以在 Visual Studio 项目设置中对新的 SDK 路径进行硬编码 但这是非常
  • Xcode - 单元测试 - 针对 iOS 12 进行编译,但模块的最低部署目标为 13

    我在运行单元测试时遇到问题 问题位于代码行下方 testable导入PROJECT NAME Error Compiling for iOS 12 1 but module PROJECT NAME has a minimum deploy
  • AndroidcameraSource.stop()导致应用程序冻结

    我正在使用 google Vision API 构建一个具有二维码扫描仪的应用程序 读取二维码后 我无法停止相机 流量是MainActivity gt QrActivity一旦二维码收到检测 应用程序应返回到主活动 如果我不打电话camer
  • 重新定义/隐藏局部变量有多糟糕?

    在将遗留项目升级到 VS2015 时 我注意到存在很多错误 例如在函数内部重新定义局部变量 void fun int count applesCount cout lt lt Apples cost lt lt count 1 25 for
  • Rails - 有两个父母的嵌套资源

    假设我有一个带有两个父模型的子模型 Event has many tickets Person has many tickets Ticket belongs to Event Ticket belongs to Person 路线已映射
  • SocketException:使用 UdpClient 打开端口时“访问被拒绝”

    我正在尝试开始侦听 Android 设备上的 UDP 端口之一 我正在使用 Xamarin Forms 并在物理 Android 手机上测试它 public void StartListening int port 13000 Listen
  • 手动更新 Carrierwave Uploader 安装的属性

    我无法在由 Carrierwave 上传程序安装的属性上使用 model update attribute SQL 语句不会接受该值并将 NULL 添加到占位符 如果我从模型类中删除 mount uploader 语句 它会正常工作 我正在
  • Angular ng-if="" 具有多个参数

    我正在尝试开始角度开发 在查看文档后 仍然存在一些问题 我怎样才能最好地写一个ng if有多个参数对应于 if a b or if a b 有可能的 span I m removed when the checkbox is uncheck
  • 等待所有的 Promise 在 Node.js 中用 Bluebird 完成

    在使用 bluebird 的 Node js 中等待所有 Promise 完成的最佳方法是什么 假设我想从数据库中选择记录并将它们存储在 redis 中 我想出了这个 loadActiveChannels function return K
  • 如何以编程方式获取父主题

    假设我在以下位置声明了以下自定义主题themes xml
  • 计算 HH:mm 格式的时差

    我有两个时间戳HH mm格式 我需要计算它们之间的差异 代表相同的时间间隔HH mm format JavaScript 有什么实用工具可以实现这一点吗 我尝试使用Date对象 但我找不到有用的东西 你能帮助我吗 您只需将两个日期相减即可
  • 将 ControlParameter 添加到 SqlDataSource 会阻止查询和数据绑定吗?

    我有一个 SqlDataSource 调用存储过程并且工作正常 如果我添加一个
  • 如何从片段中获取EditText

    我创建了AlerDialog AlertDialog Builder alert new AlertDialog Builder appContext alert setTitle Add subcontractors setView R
  • java赋值中可能存在逻辑错误的误解

    我在让这个项目正常工作方面遇到了很多问题 但我目前一直致力于让这个课程正常工作 它应该做的就是从无线电类中获取当前电台并将其传递给此类 问题是我试图在 AM 和 FM 之间进行选择 但每次运行它时 它只显示 AM 电台 我不明白为什么它会自
  • 每个RAILS_ENV运行多个delayed_job实例

    我正在开发一个具有多个 RAILS Env 的 Rails 应用程序 env name1 adapter mysql username root password host localhost database db name 1 env
  • Java 到 C# 的转换。如何在位图上绘制矩形?

    首先 我对 C 和 Java 都是菜鸟 因此 我被分配了将 java 小程序转换为 C 的任务 除了使用鼠标事件通过拖放在屏幕上绘制矩形之外 我还成功完成了所有操作 应该发生的情况是 当我单击鼠标并在屏幕上拖动鼠标时 应该会出现一个没有填充
  • 应用程序应该如何响应延迟的 SKPaymentTransaction?

    我的应用程序中有应用内购买 iOS 8 的新功能是 延迟 交易 部分描述见技术说明 https developer apple com library ios technotes tn2259 index html 我了解它的作用 并且我不
  • 让 Rails 2.3.x 忽略 i18n gem

    我有一个 Rails 2 3 5 项目 它使用 Rails 的本地化功能 我也碰巧安装了 Rails 3 beta 这取决于 i18n gem Rails 2 3 5 很乐意自行处理本地化 无需安装 i18n 但是如果 i18n gem 可
  • 如何根据物体位置旋转图像?

    首先 对帖子的长度表示抱歉 我正在开展一个根据叶子图像对植物进行分类的项目 为了减少数据的方差 我需要旋转图像 以便茎在图像底部水平对齐 270 度 到目前为止我在哪里 到目前为止 我所做的是创建一个阈值图像 然后从那里找到轮廓并在对象周围
  • 如何在预测数据上使用 Pandas get_dummies?

    使用熊猫后get dummies在 3 个分类列上获得一个热编码数据框 我训练了 取得了一些成功 感知器模型 现在我想根据新的观察来预测结果 它不是热编码的 有什么办法可以记录get dummies列映射要重新使用吗 据我所知 目前没有自动