sklearn Logistic 回归 ValueError: X 每个样本有 42 个特征;期待 1423

2024-01-08

我被困在试图解决一个问题。 这就是我想做的:

我想使用逻辑回归预测缺失值(Nan)(分类值)。 这是我的代码:

df_1:我的数据集仅在“Metier”功能中缺少值(我试图预测的缺少值)

X_train = pd.get_dummies(df_1[df_1['Metier'].notnull()].drop(columns='Metier'),drop_first = True)
X_test = pd.get_dummies(df_1[df_1['Metier'].isnull()].drop(columns='Metier'),drop_first = True,dummy_na = True)

Y_train = df_1[df_1['Metier'].notnull()]['Metier']
Y_test = df_1[df_1['Metier'].isnull()]['Metier']

from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression(random_state = 0)

classifier.fit(X_train, Y_train)

classifier.score(X_train,Y_train) = 0.705112088833019

但是当我试图得到预测时Y_test它说 :

ValueError:X 每个样本有 42 个特征;期待 1423

如果有人能帮助我,我将不胜感激。

多谢 :)


经验法则是never use pandas.get_dummies在多个数据帧上。它不能保证您的尺寸相同。

import pandas as pd

print(pd.get_dummies(['a', 'b', 'c']))
   a  b  c
0  1  0  0
1  0  1  0
2  0  0  1

print(pd.get_dummies(['b', 'c']))
   b  c
0  1  0
1  0  1

只有这样做才是安全的pandas.get_dummies first然后分为x_train and x_test。但相反,您可以使用sklearn.preprocessing.OneHotEncoder:

import numpy as np
from sklearn.preprocessing import OneHotEncoder

ohe = OneHotEncoder(sparse=False)

ohe.fit_transform(np.reshape(['a', 'b', 'c'], (-1, 1)))

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

ohe.transform(np.reshape(['b', 'c'], (-1, 1))) # Its transform, NOT fit_transform
array([[0., 1., 0.],
       [0., 0., 1.]])

请注意,现在它正确断言两个不同的输入会产生相同数量的列。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

sklearn Logistic 回归 ValueError: X 每个样本有 42 个特征;期待 1423 的相关文章

随机推荐

  • 创建通用循环缓冲区

    鉴于希望从其内容中抽象出循环缓冲区的结构 并从以下代码段开始 由this http en wikipedia org wiki Circular buffer维基百科条目 typedef struct int value ElemType
  • 使用WebFlux的Reactive编程如何处理依赖的外部api调用

    我是响应式编程的新手 我想知道的一件事是 假设我们有一个 api 它在内部调用 3 个其他 api 其中第一个 api 的结果被输入到第二个 api 而第二个 api 的输出被输入到第三个 它不会减少到基于正常单线程的执行吗 如果是的话 那
  • PowerShell InvokeGet 找不到目录属性

    我们需要检索活动目录中有关 终端服务 的信息 为此 我创建了一个在大多数情况下都能正常工作的函数 但是 对于某些用户 我们遇到了问题 代码 Function Get ADTSProfile CmdletBinding Param Param
  • 我们实际上可以将两组多个变量传递到 dplyr 中的 mutate 中吗

    This question https stackoverflow com questions 66174874 using dplyracross with two sets of variables尽管三个答案让我在思考这个问题时产生了
  • 如何在 Rail 2.3.5 中生成 mongoid.yml 配置?

    正如标题所示 如何在 Rail 2 3 5 上生成默认的 mongoid yml 配置文件 我尝试使用 rails generated mongoid config 命令 但它只是生成一个新应用程序 而且 我想在 mongoid 中使用 h
  • 仅使用gunicorn、django 和whitenoise 如何为媒体提供服务?

    我的网站终于可以正常工作了 但在以下情况下无法提供媒体文件debug False我应该怎么办 我经历了地狱般的尝试让它与 nginx 一起工作本教程 https www digitalocean com community tutorial
  • 如何在 Bash 脚本中运行 sudo 命令?

    我想运行以下示例 bash 脚本 该脚本需要 sudo 密码才能执行命令 bin bash kinit needs sudo password vi hello txt 运行上述脚本时 它要求输入密码 我如何在命令本身中传递用户名和密码 或
  • 检查一个数是否能被3整除[关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 编写代码来确定一个数字是否能被 3 整除 该函数的输入是single位 0 或 1 如果到目前为止收到的数字是可被 3 整除的数字的二进制表示形式 则
  • 如何动态找出具有自定义属性的所有方法

    我有一个简单的挑战 我动态地需要找出 C 中具有特定属性的所有方法 我将从另一个应用程序动态加载程序集 并且需要找出确切的方法 程序集如下所示 基础 dll Class Base testmethod public void method1
  • Twitter 以编程方式添加照片

    我为 Firefox 制作了裁剪屏幕截图和上传插件 我想带来一个允许用户发布图像的功能 手动 像人类一样 的过程是这样的 打开 twitter com 如果未登录 请告诉用户登录 点击 新推文 就完成了 Attach images by d
  • 比较两个 git 存储库(包括所有分支)

    我有同一个 git 存储库的两个分支 我想检查它们是否完全相同 因此可以安全地删除其中一个而不丢失任何信息 虽然我知道如何比较单个分支 但我想问是否有一种简单的方法来比较所有分支 标签等 最快的方法是添加第二个遥控器并比较输出git ls
  • 如何用 C++ 编写“meta if else if..”?

    我刚刚学习 C 元编程的基础知识 我认为很高兴看到其他人如何解决以下问题 另外 很高兴看到使用 Boost 元编程库的解决方案 因为我认为它们对我来说是黑暗的角落 那么问题来了 是否可以重写得更优雅呢 假设我们有以下结构 template
  • 如何使用 mocha 和 supertest 测试带有标头参数的 Express Rest api?

    我必须测试我的其余 api 某些路由需要用户身份验证令牌的 http 请求标头中的值 我已将有趣的业务逻辑分离为纯 JavaScript 代码 但我找不到方法来测试在 http 请求标头中需要令牌的路由 欢迎摩卡和 或超级测试的任何其他替代
  • Bootstrap 响应式输入表单字段

    我正在使用 input lg 使表单字段变大 我的期望是 当视口缩小时 引导程序默认小于 768px 表单字段会变小并采用正常设置 但事实并非如此 有任何想法吗 bootstrap 可以处理这种情况吗 UPDATE HTML
  • 为什么抽象类有虚函数表?

    关于this https stackoverflow com questions 2592438 does an abstact classes have a vtable post 对于使用 vtable 的实现 答案是 是的 通常 你
  • 三角形 - 三角形相交测试

    我想知道是否有一些教程或指南来理解和在 3D 环境中实现三角形 三角形相交测试 我不需要知道交叉点发生在哪里 只需要知道发生了交叉点 我本来打算按照理论 pdf 来实现它 但我很困惑 计算三角形 2 的平面方程 如果三角形 1 的所有点都在
  • Spring中@Valid注解表示什么?

    在下面的示例中 ScriptFile参数标有 Valid注解 什么是 Valid注释做什么 RequestMapping value scriptfile method RequestMethod POST public String cr
  • Shapely:字符串中的多边形?

    我保存了一些形状多边形的字符串表示 POLYGON 51 0 3 0 51 3 3 61 51 3 3 0 51 0 3 0 有没有一些快速的方法可以直接将其转换回 Polygon 类型 或者我是否需要手动解析字符串来创建 Polygon
  • 如何将双精度数组的数据帧转换为向量?

    我有以下数据帧 其中包含双精度数组 需要将其转换为向量才能将其传递给 ML 算法 谁能帮我这个 fList org apache spark sql DataFrame features array
  • sklearn Logistic 回归 ValueError: X 每个样本有 42 个特征;期待 1423

    我被困在试图解决一个问题 这就是我想做的 我想使用逻辑回归预测缺失值 Nan 分类值 这是我的代码 df 1 我的数据集仅在 Metier 功能中缺少值 我试图预测的缺少值 X train pd get dummies df 1 df 1