所有特征必须在 [0, 9] 或 [-10, 0] 范围内

2024-03-04

我有以下代码：

df = load_data()
pd.set_option('display.max_columns', None)
df.dtypes

intBillID                      object
chBillChargeCode               object
chBillNo                       object
chOriginalBillNo               object
sdBillDate             datetime64[ns]
sdDueDate              datetime64[ns]
sdDatePaidCancelled    datetime64[ns]
sdBillCancelledDate            object
totalDaysToPay                  int64
paidInDays                      int64
paidOnTime                      int64
chBillStatus                   object
chBillType                     object
chDebtorCode                   object
chBillGroupCode                 int64
dcTotFeeBilledAmt             float64
dcFinalBillExpAmt             float64
dcTotProgBillAmt              float64
dcTotProgBillExpAmt           float64
dcReceiveBillAmt              float64
dcTotWipHours                 float64
dcTotWipTargetAmt             float64
vcReason                       object
OperatingUnit                  object
BusinessUnit                   object
LosCode                        object
dcTotNetBillAmt               float64
dtype: object

然后我有这个：

# Separate features and labels
X, y = df[['totalDaysToPay', 'paidOnTime','dcTotFeeBilledAmt','dcFinalBillExpAmt','dcTotProgBillAmt', 'dcTotProgBillExpAmt','dcTotProgBillExpAmt','dcReceiveBillAmt','dcTotWipHours','dcTotWipTargetAmt']].values, df['paidInDays'].values
print('Features:',X[:10], '\nLabels:', y[:10], sep='\n')

然后我分割X，Y

从 sklearn.model_selection 导入 train_test_split

# Split data 70%-30% into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

print ('Training Set: %d rows\nTest Set: %d rows' % (X_train.shape[0], X_test.shape[0]))

然后我想转换数字和分类特征：

# Train the model
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.linear_model import LinearRegression
import numpy as np
from sklearn.ensemble import GradientBoostingRegressor

# Define preprocessing for numeric columns (scale them)
numeric_features = [8,9,10,11,12,13,15,16,17,18,19,20,21,26]
numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler())])

# Define preprocessing for categorical features (encode them)
categorical_features = [1,23,24,25]
categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore'))])

# Combine preprocessing steps
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)])

# Create preprocessing and training pipeline
pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                           ('regressor', GradientBoostingRegressor())])


# fit the pipeline to train a linear regression model on the training set
model = pipeline.fit(X_train, (y_train))
print (model)

但是我收到这个错误：

ValueError: all features must be in [0, 9] or [-10, 0]

在这一行中，您为 X 选择 10 个特征，因此 X 的形状现在已更改。

# Separate features and labels
X, y = df[['totalDaysToPay', 'paidOnTime','dcTotFeeBilledAmt','dcFinalBillExpAmt','dcTotProgBillAmt', 'dcTotProgBillExpAmt','dcTotProgBillExpAmt','dcReceiveBillAmt','dcTotWipHours','dcTotWipTargetAmt']].values, df['paidInDays'].values

现在，您需要给出 ' 的索引numeric_features' 根据范围 [0-9]。更具体地说，您传入的索引 'numeric features' 应该反映这个数组。

['totalDaysToPay', 'paidOnTime','dcTotFeeBilledAmt','dcFinalBillExpAmt','dcTotProgBillAmt', 'dcTotProgBillExpAmt','dcTotProgBillExpAmt','dcReceiveBillAmt','dcTotWipHours','dcTotWipTargetAmt']

该数组对于原始的 ' 来说是正确的df': [8,9,10,11,12,13,15,16,17,18,19,20,21,26]不是为了X.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

pandas

DataFrame

所有特征必须在 [0, 9] 或 [-10, 0] 范围内的相关文章

如何在flask中使用g.user全局

据我了解 Flask 中的 g 变量它应该为我提供一个全局位置来存储数据例如登录后保存当前用户它是否正确我希望我的导航在登录后在整个网站上显示我的用户名我的观点包含 from Flask import g among other
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
Python - StatsModels、OLS 置信区间

在 Statsmodels 中我可以使用以下方法拟合我的模型 import statsmodels api as sm X np array 22000 13400 47600 7400 12000 32000 28000 31000 6
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
IO 密集型任务中的 Python 多线程

建议仅在 IO 密集型任务中使用 Python 多线程因为 Python 有一个全局解释器锁 GIL 只允许一个线程持有 Python 解释器的控制权然而多线程对于 IO 密集型操作有意义吗 https stackoverflow c
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
Scrapy：如何使用元在方法之间传递项目

我是 scrapy 和 python 的新手我试图将 parse quotes 中的项目 item author 传递给下一个解析方法 parse bio 我尝试了 request meta 和 response meta 方法如 sc
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

是否有可能构建一个相对快速的无类型 lambda 演算机？

纯无类型 lambda 演算是一个强大的概念然而构建一台供现实世界使用的机器或解释器通常被描述为接近不可能我想对此进行调查理论上是否可以构建一个相对较快的无类型 lambda 演算机我所说的相对较快通常是指在相似数量的资源门
IBM Worklight 6.2 - StoragePlugin 上出现错误

我从 Worklight 6 1 0 1 升级到 6 2 从那时起我的应用程序停止成功加载 JSONStore 它说找不到类 StoragePlugin 尽管该类实际上存在于 worklight android jar 中它还在 con
Java 中的公共接口和发布接口有什么区别？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我读过这两页 http martinfowler com ieeeSoftware published pdf http martinfo
调试模式或发布模式

最近我正在致力于将物理引擎集成到我的图形引擎程序中在此之前我总是在调试模式下构建我的程序因为我觉得调试意味着安全并且可以提供更多信息让我知道哪里出了问题在我的程序中我在Release模式下构建了Assimp 但直到现在我仍然在
AngularJS 控制器继承

AngularJS 具有基于 DOM 的控制器继承如 Angular 文档中所述 div p Base Controller Value value p div
`2>/dev/null` 在 Makefile 中不起作用

我试图抑制错误rm通过书写命令生成文件 clean wildcard mod rm 2 gt dev null I ran make clean rm 2 gt dev null make clean Error 64 ignored 我
为什么 strlcpy 和 strlcat 被认为不安全？

我明白那个strlcpy and strlcat被设计为安全替代品strncpy and strncat 但仍有一些人认为他们不安全并且只会导致不同类型的问题 https en wikipedia org wiki C string ha
如何在 Rails 中设置哈希表单？

我有一些与散列中的模型关联的数据哈希值在控制器中生成 hash 为这些数据创建表单的正确方法是什么我为视图想出了以下代码 div class field br div 这会生成表单但它将每个哈希项创建为表单中的单独变量这似乎不是提交
如何在Python 3中保留xmlrpc.client的cookie？

默认Pythonxmlrpc client Transport 可与xmlrpc client ServerProxy 不保留 cookie 而基于 cookie 的登录有时需要 cookie 例如以下代理与 TapaTalk API 一
Polymer - dom-repeat 和 DOM 树中元素数据的缓存

以下场景我有一个 Firebase 数据库其中包含一个列表用于创建一组纸卡 dom repeat
如何以编程方式将操作添加到 Delphi 2010 中的操作管理器

我正在尝试动态添加操作项目我可以添加该项目并且当我这样做时它会起作用 HostActionItem ActionManager ActionBars 0 Items 0 Items 2 NewItem HostAction Items
mac os X 上的 vim 功能键映射不起作用

I have recently started using a Mac OS X Lion system and tried to use Vim in terminal I previously had a vimrc file in m
如何在材料设计中使用 appCompat 自定义上下文操作栏

MainActivity java 我已经实施了MultiChoiceModeListener在这个类中下面是代码 on listView listView setMultiChoiceModeListener MainActivity
根据绘图选择过滤 Bokeh 数据表

我正在尝试根据绘图选择按数据表进行过滤我陷入了合并 cb obj 的困境我生成一个散点图我想在其中选择任意点选择后我想用所选 y 或 x 值大于第二个数据源即 DataTable 的数据源中的值的值填充表 from rando
如何防止 SIGPIPE（或正确处理它们）

我有一个小型服务器程序它接受 TCP 或本地 UNIX 套接字上的连接读取一个简单的命令并取决于命令发送回复问题是客户可能对答案不感兴趣有时会提前退出所以写入该套接字将导致SIGPIPE并使我的服务器崩溃防止这里崩溃的最佳做
还有其他方法让 Laravel 重新加载环境变量吗？

我在知名主机上有一个共享托管帐户我的 Laravel 网站已上传并大部分正常运行但我必须改变环境现在我无法让 Laravel 看到更改我知道这是常见问题我尝试运行 artisan 命令来清除配置和缓存 php artisan co
在 Opencart 管理“订单信息”页面上添加自定义字段

我想在 opencart 管理订单页面上添加自定义字段比较值如 ifoc order order id oc custom table order id然后显示oc custom table comment在管理订单列表上在管理订单信
用Java实现Matlab的rgb2gray

我正在尝试实现Matlab的rgb2gray在Java中根据http www mathworks com help toolbox images ref rgb2gray html http www mathworks com help t
Dropbox直接从浏览器上传文件

我正在尝试将文件直接上传到 dropbox 从浏览器网络应用程序代码 API 上的 uploadFile 函数需要上传服务器上可用的文件这给我带来了麻烦因为我不想要任何文件要上传到我的服务器并从那里上传到保管箱 f fopen te
所有特征必须在 [0, 9] 或 [-10, 0] 范围内

我有以下代码 df load data pd set option display max columns None df dtypes intBillID object chBillChargeCode object chBillNo o

所有特征必须在 [0, 9] 或 [-10, 0] 范围内

所有特征必须在 [0, 9] 或 [-10, 0] 范围内 的相关文章

随机推荐

热门标签

所有特征必须在 [0, 9] 或 [-10, 0] 范围内的相关文章