将 Keras 集成到 SKLearn 管道？

2024-05-23

我有一个 sklearn 管道，对异构数据类型（布尔、分类、数字、文本）执行特征工程，并想尝试使用神经网络作为我的学习算法来拟合模型。我遇到了输入数据形状的一些问题。

我想知道我想做的事情是否可能，或者我是否应该尝试不同的方法？

我尝试了几种不同的方法，但收到以下错误：

Error when checking input: expected dense_22_input to have shape (11,) but got array with shape (30513,)=> 我有 11 个输入特征...所以我尝试将 X 和 y 转换为数组，现在收到此错误
ValueError: Specifying the columns using strings is only supported for pandas DataFrames=>我认为这是因为ColumnTransformer()我在其中指定列名称

print(X_train_OS.shape)
print(y_train_OS.shape)

(22354, 11)
(22354,)

from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from keras.utils import to_categorical # OHE

X_train_predictors = df_train_OS.drop("label", axis=1)
X_train_predictors = X_train_predictors.values
y_train_target = to_categorical(df_train_OS["label"])

y_test_predictors = test_set.drop("label", axis=1)
y_test_predictors = y_test_predictors.values
y_test_target = to_categorical(test_set["label"])

print(X_train_predictors.shape)
print(y_train_target.shape)

(22354, 11)
(22354, 2)

def keras_classifier_wrapper():
    clf = Sequential()
    clf.add(Dense(32, input_dim=11, activation='relu'))
    clf.add(Dense(2, activation='softmax'))
    clf.compile(loss='categorical_crossentropy', optimizer='adam', metrics=["accuracy"])
    return clf

TOKENS_ALPHANUMERIC_HYPHEN = "[A-Za-z0-9\-]+(?=\\s+)"

boolTransformer = Pipeline(steps=[
    ('bool', PandasDataFrameSelector(BOOL_FEATURES))])

catTransformer = Pipeline(steps=[
    ('cat_imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('cat_ohe', OneHotEncoder(handle_unknown='ignore'))])

numTransformer = Pipeline(steps=[
    ('num_imputer', SimpleImputer(strategy='constant', fill_value=0)),
    ('num_scaler', StandardScaler())])

textTransformer_0 = Pipeline(steps=[
    ('text_bow', CountVectorizer(lowercase=True,\
                                 token_pattern=TOKENS_ALPHANUMERIC_HYPHEN,\
                                 stop_words=stopwords))])

textTransformer_1 = Pipeline(steps=[
    ('text_bow', CountVectorizer(lowercase=True,\
                                 token_pattern=TOKENS_ALPHANUMERIC_HYPHEN,\
                                 stop_words=stopwords))])

FE = ColumnTransformer(
    transformers=[
        ('bool', boolTransformer, BOOL_FEATURES),
        ('cat', catTransformer, CAT_FEATURES),
        ('num', numTransformer, NUM_FEATURES),
        ('text0', textTransformer_0, TEXT_FEATURES[0]),
        ('text1', textTransformer_1, TEXT_FEATURES[1])])

clf = KerasClassifier(keras_classifier_wrapper, epochs=100, batch_size=500, verbose=0)

PL = Pipeline(steps=[('feature_engineer', FE),
                     ('keras_clf', clf)])

PL.fit(X_train_predictors, y_train_target)
#PL.fit(X_train_OS, y_train_OS)

我想我理解这里的问题，但不知道如何解决。如果无法将 sklearn ColumnTransformer+Pipeline 集成到 Keras 模型中，Keras 是否有一个好的方法来处理固定数据类型以进行特征工程师？谢谢你！

看起来您正在通过各种列转换器传递 11 列原始数据，并且维度数扩展到 30,513（在对文本进行计数矢量化、一种热编码等之后）。您的神经网络架构设置为仅接受 11 个输入特征，但正在传递您的（现已转换的）30,513 个特征，这就是错误 1 所解释的内容。

因此您需要修改input_dim神经网络的数量以匹配特征提取管道中创建的特征数量。

你可以做的一件事是在它们之间添加一个中间步骤，例如选择KBest https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html并将其设置为 20,000 之类的值，以便您准确地知道最终将有多少特征传递给分类器。

这是 Google 机器学习网站上的一个很好的指南和流程图 -链接 - 查看流程图 https://developers.google.com/machine-learning/guides/text-classification/step-2-5- 在这里您可以看到他们在训练模型之前在管道中有一个“选择前 k 个特征”步骤。

因此，尝试将代码的这些部分更新为：

def keras_classifier_wrapper():
    clf = Sequential()
    clf.add(Dense(32, input_dim=20000, activation='relu'))
    clf.add(Dense(2, activation='softmax'))
    clf.compile(loss='categorical_crossentropy', optimizer='adam', metrics=["accuracy"])
    return clf

and

from sklearn.feature_selection import SelectKBest
select_best_features = SelectKBest(k=20000)

PL = Pipeline(steps=[('feature_engineer', FE),
                     ('select_k_best', select_best_features),
                     ('keras_clf', clf)])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 Keras 集成到 SKLearn 管道？的相关文章

不能在jinja2宏中使用current_user？

我使用 Flask Login 它提供了current user模板中的对象我想编写一个宏来显示评论表单或登录链接具体取决于用户是否登录如果我直接在模板中使用此代码它会起作用 if current user is authentic
Python - 定义常量列表或字典的最佳/最简洁的方法

第一次使用堆栈溢出我很高兴来到这里简介我最近开始了 Python 编程世界的神奇冒险我喜欢它现在在我从 C 语言的尴尬过渡中一切都进展顺利但我在创建与标头文件 h 同义的内容时遇到了麻烦问题我有中等大小的字典和列表大约
pandas python 根据一个或多个其他列的子集更新 A 列的子集

Edit我修改了下面的部分描述以澄清功能和组的含义修复拼写错误并包含我尝试过的其他代码我的熊猫df有 450 万行和 23 列下表显示了几行df2这是从生成的df 它显示了两组 eeskin and hduquant 和三
使用解析将 ** 运算符更改为幂函数？

我的要求是将运算符更改为幂函数例如 1 Input B 2 Output power B 2 2 B 2 T 2 X Output power B 2 我写了下面的正则表达式来解决这个问题 rx r a zA Z0 9 a zA Z0
创建一个行为类似于任何变量但具有更改/读取回调的类

我想创建一个类其行为类似于 python 变量但在更改读取变量时调用一些回调函数换句话说我希望能够按如下方式使用该类 x myClass change callback read callback 将 x 定义为 myclas
神经网络 - 我的网络似乎训练得很好，但在分类报告中它是完全随机的

我正在训练一个模型来对 3 种类型的车辆进行分类一切看起来都很顺利直到我尝试用我的模型预测任何事情预测结果是完全随机的我使用 3 个类别的 15000 张图像每个类别 5000 个进行训练并使用 3 个类别的 6000 个图像
使用 pygtk3 将 GUI 窗口添加到 python opencv2 程序

我已经使用Python和Opencv2完成了一个程序现在我想向我的程序添加一个 GUI 窗口我对 PyGtk3 有一些经验因此我修改了代码以采用 PyGtk3 但是我遇到了错误因此我尝试了一个简单的程序来找出实际的错误我的
如何在 sqlalchemy 中创建基于文字的查询？

我创建了一个函数来创建表达式 def test operator1 operation operator2 return literal column operator1 op operation operator2 现在当我用 test
Pythoncom - 将相同的 COM 对象传递给多个线程

你好对于 COM 对象我是一个完全的初学者非常感谢任何帮助我正在开发一个Python程序该程序应该以客户端服务器的方式读取传入的MS Word文档即客户端发送一个请求一个或多个MS Word文档服务器使用pythoncom
如何使用lxml和python更新xml文件？
PyCharm 输出错误消息散布在控制台输出中。如何解决这个问题？

我正在运行 PyCharm 社区版 4 0 4 有谁知道为什么控制台输出后不显示错误消息 Thanks C Python27 python exe F Google Drive code python scripts leetcode lc
Pandas：向量化局部范围操作（[i:i+2] 行的最大值和总和）

我希望在数据帧中的每一行的局部范围内进行计算同时避免速度缓慢for环形例如对于下面数据中的每一行我想找到未来 3 天内包括当天的最高气温以及未来 3 天内的总降雨量 Day Temperature Rain 0 30 4 1 3
使用 python 写入 aws lambda 中的 /tmp 目录

Goal 我正在尝试将 zip 文件写入 python aws lambda 中的 tmp 文件夹因此我可以在压缩之前提取操作并将其放入 s3 存储桶中 Problem 操作系统 Errno30 只读文件系统这段代码在我的计算机上进行
Celery 设计帮助：如何防止并发执行任务

我对 Celery AMQP 相当陌生正在尝试提出一个任务队列工作人员设计来满足以下要求我有多种类型的每用户任务例如 TaskA TaskB TaskC 这些每用户任务中的每一个都为系统中的一个特定用户读取写入数据因此
如何使用 Python Pandas 制作 DataFrame 切片并在特定切片中“fillna”？

问题让我们从 Kaggle 获取泰坦尼克号数据集我有包含 Pclass 性别和年龄列的数据框我需要用特定组的中位数填充年龄列中的 NaN 如果是来自一等的女性我想用一等女性的中位数填写她的年龄而不是整个年龄列的中位数问
磁盘寻道时间测量方法

我编写了一个脚本来测量 HDD 上的寻道时间并且其完成方式的微小变化会导致显着不同的时间第一个周期在磁盘开头的区域内进行跳转第二个周期选择磁盘上执行查找的随机区域相同大小这种方法显然不同但我不明白为什么它会改变结果请注意对于
使用 Tweepy 获取推文时出错

我有一个用于获取推文的 Python 脚本在脚本中我使用该库 Tweepy 我使用有效的身份验证参数运行此脚本后一些推文存储在我的 MongoDB 中有些则被 if 语句拒绝但我仍然收到错误 requests packages u
“ModuleNotFoundError：我的 Docker 容器中没有名为的模块”

我正在尝试在 Docker 容器中运行 python 脚本但我不知道为什么 python 找不到任何 python 模块我认为它与 PYTHONPATH 环境变量有关所以我尝试将其添加到 Dockerfile 中如下所示 ENV P
Scrapy - 持续从数据库中获取要爬取的url

我想不断地从数据库中获取要爬行的网址到目前为止我成功地从基地获取了 url 但我希望我的蜘蛛继续从该基地读取因为该表将由另一个线程填充我有一个管道一旦爬行工作就会从表中删除 url 换句话说我想使用我的数据库作为队列我尝试
无法在 Python 2.4 中解码 unicode 字符串

这是Python 2 4 中的这是我的情况我从数据库中提取一个字符串它包含一个变音的 o xf6 此时如果我运行 type value 它会返回 str 然后我尝试运行 decode utf 8 但收到错误 utf8 编解码器无法解

随机推荐

CSS：Chrome 和 Safari 似乎为宽度“添加”边框，而 IE、Firefox 和 Opera 则没有

我正在努力实现我的网站的跨浏览器一致性是关于这个页面的 http www 在这里插入点 geld 在这里插入破折号 surfen 在这里插入点 nl uitbetalingen html http www 5Binsert dot her
为什么随机不那么随机？

有人可以解释一下现代编程语言 java c python javascript 如何应对随机性的限制以及这些限制例如基于时间的种子的起源即如果它们是由底层操作系统和基于英特尔的硬件强加的基本上我想了解为什么没有适当的硬件就没有真正
html中锚标记中href和data-href的区别

html中的href和data href属性有什么区别 a a 标签我当前的代码写如下 a href verify phone process 1 html class btn btn default bubbla btn Sign In
管理产品页面自定义字段显示在购物车和结账中

我在产品页面的常规设置选项卡上的 WooCommerce 管理中创建了一个自定义字段以插入几天的制造时间我想在购物车和结帐页面上每个产品名称上方显示此自定义字段值这是我的代码 Insert a Custom Admin Field f
将键码转换为相关的显示字符

在 C Windows Forms 项目中我有一个不提供 KeyPressed 事件的控件它是一个 COM 控件 ESRI 映射它仅提供 KeyUp 和 KeyDown 事件包含关键事件参数 http msdn microsoft
如何检查用户电子邮件的唯一性并将结果传递给 jQuery？

我有这个问题我正在控制器中检查用户电子邮件并发送 json 成功响应如果已获取并添加输入的 css 样式我还需要阻止提交并添加一些消息这是我的检查电子邮件操作使用本文 http paydrotalks com posts 45
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的
深层嵌套 Flexbox 布局是否会导致性能问题？

我一直在开发一个 ReactJS 项目其中我使用 Flexbox 布局创建了大部分组件由于使用 React 我们可以拥有深度嵌套的组件因此我的布局具有嵌套的 Flexbox 布局现在我的问题是这对性能有任何问题吗在一个页面上有
如果将变量设置为等于新对象，旧对象会发生什么？

假设我们有一个 X 类not有一个超载的operator 功能 class X int n X n 0 X int n n n int main X a 1 an object gets constructed here more code
如何使用文本输入来定位？

我想使用 jQuery 通过文本框转到锚点例如我想使用以下形式
iOS 11 特定设置部分的 URL 方案停止工作

我的应用程序使用 URL 方案将用户直接带到设置常规关于部分以下 URL 在 10 3 x 中工作正常应用程序首选项根常规路径关于然而这个 URL 方案在 iOS 11 GM 版本中不再有效它仅启动设置应用程序
Android MulticastSocket.joinGroup 不会触发发送 IGMP 消息

Code MulticastSocket s new MulticastSocket InetAddress addr InetAddress getByName 230 230 230 1 s joinGroup addr 在 Ubunt
总结同一个 SQL 表上的两个条件

给定一个 SQL 表 Transactions ID INT COMPANY ID INT STATUS INT where STATUS IN 0 1 表示免费交易并且STATUS IN 2 3 表示可计费交易简单的我希望 ANSI
使用 Swift 邮件程序发送邮件时出现错误 501
winform c# 中的弹出窗口

我正在开发一个需要弹出窗口的项目但问题是我还希望能够通过表单设计器在此弹出窗口中添加文本框等所以基本上我有一个按钮当您单击它时它将打开我在表单设计器中设计的另一个窗口我一直在谷歌搜索但还没有找到我需要的东西所以我希望你们能帮助
八度全局变量

global m 1 function p h m end h 我正在尝试运行此脚本但出现此错误 m 在第 4 行第 3 列附近未定义请告诉我如何使用函数中的变量您必须在函数内将 var 声明为全局变量如下所述 https www
.Net Reactive Extensions Framework (Rx) 是否考虑拓扑顺序？

Net 反应式扩展框架是否按拓扑顺序传播通知以最大限度地减少更新量就像 Scala Rx 所做的那样 Net 反应式扩展 Rx 是否可以 https github com lihaoyi scala rx wiki How it Work
如何将 Excel 或 CSV 文件加载到 Firebird 中？

我在用着Firebird http www firebirdsql org数据库我需要将 Excel 文件加载到数据库表中我需要一个能很好地完成这项工作的工具我尝试了一些在谷歌上找到的东西但它们都有一些错误由于 Excel 数据不
ArrayList.clear() 和 ArrayList.removeAll() 有什么区别？

假如说arraylist定义为ArrayList
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不

将 Keras 集成到 SKLearn 管道？

将 Keras 集成到 SKLearn 管道？ 的相关文章

随机推荐

热门标签

将 Keras 集成到 SKLearn 管道？的相关文章