scikit-learn 中 ColumnTransformer 的自定义 Transformer 出现问题

2024-05-25

我想在 scikit-learn 中创建一个稳定的管道来预处理数据。我试图完成的第一步是估算None对数据框中不同列应用不同策略的值（即用平均值、中位数或其他描述性统计数据替换）。但是，我

我开始使用SimpleImputer变压器连同ColumnTransformer。因为SimpleImputer返回 numpy 数组而不是 pandas 数据框，我编写了一个新的变压器，它使用SimpleImputer在引擎盖下，但将 pandas 列和索引添加回 numpy 数组。为什么我需要返回 pandas 数据框？因为我看到我的管道是这样的：

pipeline = Pipeline([
    ('imputation', ImputationColumnTransformer),
    ('feature_encoding', EncodingColumnTransformer),
    ('model', MLModel)
])

如果没有列访问，特征编码的第二步就无法继续。

问题是，当我使用自定义变压器时，我总是从内部 scikit-learn 验证代码中收到一些错误。

我创建了一个简单的示例来显示我收到的错误类型：

# Creating a toy dataset
m = np.random.randn(3, 3)
m[0, 1] = np.nan
m[2, 2] = np.nan
df = pd.DataFrame(m, columns=['a', 'b', 'c'])


class Imputer(BaseEstimator, TransformerMixin):
    # This transformer returns dataframe instead of default ndarray
    def __init__(self, ImputerCls, strategy):
        self.imputer = ImputerCls(strategy=strategy)

    def fit(self, X, y=None):
        self.imputer.fit(X, y)
        return self

    def transform(self, X):
        res = self.imputer.transform(X)
        res = pd.DataFrame(res)
        res.columns = X.columns
        res.index = X.index
        return res


imputation = ColumnTransformer([
    ('categorial_imputer', Imputer(SimpleImputer, strategy='most_frequent'), ['a']),
    ('numeric_imputer', Imputer(SimpleImputer, strategy='mean'), ['b', 'c'])
])
imputation.fit_transform(df)

我希望 pandas 数据框保留所有列，但是我收到了很长的回溯日志，我无法完全理解该日志以找到问题。似乎在某个阶段ImputerCls是无。

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-70-0ea27e638c36> in <module>
      3     ('numeric_imputer', Imputer(SimpleImputer, strategy='most_frequent'), ['b', 'c'])
      4 ])
----> 5 imputation.fit_transform(df)

~/anaconda3/lib/python3.7/site-packages/sklearn/compose/_column_transformer.py in fit_transform(self, X, y)
    466         self._validate_remainder(X)
    467 
--> 468         result = self._fit_transform(X, y, _fit_transform_one)
    469 
    470         if not result:

~/anaconda3/lib/python3.7/site-packages/sklearn/compose/_column_transformer.py in _fit_transform(self, X, y, func, fitted)
    410                     message=self._log_message(name, idx, len(transformers)))
    411                 for idx, (name, trans, column, weight) in enumerate(
--> 412                         self._iter(fitted=fitted, replace_strings=True), 1))
    413         except ValueError as e:
    414             if "Expected 2D array, got 1D array instead" in str(e):

~/anaconda3/lib/python3.7/site-packages/joblib/parallel.py in __call__(self, iterable)
    919             # remaining jobs.
    920             self._iterating = False
--> 921             if self.dispatch_one_batch(iterator):
    922                 self._iterating = self._original_iterator is not None
    923 

~/anaconda3/lib/python3.7/site-packages/joblib/parallel.py in dispatch_one_batch(self, iterator)
    752             tasks = BatchedCalls(itertools.islice(iterator, batch_size),
    753                                  self._backend.get_nested_backend(),
--> 754                                  self._pickle_cache)
    755             if len(tasks) == 0:
    756                 # No more tasks available in the iterator: tell caller to stop.

~/anaconda3/lib/python3.7/site-packages/joblib/parallel.py in __init__(self, iterator_slice, backend_and_jobs, pickle_cache)
    208 
    209     def __init__(self, iterator_slice, backend_and_jobs, pickle_cache=None):
--> 210         self.items = list(iterator_slice)
    211         self._size = len(self.items)
    212         if isinstance(backend_and_jobs, tuple):

~/anaconda3/lib/python3.7/site-packages/sklearn/compose/_column_transformer.py in <genexpr>(.0)
    409                     message_clsname='ColumnTransformer',
    410                     message=self._log_message(name, idx, len(transformers)))
--> 411                 for idx, (name, trans, column, weight) in enumerate(
    412                         self._iter(fitted=fitted, replace_strings=True), 1))
    413         except ValueError as e:

~/anaconda3/lib/python3.7/site-packages/sklearn/base.py in clone(estimator, safe)
     63     for name, param in new_object_params.items():
     64         new_object_params[name] = clone(param, safe=False)
---> 65     new_object = klass(**new_object_params)
     66     params_set = new_object.get_params(deep=False)
     67 

<ipython-input-57-a319579eaf68> in __init__(self, ImputerCls, strategy)
      2     # This class returns dataframe instead of default ndarray
      3     def __init__(self, ImputerCls, strategy):
----> 4         self.imputer = ImputerCls(strategy=strategy)
      5 
      6     def fit(self, X, y=None):

TypeError: 'NoneType' object is not callable

我就是这样工作的我认为 Imputer 没有被实例化：

from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer

import pandas as pd 
import numpy as np 

# Creating a toy dataset
m = np.random.randn(3, 3)
m[0, 1] = np.nan
m[2, 2] = np.nan
df = pd.DataFrame(m, columns=['a', 'b', 'c'])


class Imputer(BaseEstimator, TransformerMixin):
    # This transformer returns dataframe instead of default ndarray
    def __init__(self, imputer, strategy):
        self.imputer = imputer
        self.strategy = strategy

    def fit(self, X, y=None):
        self.imputer = self.imputer(strategy=self.strategy)
        self.imputer.fit(X, y)
        return self

    def transform(self, X, *_):
        return self.imputer.transform(X)


imputation = ColumnTransformer([
    ('categorial_imputer', Imputer(SimpleImputer, strategy='most_frequent'), ['a']),
    ('numeric_imputer', Imputer(SimpleImputer, strategy='mean'), ['b', 'c'])
])
df = pd.DataFrame(imputation.fit_transform(df), columns=df.columns, index=df.index)

就是这样！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

scikitlearn

scikit-learn 中 ColumnTransformer 的自定义 Transformer 出现问题的相关文章

Python 的键盘中断不会中止 Rust 函数 (PyO3)

我有一个使用 PyO3 用 Rust 编写的 Python 库它涉及一些昂贵的计算单个函数调用最多需要 10 分钟从 Python 调用时如何中止执行 Ctrl C 好像只有执行结束后才会处理所以本质上没什么用最小可重现示例 Ca
如何在flask中使用g.user全局

据我了解 Flask 中的 g 变量它应该为我提供一个全局位置来存储数据例如登录后保存当前用户它是否正确我希望我的导航在登录后在整个网站上显示我的用户名我的观点包含 from Flask import g among other
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
如何使用Conda下载python包并随后离线安装？

我知道通过 pip 我可以使用以下命令下载 Python 包但 pip install 破坏了我的内部包依赖关系当我做 pip download
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
以编程方式停止Python脚本的执行？ [复制]

这个问题在这里已经有答案了是否可以使用命令在任意行停止执行 python 脚本 Like some code quit quit at this point some more code that s not executed sys e
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
IO 密集型任务中的 Python 多线程

建议仅在 IO 密集型任务中使用 Python 多线程因为 Python 有一个全局解释器锁 GIL 只允许一个线程持有 Python 解释器的控制权然而多线程对于 IO 密集型操作有意义吗 https stackoverflow c
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
Scrapy：如何使用元在方法之间传递项目

我是 scrapy 和 python 的新手我试图将 parse quotes 中的项目 item author 传递给下一个解析方法 parse bio 我尝试了 request meta 和 response meta 方法如 sc
在 Qt 中自动调整标签文本大小 - 奇怪的行为

在 Qt 中我有一个复合小部件它由排列在 QBoxLayouts 内的多个 QLabels 组成当小部件调整大小时我希望标签文本缩放以填充标签区域并且我已经在 resizeEvent 中实现了文本大小的调整这可行但似乎发生了某
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2

随机推荐

调用 cat 时 shell 脚本挂起

我有一个 shell 脚本它通过电子邮件向我发送通过 crontasks 遇到的错误如下所示 exec gt output cat shopt s nocasematch if output error output warning t
文件所有者图标

我花了太多时间寻找文件所有者图标以单击拖动到文本字段以将变量分配给该字段然后我突然意识到该图标只显示在 nib 文件上不是故事板那么将变量分配给文本字段的选项是什么硬编码我想做的是在主屏幕上的两个文本字段中显示当前位置的连续坐标
Safari 中透明颜色会发生什么情况？

有一个块其中接近末尾的文本逐渐消失这是使用以下方法完成的 after 给定linear gradient从透明色到背景色最近注意到在当前版本的浏览器中除了 safari 之外一切都很好在第 11 版中情况太糟糕了 Autop
如何将 RFC 2822 日期/时间解析为 Python 日期时间？

我有 RFC 2822 指定的表格日期比如说Fri 15 May 2009 17 58 28 0000 作为字符串有没有一种快速和或标准的方法来将其作为datetimePython 2 5 中的对象我尝试生成 strptime 格式
忽略控制台应用程序中的 Web 浏览器 SSL 安全警报

我正在创建一个能够远程捕获网站屏幕截图的控制台应用程序除了我无法避免证书错误之外一切都正常每次我收到无法通过的弹出消息我尝试使用 ServicePointManager ServerCertificateValidationCall
从 SinkWriter 或 ICodecAPI 或 IMFTransform 获取编码器名称

我使用 SinkWriter 来使用媒体基础对视频进行编码初始化 SinkWriter 后我想获取它使用的底层编码器并打印出它的名称这样我就可以看到它使用的编码器就我而言编码器很可能是H 264 视频编码器 http msdn
维克斯。相同版本不同产品代码如何进行重大升级？

基本上我需要改变这种行为安装具有相同版本和升级代码的产品但不同的产品代码是允许的并被 MSI 视为两种产品我需要将其作为重大升级进行威胁因此在 v 1 0 1 旧版本不同的 ProductCode 上安装 v 1 0 1
全屏模式下的 XBAP

我想以全屏模式运行 XBAP 有没有办法让IE全屏打开XBAP 由于我以完全信任的方式运行每当用户单击全屏按钮时我都会使用 Process Start 方法以 kiosk 模式打开 IE 以下代码解决了我的问题 Process Star
IdentityServer3 与 ServiceStack 和 MVC 客户端

我是 IdentityServer3 的新手刚刚开始设置它似乎进展顺利我一直在为 MVC 应用程序开发混合流程类似于 Kevin Dockx 的 Pluralsight 课程中所示的内容 http www pluralsight c
在 ndb tasklet 中使用 images.get_serving_url_async() 是否安全？

NDB 小线程和yield是执行异步并行代码的好方法然而从文档中还不清楚这种机制是否可以安全地与非 ndb 异步函数一起使用例如images get serving url async The NDB 异步操作文档页面 https
C# webBrowser 脚本错误

尝试使用以下命令加载页面时我不断收到脚本错误webBrowser Navigate https home nest com 它可以从我的普通互联网浏览器中正常启动但不能在我的程序中正常启动有人能指出我正确的方向吗 as 这个链接 ht
如何根据子宽度设置 div 的宽度？

我想使用 HTML 和 CSS 创建一个类似于 UI 的线程视图聊天收件箱 http jsfiddle net 7mbaksvj http jsfiddle net 7mbaksvj 我的问题是 div 的宽度它以固定宽度的形式出现但
如果我传入的日期格式为 YYYYMMDD，则将字符串转换为 .NET 中的日期

如果我传入的日期格式为 C 中将字符串转换为日期的最佳方法是什么YYYYMMDD Ex 20001106 使用 DateTime ParseExact 就像是 string date 20100102 DateTime datetime D
如何在 NHibernate 中使用 READPAST 提示？

有什么办法可以让 NHibernate 使用吗the READPAST hint https learn microsoft com en us sql t sql queries hints transact sql table从 SQL
使用 select2 的多个选择元素无法正常工作

请注意这不是关于
GC 行为和 CLR 线程劫持

我在书中读到关于GC的内容CLR via C 特别是关于 CLR 何时想要开始收集我知道它必须在收集发生之前挂起线程但它提到当线程指令指针到达安全点时它必须执行此操作在它不在安全点的情况下它会尝试快速到达安全点并且这样做是通过hi
React Native fetch() 在 Android 7 上抛出“网络请求失败”，但在 Android 6 上工作正常

我已经发现 question https stackoverflow com questions 45144938 react native android fetch for https returns network request f
QChart 对大数据集无响应

我的这段代码适用于高达 1000 的数据大小现在我用 65536 个点对其进行了测试 series new QLineSeries QList
如何使用 Google Apps 脚本将文件夹从我的云端硬盘复制到团队云端硬盘？

我发现以下 Google Apps 脚本允许我将文件夹从 MyDrive 复制到 MyDrive 以及将 SharedFolders 复制到 MyDrive function start var sourceFolder source va
scikit-learn 中 ColumnTransformer 的自定义 Transformer 出现问题

我想在 scikit learn 中创建一个稳定的管道来预处理数据我试图完成的第一步是估算None对数据框中不同列应用不同策略的值即用平均值中位数或其他描述性统计数据替换但是我我开始使用SimpleImputer变压器连同Col

scikit-learn 中 ColumnTransformer 的自定义 Transformer 出现问题

scikit-learn 中 ColumnTransformer 的自定义 Transformer 出现问题 的相关文章

随机推荐

热门标签

scikit-learn 中 ColumnTransformer 的自定义 Transformer 出现问题的相关文章