sklearn ColumnTransformer 与 MultilabelBinarizer

2024-01-17

我想知道是否可以在 ColumnTransformer 中使用 MultilabelBinarizer。

我有一个玩具熊猫数据框，例如：

df = pd.DataFrame({"id":[1,2,3], 
"text": ["some text", "some other text", "yet another text"], 
"label": [["white", "cat"], ["black", "cat"], ["brown", "dog"]]})

preprocess = ColumnTransformer(
    [
     ('vectorizer', CountVectorizer(), 'text'),
    ('binarizer', MultiLabelBinarizer(), ['label']),

    ],
    remainder='drop')

但是，此代码会引发异常：

~/lib/python3.7/site-packages/sklearn/pipeline.py in _fit_transform_one(transformer, X, y, weight, message_clsname, message, **fit_params)
    714     with _print_elapsed_time(message_clsname, message):
    715         if hasattr(transformer, 'fit_transform'):
--> 716             res = transformer.fit_transform(X, y, **fit_params)
    717         else:
    718             res = transformer.fit(X, y, **fit_params).transform(X)

TypeError: fit_transform() takes 2 positional arguments but 3 were given

有了 OneHotEncoder，ColumnTransformer 就可以工作了。

用于输入X, MultiLabelBinarizer适合一次处理一列（因为每一行应该是一系列类别），而OneHotEncoder可以处理多列。做一个ColumnTransformer兼容的MultiHotEncoder，您将需要迭代所有列X并用一个来拟合/变换每列MultiLabelBinarizer。以下应该与pandas.DataFrame input.

from sklearn.base import BaseEstimator, TransformerMixin

class MultiHotEncoder(BaseEstimator, TransformerMixin):
    """Wraps `MultiLabelBinarizer` in a form that can work with `ColumnTransformer`. Note
    that input X has to be a `pandas.DataFrame`.
    """
    def __init__(self):
        self.mlbs = list()
        self.n_columns = 0
        self.categories_ = self.classes_ = list()

    def fit(self, X:pd.DataFrame, y=None):
        for i in range(X.shape[1]): # X can be of multiple columns
            mlb = MultiLabelBinarizer()
            mlb.fit(X.iloc[:,i])
            self.mlbs.append(mlb)
            self.classes_.append(mlb.classes_)
            self.n_columns += 1
        return self

    def transform(self, X:pd.DataFrame):
        if self.n_columns == 0:
            raise ValueError('Please fit the transformer first.')
        if self.n_columns != X.shape[1]:
            raise ValueError(f'The fit transformer deals with {self.n_columns} columns '
                             f'while the input has {X.shape[1]}.'
                            )
        result = list()
        for i in range(self.n_columns):
            result.append(self.mlbs[i].transform(X.iloc[:,i]))

        result = np.concatenate(result, axis=1)
        return result

# test
temp = pd.DataFrame({
    "id":[1,2,3], 
    "text": ["some text", "some other text", "yet another text"], 
    "label": [["white", "cat"], ["black", "cat"], ["brown", "dog"]],
    "label2": [["w", "c"], ["b", "c"], ["b", "d"]]
})

col_transformer = ColumnTransformer([
    ('one-hot', OneHotEncoder(), ['id','text']),
    ('multi-hot', MultiHotEncoder(), ['label', 'label2'])
])
col_transformer.fit_transform(temp)

你应该得到：

array([[1., 0., 0., 0., 1., 0., 0., 0., 1., 0., 1., 0., 1., 0., 1.],
       [0., 1., 0., 1., 0., 0., 1., 0., 1., 0., 0., 1., 1., 0., 0.],
       [0., 0., 1., 0., 0., 1., 0., 1., 0., 1., 0., 1., 0., 1., 0.]])

请注意前 3 列和后 3 列是单热编码的，而后面 5 列和最后 4 列是多热编码的。可以像平常一样找到类别信息：

col_transformer.named_transformers_['one-hot'].categories_

>>> [array([1, 2, 3], dtype=object),
     array(['some other text', 'some text', 'yet another text'], dtype=object)]

col_transformer.named_transformers_['multi-hot'].categories_

>>> [array(['black', 'brown', 'cat', 'dog', 'white'], dtype=object),
     array(['b', 'c', 'd', 'w'], dtype=object)]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

scikitlearn

pipeline

sklearn ColumnTransformer 与 MultilabelBinarizer 的相关文章

在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
无效的选择器：使用 Selenium 时不允许出现复合类名错误

我正在尝试通过 Web Whatsapp 打印聊天中的一条消息我可以通过控制台选项卡中的 Javascript 来完成此操作我就是这样做的 recived msg document getElementsByClassName XE
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

如何在同一数据网格视图中拖放行

在 Windows 应用程序 Visual Studio VB 中如何将单行拖放到另一个位置以允许用户重新排序该行我还没有找到任何有价值的例子这是此 C 答案的 vb 版本如何将 DataGridView 行拖放到彼此下方 http
Python/Numpy - 使用列和行标题保存数组

我想将二维数组保存到带有行和列标题信息如表格的 CSV 文件中我知道我可以使用 numpy savetxt 的 header 参数来保存列名称但是有没有简单的方法也可以包含一些其他数组或列表作为数据的第一列如行标题下面是
当我将 UIView 居中时，它的内容变得模糊

I have UIView它不像整个屏幕那么大我希望它出现在屏幕中间我用以下代码做到了这一点 self dialogView center CGPointMake self view bounds size width 2 0 self
获取表单中的所有元素

我想使用 Selenium 提交包含多个元素的表单例如
如何防止窗口在 jQuery SlideToggle() 上向上滚动？

我使用 jQuery 在页面加载时动态添加两个 div 一切都运转良好 except 当我单击第一个动态加载的 div 中的高级选项链接时它执行正确的行为滑动第二个动态 div 但它将窗口的滚动重置回顶部我试图将注意力集中在滑动打
如何在预格式化的 HTML 页面上应用自定义 JSON 数据

我有一个 JSON feed 显示多个房间的房间预订问题是它只显示已预订的时段而不显示数据对象中的空时段预约我第一次尝试这个问题是使用 JQuery 将 JSON 数组数据的选择打印到页面 https stackoverflow c
使用 maven jetty 插件在 java 8 上运行 jetty 9 时扫描文件时出错 [重复]

这个问题在这里已经有答案了我正在运行一个微不足道的Hello World网络应用程序使用servlet 3 1 questions tagged servlet 3 1 jetty 9 questions tagged jetty 9运行
Eclipse 项目属性中缺少 C/C++ 构建和常规

我正在运行 Eclipse 并且正在尝试在其上获取 opencv4android http docs opencv org doc tutorials introduction android binary package O4A SDK
通过第三方网络服务获取客户端IP地址

我想从以下页面读取我的 IP 地址 http l2 io ip http l2 io ip或其他使用javascript将他保存在我的变量 myIp 中 function getMyIP var myIp return myIp 你能怎么
使用 LINQ 按日期对序列进行无间隙分组

我正在尝试选择列表的一个子组其中项目具有连续的日期例如 ID StaffID Title ActivityDate 1 41 Meeting with John 03 06 2010 2 41 Meeting with John 08
如何在没有 AWS cli 的情况下使用 s3 私有存储桶下载文件

是否可以在没有 AWS cli 的情况下从 AWS s3 下载文件在我的生产服务器中我需要下载 S3 存储桶中的配置文件我正在考虑让 Amazon Systems Manger 运行一个脚本来从 S3 下载配置 YAML 文件但我们
AssemblyVersion、AssemblyFileVersion 和 AssemblyInformationalVersion 之间有什么区别？

共有三个程序集版本属性有哪些差异如果我用的话可以吗AssemblyVersion并忽略其余部分 MSDN 说汇编版本 https learn microsoft com en us dotnet api system reflecti
ActionBarSherlock 硬键菜单面板文本颜色

我有一个关于使用 ActionBarSherlock 主题化我的应用程序的小问题一切正常除了Samsung phones with TouchWizz 按硬件菜单键即可显示溢出菜单项我知道如何更改面板背景我的默认主题扩展Theme
数据属性变为整数

看看这个简单的例子在jsfiddle上 http jsfiddle net TZxUU 2 div 00005 turns into div div S00005 turns into div code a append a data si
AttributeError：“MLPClassifier”对象没有属性“decision_function”

我不知道为什么在尝试使用时会出现该错误decision function model 1 BaggingClassifier base estimator MLPClassifier model 1 fit Xtrain ytrain mo
如何合并给定属性上的两个列表

我有两个查询每个查询返回一个对象列表 List a list1 query List a list2 query A 是对象模型两个查询返回几乎相同的对象但设置了不同的属性我想根据对象 A 的属性删除重复项并将它们合并到单个列表中
cURL 使用 PHP，可以确定 cURL 将使用的 IP 地址吗？

是否可以通过编程方式确定 cURL 在连接到远程服务器时使用的 IP 地址我有一个正在使用 cURL 的共享服务器我需要将 IP 地址作为请求的一部分发送我正在交谈的服务器需要一个结合了连接 IP 地址和旋转密码的身份验证字符串例如
VSCode 上的 pwa-node 类型启动配置是什么？

我注意到 VSCode 为 npm 调试生成的默认启动配置通过 NPM 启动默认将配置类型设置为 pwa node 添加通过 NPM 启动配置生成的配置类型我搜索了一下但没有找到它的含义也许与渐进式网络应用程序有关有谁知道
ServiceStack 基准测试继续：为什么将简单（复杂）持久化为 JSON 会减慢 SELECT 速度？

我想切换到 OrmLite 我需要弄清楚它是否很慢如果是原因是什么在我的研究中我得出的结论是复杂的对象在 OrmLite 中被 blob 为 JSON 是 SELECT 速度非常慢的罪魁祸首因此我创建了一个仅关注 OrmLi
sklearn ColumnTransformer 与 MultilabelBinarizer

我想知道是否可以在 ColumnTransformer 中使用 MultilabelBinarizer 我有一个玩具熊猫数据框例如 df pd DataFrame id 1 2 3 text some text some other te

sklearn ColumnTransformer 与 MultilabelBinarizer

sklearn ColumnTransformer 与 MultilabelBinarizer 的相关文章

随机推荐

热门标签