sklearn.pipeline.Pipeline 到底是什么？

2023-12-26

我不明白如何sklearn.pipeline.Pipeline完全有效。

里面有一些解释doc http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html。例如，它们的含义是什么：

带有最终估计器的变换管道。

为了让我的问题更清楚，什么是steps？它们如何工作？

Edit

感谢您的回答，我可以使我的问题更清楚：

当我调用管道并作为步骤传递两个变压器和一个估计器时，例如：

pipln = Pipeline([("trsfm1",transformer_1),
                  ("trsfm2",transformer_2),
                  ("estmtr",estimator)])

当我调用这个时会发生什么？

pipln.fit()
OR
pipln.fit_transform()

我不明白估算器如何成为变压器以及如何安装变压器。

变压器在 scikit-learn 中 - 一些具有 fit 和 transform 方法或 fit_transform 方法的类。

预测器- 一些具有拟合和预测方法或 fit_predict 方法的类。

Pipeline只是一个抽象概念，它不是一些现有的机器学习算法。通常，在 ML 任务中，您需要在应用最终估计器之前对原始数据集执行不同的转换序列（查找特征集、生成新特征、仅选择一些好的特征）。

Here http://scikit-learn.org/stable/auto_examples/model_selection/grid_search_text_feature_extraction.html是 Pipeline 使用的一个很好的例子。 Pipeline 为您提供了一个用于所有 3 个转换步骤和结果估计器的界面。它在内部封装了转换器和预测器，现在您可以执行以下操作：

    vect = CountVectorizer()
    tfidf = TfidfTransformer()
    clf = SGDClassifier()

    vX = vect.fit_transform(Xtrain)
    tfidfX = tfidf.fit_transform(vX)
    predicted = clf.fit_predict(tfidfX)

    # Now evaluate all steps on test set
    vX = vect.fit_transform(Xtest)
    tfidfX = tfidf.fit_transform(vX)
    predicted = clf.fit_predict(tfidfX)

只需：

pipeline = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', SGDClassifier()),
])
predicted = pipeline.fit(Xtrain).predict(Xtrain)
# Now evaluate all steps on test set
predicted = pipeline.predict(Xtest)

通过管道，您可以轻松地对该元估计器的每个步骤的参数集执行网格搜索。正如上面链接中所描述的。除最后一步之外的所有步骤都必须是变换，最后一步可以是变换器或预测器。回答编辑：你打电话时pipln.fit()- 管道内的每个变压器将安装在前一个变压器的输出上（第一个变压器是在原始数据集上学习的）。最后一个估计器可以是转换器或预测器，仅当您最后一个估计器是转换器（分别实现 fit_transform 或分别实现转换和拟合方法）时，您才可以在管道上调用 fit_transform() ，仅当您可以在管道上调用 fit_predict() 或 Predict() 时你的最后一个估计器是预测器。所以你不能在管道上调用fit_transform或transform，最后一步是预测器。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sklearn.pipeline.Pipeline 到底是什么？的相关文章

使用 psycopg2 在 python 中执行查询时出现“编程错误：语法错误位于或附近”

我正在运行 Python v 2 7 和 psycopg2 v 2 5 我有一个 postgresql 数据库函数它将 SQL 查询作为文本字段返回我使用以下代码来调用该函数并从文本字段中提取查询 cur2 execute SELECT
SQLAlchemy 通过关联对象声明式多对多自连接

我有一个用户表和一个朋友表它将用户映射到其他用户因为每个用户可以有很多朋友这个关系显然是对称的如果用户A是用户B的朋友那么用户B也是用户A的朋友我只存储这个关系一次除了两个用户 ID 之外 Friends 表还有其他字段因此
将 saxon 与 python 结合使用

我需要使用 python 处理 XSLT 目前我正在使用仅支持 XSLT 1 的 lxml 现在我需要处理 XSLT 2 有没有办法将 saxon XSLT 处理器与 python 一起使用有两种可能的方法设置一个 HTTP 服务接受
将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
无法在 Python 3 中导入 cProfile

我试图将 cProfile 模块导入 Python 3 3 0 但出现以下错误 Traceback most recent call last File
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

无法通过命令行执行 TestNG Suite 文件

我正在尝试通过命令行执行 TestNG Suite 文件以启动回归运行目前我正在通过 Eclipse IDE 成功完成此操作方法是右键单击 testng xml 文件然后选择运行方式 gt TestNG Suite 但是当我尝试
在 Markdown PDF 中，如何在 for 循环的每次迭代后添加分页符？

例如如果我的数据框是 exampledf lt data frame column c exampletext1 exampletext2 exmapletext3 我希望第一页有 exampletext1 第二页有示例文本2 等 pa
spring core中的自动装配与xml配置冲突

以帖子为参考Spring Autowired 和 Qualifier https stackoverflow com questions 40830548 spring autowired and qualifier 我们有这个例子来解决自
相对路径。 baseUrl 和路径不适用于 ionic2 - angular2

我一直在阅读类似的堆栈溢出但我一直无法弄清楚我一定是少了一步我的目标是能够做到 import Logger from logging 代替 import Logger from modules logging 我的 tsconfig
Tensorboard 检查点：访问被拒绝。 ;输入/输出错误

我正在尝试按以下方式在 Jupyter anaconda 中创建张量板错误发生在以下情况 write images True 否则此代码可以正常工作有什么原因会发生这种情况吗 log dir logs fit datetime dat
如何使用javascript变量设置属性

以下是我在 durandal 应用程序中的 cshtml 代码我想设置脚本属性数据主与我的 javascript 变量值如何实现这一目标我尝试过 document getElementById countryscript data m
有没有java库可以将pdf文档转换为html文档？

开源实现将被优先考虑显然这不是一件容易的事 PDF 格式比 HTML 格式丰富得多而且您必须提取图像并链接它们等简单的文本提取要简单得多尽管并不简单我在你的问题的侧栏中看到了类似的问题使用 Python 将 PDF 转换为 H
无法在 R 中绘制 sf 线串：CPL_geos_is_empty(st_geometry(x)) 中的错误

我有飓风轨迹点我将其转换为 QGIS 中的线 https i stack imgur com Gtt61 png https i stack imgur com Gtt61 png https i stack imgur com 6z8M
Excel - 按列对表格进行分类

我目前有这张表我愿意按最后一列对其进行分类所以它看起来像这样我认为这可能可以通过数据透视表或其他东西实现但似乎不行我也尝试过使用切片器但这没有给出所需的效果只是隐藏和取消隐藏行这似乎是一件常见且简单的事情我想做但我似乎无法
计算成对和 mod 10^9+7 乘积的替代方法比 O(N^2) 更快

给定一个数组A大小的整数N 我想计算 This was a problem in a past inter college programming competition We had to write a program that wou
登录后“User.Identity.Name”为 null，但使用 Sustainsys.Saml2.Mvc 集成时“IsAuthenticated”为 true

我有一个 ASP NET MVC 5 应用程序需要支持 SAML 2 0 身份验证我正在评估Sustainsys Saml Mvc https saml2 sustainsys com The User Identity Name我的控
切换div的背景颜色

我正在映射一个 div 以便它根据我数据库中的数据量进行渲染就我而言我的 div 渲染了 4 次这是一个有 4 个选项的民意调查我将分步骤解释我的问题 1 我想为div设置背景颜色使其与我得到的id相匹配页面加载时从数据库中获取
从另一个表单调用一个表单上的方法，如果单击 Form2 上的按钮，则填充 Form1 上的组合框

我想在单击 Form2 上的确定按钮时填充 Form1 上的组合框首先单击Form1 上的加载Form2 按钮以显示Form2 然后出现 Form2 如果按下确定 Form2 上的按钮则必须使用 SQL SERVER 数据库
Fabric - ThreadingGroup 异常停止剩余请求？

我是 Fabric 新手想对一些远程 SSH 服务器并行执行一系列命令看来我应该使用 ThreadingGroup 来做到这一点我可以做到并且似乎有效我唯一真正的问题是我想了解如何处理错误情况以及如何将服务器列表作为字符串传递
无法更改 UILabel 文本颜色

我想更改 UILabel 文本颜色但无法更改颜色这就是我的代码的样子 UILabel categoryTitle UILabel alloc initWithFrame CGRectMake 0 0 46 16 categoryTitl
无法将文件“.mdf”附加为数据库“aspnet-”

我正在使用 Web 套接字和 SqlDependency 来构建游戏服务器 SqlDataReader 的错误表明我应该调用 SqlDependency Start 我在 Global Asax 中包含以下内容 SqlDependency
GraphQL 订阅：最大侦听器超出警告

我们使用 GraphQL 订阅和 pubsub 来订阅帖子当发生超过 10 个订阅时我们会收到节点警告 MaxListenersExceededWarning 检测到可能的 EventEmitter 内存泄漏是否可以提高 pubsub
php：获取文件内容并将文件存储在特定文件夹中

我正在从以下位置获取文件内容file get contents php 中的函数我想将该文件存储在特定文件夹中我该怎么做呢 image file get contents http www affiliatewindow com log
更改Apple Watch应用程序的应用程序ID

我最近将一些应用程序从一个帐户转移到另一个帐户当我这样做时应用程序 ID 也转移了但是 WatchKit 应用程序或 WatchKit 扩展的应用程序 ID 不会传输我尝试上传上传完成并出现在 iTunes Connect 预发行
sklearn.pipeline.Pipeline 到底是什么？

我不明白如何sklearn pipeline Pipeline完全有效里面有一些解释doc http scikit learn org stable modules generated sklearn pipeline Pipeline

sklearn.pipeline.Pipeline 到底是什么？

sklearn.pipeline.Pipeline 到底是什么？ 的相关文章

随机推荐

热门标签

sklearn.pipeline.Pipeline 到底是什么？的相关文章