TfidfVectorizer.fit_transfrom 和 tfidf.transform 之间有什么区别？

2024-03-22

在 Tfidf.fit_transform 中，我们仅使用参数 X 而没有使用 y 来拟合数据集。这是正确的吗？我们仅为训练集的参数生成 tfidf 矩阵。我们没有使用 ytrain 来拟合模型。那我们如何对测试数据集进行预测呢

https://datascience.stackexchange.com/a/12346/122 https://datascience.stackexchange.com/a/12346/122对为什么调用它有一个很好的解释fit(), transform() and fit_transform().

In gist,

fit()：将矢量化器/模型拟合到训练数据并将矢量化器/模型保存到变量中（返回sklearn.feature_extraction.text.TfidfVectorizer)
transform()：使用变量输出fit()至变压器验证/测试数据（返回scipy.sparse.csr.csr_matrix)
fit_transform()：有时你要直接转换训练数据，所以你使用fit() + transform()在一起，因此fit_transform()。（返回scipy.sparse.csr.csr_matrix)

E.g.

from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
from scipy.sparse.csr import csr_matrix


# The *TfidfVectorizer* from sklearn expects list of strings as input.
sent0 = "The quick brown fox jumps over the lazy brown dog .".lower()
sent1 = "Mr brown jumps over the lazy fox .".lower()
sent2 = "Roses are red , the chocolates are brown .".lower()
sent3 = "The frank dog jumps through the red roses .".lower()

dataset = [sent0, sent1, sent2, sent3]

# Initialize the parameters of the vectorizer
vectorizer = TfidfVectorizer(input=dataset, analyzer='word', ngram_range=(1,1),
                     min_df = 0, stop_words=None)

[out]:

# Learns the vocabulary of vectorizer based on the initialized parameter.
>>> vectorizer =  vectorizer.fit(dataset)

# Apply the vectorizer to new sentence.
>>> vectorizer.transform(["The brown roses jumps through the chocholate dog ."])
<1x15 sparse matrix of type '<class 'numpy.float64'>'
    with 6 stored elements in Compressed Sparse Row format>

# Output to array form.
>>> vectorizer.transform(["The brown roses jumps through the chocholate dog ."]).toarray()
array([[0.        , 0.31342551, 0.        , 0.38714286, 0.        ,
        0.        , 0.31342551, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.38714286, 0.51249178, 0.49104163]])

# When you don't need to save the vectorizer for re-using.
>>> vectorizer.fit_transform(dataset)
<4x15 sparse matrix of type '<class 'numpy.float64'>'
    with 28 stored elements in Compressed Sparse Row format>

>>> vectorizer.fit_transform(dataset).toarray()
array([[0.        , 0.49642852, 0.        , 0.30659399, 0.30659399,
        0.        , 0.24821426, 0.30659399, 0.        , 0.30659399,
        0.38887561, 0.        , 0.        , 0.40586285, 0.        ],
       [0.        , 0.32107915, 0.        , 0.        , 0.39659663,
        0.        , 0.32107915, 0.39659663, 0.50303254, 0.39659663,
        0.        , 0.        , 0.        , 0.26250325, 0.        ],
       [0.76012588, 0.24258925, 0.38006294, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.29964599, 0.29964599, 0.19833261, 0.        ],
       [0.        , 0.        , 0.        , 0.34049544, 0.        ,
        0.4318753 , 0.27566041, 0.        , 0.        , 0.        ,
        0.        , 0.34049544, 0.34049544, 0.45074089, 0.4318753 ]])


>>> type(vectorizer)
<class 'sklearn.feature_extraction.text.TfidfVectorizer'>

>>> type(vectorizer.fit_transform(dataset))
<class 'scipy.sparse.csr.csr_matrix'>

>>> type(vectorizer.transform(dataset))
<class 'scipy.sparse.csr.csr_matrix'>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

NLP

tfidfvectorizer

TfidfVectorizer.fit_transfrom 和 tfidf.transform 之间有什么区别？的相关文章

使用 MongoDB 作为我们的主数据库，我应该使用单独的图数据库来实现实体之间的关系吗？

我们目前正在为一家专业公司内部实施类似 CRM 的解决方案由于存储信息的性质以及信息的不同值和键我们决定使用文档存储数据库因为它完全适合目的在本例中我们选择 MongoDB 作为此 CRM 解决方案的一部分我们希望存储实体之间的关
为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

根据其他属性值替换 xml 属性

我是 XSLT 的新手因此我将非常感谢任何帮助我在 stackoverflow 上搜索了很多尝试应用多种方法但都失败了我有一个像这样的xml
如何自动向 div 添加垂直滚动条？

我想添加一个垂直滚动条 div 我试过了overflow auto 但它不起作用我已经在 Firefox 和 Chrome 中测试了我的代码我在这里粘贴 div 样式代码 float left width 1000px overflow
将日期转换为 ISOString 后删除时间

将日期转换为 ISO 字符串后如何删除时间 var now new Date console log now toISOString 如果输出是 2017 10 19T16 00 00 000Z 我只是希望它是 2017 10 19 一种简
Play 框架作为 SBT 非根模块

我正在尝试使用 SBT 开发 Play 2 0 Web 应用程序以及核心 Java 模块和其他 Java 客户端是否可以通过仍然正确构建 Play 应用程序的方式进行配置我之前开发过一个小型的一次性 Play 2 0 应用程序但我直接
配置多个 git mergetool 和 difftool 以便根据扩展选择合适的工具

当我执行 git difftool 时它会递归地为所有文件运行默认 difftool 我编写了一个脚本来根据扩展名选择适当的 difftool 并在脚本中调用 git difftool t mytool difftool 将所有参数重定向
获取嵌套在 JavaScript 中的 Frame 内的 iframe 内的元素值？

我的 php 主页面有 2 个框架第二个框架内有 iframe 我想从第一帧访问 iframe 文档上元素的值我尝试这样 var frame1 parent frames 1 var frame2 frame1 document get
XCode 5 - AppleScript - 如何获取当前选项卡中的文档

我想在外部应用程序例如 MacVim 的当前选项卡中打开文档基于一个堆栈溢出答案 https stackoverflow com a 12306831 398861我使用以下 AppleScript 代码创建了一个 Automator
无法在 ASP.NET/IIS7 经典模式下设置 HTTP Vary 标头

首先介绍一下背景我为 ASP NET 编写了一个自定义 HTTP 压缩模块我的开发机器有Windows 7 Ultimate 它附带了IIS7 我的生产环境使用IIS6 我遇到的问题是资源专家 Droid redbot org 告诉
Visual C++ - 匿名方法

你好有没有办法在 Visual C 中使用匿名方法 Visual C 2010 supports C 0x lambda expressions 1 which can be used as anonymous functions int
如何在 Spring Boot 中使用 Tomcat RemoteIpFilter

客观的获取用户的远程地址即request getRemoteAddr 在 Spring Boot Web 应用程序中介绍众所周知 getRemoteAddr方法返回直接调用者的地址该调用者可能是代理服务器或原始用户和最终目标服务器
Mockito 根据参数的属性返回值

通常当使用 Mockito 时我会这样做 Mockito when myObject myFunction myParameter thenReturn myResult 是否可以按照以下方式做一些事情 myParameter setPro
Maven Release Plugin - 准备创建快照版本而不是发布版本的标签

我有以下项目结构 framework 框架父 pom 框架的东西在framework parent pom的pom xml中我定义了以下插件
配置log4net根据日志级别写入不同的文件

我正在设置 log4net 并希望在 debug log 中写入调试消息在 info log 中写入信息消息等为此我使用了几个附加程序例如
Java Applet的安全警告提示

从 JRE 1 7 update 55 开始在某些情况下并非总是如此特别是如果我通过主机名而不是 IP 调用应用程序即使我选中不再显示此消息也会始终显示安全警告清单已根据最新指令修复 UPDATE 调查 JRE 安全日志时我
vhdl中process语句的顺序执行

对于vhdl中的process语句据说process语句内部的执行顺序是连续的我的问题是请先看下面的代码 a b和c信号在进程语句中的if语句中是同时还是顺序分配给它们的新值 process clk is begin if risin
MySql：插入一行并获取内容

是否可以插入一行并获取在同一查询中插入的值就像是 INSERT INTO items item number state SELECT 3 number state FROM item bug WHERE id 3 然后获取ID并执行
return 语句中两种不同的括号语法

我正在关注 ReactJS 入门教程 https scotch io tutorials learning react getting started and concepts https scotch io tutorials learn
如何让 Google 字体在 IE 中工作？

我一直在开发一个使用谷歌字体 API https code google com apis webfonts 它很棒据说已经在 IE 中进行了测试但是在 IE 8 中测试时字体根本没有样式化我包括了谷歌的字体指示 http code
Cuda和pytorch内存使用情况

我在用Cuda and Pytorch 1 4 0 当我尝试增加batch size 我遇到以下错误 CUDA out of memory Tried to allocate 20 00 MiB GPU 0 4 00 GiB total c
TfidfVectorizer.fit_transfrom 和 tfidf.transform 之间有什么区别？

在 Tfidf fit transform 中我们仅使用参数 X 而没有使用 y 来拟合数据集这是正确的吗我们仅为训练集的参数生成 tfidf 矩阵我们没有使用 ytrain 来拟合模型那我们如何对测试数据集进行预测呢 https

TfidfVectorizer.fit_transfrom 和 tfidf.transform 之间有什么区别？

TfidfVectorizer.fit_transfrom 和 tfidf.transform 之间有什么区别？ 的相关文章

随机推荐

热门标签

TfidfVectorizer.fit_transfrom 和 tfidf.transform 之间有什么区别？的相关文章