不同长度的tf-idf文档

2024-03-25

我在网上搜索了有关在文档长度差异很大的情况下标准化 tf 等级的信息（例如，文档长度从 500 字到 2500 字不等）

我发现的唯一标准化讨论是将术语频率除以文档的长度，因此导致文档的长度没有任何意义。

不过，这种方法对于标准化 tf.如果有的话，它会导致每个文档的 tf 等级有很大的偏差（除非所有文档都是从几乎相同的字典构建的，但使用 tf-idf 时情况并非如此）

例如，让我们看 2 个文档 - 一个由 100 个唯一单词组成，另一个由 1000 个唯一单词组成。 doc1 中每个单词的 tf 为 0.01，而 doc2 中每个单词的 tf 为 0.001

这会导致在将单词与 doc1 匹配时，tf-idf 等级自动大于 doc2

有人对更合适的标准化公式有任何建议吗？

谢谢

edit我还看到了一种方法，指出我们应该将每个文档的术语频率除以该文档的最大术语频率这也不能解决我的问题

我在想的是，计算所有文档的最大术语频率，然后通过将每个术语频率除以最大术语来标准化所有术语

很想知道你的想法

您分析的目标是什么？

如果您的最终目标是比较文档之间的相似性（等等），您不应该在 tfidf 计算阶段担心文档长度。这就是原因。

The tfidf表示公共向量空间中的文档。如果您随后计算余弦相似度在这些向量之间，余弦相似度补偿了不同文档长度的影响。原因是余弦相似度评估向量的方向而不是它们的大小。我可以用 python 向你展示这一点：考虑以下（愚蠢的）文档

document1 = "apple apple banana"
document2 = "apple apple apple apple banana banana"

documents = (
    document1,
    document2)

这些文档的长度不同，但内容相同。更准确地说，两个文档中术语的相对分布相同，但绝对术语频率不同。

现在，我们使用tfidf在公共向量空间中表示这些文档：

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

我们使用余弦相似度通过仅查看这些矢量化文档的方向（或方位）来评估这些矢量化文档的相似性，而不关心它们的大小（即它们的长度）。我正在评估文档一和文档二之间的余弦相似度：

from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])

结果是1。请记住，当两个向量具有完全相同的方向时，两个向量之间的余弦相似度等于 1；当两个向量正交时，其余弦相似度等于 0；当两个向量具有相反方向时，其余弦相似度等于 -1。

在这种情况下，您可以看到余弦相似度不受文档长度的影响，并且捕获了原始文档中术语的相对分布是相同的事实！如果您想将此信息表示为文档之间的“距离”，那么您可以简单地执行以下操作：

1 - cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])

当文档相似（无论长度如何）时，该值将趋于 0；当文档不相似时，该值将趋于 1。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Normalization

tfidf

textblob

不同长度的tf-idf文档的相关文章

用于将 cython 中的许多 C++ 类包装到单个共享对象的项目结构

我在文档邮件列表和这个问题在这里 https stackoverflow com questions 10300660 cython and distutils 但我想得到一个更直接的答案来解决我的具体情况我正在通过尝试一点一点地包装我
Python：在列表理解本身中引用列表理解？

这个想法刚刚出现在我的脑海中假设您出于某种原因想要通过 Python 中的列表理解来获取列表的唯一元素 i if i in created comprehension else 0 for i in 1 2 1 2 3 1 2 0 0 3
使用 psycopg2 在 python 中执行查询时出现“编程错误：语法错误位于或附近”

我正在运行 Python v 2 7 和 psycopg2 v 2 5 我有一个 postgresql 数据库函数它将 SQL 查询作为文本字段返回我使用以下代码来调用该函数并从文本字段中提取查询 cur2 execute SELECT
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
如何使用Conda下载python包并随后离线安装？

我知道通过 pip 我可以使用以下命令下载 Python 包但 pip install 破坏了我的内部包依赖关系当我做 pip download
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
有人用过 Dabo 做过中型项目吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们正处于一个新的 ERP 风格的客户端服务器应用程序的开始阶段该应用程序是作为 Python 富客户端开发的我们目前正在评估 Dabo
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

selenium 中的 ChromeDriver 和 WebDriver 有什么区别？

如果我们创建 ChromeDriver driver new ChromeDriver 将执行 chrome 驱动程序方法如果我们创建 WebDriver driver new ChromeDriver again ChromeDrive
同时添加附件时出现 412（前提条件失败）

我正在使用 Microsoft Graph 我尝试添加两个附件 POST me messages messageId attachment odata type microsoft graph fileAttachment name 1 t
将含有逗号的数字字符串转换为 int

我有这样的价值 String x 10 000 我想将其转换为int 我可以通过删除逗号来转换它如下所示 String y x replace int value1 Integer parseInt y 但我不想像上面那样做还有其他建议
是否可以使用网络交付的 XUL 应用程序中的本地资源？

有没有办法在浏览器沙箱之外执行通过可信网站交付的 XUL 程序我的 XUL 程序在本地 XULRunner 和带有 add 参数的 firefox 中执行得很好现在我想将其放在我的安全 Intranet 上并允许用户单击启动它的
如何在Windows中直接从vim编辑器编译cpp文件？

我最近在 Windows 操作系统中安装了一个 vim 编辑器我只知道传统的过程即在编辑器中创建源文件并从命令行运行它但我不太明白如何直接从vim编辑器编译CPP程序当我运行命令时 g 你好 cpp o 你好从 vim 命令行
Pod 的所有环境变量列表

我在 OpenShift v3 一体式上有一个使用 Wildfly Builder 映像的 Web 应用程序另外我创建了一个名为 xyz 的服务以指向外部主机 IP 像这样的东西 kind Service apiVersion v1
如何将 td 元素居中对齐[重复]

这个问题在这里已经有答案了我创建了一个简单的表格想要将 td 元素居中对齐但 css 中的align center 似乎不起作用 cTable td align center table border 1 class cTable t
如何从 zendframework 2 中的控制器插件中获取控制器？

我正在 zf2 中编写一个控制器插件我使用以下方法从插件内获取控制器但它返回 null controller this gt getController 有什么建议吗请注意这个答案基于我使用 ZF1 的经验并快速浏览了 ZF2 代
为什么数组的&（地址）在go中打印“&”

这是执行代码 package main func main var ax 2 int ax 0 22 ax 1 99 bx ax cx ax fmt Println ax fmt Println bx fmt Println cx fmt
如何将 JSDoc 注释添加到使用 typescript AST api 生成的 typescript 中？

如何使用 Typescript 的 AST api 和打印机创建带有文档注释的函数 foo function function foo 以下代码生成该函数 function foo import ts from typescript con
在调用回调之前，如何等待异步创建的对象完全可用？

我正在尝试创建一个可以创建新标记的函数我需要能够在回调中处理新标记的一些属性问题是marker立即创建并可用于调用回调但某些属性尚不可用如果我在尝试访问属性之前等待两秒钟它就可以正常工作这使我相信该对象在创建后仍在异步生成自身
如何编译并运行单个class文件cs文件？

抱歉如果这是微不足道的我是 Visual Studio 的新手我有一个项目其中包含多个类文件 cs 文件如何单独运行每个文件每当我进行调试时它只选择一个 cs 文件谢谢编辑来自使用 netbeans 的 java 背景
这个HQL有什么问题吗？ “节点没有数据类型”

session createQuery Select attribute from GoodsSection tgs join gs ascendants ags join ags attributes attribute where at
如何编写一个快速函数来计算数字的总除数？

我必须找到给定数字 N 的除数总数其中可以大到 10 14 我尝试计算最多 10 7 的素数然后使用素数因子的指数找到除数但是事实证明它太慢了因为使用筛子找到素数需要 0 03 秒如果可能的话如何更快地计算除数总数而不计算素数
TS2307：找不到模块“./App.vue”或其相应的类型声明

我想使用 typescript Vue 3 开发 google chrome 扩展在谷歌浏览器扩展弹出索引中打字稿代码index ts好像 import createApp from vue import App from App vu
有没有办法在初始化后使用谓词修改获取的结果？

我正在尝试为现有 CoreData 应用程序简单的日志记录应用程序构建搜索视图我将所有数据存储在 CoreData 中并使用 FetchRequest State private var searchPredicate NSPred
使用子/父 NSManagedObjectContext 时出现奇怪的行为

我正在开发一个应用程序我需要在后台线程上计算事物多秒操作并写入事物与服务器同步数据因此我使用两个 NSManagedObjectContext MOC 一个子对象和一个父对象并且它们必须始终保持同步为了确保它们同步我总是编
Laravel 预加载 - 仅加载特定列

我正在尝试在 Laravel 中加载模型但只返回某些列我不希望呈现整个急切加载的表 public function car return this gt hasOne Car id gt get emailid name 我收到以下错误
为什么 OldCreateOrder 属性不断返回 true？

我声明 Unit BaseGuardian TBaseGuardianService class TService public end implementation R dfm 和 dfm 的代码 object BaseGuardianS
不同长度的tf-idf文档

我在网上搜索了有关在文档长度差异很大的情况下标准化 tf 等级的信息例如文档长度从 500 字到 2500 字不等我发现的唯一标准化讨论是将术语频率除以文档的长度因此导致文档的长度没有任何意义不过这种方法对于标准化 tf 如果有

不同长度的tf-idf文档

不同长度的tf-idf文档 的相关文章

随机推荐

热门标签

不同长度的tf-idf文档的相关文章