按最大值或按总值标准化？

2024-01-08

我正在做一些涉及文档比较的工作。为此，我分析每个文档，并基本上计算某些关键字在每个文档中出现的次数。例如：

Document 1:                          Document 2:
    Book   -> 3                          Book   -> 9
    Work   -> 0                          Work   -> 2
    Dollar -> 5                          Dollar -> 1
    City   -> 18                         City   -> 6

因此，在计数过程之后，我将所有这些数字序列存储在一个向量中。该数字序列将代表每个文档的特征向量。

Document 1: [ 3,  0,  5, 18]
Document 2: [ 9,  2,  1,  6]

最后一步是将数据标准化在以下范围内[0 1]。但在这里我意识到这可以通过两种不同的方法来完成：

将每个数字序列除以重复总数
将每个数字序列除以最大重复次数

按照第一种方法，标准化的结果将是：

Document 1: [ 0.11538,  0.00000,  0.19231, 0.69231]   (divided by 26)
Document 2: [ 0.50000,  0.11111,  0.05556, 0.33333]   (divided by 18)

遵循第二种方法时，结果将是：

Document 1: [ 0.16667,  0.00000,  0.27778, 1.00000]   (divided by 18)
Document 2: [ 1.00000,  0.22222,  0.11111, 0.66667]   (divided by  9)

对于这个具体案例：

这两种方法中哪一种会增强特征向量的表示和比较？
结果会一样吗？
这些方法中的任何一种在特定的相似性度量（欧几里得、余弦）下会更好地工作吗？

Notation

假设你有两个向量A and B，你用x作为归一化常数A and y作为归一化常数B。由于您正在计算单词出现次数，我们可以假设x > 0 and y > 0.

余弦距离

对于如下所示的余弦距离，归一化常数将被抵消。很容易看出，你最终会得到一个常数1/(xy)在枚举器上，以及一个相同的常数1/(xy)在分母处。所以你可以取消1/(xy).

欧氏距离

对于欧几里得距离，情况并非如此。我在下面列出了一个例子，假设A and B是二维向量。 n 维向量只是其简单的扩展。A' and B'是归一化向量A and B分别。

比较非标准化版本dist(A,B)与规范化版本dist(A',B')，您可以看到：您选择的归一化常数（最大值或总和）决定了权重x1^2+x2^2, y1^2+y2^2和相互作用的术语。因此，不同的归一化常数会产生不同的距离。

特征向量

如果这是出于某种信息检索目的或主题提取，您尝试过吗TF-IDF http://en.wikipedia.org/wiki/Tf-idf？这可能是比纯粹计算术语出现次数更好的衡量标准。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

patternmatching

Normalization

similarity

按最大值或按总值标准化？的相关文章

Scala 模式匹配引用

当模式匹配案例类时您实际上如何引用它所匹配的类这是一个例子来说明我的意思 sealed trait Value case class A n Int extends Value v match case A x gt doSomethi
隐式参数在 unapply 时不起作用。如何从提取器中隐藏普遍存在的参数？

显然提取器对象中的 unapply unapplySeq 不支持隐式参数假设这里有一个有趣的参数 a 以及一个令人不安的普遍存在的参数 b 在提取 c 时最好将其隐藏起来 EDIT 看来我的 intellij scala plugin
通过匹配模式过滤日志 - log4j

我的 log4j xml 文件中有以下布局模式 d ISO8601 c p t x 9 5 4 RC12 m n 我想要的是每当我收到包含消息的日志时process proc completed 应该跳过我的意思是除了包含此消息的日志之
Ruby String#scan 相当于返回 MatchData

正如问题标题中基本上所述 Ruby 字符串上是否有一种方法相当于字符串扫描 http ruby doc org core String html method i scan但它不是只返回每个匹配的列表而是返回一个数组MatchData是
将关系 R 分解为 1NF 后最少存在多少张表？

考虑具有以下属性类型的关系 R A B C D E F G 键总数 1 A 一组简单或原子或单值属性 B C 多值属性集 D E 复合属性集 F G 将关系 R 分解为 1NF 后存在的表的最小数量是多少 A 3 B 2 C 4
Mathematica 的模式匹配优化不佳？

我最近询问了为什么PatternTest引起了大量不必要的评估 PatternTest 未优化 https stackoverflow com questions 8484299 patterntest not optimized列昂尼德回
Haskell 错误：“非详尽模式”

所以我有这个功能当我尝试像这样使用它时合并排序列表 1 1 1 1 它给了我一个错误 1 1 例外 SortFunctions hs 86 1 91 89 非详尽函数 mergeSortedLists 中的模式 85 mergeSor
PostgreSQL 中的字符串匹配

我需要在 PostgreSQL 8 4 中实现正则表达式据我理解匹配似乎正则表达式匹配仅在 9 0 中可用我的需求是当我给出输入时14 1我需要得到这些结果 14 1 1 14 1 2 14 1 Z 但排除 14 1 1 1 14
我在 Python 中查找重复循环的正则表达式模式有什么问题？

我想匹配任何具有重复循环的字符串就像这个数据一样 3333333333333333333333333333333333333333 1 digit cycle 3 1666666666666666666666666666666666666
PostgreSQL 对 string\varchar 的各种清理

我必须通过以下方式清理一些 varchar 删除特殊字符例如来自封闭列表我已经成功地通过大量使用replace regexp replace来做到这一点但我正在寻找类似于SQL Server中的东西删除以下数字但不删除相邻的数字含
Haskell / GHC - 是否有“警告不完整模式”的中缀标签/编译指示

我正在寻找一个可以对特定的不完整模式发出警告的编译指示它会使编译器失败并显示以下假设的代码 FAILIF incomplete patterns f Int gt Int f 0 0 我正在尝试使用 Arrows 编写一个编译器并
R- 将某些列从 0 标准化为 1，其值等于 0

我最近开始使用 are 我想扩展我的数据矩阵我在这里找到了一种方法在两点之间缩放系列 https stackoverflow com questions 5468280 scale a series between two points
匹配没有周围字符列表的单词列表

我有这个正则表达式 one common word or another 除非这两个单词相邻否则它匹配得很好 One one s more word word common word or another word more anothe
基于Java模式分割字符串

您好我有以下模式的日志文件 2014 03 06 03 21 45 432 ERROR mfs pool 3 thread 19 dispatcher StatusNotification Error processing notific
在模式匹配期间防止移动语义

我这里有一个愚蠢的例子只是为了演示我在另一个库和模式匹配中遇到的问题 struct Person name String age i32 choice Choices derive Debug enum Choices Good Neut
Elixir：模式匹配对于元组和映射的工作方式不同

在 Elixir 中如果我尝试模式匹配以下两个元组 a 1 2 我收到匹配错误但如果我对两张地图做同样的事情 x a x 1 y 2 它工作正常并且a绑定到 1 我可以明白为什么匹配两个元组会出错但为什么匹配映射不会出错在第一个示
对于神经网络来说，拥有正态分布的数据重要吗？

因此与数据相关的标准操作之一就是对其进行归一化并将其标准化为均值为 0 标准差为 1 的正态分布数据对吧但是如果数据不是正态分布怎么办另外所需的输出也必须呈正态分布吗如果我希望我的前馈网络在两个类 1 和 1 之间进行分类
匹配拉丁脚本中包含少于 10 个单词的两个字符串的最佳算法是什么

我正在比较歌曲标题使用拉丁字母尽管并不总是我的目标是一种算法如果两个歌曲标题看起来相同则给出高分如果它们没有任何共同点则给出很低的分数现在我已经必须使用 Lucene 和 RAMDirectory 编写代码 Java 来编写
OpenCV 完美识别物体

我有一个应用程序我想一次跟踪 2 个在图片中相当小的对象该应用程序应该在 Android 和 iPhone 上运行因此算法应该是高效的对于我的客户来说如果我们提供一些模式以及附加到要跟踪的对象的软件以获得易于识别的目标那就完全
逐对计算行相似度百分比并将其添加为新列

我有一个像这个示例一样的日期框架我想找到相似的行不重复并逐个计算相似度我发现这个解决方案 https stackoverflow com questions 52650932 how to calculate the similar

随机推荐

使用 AcroForm 技术提交 PDF 表单时的数据编码

当我创建包含 AcroForm 格式 PDF 词典无 XFA 文本字段的 PDF 表单例如使用 Acrobat 并将数据提交到服务器时如何指定检索将使用的编码例如当我提交中文字形测试测试时我在服务器端收到以下标题和内容
Gradle 无法使用 BuildScopeServices.createInitScriptHandler() 创建 InitScriptHandler 类型的服务

我在 Centos 7 终端中使用 gradle build 命令并得到输出 FAILURE Build failed with an exception What went wrong Could not create service o
Docker镜像的摘要是如何计算的？

摘要是 docker 镜像的 sha256 哈希值但镜像并不是真正的单个文件而是一组层我假设摘要是图像清单文件上的 sha256 哈希值但我已经计算了许多清单文件的 sha256 哈希值并将结果与为图像提供的摘要 docker
Android achartEngine如何突出显示特定图表元素

您好我正在使用 achartengine 的饼图来表示我的实际销售额现在当我的应用程序启动时饼图中的图表元素之一应该突出显示就像我们在饼图上执行 onclick 时一样下面是我的饼图的代码 final DefaultRendere
云构建：“替换”部分中的替换？

2019 07 04 更新最终使用 options env 并不完美因为构建步骤中不允许有变量但至少覆盖了环境 Problem GCP s Cloud build不是替换变量substitutions部分有没有办法应用这些替换示例
Keras - ImportError：无法导入名称“CuDNNLSTM”

我正在尝试使用 CuDNNLSTM Keras 单元来提高循环神经网络的训练速度文档here https keras io layers recurrent cudnnlstm 当我跑步时 from keras layers import
波纹绘制使应用程序在 Android API 19 上崩溃

我正在使用自定义波纹drawable
Expo 应用程序发布后 SVG 图像消失

我正在使用 react native remote svg 在我的 React Native Expo 应用程序中显示 SVG 图像一切都在模拟器设备上显示得很好直到我在 Expo 中发布应用程序此时所有 SVG 图像都消失了示例
使用 Rust 的便携式二进制文件

我在使用 Rust 构建可移植可执行文件时遇到问题运行简单构建的可执行文件cargo build在 Ubuntu 上失败 test lib x86 64 linux gnu libc so 6 version GLIBC 2 14 not
如何在列表视图中添加原生广告？

这是我的活动我想在列表视图中插入原生广告我正在尝试遵循本指南https github com StartApp SDK Documentation wiki android advanced usage https github com
NestJS 在 GraphQL 解析器中获取使用 JWT 进行身份验证的当前用户

我目前正在使用 Passport js 在 NestJS 应用程序中实现 JWT 身份验证在我的一些 GraphQL 解析器中我需要访问当前经过身份验证的用户我知道护照会将经过身份验证的用户附加到请求对象至少我希望这是正确的但我不
为什么 %E2%80%8F 被添加到我的 YouTube 嵌入代码中？

我在 Youtube 上有很多视频我使用相同的代码嵌入这些视频所有视频都运行良好直到我上传最后一个视频每次我现在执行代码时 E2 80 8F 都会附加到最后上传的视频中除非我特别要求使用子字符串 0 11 请注意如果没有这种黑客
如何在 C 中打印 %s？

我要打印 SomeString in C 它是否正确 printf s SomeString 不输出所以正确的语法是 printf s string
Indexeddb - 我今天可以开始为其编码吗？

我有最新版本的 Firefox 4 beta 和 Chrome 我想开始想出一些关于我可以用indexedDb 做什么的想法到目前为止它似乎还无法在任何浏览器中使用关于何时可用有什么想法吗 Thanks Walter 它也在 Goog
布尔表达式的最小化是NP完全的吗？

我知道布尔可满足性是 NP 完全的但它是布尔表达式的最小化简化我的意思是采用符号形式的给定表达式并生成符号形式的等效但简化的表达式 NP 完全我不确定是否会从可满足性降低到最小化但我觉得可能是这样有人有确切消息么好吧这样看
当用户单击列标题时，如何启用 DataGridView 排序？

我的表单上有一个 datagridview 我用以下内容填充它 dataGridView1 DataSource students Select s gt new ID s StudentId RUDE s RUDE Nombre s Na
将标记添加到现有谷歌地图（无需刷新谷歌地图）[重复]

这个问题在这里已经有答案了我的网站上有一个谷歌地图正在生产几乎没有标记我想知道是否可以在现有地图上添加标记而不刷新我的谷歌地图这就是我所拥有的我加载我的网页谷歌地图显示带有标记单击按钮后我想在我的地图上添加一个标记无需刷
在Shiny中通过tabPanel打开URL

我的尝试 library shiny ui lt fluidPage navbarPage Sales Dashboard id sales tab tabPanel Panel 1 Test Panel value Test panel
函数式编程 - 避免匹配表达式中的可变和改变 int 值

我刚刚开始进行函数式编程我目前要开始的小项目是一场基本的口袋妖怪战斗先写代码再解释 let choosePokemon let mutable pokemon DemoData schiggy let msg Console Read
按最大值或按总值标准化？

我正在做一些涉及文档比较的工作为此我分析每个文档并基本上计算某些关键字在每个文档中出现的次数例如 Document 1 Document 2 Book gt 3 Book gt 9 Work gt 0 Work gt 2 Dolla

热门标签