这里有两个非常短的文本可供比较:
Julie loves me more than Linda loves me
Jane likes me more than Julie loves me
我们想知道这些文本的相似程度,纯粹从字数来看(并忽略词序)。我们首先列出两个文本中的单词列表:
me Julie loves Linda than more likes Jane
现在我们计算每个单词在每个文本中出现的次数:
me 2 2
Jane 0 1
Julie 1 1
Linda 1 0
likes 0 1
loves 2 1
more 1 1
than 1 1
但我们对这些词本身并不感兴趣。我们只感兴趣
这两个垂直的计数向量。例如,有两个实例
每个文本中的“我”。我们将决定这两个文本的接近程度
另一种方法是计算这两个向量的一个函数,即余弦
它们之间的角度。
这两个向量又是:
a: [2, 0, 1, 1, 0, 2, 1, 1]
b: [2, 1, 1, 0, 1, 1, 1, 1]
它们之间的角度的余弦约为0.822。
这些向量是 8 维的。使用余弦相似度的优点很明显
它将一个超出人类想象能力的问题转化为一个问题
可以的。在这种情况下,您可以将其视为大约 35 度的角度
度数与零或完全一致有一定的“距离”。