加权词嵌入是什么意思?

2023-12-24

In the paper http://www.aclweb.org/anthology/S17-2100我正在努力实施,它说,

在这项工作中,使用三种类型的文本对推文进行建模 表示。第一个是词袋模型,权重为 tf-idf(词频 - 逆文档频率)(部分 2.1.1)。第二个通过平均所有单词(句子中)的单词嵌入来表示一个句子,第三个表示一个 通过平均所有单词的加权词嵌入来生成句子, 单词的权重由 tf-idf 给出(第 2.1.2)。

我不确定第三代表这被称为加权词嵌入,它使用单词的权重,由 tf-idf 给出。我什至不确定它们是否可以一起使用。


词嵌入的平均(可能是加权)是有意义的,尽管根据主要算法和训练数据,这个句子表示可能不是最好的。直觉如下:

  • 您可能想要处理不同长度的句子,因此求平均值(比简单求和更好)。
  • 句子中的某些单词通常比其他单词更有价值。 TF-IDF 是最简单的词值度量。请注意,结果的比例不会改变。

也可以看看肯特等人的这篇论文 http://aclweb.org/anthology/P/P16/P16-1089.pdf。有一个好贴 http://nadbordrozd.github.io/blog/2016/05/20/text-classification-with-word2vec/对不同算法中的这两种方法进行比较,得出的结论是没有一种明显优于另一种:一些算法倾向于简单平均,一些算法使用 TF-IDF 加权表现更好。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

加权词嵌入是什么意思? 的相关文章

随机推荐