In the paper http://www.aclweb.org/anthology/S17-2100我正在努力实施,它说,
在这项工作中,使用三种类型的文本对推文进行建模
表示。第一个是词袋模型,权重为
tf-idf(词频
- 逆文档频率)(部分
2.1.1)。第二个通过平均所有单词(句子中)的单词嵌入来表示一个句子,第三个表示一个
通过平均所有单词的加权词嵌入来生成句子,
单词的权重由 tf-idf 给出(第
2.1.2)。
我不确定第三代表这被称为加权词嵌入,它使用单词的权重,由 tf-idf 给出。我什至不确定它们是否可以一起使用。
词嵌入的平均(可能是加权)是有意义的,尽管根据主要算法和训练数据,这个句子表示可能不是最好的。直觉如下:
- 您可能想要处理不同长度的句子,因此求平均值(比简单求和更好)。
- 句子中的某些单词通常比其他单词更有价值。 TF-IDF 是最简单的词值度量。请注意,结果的比例不会改变。
也可以看看肯特等人的这篇论文 http://aclweb.org/anthology/P/P16/P16-1089.pdf。有一个好贴 http://nadbordrozd.github.io/blog/2016/05/20/text-classification-with-word2vec/对不同算法中的这两种方法进行比较,得出的结论是没有一种明显优于另一种:一些算法倾向于简单平均,一些算法使用 TF-IDF 加权表现更好。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)