Tensorflow Bow 编码器说明

2024-03-02

有人可以向我解释一下 Tensorflow BoW 编码器正在做什么/返回什么吗?我希望获得每个文档的字数向量(就像在 sklearn 中一样),但是,显然它正在做一些更奇特的事情。

在这个例子中:

https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/learn/text_classification.py https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/learn/text_classification.py

features = encoders.bow_encoder(
  features, vocab_size=n_words, embed_dim=EMBEDDING_SIZE)

传递了“embed_dim”,我也不明白这在 BoW 编码的上下文中正在做什么。遗憾的是该文档不是很有帮助。我肯定可以尝试完成 Tensorflow 代码,但是,我希望得到高级解释。


在经典的 BOW 模型中,每个单词都由一个 ID(稀疏向量)表示。 Bow_encoder 将这些稀疏向量映射到另一个层,其大小由“embed_dim”指定。 Bow_encoder 用于学习单词或文本的密集向量表示(例如在 word2vec 模型中)。

来自关于 Bow_encoder 的张量流文档: “通过平均嵌入,将每个示例的符号序列映射到向量。”

因此: 如果 Bow_encoder 的输入是单个单词,则它仅映射到嵌入层。当一个句子(或文本)被逐字映射时,最终的嵌入向量被平均。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Tensorflow Bow 编码器说明 的相关文章

随机推荐