CTC:空格和空白有什么区别?

2024-03-02

2006年article https://www.cs.toronto.edu/~graves/icml_2006.pdf关于联结主义时间分类,Alex Graves & co.引入了一种解码语音的模型27标签:26 个用于字母表字母,1 个用于blank,意味着没有标签(我理解是silence).

然而,我看到很多 CTC 的实现都使用28标签,其中之一是blank另一个是space。到目前为止,我还无法找到需要使用这两个标签的解释,对我来说,它们代表同一件事。

您能否解释一下 CTC 背景下空白和空格之间的区别以及为什么需要这两个标签?


在联结主义时间分类中space只是一个 空格和空白是'-',我们用它来解决重复 数据的重复出现。例如“pizza”将被编码为 “比萨”。

TLDR;

ref: https://towardsdatascience.com/beam-search-decoding-in-ctc-trained-neural-networks-5a889a3d85a7 https://towardsdatascience.com/beam-search-decoding-in-ctc-trained-neural-networks-5a889a3d85a7

在CTC中存在一个如何对重复字符进行编码的问题。它是通过引入伪字符(称为空白,但不要将其与“真正的”空白,即空白字符)混淆来解决的。这个特殊字符在文本中将被表示为“-”。我们使用巧妙的编码模式来解决重复字符问题:在对文本进行编码时,我们可以在任意位置插入任意多个空格,而在解码时这些空格将被删除。但是,我们必须在重复字符之间插入空格,如“hello”。此外,我们可以根据需要多次重复每个字符。 让我们看一些例子: “到”→“---ttttttooo”,或“-t-o-”,或“到” “too”→“---ttttto-o”,或“-t-o-o-”,或“to-o”,但不是“too” 如您所见,此模式还允许我们轻松创建同一文本的不同对齐方式,例如“t-o”、“too”和“-to”都表示相同的文本(“to”),但与图像的对齐方式不同。神经网络经过训练以输出编码文本(在神经网络输出矩阵中编码)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CTC:空格和空白有什么区别? 的相关文章

随机推荐