主要把一些实验结果说一下:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210419172433609.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xqc19h,size_16,color_FFFFFF,t_70)
DSSM 作为文本匹配的开山鼻祖,想法也很简单,就是将query 和doc拉到同一维度,然后计算余弦相似度,网络也是非常简单,所以只获得了78.53的准确率,但是他的训练和测试时间很短,也有着一些应用。ESIM是在DSSM上进行改进,他采用了RNN提取特征,并将句子进行对齐,设计组合特征,性能得到了较大的提高,速度也是比较快的;RE2设计循环网络,每次都将embedding与当前层的输出进行拼接作为下一层的输入,后面仍然采用了和ESIM相同的对齐机制,因此获得了比ESIM高的准确率,但是在速度上有一些下降;而基于预训练模型的BERT虽然在准确率上有了大幅度的提高,但是它在训练和推理上的速度都比较慢,还浪费了大量的训练资源,因此有一些方法采用模型压缩的方法对BERT进行压缩,如知识蒸馏,剪枝,量化等,ALBERT采用矩阵分解和跨层参数共享机制,虽然减少了训练时间,但是在推理上没有提升,而DistilBERT通过知识蒸馏将模型由12层变为6层,在推理上的速度提升了1倍,并且保证了97%的精度,这和非BERT方法如ESIM和RE2有着不分上下的精度,这真的值得用BERT来做吗?
总体来讲,ESIM 和RE2的表现相当不错,训练网络的时间短,并且性能能够达到中等偏上水平。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)