各种预训练模型的理论和调用方式大全

2023-05-16

诸神缄默不语-个人CSDN博文目录

本文主要以模型被提出的时间为顺序,系统性介绍各种预训练模型的理论(尤其是相比之前工作的创新点)、调用方法和表现效果。

最近更新时间:2023.5.10
最早更新时间:2023.5.10

  1. Bert
  2. Roberta
  3. XLNet
  4. Longformer
    序列长度必须是512的整数倍1
    1. 中文版:ValkyriaLenneth/Longformer_ZH
      tokenizer必须要用BertTokenizer2
  5. UniLM
    【论文解读】UniLM:一种既能阅读又能自动生成的预训练模型
  6. SciBert
  7. RPT
  8. NEZHA
  9. ERNIE-百度
  10. ERNIE-清华
  11. DistilledBert
  12. Bart
  13. CPT
  14. Pegasus
  15. GPT-2
  16. GPT-3
  17. GPT-3.5
  18. ChatGPT
    1. InstructGPT
    2. CodeX
      1. ChatGPT技术解析系列之:赋予GPT写代码能力的Codex - 知乎
      2. pass@k
  19. 文心一言
  20. Bard

  1. 见https://github.com/huggingface/transformers/blob/main/src/transformers/models/longformer/modeling_longformer.py:
    在这里插入图片描述 ↩︎

  2. 参考我在该项目下提出的issue:如直接使用LongformerTokenizer会报此错,是否需要使用BertTokenizer? · Issue #2 · ValkyriaLenneth/Longformer_ZH ↩︎

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

各种预训练模型的理论和调用方式大全 的相关文章

随机推荐