ViLT

【论文精读】ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Hierarchical Text Conditional Image Generation with CLIP Latents 前言 Abstract 1 Introduction 2 Background 2 1 Taxonomy of

多模态 Transformer 深度学习 人工智能 ViLT