大模型导论
上QQ阅读APP看书,第一时间看更新

1.2.2 按模态划分

按模态划分,大模型可以分为单模态、多模态(或称为跨模态)两类。

单模态模型只能处理单一模态的任务,如纯语言、纯视觉或纯音频任务。这类模型包括Alpaca、BLOOM[41]、ChatGLM、GPT-2等。其中,语言模型又可按生成内容或能够处理的语言种类进行细分,例如代码生成类的StarCoder模型[42]、中文对话类的Chinese-Vicuna模型、多语言对话类的ChatGLM-6B模型、医疗建议生成类的MedicalGPT-zh模型和Chat- Doctor[43]模型等。

多模态/跨模态大模型是指能够执行一种或多种跨模态/多模态任务(如文本、图像、视频、语音等),具有很强大的跨模态理解和生成能力的模型。

按模态转化方式,可以将大模型分为文生图类(如CogView[44]、Consistency Models[45])、图文互生类(如UniDiffuser[46])、图文匹配类(如BriVL[47])、文生音类(如Massively Multilingual Speech[48])、音生文类(如Whisper[49])和文音互生类(如AudioGPT[50])等。

能够同时处理多种模态数据的大模型有OpenAI公司的GPT-4多模态大模型、Google公司的Gemini多模态大模型、清华大学与智谱AI联合发布的CogVLM多模态大模型、Meta公司的AnyMAL多模态大模型[51]等。Meta公司推出的涵盖多种跨模态任务的ImageBind模型可以实现文本、视觉、声音、3D、红外辐射等6种模态之间的任意理解和转换[52]