1.2.2 按模态划分_大模型导论-QQ阅读男生玄幻网

上QQ阅读APP看书，第一时间看更新

1.2.2　按模态划分

按模态划分，大模型可以分为单模态、多模态（或称为跨模态）两类。

单模态模型只能处理单一模态的任务，如纯语言、纯视觉或纯音频任务。这类模型包括Alpaca、BLOOM^[41]、ChatGLM、GPT-2等。其中，语言模型又可按生成内容或能够处理的语言种类进行细分，例如代码生成类的StarCoder模型^[42]、中文对话类的Chinese-Vicuna模型、多语言对话类的ChatGLM-6B模型、医疗建议生成类的MedicalGPT-zh模型和Chat- Doctor^[43]模型等。

多模态/跨模态大模型是指能够执行一种或多种跨模态/多模态任务（如文本、图像、视频、语音等），具有很强大的跨模态理解和生成能力的模型。

按模态转化方式，可以将大模型分为文生图类（如CogView^[44]、Consistency Models^[45]）、图文互生类（如UniDiffuser^[46]）、图文匹配类（如BriVL^[47]）、文生音类（如Massively Multilingual Speech^[48]）、音生文类（如Whisper^[49]）和文音互生类（如AudioGPT^[50]）等。

能够同时处理多种模态数据的大模型有OpenAI公司的GPT-4多模态大模型、Google公司的Gemini多模态大模型、清华大学与智谱AI联合发布的CogVLM多模态大模型、Meta公司的AnyMAL多模态大模型^[51]等。Meta公司推出的涵盖多种跨模态任务的ImageBind模型可以实现文本、视觉、声音、3D、红外辐射等6种模态之间的任意理解和转换^[52]。