科学家提出新型调优方案，增强多模态大模型在下游多模态任务中的性能

新闻资讯2024-05-18 01:59:48橙橘网

以 ChatGPT 为代表的大语言模型的问世，标志着 AI 领域迈向一个新的里程碑。

与此同时，可处理文本、图像、音频与视频等数据的多模态大模型的发展，则为大语言模型添加了“眼睛”和“耳朵”，使其成为具有多元感知能力和超强知识理解能力的综合智能体。

由于具备优异的泛化性和迁移性，能够提升大模型的多模态理解和生成能力，多模态大模型现已成为 AI 发展新赛道。

据了解，现行的多模态大模型范式如 LLaVA，通常遵循两阶段的训练模式。

第一阶段，视觉与语言的对齐。通过静态投影器将视觉特征与语言模型的词嵌入空间进行匹配，让大语言模型能够理解视觉内容。

第二阶段，多模态指令微调。通过所构建的视觉-语言指令集合对大语言模型进行微调，使其能够更好地响应涉及视觉内容的多样化用户请求。

尽管这两个阶段至关重要，但与投影仪结构和大语言模型调整策略相关的研究却还是比较少。

现有方法仍然采用静态参数的多模态大模型架构，而这种不同任务间的参数共享模式，在处理多样化的多模态任务时存在局限性。

为突破这一局限，来自浙江大学、上海科技大学、重庆大学、阿里巴巴集团和哈尔滨工业大学的研究团队，提出了 HyperLLaVA。

他们利用超参数网络 HyperNetworks 与适配器 Adapter 构建动态专家模块，根据感觉输入感知自适应生动态参数，将静态多模态模型架构与动态调节的专家模块相融合，实现在两个阶段自适应的视觉-文本投影与大语言模型参数的动态调整，从而有效提升多模态大模型在不同下游多模态任务中的泛化能力。

具体来说：

首先，在视觉与语言对齐阶段，将投影仪分解为静态层和动态层。

其中，静态层的参数保持不变，动态层的参数根据输入的视觉特征动态生成，会协助静态投影仪完成基于输入感知的自适应特征建模，然后灵活地将视觉特征转换为文本令牌，来实现细粒度的视觉-语言语义空间对齐。

其次，在多模态指令微调阶段，为大语言模型配备一个语言专家，以给大语言模型块建模动态参数。

也就是说，将大语言模型的中间输出视为隐式的语言先验知识，指导语言专家为每个输入生成独特的参数。

语言专家能够利用跨数据集样本之间的相似性，避免数据集内样本之间的潜在干扰，从而提升多模态大模型处理下游多模态任务的灵活性与泛化性。

此外，该语言专家还可作为多模态大模型的参数高效微调方法，获取与全量微调相近的性能。

“我们希望提出的 HyperLLaVA，能够为多模态大模型架构提供一个更为稳定和灵活的框架，推动拓展多模态多任务处理能力的新边界。”参与本次研究的浙江大学“百人计划”研究员张文桥表示。

图丨张文桥（来源：张文桥）

目前，HyperLLaVA 的具体应用可以分为以下两个方面。

其一，在通用领域，HyperLLaVA 可以通过视觉专家和语言专家的协作，帮助大模型细致地适应不同多模态输入之间的细微差异，并作为即插即用的模块，增强现有通用多模态大模型的感知、认知与推理能力。

进一步提升多模态大模型在诸如数学推理、文案创作、自然语言翻译等通用任务上的性能。

其二，在垂直领域，HyperLLaVA 中的视觉专家和语言专家能够接受额外专业领域的视觉知识与文本知识，弥补通用大模型“专业性弱”的不足之处，实现数据驱动与知识驱动之间的相互引导与促进，进而在垂直领域进行指令微调时，提升多模态大模型的专业性与可信性。

比如，在金融领域，回答投资者所提问题并为其提供相应建议，辅助他们做出良好的投资决策。

在法律领域，帮助用户和律师分别进行法律咨询和法律事务处理；在医学领域，辅助医生进行诊断和治疗，减轻他们的工作压力。

图丨与 LLaVA 相比，HyperLLaVA 在不同的多模态大模型基准测试中实现了卓越性能（来源：arXiv）

近日，相关论文以《HyperLLaVA：多模态大型语言模型的动态视觉和语言专家调优》（HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models）为题在预印本平台 arXiv 上发表[1]。

浙江大学张文桥、上海科技大学林天卫和重庆大学刘江是第一作者，浙江大学庄越挺教授和李俊成，以及阿里巴巴集团姜浩担任通讯作者。

图丨相关论文（来源：arXiv）

据张文桥介绍，该研究始于对当前多模态大模型的综合评估。

“尽管越来越多的研究倾向于采用混合专家模型（MoE，Mixture of Experts），即通过为不同领域培养专门的专家并借鉴集成学习的策略，来增强模型的整体性能。

但如何在训练过程中有效地将特定语料与对应的专家准确匹配，仍然是一个棘手的问题。”他说。

此外，随着大模型技术的进步，单一的静态模型在处理多模态和多任务时存在一定局限性，即使是混合专家模型也存在特定专家之间的知识冲突和遗忘问题。

因此这种固定的静态参数架构可能会限制不同下游任务的性能表现。

也正是现有静态多模态大模型架构存在的局限性，激发了该课题组对探索动态策略的兴趣，从而为进一步的研究打下基础。

接着，在概念化阶段，该团队密切关注该领域的最新发展和可能的解决策略，并对多任务和多领域的相关工作进行深入调研。

“通过结合最新的研究成果和文献进行广泛的思考和讨论，我们提出了 HyperLLaVA 的初步概念，这是一种能够利用超参数网络动态生成视觉和语言专家，进而自适应调整参数的模型。”张文桥表示。

在明确研究方向和方法之后，研究人员开始着手 HyperLLaVA 的实际开发与实验。

他们对初步的原型模型进行严格评估，然后根据性能指标和反馈展开了持续优化与迭代。

据了解，这一迭代过程对于推动模型性能的极致发展，及验证其实际应用的可行性来说非常关键。

随后，他们又把改良后的模型放在多个基准测试和真实场景中进行广泛的实验验证，旨在评估其性能，以及与现有的模型进行比较。

另外，他们还开展了一系列消融实验，并通过对比分析深入探讨了模型的工作原理，详细记录了研究过程、方法论、实验结果及其解释性分析。

张文桥表示，在研究开展的过程中，当该课题组决定使用超参数网络来增强视觉和语言专家的性能之后，先尝试采用了一个庞大的网络结构，但却发现这会导致多模态大模型训练的不可控，从而无法达到预期效果。

“据我们分析，这是由于生成的网络参数规模太大，训练数据无法拟合。”张文桥表示。

所以，在后续的诸多测试中，他们花费大量时间与资源进行调试，却都无法取得较好的效果。

“我们甚至一度放弃了提出的方案。”张文桥坦言。

然而，在一次偶然的测试中，该团队发现模型在较小维度下展现出意外的性能优势与训练稳定性。

这让他们决定结合上下采样网络结构，对生成网络参数的规模进一步控制，最终有效提升了网络训练的可控性与泛化性。

除此之外，研究人员也观察到超参数网络作为一种动态调整机制，在某种程度上与元学习存在相似性。

这既能增强模型跨领域应用的能力，又能使模型在训练过程中即刻利用这种跨领域的潜能来进行自我调整。

而在该研究的基础上，该课题组也会继续关注最新的大模型技术进展，探索如何进一步完善 HyperLLaVA，并在多模态大模型领域开拓新的强大范式。

比如，在模型架构层面，结合混合专家 MoE 技术训练通用视觉/语言专家与特定视觉/语言专家，通过二者的协作与融合进一步提升多模态大模型在下游任务的泛化性。

在模型规模层面，收集更大规模的多模态训练指令，并在更大的基座语言模型（如 34B、130B）上进行模型训练，从而构建更强大的通用多模态大模型。

在应用示范上，于医疗领域实现初步落地，构建基于医疗影像、医疗知识图谱、医疗问诊库等多模态指令数据，实现细粒度的医学影像解析、基础基本问诊、诊断报告生成等功能。

参考资料：

1.W.,Zhang,T.,Lin,J.,Liu.et al. HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models. arXiv:2403.13447.https://doi.org/10.48550/arXiv.2403.13447

运营/排版：何晨龙

01/ 科学家设计主动渗透纳米载体，完美平衡药物释放和转胞运作用，助力研发抗肿瘤纳米新药

02/ 科学家制备新型液晶弹性体，无需传统发光体就能实现内源发光，极大降低功能集成材料制造成本

03/ 温和条件也能生产人造钻石，科学家发现新型液态合金体系，成功制备多晶钻石薄膜

04/ 科学家打造文生视频大模型，含四个高效变种可更好处理时空维度，将Transformers与扩散模型完美结合

05/ 科学家用二氧化碳合成多碳醇，已完成8000小时稳定性评价，助力缓解过度依赖化石资源