科学研究

多模态智能课题组

PI:Yuan YAO

研究方向:多模态大模型能力体系构建

研究方向

课题组聚焦多模态大模型能力体系构建,重点关注深度图文及视频理解能力,包括:

1. 视觉基础架构创新(高清高效模态编码及融合架构)

2. 全模态流式能力(融合文本、视觉、语音的实时流式能力)

3. 高效科学化训练方法(高效多模态知识学习与迁移)

4. 多模态强化学习(多模态深度思考与推理能力)

主要成果

代表性成果1—— MiniCPM-V: A GPT-4V Level MLLM on Your Phone

多模态大模型通常参数量巨大、计算成本高昂,难以广泛应用至个人设备或离线场景。团队训练构建的高效多模态大模型 MiniCPM-V,以 8B 的核心参数量在单图、多图、视频理解上超越了 OpenAI 发布的 GPT-4V 以及谷歌发布的 Gemini Pro 等前沿多模态大模型,取得国际先进水平。基于团队的 RLAIF-V [CVPR'25 Highlights], RLHF-V [CVPR'24], LLaVA-UHD [ECCV'24], VisCPM [ICLR'24 Spotlight] 等研究成果,基于团队的研究成果,MiniCPM-V 模型支持任意长宽比的高清图像处理、具备领先的 OCR 能力、具有低生成幻觉率、支持30余种语言的多模态交互,并能在手机等端侧设备上高效运行。团队最新提出的MiniCPM-o模型,进一步在视觉、语音和全模态实时流式交互能力上达到GPT-4o-202405水平。系列模型在 Hugging Face Trending、GitHub Trending、Papers With Code Trending Research Trending 榜单排名第一,在开源平台下载量累计超过 1000 万次,GitHub 获得超 1.98 万次星标,相关论文发表在国际学术期刊 Nature Communications 2025上,获得 Google Scholar 引用 500 余次。

开源代码链接:https://github.com/OpenBMB/MiniCPM-V

论文链接:https://www.nature.com/articles/s41467-025-61040-5

Demo:https://minicpm-omni-webdemo.internetofagents.net

代表性成果2—— RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness

多模态大模型通常存在严重的“幻觉”问题,即模型在回答中出现与图像信息不符的内容。即便是 GPT-4V 也会在 45.9% 的图像回答中出现明显的幻觉。团队提出基于人类细粒度修正反馈的多模态大模型对齐框架 RLAIF-V,从数据和算法层面显著减少幻觉的出现,并实现较好的推理时拓展效果(Test-time Scaling)。应用该方法训练的开源模型在多个幻觉指标上取得了超过 GPT-4V 的水平。开源数据登上HuggingFace Dataset Trending第二名,相关成果发表在人工智能国际顶会 CVPR 2025 Highlights。

论文链接:https://arxiv.org/abs/2312.00849

开源代码链接:https://rlhf-v.github.io

代表性成果3—— A Deep-Learning System Bridging Molecule Structure And Biomedical Text With Comprehension Comparable To Human Professionals

团队提出首个分子语言多模态大模型KV-PLM,深度沟通分子结构和自然语言两种模态信息。KV-PLM首次实现分子结构和自然语言的双向召回能力:给定药物分子结构,模型可以产生自然语言的药物性质描述,以支持药物性质分析;给定目标药物的自然语言性质描述,模型可以召回相应的分子结构,以支持药物设计及重定向。相关工作发表在国际学术期刊 Nature Communications,并入选 Editors' Highlights 亮点推荐专栏。

论文链接:https://www.nature.com/articles/s41467-022-28494-3

代表性论文

1. Efficient GPT-4V level multimodal large language model for deployment on edge devices. Nature Communications. 2025.


2. RLAIF-V: Open-source AI feedback leads to super GPT-4V trustworthiness. CVPR 2025 Highlights.


3. GUICourse: From general vision language models to versatile GUI agents. ACL 2025.


4. LLaVA-UHD: An LMM perceiving any aspect ratio and high-resolution images. ECCV 2024.


5. RLHF-V: Towards trustworthy MLLMs via behavior alignment from fine-grained correctional human feedback. CVPR 2024.


6. Large multilingual models pivot zero-shot multimodal learning across languages. ICLR 2024 Spotlight.


7. NExT-Chat: An LMM for chat, detection and segmentation. ICML 2024.


8. VPGTrans: Transfer visual prompt generator across LLMs. NeurIPS 2023.


9. A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals. Nature Communications. 2022. Editors' Highlights.

课题组成员

  • 方科晨

  • 王泽凡

  • 万子豪

新闻动态

TOP