今天分享的是:大模型专题:多模态文档大模型mPLUG-DocOwl
报告共计:57页
该报告由阿里巴巴通义实验室徐海洋撰写,聚焦多模态文档大模型mPLUG-DocOwl。多模态文档大模型旨在让通用多模态大模型具备文档图片理解能力,虽现有模型有一定潜力,但利用其进行文档图片理解仍面临诸多挑战,如图片多样难以编码、任务形式多样、结构布局复杂、Chart问答需多步推理计算、特殊场景依赖外部知识等 。mPLUG-DocOwl通过轻量化训练拓展已有MLLM到文档图片领域,采用无参数的形状适应切图模块应对图片多样性,运用多任务联合学习及辅助学习任务处理多样任务形式。mPLUG-DocOwl 1.5版本引入统一结构学习,利用基于卷积的HReducer对齐视觉和语言特征,直接用特殊文本token表示子图位置,在多模态文档理解任务上效果显著提升,且训练数据仅用开源数据,更易复现。为解决Chart问答难题,团队开发TinyChart-3B,借助视觉token合并和思维程序学习,在保持高效推理速度的同时提高了多步推理和数学计算能力。针对论文图表理解,mPLUG-PaperOwl以提供上下文和构建要点作为辅助,帮助模型进行分析。目前,mPLUG-DocOwl已开源,相关数据和模型可在ModelScope和HuggingFace下载,其在通义mPLUG多模态体系中占据重要位置,支撑多种任务。尽管多模态文档大模型已取得一定成果,但在通用性、鲁棒性和效率方面仍有提升空间,未来可从探索高效视觉编码与图文融合结构、增加Domain数据、大小模型协同等方向展开研究。
以下为报告节选内容