大模型专题：多模态文档大模型mPLUG-DocOwl_科技动态

大模型专题：多模态文档大模型mPLUG-DocOwl

创始人

2025-03-27 01:40:34

0次

今天分享的是：大模型专题：多模态文档大模型mPLUG-DocOwl

报告共计：57页

该报告由阿里巴巴通义实验室徐海洋撰写，聚焦多模态文档大模型mPLUG-DocOwl。多模态文档大模型旨在让通用多模态大模型具备文档图片理解能力，虽现有模型有一定潜力，但利用其进行文档图片理解仍面临诸多挑战，如图片多样难以编码、任务形式多样、结构布局复杂、Chart问答需多步推理计算、特殊场景依赖外部知识等。mPLUG-DocOwl通过轻量化训练拓展已有MLLM到文档图片领域，采用无参数的形状适应切图模块应对图片多样性，运用多任务联合学习及辅助学习任务处理多样任务形式。mPLUG-DocOwl 1.5版本引入统一结构学习，利用基于卷积的HReducer对齐视觉和语言特征，直接用特殊文本token表示子图位置，在多模态文档理解任务上效果显著提升，且训练数据仅用开源数据，更易复现。为解决Chart问答难题，团队开发TinyChart-3B，借助视觉token合并和思维程序学习，在保持高效推理速度的同时提高了多步推理和数学计算能力。针对论文图表理解，mPLUG-PaperOwl以提供上下文和构建要点作为辅助，帮助模型进行分析。目前，mPLUG-DocOwl已开源，相关数据和模型可在ModelScope和HuggingFace下载，其在通义mPLUG多模态体系中占据重要位置，支撑多种任务。尽管多模态文档大模型已取得一定成果，但在通用性、鲁棒性和效率方面仍有提升空间，未来可从探索高效视觉编码与图文融合结构、增加Domain数据、大小模型协同等方向展开研究。

以下为报告节选内容

上一篇：未来科学城“能源谷”首个标准厂房项目一期交付

下一篇：未来星科能源谷智造产业园启动运行，将建蔚来汽车交付中心

大模型专题：多模态文档大模型mPLUG-DocOwl

相关内容

热门资讯