9月19日,中国科学院地理科学与资源研究所发布全球首个多模态地理科学大模型“坤元”(Sigma Geography)。该大模型是专注于地理科学的专业语言大模型,具备处理地理科学相关问题的专业能力,实现了地理专业问题解答、地理学文献智能分析、地理数据资源查询、地理数据挖掘分析、专题地图绘制等功能。
大模型可精准判别用户并差异化回复
“坤是大地,元是起始,也有神经元的意思。坤元就是大地的神经元系统,也就是地理科学大模型。”据中国科学院地理科学与资源研究所副所长、首席科学家苏奋振研究员介绍,这个大模型是由该所联合中国科学院青藏高原研究所、中国科学院自动化研究所等单位研发的。研发团队完成了地理学全谱系高质量语料库构建、地理科学语言大模型构建、地理科学研究智导平台研发等工作,让“坤元”具备“懂地理”“精配图”“知人心”“智生图”等特点。
他进一步介绍说,在“懂地理”方面,研发团队建立了涵盖4大类、16小类的地理全学科语料库,提供320亿词元供大模型自监督学习,并制作了4万余条高质量地理学指令进行模型微调。“‘坤元’学习了300万科技文献、98部经典教材、88部经典著作和34部标准规范。不仅是一个巨大图书库的管理员,也是读书破万卷的读者。”他说,相比通用语言大模型,“坤元”更熟悉地理学的语言模式、专业术语和领域知识,在地理学基准测试集上的准确性提升了31.3%。
在“精配图”方面,团队自主研发了面向多层次地图信息的多模态检索技术、支持地理认知与图形表达的知识推理技术。这些技术使“坤元”在解答地理学提问的同时,可以根据生成的文字答案检索不同地理要素,并匹配地理景观照片、专题地图或示意图表呈现给提问者。
全球首个多模态地理科学大模型“坤元”界面。中国科学院地理科学与资源研究所供图
在“知人心”方面,团队创新提出了用户画像精准判别与响应技术,保证“坤元”能够充分考虑地理知识爱好者、地理学专业学生以及科研人员的地理科学知识体系认知和表达差异,以图文共现的方式给出适配用户知识结构的地理学专业问题解答。
“和通用大模型经常给出一套说辞不同,‘坤元’可以通过分析问题,了解提问者的知识背景,给出更适配需求的答案。比如针对爱好者给出更加科普的回答,针对研究者给出更专业的解答。”苏奋振说,如果长期和“坤元”互动,它还能总结出提问者的关心和爱好,完成地理知识相关内容的精确组织。”
未来大模型有望读懂地图
在“智生图”方面,团队基于“坤元”开发的科研助手,可以根据用户指令完成概念理解、数据获取、信息分析、制图综合等流程,最终生成用户需要的专业地理图表。
“坤元”旨在拓宽普通大众的地理视野,解放地理从业者的双手,推动地理智能发展,赋能地理科学研究、加速重大地理科学发现。目前“坤元”已支撑发表Nature子刊、The Innovation、Earth’s Future等高水平学术论文10余篇。
据苏奋振介绍,目前“坤元”正处于试用阶段,在既定的三个阶段研发完成后,还将从支撑科研转向支撑行业,它也可以成为普通用户的地理老师和旅游向导。
未来,研发团队将推进地图大模型及地理推理机研发,有望让地理科学语言大模型读懂地图;将打造地理科研协作大平台,以期让每个科学家和科研团队都可以拥有专属的地理大模型,能够与数百万科学家通过共享数据、模型、研究思路等方式协同工作。
新京报记者 张璐
编辑 张磊 校对 赵琳