智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA_科技动态

智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA

创始人

2025-03-04 17:21:03

0次

智东西

作者 | 程茜

编辑 | 心缘

智东西3月4日消息，今天，大模型独角兽智谱发布首个支持生成汉字的开源文生图模型——CogView4。

该模型有60亿参数，支持原生中文输入和中文文本到图像生成。其主要更新在于，CogView4可以理解中英文双语提示词，且将中英文字符融入图像之中，并支持上百字复杂提示词输入。

与CogView3-Plus-3B相比，CogView4的提示词长度上限从224 Tokens增加到了1024 Tokens。

CogView4在文生图基准测试DPG-Bench中综合评分排名第一。

目前，CogView4-6B-0304版本已经开源，将于3月13日上线智谱清言（chatglm.cn）。

这也是是首个遵循Apache 2.0协议的图像生成模型，后续智谱会陆续增加ControlNet、ComfyUI等生态支持，并即将推出全套的微调工具包。

GitHub地址：

https://github.com/THUDM/CogView4/blob/main/README_zh.md

一、中英文海报原图直出，上百字提示词精准理解

CogView4支持中英双语提示词输入，擅长理解和遵循中文提示词，能根据用户需求将中英文字符融入生成的图像中。

如下图所示的“无敌炒面”海报：

还能根据图像风格变换字体：

英文和数字也可以与画面内容自然融合：

CogView4可以为古诗词制作插图，根据诗句意境描绘出对应的画面：

如下图的提示词是：野径云俱黑，江船火独明。黑云、船、灯光、野径，这些主要元素都呈现了出来。

此外，CogView4支持超长提示词生成四格漫画，或者超长且复杂的提示词生成更为精细的画面。

下方生成的四格漫画其提示词近700个字，包含漫画的主要人物、四段剧情等。

如果用户对画面细节要求高，也可以通过完整的表述将画面的每一个细节都概括到位，如：

一幅超现实微距摄影或3D数字艺术，画面左边是一半的蒲公英花冠。花冠的半边超微距特写占据了整个画面，极致细节，种子上缀满晶莹剔透的水滴，如梦如幻。蒲公英的花梗细小，花冠的细丝纤细透明，每一根上都附着着微小的水珠，折射出周围的光线，形成无数微小的光斑，营造出梦幻而精致的视觉体验。景深效果，淡紫色背景并灰色渐变，使背景呈现出柔和的模糊渐变，增强画面纵深感。带有微微的冷色调光晕，使画面更加宁静而神秘。画面光效极为细腻，每一颗水珠都像微型镜头一般，折射出世界的微观景象，增强了精密与梦幻的氛围。高动态范围（HDR）光影效果，确保水滴的透明度、反射和折射层次丰富，极具视觉吸引力。

二、DPG-Bench基准测试排名第一，中文文字准确率评测超快手可图

在文本到图像生成的DPG-Bench基准测试中，CogView4综合评分排名第一，在开源文生图模型中达到SOTA。DPG-Bench主要关注模型在复杂语义对齐和指令跟随能力方面的表现。

在Geneval基准测试中，CogView4综合评分为0.73，排名第二。

在用于开放式世界组合式文本到图像生成的综合基准T2I-CompBench中，CogView4综合评分0.7786，排名第二。

中文文字准确率评测中，其结果显示，CogView4表现效果好于国产开源绘画模型快手可图。

三、擅长理解中文，支持任意分辨率

CogView4的技术优势体现在两个方面：

首先，支持中英双语提示词输入，擅长理解和遵循中文提示词，是首个能够在画面中生成汉字的开源文生图模型。

CogView4将文本编码器从纯英文的T5 encoder换为具备双语能力的GLM-4 encoder，并通过中英双语图文对进行训练，使CogView4模型具备双语提示词输入能力。

其次，该模型支持输入任意长度提示词，能生成范围内任意分辨率图像。CogView4模型实现了任意长度的文本描述（caption）和任意分辨率图像的混合训练范式。

图像位置编码CogView4采用二维旋转位置编码（2D RoPE）来建模图像的位置信息，并通过内插位置编码的方式支持不同分辨率的图像生成任务。

扩散生成建模模型采用Flow-matching方案进行扩散生成建模，并结合参数化的线性动态噪声规划，以适应不同分辨率图像的信噪比需求。

在DiT模型架构上，CogView4延续上一代的Share-param DiT架构，并为文本和图像模态分别设计独立的自适应LayerNorm层，以实现模态间的高效适配。

CogView4采用多阶段训练策略，包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这种分阶段训练方式不仅覆盖了广泛的图像分布，还确保生成的图像具有高美感并符合人类偏好。

训练框架优化，从文本角度CogView4突破了传统固定Token长度的限制，允许更高的Token上限，并显著减少了训练过程中的文本Token冗余。

当训练caption的平均长度在200-300 Token时，与固定512 Tokens的传统方案相比，CogView4减少了约50%的Tokens冗余，并在模型递进训练阶段实现了5%-30%的效率提升。

结语：智谱开源年启动，全面拥抱AI普惠

此前，智谱预告2025年将是其开源年，要陆续开源基础模型、推理模型、多模态模型、Agent模型等，并将这些模型全部开放源代码，CogView4正是这一系列的第一个开源模型。

这也是近日智谱完成一笔超10亿元战略融资以来，其最新动向。智谱GLM系列大模型已在金融、医疗、教育等多个行业得到广泛应用。智谱从2019年成立就定下了实现AGI的愿景，并拥抱开源，致力于AI普惠。

上一篇：全国政协委员周鸿祎：用“以模制模”解决大模型应用安全问题

下一篇：解码新能源黑科技！《张朝阳的物理课》走进阳光电源

智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA

相关内容

热门资讯