英伟达发布PiD图像生成技术:峰值13GB显存
创始人
2026-05-27 20:02:15
0

IT之家 5 月 27 日消息,英伟达团队最新发布图像生成技术 PiD,在消费级单张 RTX 5090 显卡上,能在 1 秒内将 512×512 图像潜变量直接解码并放大到 2048×2048 像素,峰值显存为 13 GB。

根据博文介绍,高分辨率文本生成图像过程中,通常先在潜在空间生成,再由解码器恢复成清晰图像。

潜在空间指模型把原始图像压缩后得到的数值表示空间,保留主体结构、语义关系等关键信息,却省去大量像素级细节,因此计算成本更低。

这种路线计算效率高,但传统解码器主要负责还原编码器输出,擅长“复原”,不擅长主动补出高分辨率细节,面对百万像素级图像时,速度与质量都存在明显瓶颈。

英伟达提出的 PiD,完整名称为 Pixel Diffusion Decoder(像素扩散解码器)。这项方法把潜在解码重新定义为条件式像素扩散,并把解码与上采样合并到同一个生成模块中,因此能在输出阶段补足纹理、结构和局部细节。

IT之家注:条件式像素扩散是一种在像素空间中逐步生成图像的方法,但它不是无条件生成,主要通过参考额外输入来约束结果。

PiD 基于 PixelDiT 构建,并加入轻量级 ControlNet 风格适配器。这个适配器会把含噪的潜在表示注入模型,再通过与西格玛相关的门控机制,按噪声强弱动态调整对潜在表示的信任程度。

为了继续压低延迟,团队还采用 DMD2 蒸馏,把推理步数压缩到 4 步。配合早停机制,PiD 兼顾了速度与输出质量。

它不仅适用于传统 VAE(变分自编码器)潜变量,也兼容近期 RAE 路线常用的语义潜变量,比如 SigLIP 和 DINOv2,这让它具备较强的通用性。

从公开数据看,PiD 可把 512×512 图像潜变量直接解码并放大到 2048×2048 像素。在消费级 RTX 5090 上,峰值显存为 13 GB,耗时不足 1 秒;在 GB200 GPU 上,最快可达 210 ms。

对比级联式扩散超分方案,PiD 端到端延迟最多快 5.9×,文中也概括为约 6×,同时视觉保真度更好。

IT之家附上参考地址

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...