苹果另辟蹊径:利用“归一化流”技术打造AI生图模型
创始人
2025-06-24 11:42:03
0

IT之家 6 月 24 日消息,业界通常使用扩散模型或自回归模型来研发 AI 生图模型,苹果公司近期发布的论文显示该公司正在选择一条被“遗忘”的归一化流(Normalizing Flows)技术路线研发相应模型。

据介绍,这一“归一化流”技术是一种通过学习数学变换的方式,将真实世界的数据(如图像)转换成结构化噪声,并再将噪声还原为图像样本的生成模型。其最大优势是能够精确计算生成图像的概率,这是扩散模型无法做到的。这一特性使得归一化流在对概率要求较高的任务中具有独特吸引力。不过此类模型并不常见,原因在于其研发成本更高,同时早期采用相应技术生成的模型往往相对模糊、缺乏细节

IT之家参考苹果公司《Normalizing Flows are Capable Generative Models》论文,其推出一种名为 TarFlow(Transformer AutoRegressive Flow)的新型归一化流技术模型,该模型的核心思路是将一张待生成的大图拆成“小区块”,再以相应区块为单位进行生成一系列像素值,每一块图像像素值的生成都依赖于前面已生成的部分,继而形成完整的图像,因此能够有效避免图像被压缩为固定词汇表时产生的质量损失与表现僵化的问题。

当然,TarFlow 在生成高分辨率图像方面仍存在局限,这就引出了第二篇研究《STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis》。

参考这篇论文,苹果在 TarFlow 的基础上进一步提出了增强版本:STARFlow(Scalable Transformer AutoRegressive Flow)

该模型最大的改进在于,它不再直接在像素层面生成图像,而是在“潜空间”(latent space)中工作,首先生成图像的压缩表示,再通过解码器进行放大还原。因此模型可无须再预测数百万个像素值,而是先处理图像的大体结构,细节部分留给解码器进行补充,从而在不损失质量的前提下提升生成效率

此外,STARFlow 还改进了对文本提示的处理方式。它不再内建专用文本编码器,而是支持调用现有语言模型(例如谷歌推出的小语言模型 Gemma,理论上可以直接在设备上运行)来处理用户的语言指令。这样一来,模型的图像生成部分可以专注于图像细节的生成与优化。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
vivo钱包遭用户投诉贷款利率... 文:WEMONEY研究室 随着移动互联网时代到来,智能手机已经成为了生活的必需品。目前,很多手机如...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
虚拟资料变现还值得做吗?闲鱼卖... 大家好,今天给大家带来的是咸鱼虚拟资料类项目分享,这个项目其实出来很久了,有些人觉得虚拟资料没水准,...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
gta5加载慢怎么办 gta5... 许多玩家在GTA5游戏过程中都会遇到加载速度慢的问题,那么gta5加载慢怎么办?今天加游加速器就来告...
iPhone 16系列手机网速... 在智能手机的世界里,网速往往是衡量一部手机性能的重要指标之一。 尤其是随着5G时代的到来,用户对于高...