26日凌晨,OpenAI推出了GPT4o图像生成,可以说解决了此前Midjourney等扩散模型很难解决的问题,业内为之大为赞叹。
这是用手机拍摄的玻璃白板的广角图像,拍摄地点是一间俯瞰海湾大桥的房间。视野中可以看到一位女士正在写字,她身穿一件印有大型 OpenAI 标志的 T 恤。笔迹看起来很自然,但有点凌乱,我们可以看到摄影师的倒影。
现在,用户创建和自定义图像就像使用 GPT‑4o 聊天一样简单 - 只需描述需求,包括任何细节,例如纵横比、使用十六进制代码的精确颜色或透明背景。
摄影师的自拍照,她转身和他击掌
不过,OpenAI表示,由于此模型可以创建更详细的图片,因此图像渲染时间更长,通常长达一分钟。
当今的生成模型可以呈现超现实、令人惊叹的场景,但却无法处理人们用来分享和创建信息的主要图像。从徽标到图表,图像在添加指代共同语言和经验的符号后,可以传达精确的含义。
GPT‑4o 图像生成擅长准确渲染文本、精确遵循提示以及利用 4o 固有的知识库和聊天上下文(包括转换上传的图像或将其用作视觉灵感)。这些功能让您可以更轻松地创建您设想的图像,帮助您通过视觉效果更有效地进行交流,并将图像生成推进为一种精确而强大的实用工具。
据OpenAI官网介绍,根据在线图像和文本的联合分布训练模型,不仅学习图像与语言之间的关系,还学习图像与语言之间的关系。结合积极的后期训练,生成的模型具有令人惊讶的视觉流畅性,能够生成有用、一致且具有情境感知能力的图像。
文本渲染
一张图片胜过千言万语,但有时在正确的位置生成几个文字可以提升图像的含义。4o 将精确的符号与图像融合的能力将图像生成转变为视觉交流的工具。
多轮生成
由于图像生成现在是 GPT-4o 的原生功能,您可以通过自然对话来优化图像。GPT-4o 可以在聊天环境中基于图像和文本进行构建,从而确保始终保持一致性。例如,如果您正在设计视频游戏角色,那么在您进行优化和实验的过程中,该角色的外观在多次迭代中保持一致。
原始图像
给这只猫一顶侦探帽和一副单片眼镜
将其变成使用 4k 游戏引擎制作的 3A 视频游戏,并添加一些用户界面作为神秘 RPG 的覆盖,我们可以在顶部看到健康栏和小地图,在底部看到具有一致图像的咒语
更新为 16:9 比例的横向图像,在 UI 中添加更多咒语,并缩小视觉效果,以便我们以第三人称视角看到猫穿过蒸汽朋克曼哈顿,创造出美丽的对比度和灯光,就像在最好的三 A 游戏中一样,配以冷色调
当玩家打开菜单时创建界面,我们会看到猫的角色资料及其装备以及另一页显示活跃任务(并且它应该与我们在图像中描述的宇宙世界构建有关系)
遵循指令
GPT‑4o 的图像生成遵循详细的提示,注重细节。其他系统在处理约 5-8 个对象时会遇到困难,而 GPT‑4o 可以处理多达 10-20 个不同的对象。对象与其特征和关系的更紧密绑定可以实现更好的控制。
一张正方形图片,包含一个 4 行 4 列的网格,网格上有 16 个对象,背景为白色。从左到右,从上到下。列表如下:
1. 一颗蓝色的星星
2. 红色三角形
3. 绿色正方形
4. 粉色圆圈
5. 橙色沙漏
6. 紫色无限符号
7. 黑白圆点领结
8. 扎染“42”
9. 一只戴着黑色棒球帽的橙色猫
10. 一张带有宝箱的地图
11. 一双活动眼珠
12. 一个竖起大拇指的表情符号
13. 一把剪刀
14. 一只蓝白相间的长颈鹿
15. 用草书写的“OpenAI”一词
16. 一道彩虹色的闪电
情境学习
GPT‑4o 可以分析和学习用户上传的图像,将其细节无缝集成到其上下文中以指导图像生成。
现在把它放到一张在纽约市拍摄的照片中。
世界知识原生图像生成使 4o 能够将其知识链接到文本和图像之间,从而产生一个感觉更智能、更高效的模型。
示例:可以通过代码来修改图像。
照片写实主义和风格
通过对反映各种图像风格的图像进行训练,模型可以令人信服地创建或转换图像。
一位hackernews用户表示:关于这种新型图像生成方式,它通过代token而不是扩散来实现,重要的是它实际上是在像素空间中进行推理。例如:让它画一个带有空白井字棋格的记事本,然后告诉它先走一步,接着你走一步,如此循环。
你还可以进行一些非常令人印象深刻的、保留信息的转换,比如改变绘画风格,或者像“将白天变为夜晚”,或者“给他戴上一顶帽子”之类的操作。
“我感觉这些模型在分辨率方面相当受限,但在这个领域进一步的研究将让我们能够做出一些真正疯狂的事情,比如让模型分步骤完全用图像创建一个应用程序,本质上是用文字设计整个应用程序,包括文字内容等,然后生成代码来重现它。这也意味着一个模型可以接替一个优秀的扩散模型,即使最初的生成效果不佳,它也可以在外部图像上继续“推理”。”
最后,一旦这些模型的速度提升,你可以想象一个真正的生成式用户界面,模型根据发送给LLM的事件生成你正在使用的应用程序的下一帧(LLM可以像平时一样使用工具、思考等)。然而,我也相信扩散模型可以以更快的方式完成其中的一些任务。
甚至有网友晒出了一张被倒满的酒杯的生成图像来证明OpenAI攻克了很多业界不能突破的难题。
今日即可访问和可用性
从今天开始,4o 图像生成将作为 ChatGPT 中的默认图像生成器向 Plus、Pro、Team 和 Free 用户推出,Enterprise 和 Edu 即将推出。它也可以在 Sora 中使用。对于那些对 DALL·E 情有独钟的人来说,仍然可以通过专用的 DALL·E GPT 访问它。
没错,免费用户也可以用,小编也尝鲜了一把。
同时,开发人员很快就能通过 API 使用 GPT-4o 生成图像,并将在未来几周内推出访问权限。
OpenAI在图片生成领域不是最早的,前有StableDifussion,后有Midjourney,但大模型的世界就是这么变幻莫测,OpenAI在图片领域这次可以说是成功逆袭了。