字节跳动火山引擎推出豆包系列模型升级,解锁图像编辑与同声传译新技能
创始人
2025-07-30 16:01:45
0

在近期于厦门举办的FORCE Link AI创新巡展上,字节跳动旗下的火山引擎带来了多项AI技术的最新进展。此次发布的核心亮点包括豆包·图像编辑模型3.0、豆包·同声传译模型2.0的推出,以及豆包大模型1.6系列的全面升级。火山引擎还宣布了扣子核心能力的开源,并推出了一系列模型服务和工具产品,如企业自有模型托管方案和Responses API。

豆包·图像编辑模型3.0,也被称为SeedEdit 3.0,是建立在强大的文生图模型Seedream 3.0的基础上。这款图像编辑模型不仅拥有更强的指令遵循能力和图像保持能力,还显著提升了图像生成的质量。通过结合多样化的数据融合技术和特定的奖励模型,SeedEdit 3.0能够处理并生成分辨率高达1K以上的高清图像。用户只需简单的自然语言指令,即可实现图像的多余内容消除、光影效果调整、文字替换等操作。更该模型能够精准控制风格、结构和语义,从而解锁更多创新的修图场景,如图像风格转换、材质变换、人物姿势调整等。

SeedEdit 3.0的应用领域广泛,涵盖了影像创作、广告营销和游戏宣传等多个行业。企业用户可以通过火山方舟平台调用API接口,而个人用户则可以通过即梦或豆包App进行体验。例如,用户可以指令模型将人物的发型更改为短发,或改变毛衣的颜色和纹理,同时保持其他细节不变。这种精细的图像编辑能力,让SeedEdit 3.0成为创意人士和广告设计师的强大工具。

豆包·同声传译模型2.0,即Seed-LiveInterpret 2.0,也在本次发布会上亮相。这款同声传译模型采用了全双工语音理解和生成框架,显著降低了传统机器同传的语音延迟,从8-10秒缩短至2-3秒,实现了文本与语音的同步生成。更重要的是,Seed-LiveInterpret 2.0无需提前录制,能够实时采样并实现0样本声音复刻,让翻译结果更加自然流畅,带来更加沉浸的翻译体验。

豆包大模型1.6系列也迎来了升级。其中,极速版Doubao-Seed-1.6-flash模型在保持卓越的视觉理解能力的同时,增强了代码、推理和数学等大语言模型的能力。这款模型特别适合智能巡检、手机助手和智能硬件等需要高效、低成本解决方案的商业化场景。它不仅具备业界领先的极低延迟,TPOT仅为10ms,而且在价格上也极具竞争力。在实际应用中,Doubao-Seed-1.6-flash模型已经帮助客户降低了60%的延迟和70%的成本。

火山引擎还发布了全模态向量化模型Seed1.6-Embedding,该模型首次实现了“文本+图像+视频”混合模态的融合检索,为企业构建强大的多模态知识库提供了可能。在权威测评榜单中,Seed1.6-Embedding取得了多模态全面任务和中文文本的顶尖成绩,展现了其卓越的性能和广泛的应用潜力。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
2024信号“最可靠”的四款手... 大家好!今天我要和大家聊聊2024年信号“最可靠”的四款手机,它们分别是华为Pura 70 Pro+...
虚拟资料变现还值得做吗?闲鱼卖... 大家好,今天给大家带来的是咸鱼虚拟资料类项目分享,这个项目其实出来很久了,有些人觉得虚拟资料没水准,...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...