在近期于厦门举办的FORCE Link AI创新巡展上,字节跳动旗下的火山引擎带来了多项AI技术的最新进展。此次发布的核心亮点包括豆包·图像编辑模型3.0、豆包·同声传译模型2.0的推出,以及豆包大模型1.6系列的全面升级。火山引擎还宣布了扣子核心能力的开源,并推出了一系列模型服务和工具产品,如企业自有模型托管方案和Responses API。
豆包·图像编辑模型3.0,也被称为SeedEdit 3.0,是建立在强大的文生图模型Seedream 3.0的基础上。这款图像编辑模型不仅拥有更强的指令遵循能力和图像保持能力,还显著提升了图像生成的质量。通过结合多样化的数据融合技术和特定的奖励模型,SeedEdit 3.0能够处理并生成分辨率高达1K以上的高清图像。用户只需简单的自然语言指令,即可实现图像的多余内容消除、光影效果调整、文字替换等操作。更该模型能够精准控制风格、结构和语义,从而解锁更多创新的修图场景,如图像风格转换、材质变换、人物姿势调整等。
SeedEdit 3.0的应用领域广泛,涵盖了影像创作、广告营销和游戏宣传等多个行业。企业用户可以通过火山方舟平台调用API接口,而个人用户则可以通过即梦或豆包App进行体验。例如,用户可以指令模型将人物的发型更改为短发,或改变毛衣的颜色和纹理,同时保持其他细节不变。这种精细的图像编辑能力,让SeedEdit 3.0成为创意人士和广告设计师的强大工具。
豆包·同声传译模型2.0,即Seed-LiveInterpret 2.0,也在本次发布会上亮相。这款同声传译模型采用了全双工语音理解和生成框架,显著降低了传统机器同传的语音延迟,从8-10秒缩短至2-3秒,实现了文本与语音的同步生成。更重要的是,Seed-LiveInterpret 2.0无需提前录制,能够实时采样并实现0样本声音复刻,让翻译结果更加自然流畅,带来更加沉浸的翻译体验。
豆包大模型1.6系列也迎来了升级。其中,极速版Doubao-Seed-1.6-flash模型在保持卓越的视觉理解能力的同时,增强了代码、推理和数学等大语言模型的能力。这款模型特别适合智能巡检、手机助手和智能硬件等需要高效、低成本解决方案的商业化场景。它不仅具备业界领先的极低延迟,TPOT仅为10ms,而且在价格上也极具竞争力。在实际应用中,Doubao-Seed-1.6-flash模型已经帮助客户降低了60%的延迟和70%的成本。
火山引擎还发布了全模态向量化模型Seed1.6-Embedding,该模型首次实现了“文本+图像+视频”混合模态的融合检索,为企业构建强大的多模态知识库提供了可能。在权威测评榜单中,Seed1.6-Embedding取得了多模态全面任务和中文文本的顶尖成绩,展现了其卓越的性能和广泛的应用潜力。