10月15日,火山引擎在视频云技术大会上发布了大模型训练视频预处理方案。目前,该技术方案已应用于豆包视频生成模型。
据介绍,对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。
抖音集团视频架构负责人王悦表示,对大模型厂商而言,上述过程中面临着诸多挑战。
“首先,超大规模视频训练数据集导致计算和处理成本激增,”王悦说,“其次是视频样本数据参差不齐,然后是处理链路环节多、工程复杂,最后还面临着对GPU、CPU、ARM等多种异构算力资源的调度部署。”
借助Intel的CPU、GPU等不同资源,火山引擎此次发布的大模型训练视频预处理方案依托于自研的多媒体处理框架BMF,能有效应对模型训练的算力成本挑战。
此外,该方案还在算法和工程方面进行了调优,可以对海量视频数据高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。火山引擎本次还发布并开源了移动端后处理解决方案BMF lite版本,支持端侧大模型接入和算子加速,更加轻量、通用。
Bytedance Research 负责人李航介绍,豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案。据了解,豆包视频生成模型PixelDance于9月24日发布,突破了多主体运动的复杂交互、多镜头切换的内容一致性难题。
此次活动中,火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案。
大会上,王悦还透露了字节自研视频编解码芯片的最新进展,该芯片在同等视频压缩效率下,成本节省了95%以上。该芯片将于近期正式对外开放测试,招募首批种子用户。