近日,火山引擎在視頻云技術的盛會上,正式揭曉了一項創新性的大模型訓練視頻預處理策略,該方案已率先融入豆包視頻生成模型的實踐之中。火山引擎總裁譚待強調,在AIGC與多模態技術的浪潮推動下,用戶體驗正迎來前所未有的變革。“依托抖音的深厚積累及與業界的緊密合作,火山引擎視頻云正全力探索AI大模型與視頻技術的深度融合路徑,力求從技術支撐、處理流程到業務增長,全方位賦能企業。”譚待如是說。
預處理作為大模型訓練不可或缺的一環,其重要性不言而喻。通過標準化視頻數據格式、優化數據質量、精簡數據量及高效處理標注信息,火山引擎的預處理方案能夠顯著提升模型學習視頻特征的效率與質量,進而加快訓練進程,提升模型性能。然而,這一過程對技術廠商而言,同樣伴隨著諸多挑戰。
抖音集團視頻技術領軍人物王悅指出,面對超大規模的視頻數據集,計算與處理成本飆升成為首要難題。同時,視頻樣本的多樣性與復雜性、處理流程的繁瑣以及異構算力資源的調度部署,均構成不容忽視的挑戰。“火山引擎此番推出的預處理方案,正是針對這些痛點,借助Intel等領先硬件資源,依托自研的BMF多媒體處理框架,實現了算力成本的有效控制與高效利用。”

不僅如此,火山引擎還在算法與工程層面進行了深度優化,確保了海量視頻數據能夠快速、高質量地完成預處理,各環節之間實現了無縫銜接與高效協同。尤為火山引擎還同步推出了BMF lite版移動端后處理解決方案,該方案以其輕量、通用的特點,支持端側大模型的快速接入與算子加速,進一步拓寬了應用場景。
另一方面,豆包視頻生成模型PixelDance自發布以來,便憑借其獨特的DiT架構與創新的擴散模型訓練方法,在解決多主體運動交互、多鏡頭內容一致性等難題上展現出卓越能力。目前,該模型已通過火山引擎向企業用戶開放邀測,預示著視頻生成技術的又一重大突破。













