近日,深圳迎來了一場科技盛宴——火山引擎AI創新巡展,此次展會中最引人注目的莫過于豆包大模型家族的全新成員亮相。火山引擎宣布,其豆包大模型系列再添強勁新成員,包括豆包?視頻生成模型、豆包音樂模型以及同聲傳譯模型,并對通用語言模型、文生圖模型、語音模型進行了全面升級,以“更強模型、更低價格、更易落地”為核心理念,持續推動AI技術的創新與應用。

在眾多新成員中,豆包?視頻生成模型無疑成為了全場焦點。該模型以其卓越的影視級視覺效果和創新的AIGC應用能力,徹底顛覆了傳統AI視頻生成技術的局限。相較于市面上其他AI生成視頻產品普遍存在的“AI痕跡”問題,豆包視頻生成模型在內容邏輯、畫面自然度以及語義指令理解等方面實現了質的飛躍。
豆包視頻生成模型的核心優勢在于其精準的語義理解能力和復雜場景下的多動作多主體交互能力。它不僅能夠遵循復雜的prompt指令,還能解鎖時序性多拍動作與多主體間的自然交互,為視頻創作提供了無限可能。從展示的視頻片段中可以看到,無論是人物表情的細膩刻畫,還是動態場景的流暢切換,都達到了令人驚嘆的真實度。
此外,豆包視頻生成模型還引入了強大的動態運鏡技術,徹底告別了傳統AI視頻生成中的PPT動畫質感。基于高效的DiT融合計算單元,該模型能夠生成動作靈動、鏡頭多樣、表情豐富的視頻內容,同時支持變焦、環繞、平搖等多種鏡頭語言,讓視頻更具視覺沖擊力。
在內容邏輯方面,豆包視頻生成模型同樣表現出色。它采用全新設計的擴散模型訓練方法,成功解決了多鏡頭切換時的一致性問題,能夠在不同的鏡頭間保持主體、風格、氛圍和邏輯的高度統一,實現導演級別的自由創作。例如,一段由三個鏡頭組成的動畫視頻,通過流暢的剪輯和豐富的表情特寫,生動講述了一個完整的故事情節。
火山引擎總裁譚待在巡展上透露,豆包大模型自發布以來已取得了顯著的市場成績。截至目前,豆包大模型的日均tokens使用量已超過1.3萬億,多模態能力也得到了充分驗證。其中,豆包?文生圖模型日均生成圖片達到5000萬張,語音處理能力同樣強大,日均處理語音時長高達85萬小時。
譚待表示,豆包大模型的成功離不開字節跳動在視頻和AI領域的深厚積累。作為抖音等頭部應用的計算服務提供方,火山引擎在視頻處理方面擁有獨到的技術優勢和豐富的實戰經驗。這些優勢為豆包大模型的發展提供了強有力的支撐。
隨著豆包視頻生成模型的正式推出,其應用場景也將進一步拓展。在電商營銷、動畫教育、城市文旅等多個領域,豆包視頻生成模型都將發揮重要作用,助力企業實現降本提效和創意合規。未來,豆包大模型家族將繼續深耕AI技術,為各行各業帶來更多創新解決方案。













