在AI視頻生成領域,一場關于“表演”的革命正悄然展開。當行業還在為提升畫面質量而激烈競爭時,Anuttacon公司推出的LPM 1.0模型卻另辟蹊徑,將焦點轉向了虛擬角色的交互能力與生命感,為AI視頻生成開辟了新的賽道。
長久以來,AI視頻生成領域一直面臨著一個棘手的難題——“表演三難困境”。這一困境指的是在表現質量、實時推理和長程穩定性這三個方面難以同時達到理想狀態。現有的模型雖然在短視頻生成上表現出色,但一旦涉及長時間、實時的交互需求,便會暴露出諸多問題,如角色臉部特征驟變、身份不一致或動作不合理等。這些問題使得AI視頻生成在更廣泛的應用場景中受到限制。
然而,LPM 1.0的出現打破了這一僵局。該模型實現了真正意義上的“無限時長”視頻生成,在官網上展示的45分鐘視頻demo令人驚嘆。這一突破并非單純依靠堆砌算力,而是得益于其獨特的在線流式生成架構。通過分布匹配蒸餾的四階段訓練方式,LPM模型將一個170億參數的大型擴散模型壓縮成了“主干 - 精煉器”結構。主干網絡負責穩定視頻的粗略軌跡,精煉器則專注于還原高保真的表情細節。這種設計使得模型在內存占用恒定的情況下,能夠維持近乎永恒的身份一致性。
除了無限時長的生成能力,LPM 1.0在交互性方面也有著顯著的創新。它首次實現了全雙工的音視頻對話,能夠同時處理兩路音頻流。一路是AI自身的話語,用于驅動口型同步;另一路是用戶的話語,用于驅動實時反應。這使得AI能夠根據用戶的語氣和停頓,像人類一樣產生點頭、挑眉等微表情,大大增強了虛擬角色的生命感和真實感。
Anuttacon公司的背后,站著米哈游的前任董事長蔡浩宇。作為米哈游的第一大股東,蔡浩宇將米哈游在游戲開發中積累的豐富經驗帶到了AI領域。米哈游的核心壁壘在于將“人類表演學”進行了數字工業化的解構,這種獨特的基因在LPM 1.0中得到了充分體現。例如,該模型的“身份感知參考圖像管線”不僅需要一張照片,還需要全局外觀、多視角圖像甚至是8類預定義的表情范例。相比于從海量無標注視頻中提取特征,Anuttacon能夠提供高度結構化的“表演邏輯”數據,如78種精細情感和超過5000個動作描述符。這種對美感和角色塑造的經驗積累和極高品控標準,是通用短視頻平臺難以企及的。
在商業策略上,Anuttacon選擇了完全不開源LPM 1.0模型。這一決策符合商業理性,因為該模型不僅是一套算法,更是一套完整的視覺引擎,在AI視頻生成的虛擬角色細分領域具有巨大的商業價值。然而,實時生成視頻對算力的消耗巨大,即使LPM經過了極致的優化,能在單GPU約0.35秒處理1秒的視頻,但在大規模并發的實際應用場景中,硬件成本和運維壓力依然不容小覷。
從應用場景來看,LPM的底層能力更適合對穩定性要求嚴苛的B端場景。虛擬主播、AI導師、客服等常見場景對長時間穩定性有剛需,LPM驅動的AI角色能夠7天24小時運行,且無需昂貴的動捕設備成本,綜合成本極具競爭力。若將LPM作為構建UGC平臺的基礎設施,還能降低內容創作的專業門檻,用戶只需提供一張照片和一段話,AI即可完成所有的表演,為全新的互動媒體形式的誕生創造了條件。
LPM 1.0的出現,標志著AI視頻生成領域進入了一個新的階段。它不再局限于追求畫面的逼真度,而是更加注重虛擬角色的交互能力和生命感。在這場關于“表演”的革命中,Anuttacon公司已經搶占了先機,而蔡浩宇的商業布局也正逐漸展現出其深遠的影響。













