通義Wan2.1視頻模型實測:馬斯克毒液變身,經典梗圖也能“動”起來!

   時間:2025-04-19 12:12 來源:天脈網作者:趙云飛

阿里通義萬相Wan2.1再升級,開源首尾幀視頻模型引發熱議

在科技日新月異的今天,人工智能領域又迎來了一次重大突破。阿里通義萬相Wan2.1最新推出的首尾幀視頻模型,在GitHub上迅速收獲了上萬顆星標,成為業界關注的焦點。

這款模型的神奇之處在于,用戶只需提供開始(首幀)和結束(尾幀)兩張圖片,它便能自動生成一段流暢、高質量的5秒720p視頻。更令人驚嘆的是,模型還能根據前后視角的不同,自動調整鏡頭角度,實現從地面視角到高空俯拍的平滑過渡,同時確保人物光影的準確無誤。

據了解,這款首尾幀視頻模型是基于Wan2.1文生視頻14B大模型開發而成,旨在為創作者們提供一種更高效、更靈活的視頻制作方式。阿里官方宣稱,這是業界首個百億參數規模的開源首尾幀視頻模型,標志著人工智能在視頻生成領域邁出了重要一步。

為了親身體驗這款模型的能力,不少用戶紛紛上手實測。從反饋來看,Wan2.1首尾幀視頻模型在主體一致性、前后連貫性等方面表現出色。無論是改造經典梗圖,還是挑戰火爆一時的玩法,它都能輕松應對,生成令人滿意的視頻作品。

例如,在測試過程中,用戶嘗試用Wan2.1生成了一段“文藝復興”表情包的視頻。盡管故事合理性無法深究,但整個轉場過程非常流暢,人物的一致性也保持得相當好。即使是頭發、長相、服裝等易出錯的細節,模型也處理得恰到好處。

用戶還挑戰了更高難度的任務,讓兩張完全不同的表情包進行“時空跨越”。雖然生成的視頻略帶“PPT轉場”效果,但整體來說已經相當不錯,展現出了模型強大的生成能力。

除了整活兒,用戶還從時序連貫性、創意合理性、內容一致性以及技術實現難度等維度對模型進行了全方位考察。結果顯示,無論是寫實風格的花朵生長過程,還是創意十足的毒液變身特效,Wan2.1都能輕松駕馭,生成令人驚艷的視頻作品。

當然,作為一款前沿的人工智能模型,Wan2.1首尾幀視頻模型的技術原理和配置也備受關注。據阿里官方發布的技術報告透露,該模型在基礎架構模型上引入了額外的條件控制分支,通過拼接首幀、尾幀和若干零填充的中間幀,構成控制視頻序列。該序列進一步與噪聲及掩碼進行拼接,最終作為擴散變換模型的輸入。

為實現畫面穩定性控制,模型還提取了首幀和尾幀的CLIP語義特征,并通過交叉注意力機制將其注入到擴散變換模型的生成過程中。憑借這一獨特的模型架構,Wan2.1最終實現了流暢且準確的首尾幀變換。

在配置方面,用戶可以根據自己的需求選擇合適的參數和分辨率。以81幀960*960分辨率的視頻為例,設置不同參數會影響顯存需求和推理速度。因此,用戶在實際應用中需要根據自己的硬件條件和需求進行權衡。

總的來說,阿里通義萬相Wan2.1首尾幀視頻模型的推出,無疑為人工智能在視頻生成領域的發展注入了新的活力。隨著技術的不斷進步和應用場景的不斷拓展,我們有理由相信,未來將有更多令人驚艷的人工智能作品涌現出來。

 
 
更多>同類天脈資訊
全站最新
熱門內容
媒體信息
新傳播周刊
新傳播,傳播新經濟之聲!
網站首頁  |  關于我們  |  聯系方式  |  版權隱私  |  RSS訂閱  |  違規舉報 魯公網安備37010202700497號