谷歌近日在 GitHub 頁面發布博文,介紹了 VLOGGER AI 模型,用戶只需要輸入一張肖像照片和一段音頻內容,該模型可以讓這些人物“動起來”,富有面部表情地朗讀音頻內容。

VLOGGER AI 是一種適用于虛擬肖像的多模態 Diffusion 模型,使用 MENTOR 數據庫進行訓練,該數據庫中包含超過 80 萬名人物肖像,以及累計超過 2200 小時的影片,從而讓 VLOGGER 生成不同種族、不同年齡、不同穿著、不同姿勢的肖像影片。
研究人員表示:“和此前的多模態相比,VLOGGER 的優勢在于不需要對每個人進行訓練,不依賴于人臉檢測和裁剪,可以生成完整的圖像(而不僅僅是人臉或嘴唇),并且考慮了廣泛的場景(例如可見軀干或不同的主體身份),這些對于正確合成交流的人類至關重要”。
Google將 VLOGGER 視為邁向“通用聊天機器人”的一步,之后 AI 就可以通過語音、手勢和眼神交流以自然的方式與人類互動。
VLOGGER 的應用場景還包括可以用于報告、教育場域和旁白等,也可剪輯既有的影片,如果對影片中的表情不滿意就能加以調整。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。