最近,多所知名大學和研究機構的研究人員共同提出了 EMAGE 框架,旨在從音頻和掩碼手勢生成全身人類手勢。
EMAGE技術能實現輸入音頻生成全身動作,包括頭部、嘴型、身體、手部和整體運動,跟之前Meta的audio2photoreal很像。用戶只要上傳音頻(小于60秒),然后點擊提交,輸出結果將在輸出中呈現3分鐘。
他們引入了新的全面共話數據集 BEATX,該數據集結合了 MoShed SMPLX 身體和 FLAME 頭部參數,進一步提高了建模質量,特別是對頭部、頸部和手指動作的建模。EMAGE 在訓練過程中利用了掩碼手勢的先驗信息,以提高推斷性能。該框架包括一個 Masked Audio Gesture Transformer,有助于聯合訓練音頻到手勢生成和掩碼手勢重建,有效地編碼音頻和身體手勢提示。從掩碼手勢中編碼的身體提示隨后分別用于生成面部和身體動作。
此外,EMAGE 自適應地合并了音頻的節奏和內容的語音特征,并利用了四個組合 VQ-VAE 來增強結果的保真度和多樣性。實驗證明,EMAGE 具有最先進的性能,能夠生成具有完整的、音頻同步的整體手勢。
EMAGE 技術的問世將在各個領域產生深遠影響,其中包括但不限于教育、醫療、娛樂等領域。研究團隊表示,他們的代碼和數據集已經公開提供,供學術和工業界使用。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。