本報訊 (記者桂小筍)6月11日至6月15日,2025國際計算機視覺與模式識別會議(CVPR2025)召開。北京值得買科技股份有限公司(以下簡稱“值得買”)與中國人民大學高瓴人工智能學院在多模態領域的最新聯合研究成果《圖像轉有聲視頻》(《Animate and Sound an Image》)成功入選。
該成果首次提出了一種從靜態圖像直接生成同步音視頻內容的生成框架JointDiT(Joint Diffusion Transformer),實現了從圖像到“動態視頻+聲音”的高質量聯合生成。這不僅展現了雙方在AIGC領域的技術創新突破,也為AI多模態的高質量發展提供了新的思路與啟發。
據介紹,《圖像轉有聲視頻》首次提出并系統定義了圖像到有聲視頻生成(Image-to-Sounding-Video,I2SV)這一新任務:讓靜態圖像“動”起來的同時,生成與之語義匹配、時間同步的音頻內容。同時還提出了一種新穎的內容生成框架JointDiT(Joint Diffusion Transformer),并具體闡述了如何利用兩個強大的單模態預訓練擴散模型(一個視頻生成器,一個音頻生成器),構建統一的聯合生成框架,實現多模態協同生成。
人大高瓴人工智能學院長聘副教授宋睿華表示:“接下來,研究團隊計劃將JointDiT擴展至圖像、文本、音頻、視頻四模態的聯合建模,為構建更通用、更智能的多模態生成系統奠定基礎。”
(編輯 何成浩 郭之宸)
| 23:42 | 兩部門發文促進文旅與民航業融合發... |
| 23:42 | 從寧波舟山港實現第四個“千萬箱級... |
| 23:42 | 11月份中國物流業景氣指數為50.9% |
| 23:42 | 李強主持國務院第十七次專題學習 |
| 23:42 | 前10個月我國服務進出口總額同比增... |
| 23:42 | 多地加碼購房補貼支持住房消費 |
| 23:42 | 多家外資機構發布研報樂觀預期A股... |
| 23:42 | 四重支撐勾勒A股市場長期向好運行... |
| 23:42 | 離岸人民幣對美元匯率盤中升破7.06... |
| 23:42 | 數據新政釋放紅利 構建學科人才培... |
| 23:42 | 折疊屏手機賽道硝煙再起 產業鏈創... |
| 23:42 | 京東工業啟動招股擬全球發售2.11億... |
版權所有《證券日報》社有限責任公司
互聯網新聞信息服務許可證 10120240020增值電信業務經營許可證 京B2-20250455
京公網安備 11010602201377號京ICP備19002521號
證券日報網所載文章、數據僅供參考,使用前務請仔細閱讀法律申明,風險自負。
證券日報社電話:010-83251700網站電話:010-83251800 網站傳真:010-83251801電子郵件:xmtzx@zqrb.net
安卓
IOS
掃一掃,加關注
掃一掃,加關注