新華通訊社主管

首頁 >> 正文

通義萬相發(fā)布視頻生成模型 可一鍵創(chuàng)作影視級高清視頻
2024-09-19 記者 郭倩 來源:經(jīng)濟(jì)參考網(wǎng)

  9月19日,在杭州云棲大會上,阿里云CTO周靖人宣布通義萬相全面升級,并發(fā)布全新視頻生成模型,可生成影視級高清視頻,可應(yīng)用于影視創(chuàng)作、動畫設(shè)計(jì)、廣告設(shè)計(jì)等領(lǐng)域。即日起,所有用戶可通過通義APP及通義萬相官網(wǎng)免費(fèi)體驗(yàn)。

  據(jù)介紹,通義萬相首批上線文生視頻、圖生視頻功能,在文生視頻功能中,用戶輸入任意文字提示詞,即可生成一段高清視頻,支持中英文多語言輸入,并可以通過靈感擴(kuò)寫功能智能豐富視頻內(nèi)容表現(xiàn)力,支持16:9、9:16等多種比例生成;在圖生視頻功能中,支持用戶將任意圖片轉(zhuǎn)化為動態(tài)視頻,按照上傳的圖像比例或預(yù)設(shè)比例進(jìn)行生成,同時可以通過提示詞來控制視頻運(yùn)動。

  現(xiàn)場,阿里云演示了該模型強(qiáng)大的運(yùn)動生成和概念組合能力,輸入“穿著滑冰鞋的小兔子在冰面上靈活移動的可愛場景”,通義萬相僅用數(shù)分鐘就能生成一段高清、逼真的視頻。

  據(jù)介紹,通義萬相視頻生成大模型集成了多項(xiàng)創(chuàng)新技術(shù),有效解決畫面表現(xiàn)力和大幅度運(yùn)動等視頻生成技術(shù)難題。針對運(yùn)動生成和物理模擬等難點(diǎn)優(yōu)化算法,實(shí)現(xiàn)了大幅度主體運(yùn)動和運(yùn)鏡控制,并有效模擬真實(shí)世界物理特性;設(shè)計(jì)了高壓縮比、高質(zhì)量視頻VAE框架,有效降低視頻信息冗余,并保持高質(zhì)量視頻重構(gòu)能力;同時,基于輕量微調(diào)框架和精選數(shù)據(jù)集優(yōu)化訓(xùn)練,在中式傳統(tǒng)元素、風(fēng)格化視頻生成上表現(xiàn)更好。

  去年7月,通義萬相圖像生成大模型首次亮相,目前已累計(jì)生成7500萬張圖片。云棲大會現(xiàn)場,通義萬相宣布視覺生成大模型全面升級為Diffusion Transformer框架,同時結(jié)合通義千問復(fù)雜提示詞解釋能力,有效提升畫面表現(xiàn)力、語義理解能力、可控生成能力。隨著通義萬相視頻生成模型的發(fā)布,通義大模型已覆蓋文本生成、圖像理解、視頻理解、音頻理解、圖像生成、視頻生成等全模態(tài)場景。

凡標(biāo)注來源為“經(jīng)濟(jì)參考報(bào)”或“經(jīng)濟(jì)參考網(wǎng)”的所有文字、圖片、音視頻稿件,及電子雜志等數(shù)字媒體產(chǎn)品,版權(quán)均屬《經(jīng)濟(jì)參考報(bào)》社有限責(zé)任公司,未經(jīng)書面授權(quán),不得以任何形式刊載、播放。獲取授權(quán)

《經(jīng)濟(jì)參考報(bào)》社有限責(zé)任公司版權(quán)所有 本站所有新聞內(nèi)容未經(jīng)協(xié)議授權(quán),禁止轉(zhuǎn)載使用

新聞線索提供熱線:010-63074375 63072334 報(bào)社地址:北京市宣武門西大街57號

JJCKB.CN 京ICP備18039543號