新華通訊社主管

首頁 >> 正文

推動生成式AI更好應(yīng)用于聲音類文藝創(chuàng)作
2024-09-05 作者:王一然 來源:經(jīng)濟參考報

  聲音類產(chǎn)品作為文藝創(chuàng)作的重要表現(xiàn)形式,與生成式AI(人工智能)的結(jié)合為文藝創(chuàng)作帶來了全新的可能性。通過生成式AI技術(shù),聲音類產(chǎn)品在音樂創(chuàng)作、語音合成有聲讀物、虛擬主播、影像音效制作等方面不斷變革創(chuàng)新,為文藝創(chuàng)作提供了全新的創(chuàng)作手段和表達方式。生成式AI技術(shù)在文藝創(chuàng)作中的應(yīng)用為聲音類產(chǎn)品發(fā)展提供了新的機遇,但面臨的風(fēng)險與挑戰(zhàn)也需積極應(yīng)對和解決。

  生成式AI產(chǎn)品應(yīng)用領(lǐng)域廣泛

  AI音樂創(chuàng)作“風(fēng)生水起”。生成式AI技術(shù)已經(jīng)在音樂領(lǐng)域得到廣泛應(yīng)用,主要體現(xiàn)在分類識別(音樂檢索、樂譜識別、音頻識別)、生成(AI作曲、虛擬歌手)及傳播(MIDI音響、教育)這三個方面。AI在音樂創(chuàng)作的不同階段都發(fā)揮了較大作用。在創(chuàng)作初期,創(chuàng)作者運用AIGC汲取音樂素材以及創(chuàng)作靈感,同時對作品的音樂風(fēng)格進行分析和預(yù)測,并進行音樂素材的智能檢索和組織。在創(chuàng)作中期,AIGC技術(shù)為創(chuàng)作者的作品產(chǎn)出提供支撐,更好地輔助音樂創(chuàng)作,將音樂作品意圖具像化。在創(chuàng)作后期,AIGC為雛形作品的后期制作提供強大的音頻處理工具,從而使作品的后期制作更加準(zhǔn)確、高效。尤其是某些AI編曲技術(shù)的出現(xiàn),為音樂創(chuàng)作者帶來更多靈感的同時,也使創(chuàng)作過程更加高效。

  AI虛擬主播走近大眾。虛擬主播通過運用AI語音合成技術(shù)、自然語言處理技術(shù)、深度學(xué)習(xí)技術(shù)以及計算機視覺技術(shù)走進大眾視野。語音合成技術(shù)通過先進的語音合成算法,模仿人類的聲音,從而使虛擬主播能夠流暢、自然地表達交流。計算機視覺技術(shù)在虛擬主播的形象呈現(xiàn)方面發(fā)揮著關(guān)鍵作用。通過3D建模和渲染技術(shù),可以創(chuàng)建出高度逼真的虛擬人物。同時,通過面部捕捉和動作捕捉技術(shù)使虛擬主播能夠?qū)崟r模擬真人的表情和動作。情感計算技術(shù)可以分析觀眾的語言和行為,判斷觀眾的情感狀態(tài),據(jù)此及時調(diào)整虛擬主播的回應(yīng)方式及語氣,進而賦予了虛擬主播在交互狀態(tài)下的情感變化。

  AI配音應(yīng)用廣泛。AI配音技術(shù)通過對大量語音數(shù)據(jù)進行學(xué)習(xí),能夠模擬出不同人物、不同情緒的語音特點,為AI配音產(chǎn)品提供豐富的角色表現(xiàn)和情感表達。隨著AI技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等技術(shù)出現(xiàn),“TTS+AI”(從文本到語音+人工智能)的組合使得電子合成語音自然性和準(zhǔn)確性不斷提高。針對情感起伏、聲線多元、人聲適配度等多樣化需求,目前已有AI語音產(chǎn)品供應(yīng)商提供“情感TTS”定制服務(wù),通過調(diào)整語音語調(diào)、語速、停連、音高甚至模擬人類在不同心情下的語氣變化,使電子合成語音能夠更貼切地適應(yīng)不同的語境和場景,賦予其更為豐富的“情感”表達。AI配音技術(shù)應(yīng)用場景較為廣泛,對眾多行業(yè)發(fā)展都有促進意義。在電影、電視劇、動畫等影視作品中,AI配音技術(shù)被用于生成角色的語音。通過模擬不同音色和語言,AI配音技術(shù)可以使角色聲音更加自然、真實,提高觀眾的觀看體驗。該技術(shù)在有聲讀物和電子書領(lǐng)域也應(yīng)用甚廣,為用戶提供更加自然、流暢的語音播報服務(wù)。AI配音也被應(yīng)用在游戲領(lǐng)域,可以生成自然且更符合角色設(shè)定的聲音,增強了游戲消費者的體驗。

  生成式AI產(chǎn)品優(yōu)勢明顯

  創(chuàng)作成本相對較低。隨著人工智能技術(shù)的發(fā)展,AI技術(shù)開始嘗試應(yīng)用于智能聲音設(shè)計,即自動根據(jù)影視內(nèi)容及情感要求生成相應(yīng)音效,這一應(yīng)用大大降低了制作成本。一方面,節(jié)省了聲音類產(chǎn)品制作的時間和人力資源。相較于傳統(tǒng)產(chǎn)品,AI技術(shù)的應(yīng)用可以快速生成出所需聲音,并實現(xiàn)自動化操作,減少了創(chuàng)作過程所需的人力和時間。另一方面,傳統(tǒng)聲音類產(chǎn)品制作容易受到多種因素影響,例如創(chuàng)作者的狀態(tài)、環(huán)境噪音、設(shè)備操作等,導(dǎo)致創(chuàng)作周期較長,而生成式AI技術(shù)應(yīng)用到聲音類產(chǎn)品創(chuàng)作中可以最大限度降低外界因素影響,實現(xiàn)成本最優(yōu)化。

  素材處理精準(zhǔn)高效。AI技術(shù)通過大量的數(shù)據(jù)學(xué)習(xí),可以對音頻素材進行識別、分類、整理,自動識別音頻中如人聲、音樂、音效等不同元素,并進行快速分類和整理,與人工相比大大提高了素材處理的質(zhì)量,降低了數(shù)據(jù)處理的錯誤率。AI技術(shù)還可以對音頻素材進行智能剪輯和拼接。此外,在音頻處理過程中需要經(jīng)過降噪、增減混響等特殊處理,人工處理可能存在個體偏差,而AI技術(shù)能最大限度降低錯誤出現(xiàn)的概率。

  生成內(nèi)容多元新穎。隨著社會發(fā)展,人們對聲音類產(chǎn)品的需求更加多元化、個性化。針對此現(xiàn)狀,生成式AI可以幫助創(chuàng)作者在廣告配音、音樂制作、虛擬角色聲音等多領(lǐng)域的創(chuàng)作中打破固有思維限制,提供新穎的創(chuàng)作思路。不僅如此,AI能夠通過分析用戶的喜好、習(xí)慣和交互數(shù)據(jù),了解用戶對聲音產(chǎn)品如音色、語氣、語調(diào)等方面的具體需求,為創(chuàng)作者個性化創(chuàng)作提供實際支撐。

  生成式AI產(chǎn)品發(fā)展存在的風(fēng)險與挑戰(zhàn)

  權(quán)益問題存在爭議。聲音類產(chǎn)品涉及數(shù)據(jù)侵權(quán)風(fēng)險、版權(quán)主體的權(quán)益以及個人隱私和人格權(quán)等問題。AIGC創(chuàng)作模型大多是由龐大的樣本訓(xùn)練而成的,對模型選取的素材進行反向溯源難以實現(xiàn),而采用的素材可能未經(jīng)作者授權(quán)。不僅如此,生成式AI的使用者可以在生成的產(chǎn)品上進行二度創(chuàng)作,新產(chǎn)品版權(quán)的歸屬問題也難以確認(rèn)。AI在生成部分聲音類產(chǎn)品時,如使用到未經(jīng)公開發(fā)布的普通人的聲音,這類聲音屬于個人隱私信息,在公開發(fā)布時可能存在暴露隱私的風(fēng)險,這將對個人隱私權(quán)和人格權(quán)造成侵犯。在當(dāng)前發(fā)展階段,AIGC從組合型內(nèi)容創(chuàng)造轉(zhuǎn)向探索型甚至變革型內(nèi)容創(chuàng)造,其創(chuàng)作過程中的權(quán)益收益以及可能導(dǎo)致的侵權(quán)責(zé)任如何劃分,目前也處于爭論之中。

  藝術(shù)規(guī)范問題存在爭議。聲音類AI產(chǎn)品涉及音樂、播音主持等藝術(shù)類學(xué)科,這些學(xué)科在其專業(yè)領(lǐng)域也有一定的專業(yè)規(guī)范和藝術(shù)化處理方式,而聲音類AI產(chǎn)品在是否符合專業(yè)的藝術(shù)規(guī)范方面存在爭議。以播音主持專業(yè)為例,在不同語境下朗讀時,同一句話所表達的語氣、情感、停連、重音都是不同的,說話時停連、重音的位置變化也會影響意思表達。但目前,生成式AI在配音時不能根據(jù)文本內(nèi)容識別具體的語境,同一聲音在不同語境下朗讀方式區(qū)別不大。在情感處理方面,AI與真人相比表達較為生硬,沒有情感起伏。因此,在實際應(yīng)用中,聲音類AIGC產(chǎn)品在藝術(shù)規(guī)范方面的問題也值得深思。

  生成式AI產(chǎn)品對創(chuàng)作者的啟示

  創(chuàng)作者應(yīng)不斷提升自身能力。生成式AI技術(shù)可以實現(xiàn)一鍵生成,一些簡單重復(fù)的工作不再需要人工完成,這就使一些創(chuàng)作者面臨失業(yè)風(fēng)險。當(dāng)然,聲音類AI產(chǎn)品存在的固有問題也使優(yōu)秀創(chuàng)作者的地位不可撼動。例如,AI虛擬主播能夠通過“克隆”方式模仿規(guī)范的普通話和特定音色,但究其根本也只能模仿聲音的外在形式。實際上,優(yōu)秀的主播需要在不同情境下采用不同的播報方式,通過語氣、語調(diào)、停連等的變化來表達不同的情感狀態(tài)。這就要求創(chuàng)作者們不斷提高自身技術(shù)水平,提高專業(yè)能力,綜合學(xué)習(xí)多領(lǐng)域知識,豐富自己的閱歷,擴大自己的優(yōu)勢,從容面對AI產(chǎn)品發(fā)展對創(chuàng)作者產(chǎn)生的沖擊。

  創(chuàng)作者應(yīng)合理利用AI技術(shù)。AIGC技術(shù)發(fā)展到現(xiàn)階段,其在為創(chuàng)作者提供創(chuàng)作靈感、降低創(chuàng)作成本、提高作品產(chǎn)出效率、提升作品質(zhì)量等方面具有一定的優(yōu)勢。因此,創(chuàng)作者要主動了解和學(xué)習(xí)AIGC技術(shù),不能一味地肯定或者抵制,而是要將自身需要與AI技術(shù)相結(jié)合,掌握在AI技術(shù)運用當(dāng)中的主動權(quán),使其成為輔助作品創(chuàng)作的得力助手,實現(xiàn)自身與AI技術(shù)雙向融合發(fā)展。同時,因AIGC的使用規(guī)范問題還存在爭議,創(chuàng)作者要提高自身法律意識,及時了解AIGC相關(guān)法律法規(guī),使AI技術(shù)能夠在合理規(guī)范的情況下輔助自身創(chuàng)作,提高作品質(zhì)量,產(chǎn)出更優(yōu)秀的聲音類產(chǎn)品。

  隨著AIGC技術(shù)的發(fā)展,其在聲音類產(chǎn)品方面的應(yīng)用已經(jīng)占據(jù)了一定的位置。其不僅能模擬出接近人類的聲音,直接生成聲音產(chǎn)品,而且可以輔助創(chuàng)作者進行創(chuàng)作,為創(chuàng)作者提供全新的工具和獨特的表達方式。但同時,生成式AI技術(shù)在聲音類文藝創(chuàng)作應(yīng)用中仍面臨諸多挑戰(zhàn),我們要在抓住機遇的同時正視存在的問題,并在實踐中努力加以改進,讓生成式AI技術(shù)得到更好更廣泛的應(yīng)用。

  (作者單位:蘇州大學(xué)傳媒學(xué)院)

凡標(biāo)注來源為“經(jīng)濟參考報”或“經(jīng)濟參考網(wǎng)”的所有文字、圖片、音視頻稿件,及電子雜志等數(shù)字媒體產(chǎn)品,版權(quán)均屬《經(jīng)濟參考報》社有限責(zé)任公司,未經(jīng)書面授權(quán),不得以任何形式刊載、播放。獲取授權(quán)

《經(jīng)濟參考報》社有限責(zé)任公司版權(quán)所有 本站所有新聞內(nèi)容未經(jīng)協(xié)議授權(quán),禁止轉(zhuǎn)載使用

新聞線索提供熱線:010-63074375 63072334 報社地址:北京市宣武門西大街57號

JJCKB.CN 京ICP備18039543號