全球AI音樂(lè)會(huì),第一次聽(tīng)見(jiàn)中國(guó)聲音

盛夏將至,各條AI賽道也熱烈了起來(lái)。如果評(píng)選一下,近段時(shí)間哪個(gè)領(lǐng)域的AI應(yīng)用最為火爆,那么AI音樂(lè)創(chuàng)作絕對(duì)名列前茅。

一個(gè)月之前,海外初創(chuàng)企業(yè)Suno發(fā)布新版AI音樂(lè)生成大模型Suno V3,它可以根據(jù)用戶(hù)自然語(yǔ)言快速生成相關(guān)風(fēng)格音樂(lè),在全球范圍內(nèi)引發(fā)熱議。而就在不久前,來(lái)自前DeepMind團(tuán)隊(duì)成員的Udio音樂(lè)大模型發(fā)布。這款模型可以帶來(lái)非常逼真的音樂(lè)制作效果,并且可以完成多段式、長(zhǎng)音樂(lè)作品的生成。

AI音樂(lè)生成大模型賽道,競(jìng)爭(zhēng)突然激烈了起來(lái)。加上OpenAI的MuseNet、谷歌的MusicLM、Meta的MusicGen等項(xiàng)目,我們似乎在今年迎來(lái)了一場(chǎng)全球AI音樂(lè)會(huì)。一時(shí)間異彩紛呈,好不熱鬧。

但在這場(chǎng)AI音樂(lè)會(huì)中,有一個(gè)現(xiàn)象非常值得重視:這一次,中國(guó)科技與全球前沿AI趨勢(shì)之間沒(méi)有時(shí)差,無(wú)縫銜接。我們不再是跟隨者與追趕者,而是第一時(shí)間加入了這場(chǎng)音樂(lè)與AI的盛宴,奏響了屬于自己的旋律。

4月2日,由昆侖萬(wàn)維打造的AI音樂(lè)生成大模型“天工SkyMusic”開(kāi)啟免費(fèi)邀測(cè),4月17日更是正式發(fā)布。

天工SkyMusic是國(guó)內(nèi)唯一公開(kāi)可用的AI音樂(lè)生成大模型,也是中國(guó)首個(gè)音樂(lè)SOTA模型。

它與震撼全球科技與音樂(lè)產(chǎn)業(yè)的Suno、Udio保持了時(shí)間線(xiàn)上的高度同步,同時(shí)多個(gè)領(lǐng)域的技術(shù)能力更加出色。在與Suno V3的橫向測(cè)評(píng)中,天工SkyMusic在人聲&BGM音質(zhì)、人聲自然度、發(fā)音可懂度等領(lǐng)域顯著領(lǐng)先對(duì)手,并以6.65分的綜合得分超越Suno V3,成為全球AI音樂(lè)最新SOTA模型。

“中國(guó)AI不缺席”,是一段我們期待了很久的旋律。究竟是什么讓昆侖萬(wàn)維能夠完成這次演奏?天工SkyMusic,以及背后的天工3.0有著怎樣的產(chǎn)業(yè)與社會(huì)價(jià)值?

讓我們打開(kāi)這場(chǎng)全球AI音樂(lè)會(huì),聽(tīng)懂一首關(guān)于“中國(guó)AI不缺席”的盛夏奏鳴曲。

天工SkyMusic:東方的AI音樂(lè)會(huì)

不缺席的中國(guó)AI音樂(lè)大模型,不僅需要第一時(shí)間躋身行業(yè)一線(xiàn),更需要在能力上拿出足夠有說(shuō)服力的答案。

天工SkyMusic在發(fā)布之后,獲得了各方非常積極的反饋。來(lái)自媒體、音樂(lè)人與行業(yè)專(zhuān)家以及廣大用戶(hù)的聲音,證明了其具備加入全球AI音樂(lè)大模型競(jìng)逐的底氣。AI音樂(lè)會(huì)不僅發(fā)生在歐美,同時(shí)也奏響在東方。

首先,我們可以具體來(lái)看一下天工SkyMusic在技術(shù)能力上的特色。

通過(guò)采用音樂(lè)音頻領(lǐng)域類(lèi)Sora的DiT模型架構(gòu),天工SkyMusic在A(yíng)I音樂(lè)大模型的幾個(gè)核心能力指標(biāo)上都有不俗的表現(xiàn)。

其中包括高質(zhì)量的音樂(lè)生成能力、高逼真的人聲模擬能力、高豐富度的歌詞段落控制能力、高規(guī)模的音樂(lè)風(fēng)格掌握,以及高靈活的音樂(lè)表達(dá)。

舉例而言,歐美AI音樂(lè)風(fēng)格多以“器”見(jiàn)長(zhǎng),更偏重樂(lè)器豐富度參數(shù),但在人聲擬合方面往往表現(xiàn)一般。

相較而言,昆侖萬(wàn)維天工SkyMusic則專(zhuān)門(mén)在人聲自然度、發(fā)音可懂度上進(jìn)行了模型專(zhuān)門(mén)訓(xùn)練,使得AI發(fā)音清晰、無(wú)異響,讓大模型生成的音樂(lè)足以“以假亂真”。

此外,天工SkyMusic所能夠創(chuàng)作的音樂(lè),展現(xiàn)出了對(duì)多種不同音樂(lè)風(fēng)格,不同生成訴求的把握。比如神曲改造對(duì)流行音樂(lè)的把握,古詩(shī)詞改編對(duì)中國(guó)傳統(tǒng)文化與格律的把握等。

透過(guò)廣泛的生成案例,我們可以發(fā)現(xiàn)天工SkyMusic具有豐富的使用場(chǎng)景與廣泛的需求人群,例如:

1.音樂(lè)從業(yè)者可以借助天工SkyMusic尋找靈感,輔助音樂(lè)創(chuàng)作。比如說(shuō),創(chuàng)作者可以輸入一些“母題”,包括親情、愛(ài)情等。通過(guò)天工SkyMusic生成的歌詞與旋律來(lái)尋找靈感,探索創(chuàng)作邊界。

2.短視頻創(chuàng)作者和UP主可以通過(guò)音樂(lè)生成來(lái)拓展創(chuàng)作邊界,降低音樂(lè)方案的創(chuàng)作門(mén)檻。比如說(shuō),UP主可以用天工SkyMusic改編“網(wǎng)絡(luò)神曲”,獲得新的視頻BGM。下面這首神曲,天工SkyMusic就可以為你帶來(lái)完全不一樣的感受。

3.音樂(lè)愛(ài)好者與粉絲可以獲得更多樣的音樂(lè)樂(lè)趣,與自己喜歡的音樂(lè)類(lèi)型、音樂(lè)風(fēng)格進(jìn)行更加多樣性、深層次的互動(dòng)。比如我們可以換一個(gè)聲音,把我們喜歡的音樂(lè)進(jìn)行重新演繹。

4.在教育教學(xué)場(chǎng)景中,天工SkyMusic可以用來(lái)輔助音樂(lè)教育,讓學(xué)習(xí)者感受到音樂(lè)創(chuàng)作的內(nèi)在邏輯與豐富技巧。同時(shí)還能夠助力傳統(tǒng)文化、樂(lè)器演奏等方面的教育教學(xué)。比如說(shuō),天工SkyMusic可以基于古詩(shī)詞生成音樂(lè),讓學(xué)生更生動(dòng)準(zhǔn)確掌握古典文化的精髓。

在這樣的應(yīng)用價(jià)值基礎(chǔ)上,我們還必須看到天工SkyMusic作為國(guó)內(nèi)最早,也是目前唯一的AI音樂(lè)大模型,在填補(bǔ)產(chǎn)業(yè)空白方面的價(jià)值是巨大的。它的出現(xiàn),意味著中國(guó)用戶(hù)有了更加符合華語(yǔ)音樂(lè)創(chuàng)作習(xí)慣的AI模型,對(duì)中文有了更好的支持。同時(shí)它完全免費(fèi),不限使用次數(shù),無(wú)需額外的使用門(mén)檻,這都是國(guó)外同類(lèi)AI音樂(lè)模型所無(wú)法實(shí)現(xiàn)的。

而從技術(shù)角度上看,天工SkyMusic對(duì)比MuseNet、MusicLM、MusicGen等項(xiàng)目也具備獨(dú)特的技術(shù)優(yōu)勢(shì)。

除了上文提到的人聲合成演唱能力外,在音樂(lè)風(fēng)格上天工SkyMusic更加精巧且多元。它能夠通過(guò)歌詞控制情緒變化,實(shí)現(xiàn)如顫音、歌劇、吟唱等多種歌唱技巧,并且可以使生成的音樂(lè)作品情感更加豐富且貼合情境。在此基礎(chǔ)上,天工SkyMusic支持創(chuàng)作說(shuō)唱、民謠、放克、古風(fēng)、電子等多種音樂(lè)風(fēng)格,用戶(hù)可以根據(jù)個(gè)人喜好定制音樂(lè)風(fēng)格。

總體來(lái)看,天工SkyMusic開(kāi)創(chuàng)了中國(guó)AI音樂(lè)大模型的先河,成為中國(guó)首個(gè)音樂(lè)AIGC SOTA,并且大幅提高了AI大模型音樂(lè)生成在人聲領(lǐng)域的技術(shù)表現(xiàn)。

天工 3.0:全球最大規(guī)模的開(kāi)源MOE大模型

天工SkyMusic能夠與全球AI音樂(lè)會(huì)同頻奏響,背后必然離不開(kāi)兩點(diǎn):一是戰(zhàn)略方向的敏銳把握,二是技術(shù)底座的基石打造。

而天工SkyMusic背后的技術(shù)基石,則是剛剛發(fā)布的“天工3.0”

天工3.0采用了4000億級(jí)參數(shù)MoE混合專(zhuān)家模型,是目前全球模型參數(shù)最大、性能最強(qiáng)的MoE模型之一。相較于上一代天工2.0MoE大模型,其在模型語(yǔ)義理解、邏輯推理,以及通用性、泛化性、不確定性知識(shí)、學(xué)習(xí)能力等領(lǐng)域都有著大幅的性能提升,其模型技術(shù)知識(shí)能力提升超過(guò)20%,數(shù)學(xué)/推理/代碼/文創(chuàng)能力提升超過(guò)30%。

具體來(lái)看,天工3.0在四個(gè)方向帶來(lái)了全面升級(jí):

首次是邏輯推理能力的增強(qiáng)。天工3.0強(qiáng)大的邏輯推理能力使其能夠在實(shí)際應(yīng)用中更加準(zhǔn)確和高效地處理信息。例如,在天工3.0AI搜索的研究模式中,能夠圍繞用戶(hù)的某個(gè)簡(jiǎn)單指令進(jìn)行相關(guān)問(wèn)題的延伸,并實(shí)時(shí)判斷該段落信息是否需要聯(lián)網(wǎng)搜索。在分析某個(gè)具體行業(yè)的信息時(shí),能夠?qū)崿F(xiàn)總結(jié)相關(guān)事件、拆解產(chǎn)業(yè)鏈地圖等復(fù)雜功能,并以結(jié)構(gòu)化或思維導(dǎo)圖的形式進(jìn)行最終展示,讓AIGC能力與行業(yè)應(yīng)用更緊密融合。

其次,是語(yǔ)義理解能力的增強(qiáng)。天工3.0能夠更好地理解和處理用戶(hù)自然語(yǔ)言Query中的復(fù)雜語(yǔ)義信息,包括隱喻、多義詞等。比如說(shuō),天工3.0可以對(duì)用戶(hù)Query進(jìn)行拆解、細(xì)化,甚至對(duì)用戶(hù)進(jìn)行追問(wèn),從而在面對(duì)不確定知識(shí)時(shí)表現(xiàn)更好,能夠滿(mǎn)足用戶(hù)多樣化的需求。

此外,天工3.0新增了專(zhuān)項(xiàng)Agent訓(xùn)練能力。天工3.0可以針對(duì)模型獨(dú)立規(guī)劃、調(diào)用、組合外部工具及信息的能力進(jìn)行了專(zhuān)項(xiàng)訓(xùn)練,使其能夠獨(dú)立生成并調(diào)用代碼,完成包括產(chǎn)業(yè)研究、產(chǎn)品橫評(píng)、信息分析、圖片生成、圖表繪制等多種復(fù)雜用戶(hù)需求。

針對(duì)B端產(chǎn)業(yè)用戶(hù)的需求,天工3.0也在知識(shí)庫(kù)能力、任意工具調(diào)用能力、復(fù)雜角色指令追尋能力等領(lǐng)域進(jìn)行了升級(jí),企業(yè)用戶(hù)可以通過(guò)上傳知識(shí)文檔構(gòu)建專(zhuān)屬知識(shí)庫(kù)及Agent,并實(shí)現(xiàn)自動(dòng)調(diào)用制定工具、完成復(fù)雜指令遵循Agent構(gòu)建等實(shí)用能力。

最后,天工3.0的內(nèi)容生成能力也得到了全面升級(jí)。對(duì)比天工2.0,天工3.0群星了全面的內(nèi)容創(chuàng)作能力增強(qiáng),能夠完成AI音樂(lè)生成、AI語(yǔ)音、AI對(duì)話(huà)、AI二次元漫畫(huà)生成等內(nèi)容創(chuàng)作。還可以通過(guò)專(zhuān)項(xiàng)Agent訓(xùn)練實(shí)現(xiàn)在對(duì)話(huà)中結(jié)合文本需求實(shí)時(shí)生成圖片、結(jié)合文本需求實(shí)時(shí)內(nèi)容分析及圖表構(gòu)建等能力。

總結(jié)天工3.0的技術(shù)特點(diǎn),最為關(guān)鍵的一點(diǎn)就是:獨(dú)立思考。

天工3.0可以將復(fù)雜任務(wù)進(jìn)行拆解優(yōu)化,并在每一步都獨(dú)立思考,判斷每一步是否需要調(diào)用不同的工具。也是基于獨(dú)立思考能力,天工3.0新增了聯(lián)網(wǎng)能力、文生圖、代碼能力等優(yōu)勢(shì)應(yīng)用能力,同時(shí)增強(qiáng)了AI搜索等能力的表現(xiàn)。

更為值得注意的是,性能強(qiáng)大,技術(shù)獨(dú)創(chuàng)性極強(qiáng)的天工3.0,選擇了開(kāi)源開(kāi)放的策略。在全球開(kāi)源大模型極速發(fā)展,基于開(kāi)源生態(tài)的AI應(yīng)用百花齊放的大背景下,天工3.0的開(kāi)源無(wú)疑是給中國(guó)AI開(kāi)源事業(yè)注入了強(qiáng)心劑。全面提升了中國(guó)開(kāi)源大模型的整體技術(shù)水平與產(chǎn)業(yè)底座厚度。

在選擇開(kāi)源開(kāi)放的同時(shí),天工3.0還搭建了智能體廣場(chǎng),幫助開(kāi)發(fā)者定制化打造智能體。更好的中文適配度,也讓天工3.0與中文開(kāi)發(fā)需求更加契合。

全面增強(qiáng)的能力,更加豐富的功能,以及與開(kāi)發(fā)者更緊密地契合,讓天工3.0成為一塊基石——“中國(guó)AI不缺席”的基石。

這一次,中國(guó)AI不缺席

過(guò)去AI行業(yè)內(nèi)部總是認(rèn)為,我們與歐美頂級(jí)AI企業(yè)之間存在著時(shí)間差。在新模型、新技術(shù)火熱之后,中國(guó)AI行業(yè)才開(kāi)始跟隨和學(xué)習(xí)。

但在A(yíng)I音樂(lè)大模型的熱潮里,情況顯然并非如此。為什么我們這次可以不跟隨,不焦慮,而是第一時(shí)間抵達(dá)這個(gè)舞臺(tái),開(kāi)始自己的演奏?

事實(shí)上,在A(yíng)I音樂(lè)生成這個(gè)方向上,昆侖萬(wàn)維一直保持著高度關(guān)注。早在2022年12月昆侖萬(wàn)維發(fā)布的“昆侖天工”AIGC全系列開(kāi)源算法與模型中,就包括多模態(tài)音樂(lè)內(nèi)容生成大模型。此后,昆侖萬(wàn)維還打造了多個(gè)基于A(yíng)I音樂(lè)大模型的合作項(xiàng)目,掌握了豐富的實(shí)踐經(jīng)驗(yàn)。昆侖萬(wàn)維關(guān)注并且重視AI音樂(lè)生成,是天工SkyMusic的戰(zhàn)略牽引。

天工3.0與天工SkyMusic的發(fā)布展現(xiàn)出來(lái)了這樣一個(gè)價(jià)值邏輯:在A(yíng)I大模型快速發(fā)展的產(chǎn)業(yè)紀(jì)元里,想要提升創(chuàng)新效率,把握戰(zhàn)略機(jī)遇,需要首先孕育一個(gè)底座。這個(gè)底座可以融合各種先進(jìn)的AI技術(shù)能力。

昆侖萬(wàn)維集團(tuán)董事長(zhǎng)兼CEO方漢認(rèn)為,SOTA指的是當(dāng)前技術(shù)在本領(lǐng)域技術(shù)指標(biāo)全球第一。OpenAI是文本大模型和視頻生成大模型的SOTA,而昆侖萬(wàn)維目前實(shí)現(xiàn)了音樂(lè)AIGC的SOTA。

之所以能夠?qū)崿F(xiàn)這一點(diǎn),有賴(lài)于天工3.0提供了底座級(jí)別的AI能力,進(jìn)而實(shí)現(xiàn)發(fā)展效率與發(fā)展質(zhì)量的統(tǒng)一。

昆侖萬(wàn)維創(chuàng)始人周亞輝認(rèn)為:“未來(lái)三十年,人類(lèi)社會(huì)很大的一個(gè)變化,是人類(lèi)要從感知線(xiàn),變成表達(dá)線(xiàn),整個(gè)人類(lèi)社會(huì)在自我表達(dá)側(cè)要翻1000倍;創(chuàng)作和自我表達(dá)是未來(lái)30年在整個(gè)社交和文化領(lǐng)域增長(zhǎng)最快的曲線(xiàn),會(huì)有越來(lái)越多人表達(dá)自我,表達(dá)對(duì)世界的理解、對(duì)社會(huì)事物的態(tài)度,表達(dá)越來(lái)越藝術(shù)化和趣味化;這種表達(dá)在過(guò)去很困難,因?yàn)楣ぞ唛T(mén)檻高,而未來(lái)30年是自我表達(dá)的30年,我們要用AI把人類(lèi)創(chuàng)作的門(mén)檻降得足夠低,讓人們更充分地實(shí)現(xiàn)自我表達(dá)?!?/p>

基于昆侖萬(wàn)維“All in AGI 和 AIGC”的戰(zhàn)略布局,天工3.0成為集自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、多模態(tài)、AI搜索、AI智能體等多項(xiàng)前沿技術(shù)為一身的AI大模型。基于天工3.0提供的底座能力,昆侖萬(wàn)維可以敏銳步驟發(fā)展機(jī)會(huì),抓住諸如AI音樂(lè)創(chuàng)作這樣的產(chǎn)業(yè)風(fēng)口。而廣大開(kāi)發(fā)者則可以獲得多元且豐富的AI能力,將AI帶到千行百業(yè)的每個(gè)角落。

以超級(jí)模型蘊(yùn)育種種AI技術(shù),包容千行百業(yè),這才是全球AI音樂(lè)會(huì)中,那道獨(dú)特且悅耳的東方旋律。

在起步階段的天工SkyMusic,已經(jīng)為用戶(hù)帶來(lái)了豐厚的音樂(lè)創(chuàng)作樂(lè)趣。隨著未來(lái)的持續(xù)優(yōu)化升級(jí),我們會(huì)得到一個(gè)專(zhuān)業(yè)且易用的音樂(lè)創(chuàng)作平臺(tái)。圍繞天工SkyMusic,將可能出現(xiàn)AI音樂(lè)創(chuàng)作者生態(tài),新的音樂(lè)明星。進(jìn)而影響音樂(lè)行業(yè)的發(fā)展。

在全球AI音樂(lè)的熱潮背后,我們可以看到從“中國(guó)AI不缺席”到“中國(guó)AI如何引領(lǐng)”的深刻變革。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀(guān)察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀(guān)點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-04-18
全球AI音樂(lè)會(huì),第一次聽(tīng)見(jiàn)中國(guó)聲音
全球AI音樂(lè)會(huì),第一次聽(tīng)見(jiàn)中國(guó)聲音

長(zhǎng)按掃碼 閱讀全文