極客網(wǎng)·人工智能12月4日 英偉達(dá)已經(jīng)成為AI時(shí)代的領(lǐng)頭羊,除了賣GPU,它自己也在開(kāi)發(fā)大語(yǔ)言模型。最近,英偉達(dá)開(kāi)發(fā)的Fugatto模型曝光,它將最新的AI訓(xùn)練方案與技術(shù)融合,可以以之前未曾見(jiàn)過(guò)的方式處理音樂(lè)、語(yǔ)音及其它聲音,創(chuàng)造出從未有過(guò)的聲音。
語(yǔ)音生成AI模型沒(méi)有什么稀奇的,市場(chǎng)上已經(jīng)有很多,輸入文本提示詞就可以合成語(yǔ)音和音樂(lè),但Fugatto似乎比之前的語(yǔ)音AI模型更進(jìn)一步。
目前Fugatto還沒(méi)有公測(cè),英偉達(dá)只是通過(guò)網(wǎng)站公布一些語(yǔ)音生成樣本。從樣本看,F(xiàn)ugatto可以調(diào)節(jié)音頻特征,生成一些奇怪的聲音,比如讓薩克斯聲音像狗叫,讓人聲變得像水下發(fā)出的聲音。老實(shí)說(shuō),合成的聲音并不怎么動(dòng)聽(tīng),但很有趣。
英偉達(dá)研究人員Rafael Valle說(shuō):“我們想創(chuàng)建一個(gè)模型,它可以像人一樣理解聲音、生成聲音?!?/p>
從技術(shù)角度看,F(xiàn)ugatto實(shí)際上是一個(gè)生成Transformer模型,它是基于英偉達(dá)之前研究的技術(shù)開(kāi)發(fā)的,比如語(yǔ)音模型、聲音理解技術(shù)。Fugatto擁有25億個(gè)參數(shù),它是用英偉達(dá)DGX系統(tǒng)開(kāi)發(fā)的。
英偉達(dá)在論文中談到Fugatto開(kāi)發(fā)的難點(diǎn)。以當(dāng)前的技術(shù),根據(jù)音頻和語(yǔ)言之間有意義的聯(lián)系建立一個(gè)數(shù)據(jù)庫(kù)十分困難?,F(xiàn)在的標(biāo)準(zhǔn)語(yǔ)言模型可以從文本數(shù)據(jù)中推斷出不同的指令,但如果沒(méi)有具體指引,模型很難從音頻中總結(jié)出特征。
最終,英偉達(dá)用LLM(大語(yǔ)言模型)生成一個(gè)Python腳本,它可以創(chuàng)建大量基于模板、格式自由的指令,這些指令可以描述不同的聲音“個(gè)性”,比如標(biāo)準(zhǔn)、年輕、30多歲、專業(yè)人士等特征,然后還可以給聲音的“個(gè)性”增加其它指令,比如絕對(duì)指令(合成一個(gè)快樂(lè)的聲音)和相對(duì)指令(增強(qiáng)聲音的快樂(lè)度)。
在訓(xùn)練數(shù)據(jù)中,AI會(huì)學(xué)著理解聲音的不同特征,然后將不同的特征結(jié)合起來(lái),生成全新的聲音,也就是我們?nèi)祟愔皼](méi)有聽(tīng)過(guò)的聲音。
論文談到的技術(shù)相當(dāng)復(fù)雜??傊?,英偉達(dá)開(kāi)發(fā)了所謂的ComposableART系統(tǒng),它合成的聲音讓小提琴聲音像孩子的笑聲,讓五弦琴的聲音像音樂(lè)家在風(fēng)雨中演奏,讓工廠機(jī)器發(fā)出金屬般的痛苦尖叫。
Fugatto混合聲音的能力給人留下深刻印象,要知道,聲音數(shù)據(jù)來(lái)自不同的開(kāi)源平臺(tái)數(shù)據(jù)集,聲音之間有很大不同,將它們完美混合不是一件易事。
還有一點(diǎn)值得表?yè)P(yáng),F(xiàn)ugatto將每個(gè)單獨(dú)的音頻特征視為可調(diào)諧的連續(xù)體。比如,F(xiàn)ugatto可以將吉它聲和流水聲混合,讓吉它聲權(quán)重高一些或者讓流水聲權(quán)重高一些,合成的聲音是完全不同的。又例如,F(xiàn)ugatto可以讓說(shuō)話時(shí)的法語(yǔ)口音重一些或者輕一些,可以改變語(yǔ)音片斷中的悲傷程度。
Fugatto還有其它一些功能,這些功能之前的模型也有,比如改變語(yǔ)音中的情緒,從音樂(lè)中分離出人聲。
英偉達(dá)希望Fugatto能成為聲音藝術(shù)家的新工具,它的本意并不是取代創(chuàng)作者。NVIDIA初創(chuàng)加速計(jì)劃 ( NVIDIA Inception) 的參與者、作曲家、制作人Ido Zmishlany說(shuō):“音樂(lè)的歷史實(shí)際上就是科技的歷史。電吉它帶來(lái)了搖滾,當(dāng)采樣器出現(xiàn),嘻哈隨即誕生。有了AI,我們可以書寫音樂(lè)的下一篇章。我們有了一種新的樂(lè)器,一種制作音樂(lè)的新工具,這太令人興奮了?!?/p>
你覺(jué)得這樣的工具有趣嗎?(小刀)
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )