網(wǎng)易云音樂2篇論文入選ICASSP2023,AI歌聲評價、樂譜識別均超國際先進水平

近日,網(wǎng)易云音樂2篇論文《TG-Critic: A Timbre-Guided Model for Reference-Independent Singing Evaluation》《TrOMR:Transformer-based Polyphonic Optical Music Recognition》入選ICASSP2023,論文提出的兩種算法模型均優(yōu)于現(xiàn)有最先進模型。

一種是歌唱評價算法模型TG-Critic,利用它可以僅依靠一段演唱音頻判斷歌手演唱水平,實驗結(jié)果表明,算法模型評估的歌曲與人工專家評價“演唱水平好”的歌曲,相似度達91%;另一種是識別圖像樂譜的算法模型,通過模型識別圖片中的五線譜,實驗結(jié)果在復音樂譜上的錯誤率最高也僅為2.1%。

據(jù)了解,ICASSP(International Conference on Acoustics, Speech and Signal Processing)即國際聲學、語音與信號處理會議,是IEEE主辦的全世界最大的,也是最全面的信號處理及其應(yīng)用方面的頂級會議,在國際上享有盛譽并具有廣泛的學術(shù)影響力。此次入選,代表了網(wǎng)易云音樂在國際舞臺上,展示出了在音樂音頻領(lǐng)域的技術(shù)實力。

而且憑借在音樂技術(shù)領(lǐng)域的積累創(chuàng)新,網(wǎng)易云音樂也不斷將前沿領(lǐng)域研究成果應(yīng)用于實踐。依靠目前準確率最高的歌曲質(zhì)量評價算法,歌唱評價將不再依賴人力手工準備模板物料,歌手也不再需要模仿模板以獲取高分,更鼓勵歌手的個性化演繹。而且相比卡拉ok中的傳統(tǒng)歌唱評價,該模型未來將用于更加豐富的使用場景,如歌曲分發(fā)、優(yōu)質(zhì)歌手挖掘、聲音社交等等領(lǐng)域。而利用識別圖像樂譜的算法模型,可以將模糊的圖片樂譜準確識別,方便轉(zhuǎn)換為利用率更高的格式,服務(wù)于音樂人、用戶在欣賞、教育、創(chuàng)作等場景的需要。

三大技術(shù)創(chuàng)新拆解“開口跪”,將全球最優(yōu)算法準確率至少提升4%

當歌唱老師和專家聽到一首歌,就能迅速可以判斷出歌手的演唱水平,而普通人則會用“開口跪”表達夸贊。當人們評價歌聲質(zhì)量時,人聲的音色是影響判斷的重要因素。受其啟發(fā),網(wǎng)易云音樂首創(chuàng)提出了一個音色為指導的歌唱評價模型:TG-Critic,將全球最優(yōu)算法準確率提升4%以上。

據(jù)介紹,網(wǎng)易云音樂音頻實驗室在歌唱評價模型的設(shè)計過程中引入了三個主要創(chuàng)新點:

1.首次在模型中顯式引入音色信息輔助歌聲評價:研究表明,歌手的"音色"是影響人們對于歌聲感受的重要因素。但不同于音準、節(jié)奏等較為簡單的屬性,音色是一系列復雜而抽象的感受的集合,因此其提取過程更為復雜,更難被模型直接捕捉到。至今為止的歌聲自動評價系統(tǒng)中,還沒有研究聚焦音色特征對于模型預測的影響。為了填補這一空缺,團隊創(chuàng)新性地使用原本為“歌手識別”任務(wù)設(shè)計的預訓練模型,提取與音色相關(guān)的高級特征,并將其用作歌聲評價模型的輸入。盡管這些特征原本并非為歌聲質(zhì)量設(shè)計,但是來自質(zhì)量標簽為“好”和“差”的樣本的特征,在高維空間中分別呈現(xiàn)出較明顯的聚集現(xiàn)象,證明了其與歌聲質(zhì)量的相關(guān)性。

image.png

2.遷移高分辨率網(wǎng)絡(luò)結(jié)構(gòu)處理聲譜特征:除了音色特征輸入,團隊從音頻樣本中提取CQT聲譜特征作為模型的主要輸入。為了解決卷積網(wǎng)絡(luò)局部性帶來的問題,團隊將圖像分割領(lǐng)域較為常用的“高分辨率網(wǎng)絡(luò)”遷移到歌聲評價任務(wù)中,分別通過高、中、低三個不同的分辨率分支分別處理特征。通過高分辨率特征捕捉局部信息(如演唱技巧、小瑕疵等)、低分辨率特征捕捉長距離信息(氣息穩(wěn)定性、音準等),從而實現(xiàn)保持高效性的同時,提升模型提取有用信息的能力。

3.提出循環(huán)自動數(shù)據(jù)標注降低人工成本:對于一個模型的訓練,可靠的標注數(shù)據(jù)尤為重要。團隊收集了3萬余條歌聲數(shù)據(jù)樣本,以及其對應(yīng)的機器打分(針對音準、節(jié)奏等)、紅心數(shù)、評論數(shù)等可以一定程度反映歌聲質(zhì)量的元數(shù)據(jù)。通過一個循環(huán)迭代過程,只需要人工標注其中小部分樣本,便能獲得足夠可靠的自動數(shù)據(jù)標簽,大大降低了標注所需的人工成本。

實驗結(jié)果表明,在各類公開數(shù)據(jù)集上,網(wǎng)易云音樂提出的TG-Critic均達到國際最先進水平,相比已有算法,準確率提升至少4%,部分數(shù)據(jù)集提升10%以上。而且應(yīng)用于網(wǎng)易云音樂業(yè)務(wù)測聽的結(jié)果顯示:在音樂人業(yè)務(wù):運營評估歌曲推薦值≥3共159首歌曲中,算法評價為“演唱水平好”共144首,準確率達90.5%;在直播業(yè)務(wù):運營提供100首算法判定“演唱水平好”歌曲的人工驗證,準確率91%;在500+全演唱水平分類實驗中,準確率81.2%。

image.png

據(jù)了解,TG-Critic歌曲質(zhì)量評價模型將進一步減少人力依賴并擴大應(yīng)用場景在直播、音樂人等內(nèi)容分發(fā)場景,可協(xié)助人工挑選優(yōu)質(zhì)內(nèi)容,可服務(wù)于作品審核、分發(fā)或推薦,優(yōu)質(zhì)歌手挖掘在社交、游戲等C端場景,可提供“開口跪挑戰(zhàn)”等運營玩法。

AI又懂樂理,看圖識譜技術(shù)上的又一次突破

隨著深度學習方法的應(yīng)用,OCR(圖像文字識別 )近年得到了長足的進步,而OMR(圖像樂譜識別)卻始終處于研究應(yīng)用的初級階段。由于這個方向?qū)儆诮徊鎸W科,既要懂視覺算法又要懂樂理。目前市面上的商業(yè)或開源軟件都不具備可用的準確率。

因此,網(wǎng)易云音樂音視頻實驗室采用基于端到端的算法識別路線,優(yōu)化識別流程:1)拿到一個樂譜圖片,檢測圖片中的曲譜位置坐標;2)提取曲譜區(qū)域,進行曲譜識別,識別出樂譜中的內(nèi)容信息,如下圖:

image.png

針對該樂譜識別模型,網(wǎng)易云音樂音頻實驗室也做了多方面的創(chuàng)新,大大提高了準確性。例如,將Transformer引入到樂譜識別任務(wù)中,通過該結(jié)構(gòu)可以實現(xiàn)更大的感受野,有利于對長序列進行預測,提升識別準確率;同時,將樂譜的信息維度將樂譜符號分為:樂譜符號全局表征+樂譜符號局部表征+音符音高。這樣的拆分方式更利于機器理解和學習。

值得注意的是,團隊還精心設(shè)計了一套樂譜圖片拍攝的方案。為了收集大量真實的數(shù)據(jù),使用手機作為拍照工具,模仿最真實的拍照場景,對明、暗光場景的紙質(zhì)樂譜進行拍照,以及對顯示在顯示屏上的樂譜進行拍照。

實驗結(jié)果表示,網(wǎng)易云音樂的樂譜識別算法的準確性已經(jīng)超過目前最好的端到端音樂譜識別方法,大幅降低錯誤率。下圖中第一行為正確的樂譜識別結(jié)果,第二行為目前最好的復音樂譜識別方法的識別結(jié)果,第三行為本技術(shù)提出方案的識別結(jié)果,紅框標記的為錯誤區(qū)域。

image.png

據(jù)介紹,該方法可以準確地將圖片樂譜轉(zhuǎn)換為midi、musicxml等格式,未來可用于音樂輔助教育、聽歌搜譜等場景中,致力于在音樂欣賞、教育、創(chuàng)作等場景上,為音樂人、用戶提供更好的服務(wù)。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )