成人区精品人妻人妻AV,十八禁禁久久精品,免费国产一级片内射视频播

近日，網(wǎng)易云音樂2篇論文《TG-Critic: A Timbre-Guided Model for Reference-Independent Singing Evaluation》《TrOMR:Transformer-based Polyphonic Optical Music Recognition》入選ICASSP2023，論文提出的兩種算法模型均優(yōu)于現(xiàn)有最先進模型。

一種是歌唱評價算法模型TG-Critic，利用它可以僅依靠一段演唱音頻判斷歌手演唱水平，實驗結(jié)果表明，算法模型評估的歌曲與人工專家評價“演唱水平好”的歌曲，相似度達91%;另一種是識別圖像樂譜的算法模型，通過模型識別圖片中的五線譜，實驗結(jié)果在復音樂譜上的錯誤率最高也僅為2.1%。

據(jù)了解，ICASSP(International Conference on Acoustics, Speech and Signal Processing)即國際聲學、語音與信號處理會議，是IEEE主辦的全世界最大的，也是最全面的信號處理及其應(yīng)用方面的頂級會議，在國際上享有盛譽并具有廣泛的學術(shù)影響力。此次入選，代表了網(wǎng)易云音樂在國際舞臺上，展示出了在音樂音頻領(lǐng)域的技術(shù)實力。

而且憑借在音樂技術(shù)領(lǐng)域的積累創(chuàng)新，網(wǎng)易云音樂也不斷將前沿領(lǐng)域研究成果應(yīng)用于實踐。依靠目前準確率最高的歌曲質(zhì)量評價算法，歌唱評價將不再依賴人力手工準備模板物料，歌手也不再需要模仿模板以獲取高分，更鼓勵歌手的個性化演繹。而且相比卡拉ok中的傳統(tǒng)歌唱評價，該模型未來將用于更加豐富的使用場景，如歌曲分發(fā)、優(yōu)質(zhì)歌手挖掘、聲音社交等等領(lǐng)域。而利用識別圖像樂譜的算法模型，可以將模糊的圖片樂譜準確識別，方便轉(zhuǎn)換為利用率更高的格式，服務(wù)于音樂人、用戶在欣賞、教育、創(chuàng)作等場景的需要。

三大技術(shù)創(chuàng)新拆解“開口跪”，將全球最優(yōu)算法準確率至少提升4%

當歌唱老師和專家聽到一首歌，就能迅速可以判斷出歌手的演唱水平，而普通人則會用“開口跪”表達夸贊。當人們評價歌聲質(zhì)量時，人聲的音色是影響判斷的重要因素。受其啟發(fā)，網(wǎng)易云音樂首創(chuàng)提出了一個音色為指導的歌唱評價模型：TG-Critic，將全球最優(yōu)算法準確率提升4%以上。

據(jù)介紹，網(wǎng)易云音樂音頻實驗室在歌唱評價模型的設(shè)計過程中引入了三個主要創(chuàng)新點：

1.首次在模型中顯式引入音色信息輔助歌聲評價：研究表明，歌手的"音色"是影響人們對于歌聲感受的重要因素。但不同于音準、節(jié)奏等較為簡單的屬性，音色是一系列復雜而抽象的感受的集合，因此其提取過程更為復雜，更難被模型直接捕捉到。至今為止的歌聲自動評價系統(tǒng)中，還沒有研究聚焦音色特征對于模型預測的影響。為了填補這一空缺，團隊創(chuàng)新性地使用原本為“歌手識別”任務(wù)設(shè)計的預訓練模型，提取與音色相關(guān)的高級特征，并將其用作歌聲評價模型的輸入。盡管這些特征原本并非為歌聲質(zhì)量設(shè)計，但是來自質(zhì)量標簽為“好”和“差”的樣本的特征，在高維空間中分別呈現(xiàn)出較明顯的聚集現(xiàn)象，證明了其與歌聲質(zhì)量的相關(guān)性。

2.遷移高分辨率網(wǎng)絡(luò)結(jié)構(gòu)處理聲譜特征：除了音色特征輸入，團隊從音頻樣本中提取CQT聲譜特征作為模型的主要輸入。為了解決卷積網(wǎng)絡(luò)局部性帶來的問題，團隊將圖像分割領(lǐng)域較為常用的“高分辨率網(wǎng)絡(luò)”遷移到歌聲評價任務(wù)中，分別通過高、中、低三個不同的分辨率分支分別處理特征。通過高分辨率特征捕捉局部信息(如演唱技巧、小瑕疵等)、低分辨率特征捕捉長距離信息(氣息穩(wěn)定性、音準等)，從而實現(xiàn)保持高效性的同時，提升模型提取有用信息的能力。

3.提出循環(huán)自動數(shù)據(jù)標注降低人工成本：對于一個模型的訓練，可靠的標注數(shù)據(jù)尤為重要。團隊收集了3萬余條歌聲數(shù)據(jù)樣本，以及其對應(yīng)的機器打分(針對音準、節(jié)奏等)、紅心數(shù)、評論數(shù)等可以一定程度反映歌聲質(zhì)量的元數(shù)據(jù)。通過一個循環(huán)迭代過程，只需要人工標注其中小部分樣本，便能獲得足夠可靠的自動數(shù)據(jù)標簽，大大降低了標注所需的人工成本。

實驗結(jié)果表明，在各類公開數(shù)據(jù)集上，網(wǎng)易云音樂提出的TG-Critic均達到國際最先進水平，相比已有算法，準確率提升至少4%，部分數(shù)據(jù)集提升10%以上。而且應(yīng)用于網(wǎng)易云音樂業(yè)務(wù)測聽的結(jié)果顯示：在音樂人業(yè)務(wù)：運營評估歌曲推薦值≥3共159首歌曲中，算法評價為“演唱水平好”共144首，準確率達90.5%;在直播業(yè)務(wù)：運營提供100首算法判定“演唱水平好”歌曲的人工驗證，準確率91%;在500+全演唱水平分類實驗中，準確率81.2%。

據(jù)了解，TG-Critic歌曲質(zhì)量評價模型將進一步減少人力依賴并擴大應(yīng)用場景在直播、音樂人等內(nèi)容分發(fā)場景，可協(xié)助人工挑選優(yōu)質(zhì)內(nèi)容，可服務(wù)于作品審核、分發(fā)或推薦，優(yōu)質(zhì)歌手挖掘在社交、游戲等C端場景，可提供“開口跪挑戰(zhàn)”等運營玩法。

懂AI又懂樂理，看圖識譜技術(shù)上的又一次突破

隨著深度學習方法的應(yīng)用，OCR(圖像文字識別 )近年得到了長足的進步，而OMR(圖像樂譜識別)卻始終處于研究應(yīng)用的初級階段。由于這個方向?qū)儆诮徊鎸W科，既要懂視覺算法又要懂樂理。目前市面上的商業(yè)或開源軟件都不具備可用的準確率。

因此，網(wǎng)易云音樂音視頻實驗室采用基于端到端的算法識別路線，優(yōu)化識別流程：1)拿到一個樂譜圖片，檢測圖片中的曲譜位置坐標;2)提取曲譜區(qū)域，進行曲譜識別，識別出樂譜中的內(nèi)容信息，如下圖：

針對該樂譜識別模型，網(wǎng)易云音樂音頻實驗室也做了多方面的創(chuàng)新，大大提高了準確性。例如，將Transformer引入到樂譜識別任務(wù)中，通過該結(jié)構(gòu)可以實現(xiàn)更大的感受野，有利于對長序列進行預測，提升識別準確率;同時，將樂譜的信息維度將樂譜符號分為：樂譜符號全局表征+樂譜符號局部表征+音符音高。這樣的拆分方式更利于機器理解和學習。

值得注意的是，團隊還精心設(shè)計了一套樂譜圖片拍攝的方案。為了收集大量真實的數(shù)據(jù)，使用手機作為拍照工具，模仿最真實的拍照場景，對明、暗光場景的紙質(zhì)樂譜進行拍照，以及對顯示在顯示屏上的樂譜進行拍照。

實驗結(jié)果表示，網(wǎng)易云音樂的樂譜識別算法的準確性已經(jīng)超過目前最好的端到端音樂譜識別方法，大幅降低錯誤率。下圖中第一行為正確的樂譜識別結(jié)果，第二行為目前最好的復音樂譜識別方法的識別結(jié)果，第三行為本技術(shù)提出方案的識別結(jié)果，紅框標記的為錯誤區(qū)域。

據(jù)介紹，該方法可以準確地將圖片樂譜轉(zhuǎn)換為midi、musicxml等格式，未來可用于音樂輔助教育、聽歌搜譜等場景中，致力于在音樂欣賞、教育、創(chuàng)作等場景上，為音樂人、用戶提供更好的服務(wù)。

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

網(wǎng)易云音樂2篇論文入選ICASSP2023，AI歌聲評價、樂譜識別均超國際先進水平

網(wǎng)易云音樂2篇論文入選ICASSP2023，AI歌聲評價、樂譜識別均超國際先進水平