遷移回歸問(wèn)題新突破,火山語(yǔ)音團(tuán)隊(duì)論文被人工智能頂級(jí)期刊IEEE TPAMI接收

近日,人工智能領(lǐng)域頂級(jí)國(guó)際期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE TPAMI,影響因子24.314)再次接收了火山語(yǔ)音團(tuán)隊(duì)有關(guān)機(jī)器學(xué)習(xí)的技術(shù)研究成果,即“基于自適應(yīng)遷移核函數(shù)的遷移高斯回歸模型”( ADATPITVE TRANSFER KERNEL LEARNING FOR TRANSFER GAUSSIAN PROCESS REGRESSION)(鏈接:https://ieeexplore.ieee.org/abstract/document/9937157)。

該成果主要針對(duì)遷移學(xué)習(xí)在低資源回歸問(wèn)題中的應(yīng)用做了創(chuàng)新性基礎(chǔ)理論研究,具體包括以下幾個(gè)方面:

給出了遷移核函數(shù)的正式數(shù)學(xué)定義。

提出了三種廣義形式的遷移核函數(shù),而且現(xiàn)有的遷移核函數(shù)均可歸納為這三種廣義形式的特例。

提出了兩種改進(jìn)的遷移核函數(shù),即線性積式核函數(shù)與多項(xiàng)式積式核函數(shù),并驗(yàn)證了在遷移學(xué)習(xí)中的有效性:一方面展示了遷移效果優(yōu)劣與域相關(guān)性的必然關(guān)聯(lián);另一方面驗(yàn)證了模型可以高效提升遷移效果的情況。

背景介紹

一直以來(lái),高斯過(guò)程回歸模型(Gaussian process regression model, i.e., GP)作為一類(lèi)基礎(chǔ)的貝葉斯機(jī)器學(xué)習(xí)模型,在工程與統(tǒng)計(jì)等領(lǐng)域的回歸問(wèn)題中有著廣泛應(yīng)用。傳統(tǒng)的高斯過(guò)程回歸模型需要大量有監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練才可發(fā)揮好的效果,但在具體實(shí)踐中,收集和標(biāo)記數(shù)據(jù)是一項(xiàng)昂貴且費(fèi)時(shí)的工程。

相比之下,遷移高斯過(guò)程回歸模型(Transfer GP)能夠高效利用不同領(lǐng)域(domain)的數(shù)據(jù)來(lái)降低標(biāo)記成本,主要通過(guò)設(shè)計(jì)遷移核函數(shù)(Transfer Kernel)來(lái)實(shí)現(xiàn)不同領(lǐng)域之間的數(shù)據(jù)遷移,通過(guò)引入域信息來(lái)建模域相關(guān)性,從而自適應(yīng)調(diào)控?cái)?shù)據(jù)遷移強(qiáng)度,使異源數(shù)據(jù)應(yīng)用更加高效。

盡管在不同的領(lǐng)域(如計(jì)算工程學(xué),地質(zhì)統(tǒng)計(jì)學(xué),自然語(yǔ)言處理)都有遷移核函數(shù)的身影,遷移核函數(shù)并沒(méi)有一個(gè)正式的數(shù)學(xué)定義?;诖?,該論文首先提出了正式的遷移核函數(shù)數(shù)學(xué)定義,并總結(jié)了三種廣義形式的遷移核函數(shù)。

基于廣義形式,本文展示了已有的遷移核函數(shù)為廣義形式的一種特例,并討論了其優(yōu)缺點(diǎn)。更進(jìn)一步,文章提出了兩種改進(jìn)的遷移核函數(shù),即線性積式核函數(shù)與多項(xiàng)式積式核函數(shù),旨在提高數(shù)據(jù)表征能力和域相關(guān)性的建模能力:具體來(lái)說(shuō)理論證明了如何建模域相關(guān)性以確保提出的遷移核函數(shù)滿足核函數(shù)(kernel)的基本要求(半正定性),并討論了不同域相關(guān)性對(duì)應(yīng)的遷移場(chǎng)景;更重要的還展示了改進(jìn)的遷移核函數(shù)可以無(wú)縫應(yīng)用到遷移高斯過(guò)程回歸模型中,而不帶來(lái)額外的計(jì)算負(fù)擔(dān),并在一些低資源回歸場(chǎng)景下有效提升遷移效果。

原理闡釋

本文的核心貢獻(xiàn)之一是提出了如下遷移核函數(shù)的正式定義:

基于上述定義,火山語(yǔ)音團(tuán)隊(duì)進(jìn)一步提出了三種廣義形式的遷移核函數(shù),分別為鏈?zhǔn)綇V義核函數(shù)和式廣義核函數(shù)以及積式廣義核函數(shù),而三種廣義形式分別對(duì)應(yīng)三種不同地處理域信息的方式。

現(xiàn)有廣泛應(yīng)用的一類(lèi)遷移核函數(shù),屬于積式廣義核函數(shù)的一種特例。

的一個(gè)重要局限在于其只用一個(gè)簡(jiǎn)單的參數(shù)化系數(shù)去建模域相關(guān)性,這對(duì)于復(fù)雜異構(gòu)的數(shù)據(jù),在表征能力上遠(yuǎn)遠(yuǎn)不足,所以首先提出了改進(jìn)的線形積式核函數(shù),形式如下:

可以看出,用兩組基礎(chǔ)核函數(shù)的線形組合來(lái)區(qū)別域內(nèi)與域間的計(jì)算。這兩組線形組合有著不同的線形系數(shù),,而兩組系數(shù)的比值代表了source 和 target 在基礎(chǔ)核函數(shù) 上的域相關(guān)性。通過(guò)應(yīng)用豐富的基礎(chǔ)核函數(shù),可以表征更加復(fù)雜細(xì)膩的域相關(guān)性。

接下來(lái)的挑戰(zhàn)在于設(shè)計(jì)的在符合上述形式的同時(shí),還需滿足核函數(shù)的基本要求,即半正定性(Postive Semi-definite),所以給出了如下定理:

從定理1可以看出,要滿足半正定性,中的線性系數(shù)應(yīng)滿足 ,即域間系數(shù)的值永遠(yuǎn)小于等于域內(nèi)系數(shù)的值。其潛在含義是域內(nèi)系數(shù)代表了在 上數(shù)據(jù)遷移的上限能力,因此域間系數(shù)不能超過(guò)域內(nèi)系數(shù)。

更具體來(lái)說(shuō),若,則代表source和target在上完全不相關(guān),則不進(jìn)行遷移;若, 則代表source和target在上完全相關(guān),則進(jìn)行全量遷移;若,則代表source和target在上部分相關(guān),則進(jìn)行部分遷移。

雖然提高了的表征能力,但仍然不能表征非線性的情況。因此本文進(jìn)一步提出了多項(xiàng)式積式核函數(shù),形式如下:

其中,

上述數(shù)學(xué)形式較為抽象,因此展示如下圖形化結(jié)構(gòu):

可以看出,用兩個(gè)基礎(chǔ)核函數(shù)深度網(wǎng)絡(luò)來(lái)區(qū)別域內(nèi)與域間的計(jì)算,每個(gè)基礎(chǔ)核函數(shù)深度網(wǎng)絡(luò)由線形層與乘積層交替組成,例如上述例子中包括三層線形層和兩層乘積層;線形層的每個(gè)節(jié)點(diǎn)為上一層的輸出的線形組合,乘積層的每個(gè)節(jié)點(diǎn)為上一層相鄰輸出的乘積;每層線形層包含域內(nèi)與域間兩組線形系數(shù),而乘積層不包含可學(xué)習(xí)的參數(shù)。

更進(jìn)一步,可以展開(kāi)每個(gè)深度網(wǎng)絡(luò),從而得到如下形式的:

可以發(fā)現(xiàn),是的一種高階形式,即用基礎(chǔ)核函數(shù)的多項(xiàng)式形式為新的基礎(chǔ)核函數(shù),從而引入非線性。此外根據(jù)定理1,就可以很容易得到如下推論,從而保證的半正定性。

實(shí)驗(yàn)驗(yàn)證

除了理論推導(dǎo)之外,文章還展示了豐富的實(shí)驗(yàn)驗(yàn)證。“我們首先驗(yàn)證了與準(zhǔn)確學(xué)習(xí)不同領(lǐng)域相關(guān)性的能力??梢钥闯瞿P湍軌蚝芎脤W(xué)習(xí)到兩個(gè)領(lǐng)域之間的相關(guān)性,同時(shí)還能取得更好的遷移效果, 即更小的均方根差。”火山語(yǔ)音團(tuán)隊(duì)表示。

另外團(tuán)隊(duì)還研究了不同模型在時(shí)間序列外推任務(wù)下的遷移效果,即根據(jù)有限的目標(biāo)數(shù)據(jù)和豐富的源數(shù)據(jù)對(duì)后續(xù)時(shí)序目標(biāo)數(shù)據(jù)的擬合能力,可以看出模型在遷移效果上要遠(yuǎn)遠(yuǎn)優(yōu)于其他模型。

最后,團(tuán)隊(duì)還在四個(gè)現(xiàn)實(shí)數(shù)據(jù)集中對(duì)模型進(jìn)行了驗(yàn)證。與8個(gè)SOTA方法相比,模型在不同的遷移回歸任務(wù)中都取得了更好的遷移效果,即更小的均方根差。

火山語(yǔ)音,字節(jié)跳動(dòng) AI Lab Speech & Audio 智能語(yǔ)音與音頻團(tuán)隊(duì),長(zhǎng)期以來(lái)面向字節(jié)跳動(dòng)內(nèi)部各業(yè)務(wù)線提供優(yōu)質(zhì)的語(yǔ)音AI技術(shù)能力以及全棧語(yǔ)音產(chǎn)品解決方案。目前團(tuán)隊(duì)的語(yǔ)音識(shí)別和語(yǔ)音合成覆蓋了多種語(yǔ)言和方言,多篇論文入選各類(lèi)AI 頂級(jí)會(huì)議,技術(shù)能力已成功應(yīng)用到抖音、剪映、番茄小說(shuō)等多款產(chǎn)品上,并通過(guò)火山引擎開(kāi)放給外部企業(yè)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )