干貨丨大規(guī)模自動(dòng)化知識(shí)圖譜構(gòu)建的七大基本原則

知識(shí)圖譜(Knowledge Graph, KG)本質(zhì)上是一種大規(guī)模語(yǔ)義網(wǎng)絡(luò),包含實(shí)體、概念及其之間的各類(lèi)語(yǔ)義關(guān)系,目前已經(jīng)成為認(rèn)知智能的基石,是發(fā)展人工智能的核心技術(shù),它讓機(jī)器語(yǔ)言認(rèn)知、可解釋人工智能成為可能,能夠顯著增強(qiáng)機(jī)器學(xué)習(xí)的能力,將成為與數(shù)據(jù)驅(qū)動(dòng)相并列的一種非常重要的解決問(wèn)題的方式。

最近幾年,以知識(shí)圖譜為代表的智能化技術(shù)正在觸及越來(lái)越多領(lǐng)域,許多企業(yè)都已將人工智能升格為企業(yè)的核心戰(zhàn)略。目前在金融領(lǐng)域,知識(shí)圖譜等人工智能技術(shù)也正在賦能越來(lái)越多的業(yè)務(wù),推動(dòng)金融更加智能化。

金融KG的挑戰(zhàn)與機(jī)遇

在金融知識(shí)圖譜構(gòu)建的早期探索中,有人認(rèn)為只有股票、期貨、上市公司與金融密切相關(guān)。但是在實(shí)際應(yīng)用中,幾乎萬(wàn)事萬(wàn)物在某種意義下都與金融相關(guān),比如某地區(qū)突發(fā)一場(chǎng)龍卷風(fēng),可能影響農(nóng)作物產(chǎn)量,進(jìn)而影響農(nóng)業(yè)機(jī)械的出貨量,最終影響某家生產(chǎn)農(nóng)用發(fā)動(dòng)機(jī)的上市公司股價(jià)。

類(lèi)似這樣的關(guān)聯(lián)分析,正是我們期望智能金融實(shí)現(xiàn)的,而這樣的深度關(guān)聯(lián)分析,顯然十分容易超出任何專(zhuān)家系統(tǒng)的預(yù)先設(shè)定的知識(shí)邊界。因此,某種意義上,知識(shí)是普遍關(guān)聯(lián)的,金融領(lǐng)域知識(shí)庫(kù)的構(gòu)建,也要面臨與通用知識(shí)庫(kù)相同的挑戰(zhàn)。

此外,需求多樣、規(guī)模巨大、要支撐的業(yè)務(wù)系統(tǒng)很龐雜、企業(yè)能夠投入的資源有限等問(wèn)題,在金融知識(shí)圖譜的構(gòu)建中也帶來(lái)了一定的挑戰(zhàn),尤其在數(shù)據(jù)方面,一旦具體到某個(gè)特定金融場(chǎng)景,數(shù)據(jù)可能很稀疏,并且分布不均勻,質(zhì)量低下。

不過(guò),在金融領(lǐng)域數(shù)據(jù)不足的場(chǎng)景,往往專(zhuān)家知識(shí)豐富,結(jié)構(gòu)化數(shù)據(jù)不多的場(chǎng)景,往往文本數(shù)據(jù)豐富,這些都是金融知識(shí)圖譜的機(jī)遇。再加上目前深度模型豐富,各種方法并存,互聯(lián)網(wǎng)上已經(jīng)存在一些高質(zhì)量圖譜可以充分利用,都為圖譜的構(gòu)建提供了有利條件。

金融KG的構(gòu)建需要大規(guī)模自動(dòng)化嗎?

知識(shí)圖譜源于傳統(tǒng)知識(shí)工程,在上世紀(jì)七十年代,傳統(tǒng)知識(shí)工程主要依賴(lài)專(zhuān)家去描述某個(gè)領(lǐng)域的本體,通過(guò)人工的方式來(lái)完成知識(shí)的表達(dá)和獲取。很顯然,現(xiàn)今金融場(chǎng)景的數(shù)據(jù)規(guī)模非常大,需要發(fā)展數(shù)據(jù)驅(qū)動(dòng)的、自下而上的自動(dòng)化方法,來(lái)高效地實(shí)現(xiàn)圖譜構(gòu)建。

知識(shí)圖譜的構(gòu)建有三大關(guān)鍵要素:人——整個(gè)知識(shí)圖譜構(gòu)建的發(fā)起者、是數(shù)據(jù)的標(biāo)注者,并且支持最終的驗(yàn)證;模型——現(xiàn)在大量采用的知識(shí)圖譜構(gòu)建方法,主要是機(jī)器學(xué)習(xí)的模型;數(shù)據(jù)——模型使用的是有標(biāo)注數(shù)據(jù)或者無(wú)標(biāo)注數(shù)據(jù)。

大規(guī)模自動(dòng)化知識(shí)圖譜的構(gòu)建同樣需要考慮到上述三要素,控制人力成本、實(shí)現(xiàn)大規(guī)模知識(shí)獲取,同時(shí)保證知識(shí)圖譜的質(zhì)量,構(gòu)建足夠普適、輕量、廉價(jià)的知識(shí)圖譜。根據(jù)目前學(xué)界的經(jīng)驗(yàn),可以參考以下一些基本原則。

端到端模型優(yōu)于流水線方案

所謂“端到端”,就是從原始數(shù)據(jù)輸入到任務(wù)結(jié)果輸出,整個(gè)訓(xùn)練和預(yù)測(cè)過(guò)程,都是在模型里完成的。流水線(pipeline)技術(shù)是指在程序執(zhí)行時(shí)多條指令重疊進(jìn)行操作的一種準(zhǔn)并行處理實(shí)現(xiàn)技術(shù),相對(duì)來(lái)說(shuō)容易導(dǎo)致錯(cuò)誤的傳播和積累,導(dǎo)致最后的準(zhǔn)確率不佳。在準(zhǔn)確率差不多的情況下,可以?xún)?yōu)先考慮采用端到端的方案,降低特征工程的人工代價(jià),避免錯(cuò)誤傳播。

有海量數(shù)據(jù)時(shí),無(wú)監(jiān)督方法更合適

無(wú)監(jiān)督方法和有監(jiān)督方法的選擇是有條件的,在有海量數(shù)據(jù)的情況下,無(wú)監(jiān)督方法是比較合適的。近年來(lái)行業(yè)中發(fā)展了大量的無(wú)監(jiān)督詞匯挖掘方法,尤其在實(shí)體識(shí)別方面,目前已有不錯(cuò)的效果。融合多種統(tǒng)計(jì)特征是取得較好效果的關(guān)鍵,同時(shí)需要注意,特征比模型重要。

任何一個(gè)領(lǐng)域的智能化,往往都是從這個(gè)領(lǐng)域的詞匯知識(shí)挖掘開(kāi)始的,金融領(lǐng)域也應(yīng)如此。這跟人的學(xué)習(xí)類(lèi)似,人去了解一個(gè)新的領(lǐng)域,也是先學(xué)習(xí)這個(gè)領(lǐng)域的基本詞匯,了解詞匯的概念、上下位詞、同意詞、簡(jiǎn)稱(chēng)等。讓機(jī)器獲取詞匯知識(shí),往往需要無(wú)監(jiān)督的方法,因?yàn)楹芏鄨?chǎng)景缺少標(biāo)準(zhǔn)數(shù)據(jù),但是往往有充足的文本,只要文本量足夠大,通過(guò)使用無(wú)監(jiān)督的辦法可以高效、準(zhǔn)確地挖掘出該領(lǐng)域的詞匯。

充分利用行為數(shù)據(jù)

知識(shí)圖譜的構(gòu)建,除了從文本里挖,或者從已有的關(guān)系表格里轉(zhuǎn)換,還可以通過(guò)深挖用戶(hù)的行為數(shù)據(jù)來(lái)構(gòu)建。諸如電商、搜索等場(chǎng)景,有豐富的用戶(hù)行為數(shù)據(jù),這些搜索日志可以很好地幫助我們構(gòu)建詞匯之間的一些關(guān)系,比如搜索“Fintech”的人總是會(huì)點(diǎn)開(kāi)金融科技相關(guān)的文檔,那么“Fintech”很有可能就是“金融科技”的同義詞。

很多企業(yè)內(nèi)部也有搜索平臺(tái),對(duì)于知識(shí)圖譜的構(gòu)建同樣具有價(jià)值。通過(guò)充分挖掘搜索日志等用戶(hù)行為數(shù)據(jù),挖掘詞匯之間的關(guān)系,有助于知識(shí)圖譜的構(gòu)建。

統(tǒng)計(jì)模型需與符號(hào)知識(shí)結(jié)合

相比于單一的統(tǒng)計(jì)模型,統(tǒng)計(jì)模型與符號(hào)知識(shí)相結(jié)合會(huì)更加有效。金融領(lǐng)域有豐富的符號(hào)知識(shí),例如專(zhuān)家規(guī)則等,這些知識(shí)可以幫助提升統(tǒng)計(jì)模型的效果。例如在給實(shí)體打標(biāo)簽的時(shí)候,可以初步構(gòu)造出一些約束,舉個(gè)簡(jiǎn)單的例子,如果xx是個(gè)人,他肯定不會(huì)是一本書(shū);如果他是一名企業(yè)家,他肯定是個(gè)人物。這些約束的本質(zhì)是符號(hào)化的知識(shí),充分利用先驗(yàn)知識(shí)構(gòu)造各種約束,是有效提升模型效果的關(guān)鍵思路。

符號(hào)知識(shí)還可以用來(lái)構(gòu)造注意力機(jī)制?,F(xiàn)在注意力對(duì)于深度學(xué)習(xí)模型來(lái)說(shuō)很重要,簡(jiǎn)單地說(shuō)就是打權(quán)重。比如在“她已經(jīng)用蘋(píng)果十年了”這句話中,當(dāng)我們給“蘋(píng)果”這個(gè)詞打標(biāo)簽,“移動(dòng)電話”的標(biāo)簽要比“水果”的標(biāo)簽合適。利用符號(hào)知識(shí)去構(gòu)造深度模型里面的注意力機(jī)制,有助于做到真正的知識(shí)引導(dǎo),使得效果更好。

間接知識(shí)引導(dǎo)優(yōu)于直接數(shù)據(jù)驅(qū)動(dòng)

深度學(xué)習(xí)模型本質(zhì)上是直接數(shù)據(jù)驅(qū)動(dòng),但在一些情況下,需要先從數(shù)據(jù)中去挖掘一些pattern,再把pattern融合到深度模型中,會(huì)取得更好的效果。有的人在做關(guān)系抽取的時(shí)候,會(huì)將其建模成關(guān)系分類(lèi),但是事實(shí)上可以從語(yǔ)料中挖掘主題詞增強(qiáng)輸出描述,使用主題模型挖掘關(guān)系標(biāo)簽的相關(guān)主題詞,利用主題詞增強(qiáng)關(guān)系標(biāo)簽描述,從而顯著提升關(guān)系抽取的準(zhǔn)確率。

用圖模型增強(qiáng)可解釋性

圖模型很普適,有非常強(qiáng)的表達(dá)能力,并且可解釋、可控,便于調(diào)整??山忉屝詻Q定了人工智能系統(tǒng)的決策結(jié)果能否被人類(lèi)采信。比如在金融領(lǐng)域的智能投資決策,即便人工智能決策的準(zhǔn)確超過(guò)90%,但是如果系統(tǒng)不能給出作出決策的理由,投資經(jīng)理或者用戶(hù)恐怕也是十分猶豫的。

專(zhuān)家知識(shí)庫(kù)可作為種子樣本

在數(shù)據(jù)樣本標(biāo)注方面,如果既有專(zhuān)家構(gòu)建的知識(shí)體系,也有自動(dòng)構(gòu)建的知識(shí)體系,利用專(zhuān)家構(gòu)建的小規(guī)模知識(shí)體系作為數(shù)據(jù)驅(qū)動(dòng)的種子樣本,是有效降低人工標(biāo)注的重要思路之一,可以降低模型構(gòu)建的代價(jià)。

此外,對(duì)于實(shí)際落地來(lái)說(shuō),復(fù)合架構(gòu)非常重要,比如統(tǒng)計(jì)+規(guī)則可以有效解決樣本分布不均勻給單一模型帶來(lái)的挑戰(zhàn);眾包化驗(yàn)證不可或缺,因?yàn)榭傆幸恍┲R(shí)正確與否的驗(yàn)證是要交給人類(lèi)自身的;在知識(shí)圖譜的更新方面,可以利用互聯(lián)網(wǎng)熱點(diǎn)來(lái)驅(qū)動(dòng)圖譜更新,因?yàn)橹挥谢ヂ?lián)網(wǎng)上的熱點(diǎn)實(shí)體,其事實(shí)才有可能改變,冷門(mén)實(shí)體(例如秦始皇這種歷史詞條)一般不會(huì)發(fā)生變化。

大數(shù)據(jù)時(shí)代的到來(lái),使得自動(dòng)化知識(shí)獲取成為可能。目前在學(xué)界,知識(shí)圖譜的大規(guī)模自動(dòng)化構(gòu)建實(shí)際上已經(jīng)基本可行,傳統(tǒng)知識(shí)工程中的知識(shí)獲取瓶頸正在逐步被解決。隨著未來(lái)大規(guī)模自動(dòng)化知識(shí)圖譜在金融領(lǐng)域逐漸落地,也必將進(jìn)一步推動(dòng)金融領(lǐng)域的智能化進(jìn)程。

本文已標(biāo)注來(lái)源和出處,版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2019-11-30
干貨丨大規(guī)模自動(dòng)化知識(shí)圖譜構(gòu)建的七大基本原則
隨著未來(lái)大規(guī)模自動(dòng)化知識(shí)圖譜在金融領(lǐng)域逐漸落地,也必將進(jìn)一步推動(dòng)金融領(lǐng)域的智能化進(jìn)程。

長(zhǎng)按掃碼 閱讀全文