CCKS知識圖譜問答大賽作為中文知識圖譜領(lǐng)域的最高比賽,在國內(nèi)知識圖譜問答技術(shù)等相關(guān)研究中有著重要地位,該項(xiàng)賽事的評測也成為全國知識圖譜與語義計(jì)算大會上最受關(guān)注環(huán)節(jié)之一。
12月25日-26日,第十五屆全國知識圖譜與語義計(jì)算大會(CCKS 2021)正式召開,會上發(fā)布了“2021 CCKS知識圖譜問答大賽”最終結(jié)果,百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室在“CCKS 2021:生活服務(wù)知識圖譜問答評測”任務(wù)中榮獲季軍和技術(shù)創(chuàng)新獎(jiǎng)兩項(xiàng)榮譽(yù)。
百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室
榮獲大賽季軍及技術(shù)創(chuàng)新獎(jiǎng)
CCKS由中國中文信息學(xué)會語言與知識計(jì)算專業(yè)委員會主辦,是國內(nèi)知識圖譜和計(jì)算語義領(lǐng)域的核心學(xué)術(shù)盛會,聚集了知識表示、自然語言理解、知識獲取、智能問答等相關(guān)技術(shù)領(lǐng)域的和研究人員的學(xué)者和研究人員。
本次大會以“知識圖譜賦能新基建”為主題,致力于為研究者們提供一個(gè)測試技術(shù)、算法、及系統(tǒng)的平臺,共同探討大數(shù)據(jù)環(huán)境下語言理解、知識獲取、知識融合、知識推理等方面的關(guān)鍵技術(shù),以及在新基建背景下的各種智能應(yīng)用。
2021 CCKS知識圖譜問答大賽于2021年3月啟動(dòng),吸引了2300多支參賽隊(duì)伍,其中,在“CCKS 2021:生活服務(wù)知識圖譜問答評測”任務(wù)中,有430支隊(duì)伍、460人參賽,該任務(wù)是自然語言處理領(lǐng)域兼具前沿性和綜合性的任務(wù),開發(fā)難度較大。
經(jīng)過激烈的競爭,最終進(jìn)入排名的僅16支隊(duì)伍,百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室“系統(tǒng)之神與我同在”團(tuán)隊(duì)提交的技術(shù)方案榮獲季軍,以明顯的優(yōu)勢進(jìn)入第一梯隊(duì),與第二梯隊(duì)拉開較大的差距。
知識圖譜作為承載底層海量知識并支持上層智能應(yīng)用的重要載體,在智能時(shí)代中扮演了極其重要的角色,但由于知識圖譜高度結(jié)構(gòu)化的特點(diǎn),常常需要構(gòu)建結(jié)構(gòu)化查詢語句(SPARQL等)來查找相關(guān)知識,這為普通用戶使用知識圖譜造成了不便,因此在知識圖譜上進(jìn)行自然語言問答(KBQA)近年來也成為了前者的熱門應(yīng)用之一。
本次評測任務(wù)是希望參賽者們可以提出創(chuàng)新性的KBQA系統(tǒng),同時(shí)處理“專而深”的特定領(lǐng)域和“廣而淺”的開放領(lǐng)域知識圖譜,對用戶提出的復(fù)雜多樣的自然語言問題給出準(zhǔn)確答案。此外,更希望此次評測可以為KBQA的下一步研究和落地提供一些理論及實(shí)踐層面的啟發(fā)。
傳統(tǒng)問題類型
賽題任務(wù)的問題分為傳統(tǒng)問題類型和特殊問題類型,特殊問題類型添加了filter、order等函數(shù)和http://www.w3.org/2001/XMLSchema#float等RDF標(biāo)準(zhǔn)類型后綴的美團(tuán)生活服務(wù)類問題。
經(jīng)典問題
問題:
武漢大學(xué)出了哪些科學(xué)家
查詢語句:
select ?x where {?x<職業(yè)><科學(xué)家_(從事科學(xué)研究的人群)>.?x<畢業(yè)院校><武漢大學(xué)>.}
答案:
"<郭傳杰> <張貽明> <劉西堯> <石正麗> <王小村>"
問題:
凱文·杜蘭特得過哪些獎(jiǎng)?
查詢語句:
select ?x where { <凱文·杜蘭特> <主要獎(jiǎng)項(xiàng)> ?x . }
答案:
"7次全明星(2010-2016)” “5次NBA最佳陣容一陣(2010-2014)” “NBA得分王(2010-2012;2014)” “NBA全明星賽MVP(2012)” "NBA常規(guī)賽MVP(2014)"
問題:
獲得性免疫缺陷綜合征涉及哪些癥狀?
查詢語句:
select ?x where {<獲得性免疫缺陷綜合征><涉及癥狀>?x.}
答案:
"<淋巴結(jié)腫大><脾腫大> <心力衰竭> <腎源性水腫> <抑郁> <心源性呼吸困難> <低蛋白血癥> <不明原因發(fā)熱> <免疫缺陷> <高凝狀態(tài)> <右下腹痛伴嘔吐> "
問題:
詹妮弗·安妮斯頓出演了一部1994年上映的美國情景劇,這部美劇共有多少集?
查詢語句:
select ?y where {?x<主演><詹妮弗·安妮斯頓>.?x<上映時(shí)間>""1994"".?x<集數(shù)>?y.}
答案:
"236"
本次CCKS評測任務(wù)中還添加了排序、過濾條件、聚合函數(shù)、limit等問題,例如:
在競賽過程中,百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室總結(jié)了本次評測任務(wù)的四大挑戰(zhàn):
知識圖譜量級巨大,檢索和召回復(fù)雜度高;
無效實(shí)體數(shù)量極多, 定位實(shí)體的難度較大;
賽題涉及的子任務(wù)多,且周期長,容易造成誤差傳播,且難以定位誤差;
自然語言問法變化多,復(fù)雜程度高,機(jī)器難以理解中文的博大精深。
對此,百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室創(chuàng)造性地提出了信息檢索與語義解析結(jié)合的技術(shù)方案,通過實(shí)體鏈接、路徑生成、路徑排序等方式進(jìn)行信息檢索和語義解析,形成集成互補(bǔ),對比信息檢索和語義解析的答案路徑分?jǐn)?shù),選取分?jǐn)?shù)更高的路徑,并結(jié)合NL2SQL算法,將知識圖譜與預(yù)訓(xùn)練模型融合,通過邏輯推理進(jìn)行復(fù)雜問題查詢,讓問答查詢更接近于人的解析能力,更接近強(qiáng)人工智能。
業(yè)務(wù)賦能
實(shí)現(xiàn)復(fù)雜場景問題查詢
本次評測得分及獲獎(jiǎng)證明該技術(shù)方案性能優(yōu)異,執(zhí)行效率高,具有良好的可擴(kuò)展性,適用于眾多不同業(yè)務(wù)場景的知識圖譜系統(tǒng)中,能夠?qū)崿F(xiàn)多跳和夾式等包含多種語法現(xiàn)象的復(fù)雜問題的查詢。
例如,在“運(yùn)動(dòng)員李娜的丈夫的主要獎(jiǎng)項(xiàng)有哪些”問題查詢中,首先進(jìn)行語義解析生成Sparql語句。
第一步:利用句法解析技術(shù),我們將其中與“修飾”關(guān)系相關(guān)的字詞取出,得到“運(yùn)動(dòng)員-李娜&李娜-丈夫&丈夫-獎(jiǎng)項(xiàng)&主要-獎(jiǎng)。
第二步:利用百分點(diǎn)科技自研的基于知識圖譜的知識預(yù)訓(xùn)練生成模型對問句進(jìn)行語義解析,按照從序列到樹的形式,先生成問句的意圖,再生成意圖的中間路徑,然后生成問句中實(shí)體的約束條件,最終合并得到解析后的Sparql語。
但由于直接生成的Sparql可能與KG中存在的實(shí)體關(guān)系有差異,例如“李娜”的“丈夫”是用“配偶”存儲的,故不能直接查詢到答案。因此,百分點(diǎn)科技從Sparql中的實(shí)體出發(fā)(若不存在該實(shí)體,則利用信息檢索中的實(shí)體鏈接模塊),生成候選路徑,以Sparql為參考,彌補(bǔ)差異。
知識圖譜、NLP
數(shù)據(jù)智能技術(shù)應(yīng)用實(shí)踐
本次評測任務(wù)屬于中文知識圖譜自然語言問答任務(wù),是百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室的重點(diǎn)研究方向。
早在2018年,百分點(diǎn)科技就成立了認(rèn)知智能實(shí)驗(yàn)室,并將自然語言處理技術(shù)(NLP)與知識圖譜技術(shù)相結(jié)合,將非結(jié)構(gòu)化數(shù)據(jù)集成到知識圖譜產(chǎn)品系統(tǒng)中,通過語音識別、機(jī)器視覺和自然語言處理技術(shù)(NLP)從多模態(tài)數(shù)據(jù)中提取語義標(biāo)簽,并融合知識圖譜技術(shù)將其轉(zhuǎn)化為知識,基于在知識理解、知識問答和知識挖掘方面的優(yōu)勢,幫助客戶進(jìn)行科學(xué)、精準(zhǔn)的決策。
實(shí)踐中,百分點(diǎn)科技不斷實(shí)現(xiàn)創(chuàng)新突破,尤其是對認(rèn)知層和決策層的智能技術(shù)和產(chǎn)品的投入,依托自然語言處理等技術(shù),為客戶提供最前沿、最全面的技術(shù)產(chǎn)品支撐。
目前,百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室已經(jīng)打造了業(yè)界領(lǐng)先的AI認(rèn)知引擎,推出了智能問答機(jī)器人、智能翻譯系統(tǒng)和智能審校系統(tǒng)等認(rèn)知智能產(chǎn)品。
未來,百分點(diǎn)科技將繼續(xù)深耕數(shù)據(jù)智能領(lǐng)域,充分發(fā)揮大數(shù)據(jù)全棧技術(shù)和NLP、知識圖譜、智能交互等認(rèn)知智能技術(shù)的優(yōu)勢,服務(wù)更多政府和企業(yè)進(jìn)行智能化轉(zhuǎn)型,助推數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)發(fā)展。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )