知識圖譜丨研究報告
核心摘要:
行業(yè)背景:感知到認知的跨越式發(fā)展,須引入發(fā)展認知技術(shù),知識圖譜在此形勢下成為了破局的關(guān)鍵技術(shù)。數(shù)字經(jīng)濟的持續(xù)發(fā)展將加速知識圖譜產(chǎn)業(yè)化進度,推動知識圖譜與傳統(tǒng)產(chǎn)業(yè)融合。高性能圖計算可為圖計算輸送更快更準的計算能力,服務于知識圖譜運算,算力規(guī)模化部署也為知識圖譜計算的高密度、高功耗要求提供了有利發(fā)展條件。深度學習技術(shù)、NLP技術(shù)、知識圖譜技術(shù)協(xié)同并進,尤其是NLP技術(shù)近幾年的快速發(fā)展為知識圖譜產(chǎn)業(yè)化提供了機會。
行業(yè)規(guī)模:2021年,知識圖譜核心市場規(guī)模預計達到107億元,而到2026年,相應規(guī)模將超過296億元,2021-2026年CAGR=22.5%。金融與公安兩大行業(yè)的知識圖譜占比較高且增長速度較快,其業(yè)務與知識圖譜可密切結(jié)合,同時具備建設意愿與資金投入,因而成為了市場規(guī)模的主要拉力。未來,隨著政務數(shù)字化建設的完善,政務對知識圖譜的業(yè)務需求會逐漸喚醒,成為未來市場的拉力之一。
建設重點探討:知識圖譜建設需面臨的建設難點主要在于數(shù)據(jù)治理、行業(yè)專家儲備、底層圖數(shù)據(jù)庫存儲、算法生產(chǎn)流程與性能待提升、客戶認知待培養(yǎng)以及產(chǎn)品封裝形式待優(yōu)化。攻克知識圖譜的建設重難點將有利于從源頭保證知識與智慧真實可靠、可用正確,儲備培養(yǎng)深厚行業(yè)專家與技術(shù)復合型專家,升級底層圖數(shù)據(jù)的存儲方式,改善算法性能,為知識圖譜建設減少阻礙。
趨勢展望:未來,知識圖譜廠商、大數(shù)據(jù)廠商、NLP廠商、互聯(lián)網(wǎng)大廠與信息化廠商等知識圖譜業(yè)內(nèi)參與者將從強化技術(shù)實力與深化行業(yè)認知的角度出發(fā),結(jié)合自身原有業(yè)務優(yōu)勢,持續(xù)深化發(fā)展行業(yè)知識圖譜業(yè)務。知識圖譜業(yè)務場景也將不斷迭代,行業(yè)應用場景邊界拓寬,垂直應用場景被做深做透。知識圖譜生態(tài)也將繼續(xù)由監(jiān)管引導方、供給方、需求方、投資方、高校及科研院所融合共建,匯聚建設合力,促進產(chǎn)業(yè)生態(tài)成長壯大。
概念與研究范圍界定
描繪實體之間關(guān)系的數(shù)據(jù)結(jié)構(gòu)語義網(wǎng)絡
知識圖譜是人工智能的一大底層技術(shù),是描繪實體之間關(guān)系的語義網(wǎng)絡,自帶語義、邏輯含義和規(guī)則,通過三元組即“實體×關(guān)系×屬性”集合的形式來描述事物之間的關(guān)系。知識圖譜將非線性世界中的知識信息結(jié)構(gòu)化、可視化,輔助人類進行推理、預判、歸類。知識圖譜中的圖并非圖像概念,而是類似化學分子式的結(jié)構(gòu),一個知識圖譜往往存在多種類型的實體與關(guān)系。知識結(jié)構(gòu)網(wǎng)絡化、網(wǎng)絡結(jié)構(gòu)復雜、網(wǎng)絡由三元組構(gòu)成、數(shù)據(jù)主要由知識庫承載是知識圖譜的四大基本特征。一般而言,知識圖譜的數(shù)據(jù)以文本化數(shù)據(jù)為主,數(shù)據(jù)化數(shù)據(jù)為輔。
主要任務介紹
五大任務,復雜關(guān)聯(lián)推理為突破重點
一般而言,知識圖譜需執(zhí)行的主要任務包括知識圖譜構(gòu)建與補全、實體統(tǒng)一(消歧)、實體分類、知識檢索問答(簡單推理)、復雜關(guān)系推理?,F(xiàn)階段的復雜關(guān)系推理需要更多依賴人類預測與推斷各種可能的情況,并優(yōu)先推薦可能性大的情況。
主流產(chǎn)品類型
成熟產(chǎn)品:通用互聯(lián)網(wǎng)知識圖譜;起步產(chǎn)品:行業(yè)知識圖譜
知識圖譜的產(chǎn)品類型以通用知識圖譜與行業(yè)知識圖譜為典型代表。通用知識圖譜經(jīng)過開拓性構(gòu)建階段后,逐漸演變?yōu)橥ㄓ没ヂ?lián)網(wǎng)知識圖譜,形成搜索引擎、智能推薦、智能問答三大產(chǎn)品類型,產(chǎn)品發(fā)展較為成熟。行業(yè)知識圖譜處于起步期,但其價值及效果逐漸被客戶所認可,是知識圖譜當前乃至未來一段時期內(nèi)的發(fā)展熱點。
產(chǎn)品形態(tài)解析
滿足其一即可認定為知識圖譜產(chǎn)品,五種形態(tài)可相互嵌套
知識圖譜的產(chǎn)品形態(tài)頗有“盲人摸象”之意。各類廠商分別通過自然語言處理、知識庫、數(shù)據(jù)庫、數(shù)據(jù)平臺或中臺、機器學習等產(chǎn)品逐步接觸到知識圖譜,在已有的業(yè)務基礎上疊加知識圖譜產(chǎn)品,或開發(fā)出獨立的知識圖譜產(chǎn)品業(yè)務線。就當前的五大產(chǎn)品形態(tài)而言,其中的任意一種都可算作知識圖譜產(chǎn)品,且知識圖譜產(chǎn)品一般為五類產(chǎn)品形態(tài)的排列組合復合體。
熱點探討一:KG在數(shù)據(jù)產(chǎn)品中的存在感
業(yè)務了解不透徹、產(chǎn)品開發(fā)承接性等原因誘發(fā)的有限存在感
在各類知識圖譜的產(chǎn)品形態(tài)中,大數(shù)據(jù)知識圖譜的數(shù)據(jù)產(chǎn)品屬性強于知識圖譜屬性。在數(shù)據(jù)中臺、大數(shù)據(jù)平臺以及其他數(shù)據(jù)解決方案中,可頻繁觀察到知識圖譜這一畫龍點睛的模塊或組件,多數(shù)大數(shù)據(jù)廠商也常常自詡自己具備知識圖譜能力。然而,一旦深究其中的知識圖譜行業(yè)能力、底層技術(shù)能力,多數(shù)廠商的知識圖譜工具往往難以覆蓋知識圖譜本該具備的完整生產(chǎn)流程,并且缺失核心的Schema建模技術(shù),現(xiàn)階段知識圖譜在大數(shù)據(jù)產(chǎn)品中的地位及作用就顯得十分有限。
熱點探討二:場景知識圖譜為發(fā)展方向
殊途同歸:高價值、實用性強的垂類場景知識圖譜
知識圖譜產(chǎn)品在當下及未來的行業(yè)發(fā)展熱點主要圍繞大數(shù)據(jù)知識圖譜、行業(yè)知識圖譜兩大類產(chǎn)品展開。大數(shù)據(jù)知識圖譜側(cè),行業(yè)參與者主要分化為兩大陣營,一類選擇做簡單的知識圖譜可視化展示,不深究場景類產(chǎn)品的開發(fā),另一類則在數(shù)據(jù)積累的基礎上,效仿行業(yè)知識圖譜廠商做場景的深度挖掘與沉淀,以期實現(xiàn)數(shù)據(jù)治理能力與場景產(chǎn)品化能力的雙融合。行業(yè)知識圖譜側(cè),知識圖譜作為“行業(yè)專家”這一概念的火熱潮逐漸退卻,參與者在看到B端廣大市場空間的同時,也深刻意識到搭建高業(yè)務價值、強專業(yè)性知識圖譜的不易,因而招納更多的業(yè)務端人才,彌補業(yè)務短板,促成技術(shù)與業(yè)務的雙融合。
產(chǎn)業(yè)總規(guī)模
金融、公安為市場主要拉力
隨著信息化與數(shù)字化建設的展開與NLP技術(shù)的進步,知識圖譜不再局限于網(wǎng)絡百科式的搜索,其衍生出了互聯(lián)網(wǎng)內(nèi)容與社交、大數(shù)據(jù)知識圖譜與行業(yè)知識圖譜等多種產(chǎn)品類型,產(chǎn)品專業(yè)化與場景化的趨勢日漸明顯,行業(yè)知識圖譜已經(jīng)成為市場開拓重點。金融與公安兩大行業(yè)的知識圖譜占比較高且增長速度較快,其業(yè)務與知識圖譜可密切結(jié)合,具備建設意愿與資金投入,因而成為了市場規(guī)模的主要拉力。據(jù)艾瑞統(tǒng)計測算,在2021年的行業(yè)市場結(jié)構(gòu)中,金融與公安的市場份額合計共占總市場的38.2%。未來,隨著政務數(shù)字化建設的完善,政務對知識圖譜的業(yè)務需求會逐漸喚醒,成為未來市場的拉力之一。從市場整體來看,2021年中國知識圖譜核心市場規(guī)模為107億元,到2026年,核心市場規(guī)??赏黄?90億元,2021-2026年CAGR=22.5%。
行業(yè)細分賽道表現(xiàn)總覽
互聯(lián)網(wǎng)最成熟,金融為興起標桿,政務與工業(yè)長路漫漫
各行業(yè)賽道知識圖譜產(chǎn)業(yè)情況可從技術(shù)、業(yè)務、執(zhí)行三大維度進行評價和對比?;ヂ?lián)網(wǎng)是知識圖譜產(chǎn)業(yè)最成熟的賽道,一般提供輕量級的應用服務,開發(fā)難度較低。相比之下,其他行業(yè)的知識圖譜產(chǎn)業(yè)仍處于建設期,且以金融的表現(xiàn)為標桿。政務、工業(yè)都有巨大的數(shù)據(jù)量,但業(yè)務專家儲備密集度、業(yè)務場景明確程度、客戶配合度的評價偏低,需要較為漫長的磨合過程。盡管醫(yī)療領域的專家儲備與業(yè)務場景明確度表現(xiàn)較好,但因各級醫(yī)院資源利益不統(tǒng)一,文本數(shù)據(jù)理解難度大,其產(chǎn)業(yè)發(fā)展遠不如人們所希冀的高專家水準。
核心產(chǎn)業(yè)圖譜
? 互聯(lián)網(wǎng)
行業(yè)需求痛點分析
信息碎片化與非結(jié)構(gòu)化突出,產(chǎn)品需持續(xù)迭代滿足用戶需求
一、互聯(lián)網(wǎng)信息碎片化與非結(jié)構(gòu)化的處理需求
互聯(lián)網(wǎng)的海量信息帶有碎片化與非架構(gòu)化特征。新興互聯(lián)網(wǎng)應用的蓬勃發(fā)展,讓完整信息被分類分解為信息片段,信息被大量簡化,從而導致信息本身不全面、內(nèi)在邏輯不完整。同時,文本、圖片、各類報表和音頻、視頻、HTML等非結(jié)構(gòu)化數(shù)據(jù)廣泛存在于互聯(lián)網(wǎng)中。互聯(lián)網(wǎng)企業(yè)需要在現(xiàn)有的存量業(yè)務中,收集碎片化信息,處理非結(jié)構(gòu)化數(shù)據(jù),挖掘信息間的潛在聯(lián)系,還原完整的、有價值的信息。然而,信息的關(guān)聯(lián)關(guān)系挖掘是一項工作量巨大且復雜的工程。
二、?互聯(lián)網(wǎng)產(chǎn)品迭代與發(fā)展的需求
互聯(lián)網(wǎng)產(chǎn)品的生命周期路徑規(guī)劃需求:任何的互聯(lián)網(wǎng)產(chǎn)品都會經(jīng)歷探索期、成長期、成熟期、衰退期四大階段,每一階段各有其痛點。探索期的產(chǎn)品在設計規(guī)范與方向上缺乏可參考的產(chǎn)品,難以找到產(chǎn)品的設計方向;成長期的產(chǎn)品往往同質(zhì)化嚴重,難以找到產(chǎn)品的創(chuàng)新點,并在競品競爭中取勝;成熟期的產(chǎn)品基本定型,需要在產(chǎn)品細節(jié)上做設計與把控。針對每一階段的痛點,都需要做好路徑規(guī)劃,持續(xù)進行產(chǎn)品迭代,解決產(chǎn)品所處階段的核心問題。產(chǎn)品迭代設計規(guī)劃需要依賴合理可靠的決策依據(jù),而決策依據(jù)源自將已經(jīng)結(jié)構(gòu)化的商品表現(xiàn)數(shù)據(jù)、行業(yè)信息等構(gòu)建成網(wǎng)絡,發(fā)現(xiàn)數(shù)據(jù)之間的潛在關(guān)聯(lián)。
以存量產(chǎn)品迭代為例進行解釋:某APP起初以本地生活服務為主打功能,但該APP已經(jīng)較為成熟,同時期還存在一些競爭對手。產(chǎn)品設計師考慮在現(xiàn)有功能上疊加旅游服務與電商服務,以增加產(chǎn)品的差異化程度。
三、?商品與用戶信息的精準化、個性化表達需求
商品方面:市場管理差異導致的商品信息差,線上商品存在多種表達方式,標準化程度不足;線上商品缺乏個性化設計與表達,對用戶引導不到位,難以激發(fā)用戶興趣,不利于用戶做出消費決策。
用戶方面:網(wǎng)頁端與移動端都會留下用戶的行為數(shù)據(jù)痕跡,用戶的消費觀念隱藏在這些數(shù)據(jù)以及數(shù)據(jù)間的關(guān)聯(lián)關(guān)系中。若要為用戶精準推薦個性化內(nèi)容,將用戶切實轉(zhuǎn)化為消費者,需要對用戶的數(shù)據(jù)進行挖掘,刻畫用戶畫像。
痛點下的知識圖譜應用
以智能推薦與輔助決策為核心,滿足用戶與企業(yè)決策者需求
一、碎片化信息聚合,以網(wǎng)絡搜索場景為例
預期目標:推薦與檢索詞條相關(guān)的實體,將碎片化信息聚合為不同維度呈現(xiàn)。
核心原理:通過網(wǎng)絡信息與數(shù)據(jù)搭建通用知識庫,將具有相關(guān)性的信息聯(lián)系起來,將完整豐富的信息推薦給用戶。
核心價值點:盤活長尾冷門的實體,實現(xiàn)碎片化信息聚合,還原完整信息,補充用戶未知知識(尤其是時效性與新奇知識),激發(fā)用戶搜索興趣。
對應應用:百度百科、搜狗百科、360百科、微信搜索等。
二、存量產(chǎn)品迭代開發(fā),以開拓新業(yè)務市場為例
預期目標:提示決策人員業(yè)務的生命周期階段,輔助其進行業(yè)務規(guī)劃。
核心原理:將存量業(yè)務數(shù)據(jù)反饋構(gòu)建知識圖譜網(wǎng)絡,判斷業(yè)務的生命周期階段,決定是否要迭代業(yè)務。
示例:某公司已有的存量業(yè)務為電商零售,基于信息后臺的知識圖譜網(wǎng)絡反饋,業(yè)務的用戶活躍度基本穩(wěn)定,舊業(yè)務已進入成熟期,公司可以尋找存量業(yè)務的突破口。圖譜提示決策人員公司已經(jīng)具有物流配送、生鮮供貨商、C端用戶的資源優(yōu)勢,可考慮開拓生鮮市場。
對應應用:盒馬鮮生、七鮮超市等。
三、商品精準導購,以新零售網(wǎng)絡購物為例
預期目標:通過對客戶多維度信息的挖掘,快速篩選出潛在商品需求。
核心原理:基于用戶信息庫與商品信息庫,構(gòu)建商品決策知識圖譜,在導購的具體場景中推送符合用戶偏好的商品。
核心價值點:對于用戶而言,快速觸達所需的商品種類,提高決策效率;對于商戶而言,輔助商品導購,實現(xiàn)商品的個性化推薦與精準營銷,增加商品收益。
對應應用:淘寶、京東、網(wǎng)易嚴選、唯品會等。
四、內(nèi)容個性化推薦,以餐飲消費推薦為例
預期目標:尋找用戶最可能消費的商戶,為用戶推薦該商戶。
核心原理:將用戶的消費記錄、家鄉(xiāng)、歷史口味偏好等信息構(gòu)建成知識圖譜網(wǎng)絡,計算出不同維度下的推薦分值,分值最高的路徑即為推送結(jié)果。
核心價值點:對于用戶而言,能夠為用戶提供個性化、多維度的內(nèi)容推薦,激起用戶興趣,減少對商戶評價內(nèi)容的依賴,縮短用戶的篩選時間 ;對于商戶而言,能夠幫助商戶吸引客流,增加業(yè)務收入。
對應應用:美團、大眾點評等。
? 金融
場景應用分析一:信貸風控業(yè)務痛點
信用與欺詐風險加劇,風控手段急需優(yōu)化升級
信貸,是一種僅以個人信用作為放貸依據(jù)的金融業(yè)務,具備風險性。傳統(tǒng)信貸面臨人力依賴性強、數(shù)據(jù)碎片化、對借款人信息分析不到位等業(yè)務痛點,解決方案正是數(shù)字化建設。隨著金融與科技的融合發(fā)展,金融市場正在加速開放,信貸需求也在不斷延展,整個金融信貸產(chǎn)業(yè)正逐步向無接觸信貸轉(zhuǎn)變。基于無接觸信貸所展現(xiàn)出的大流量、信息不對稱、高可觸達特點,信貸業(yè)務痛點在原有痛點基礎上有所增加:下沉客戶質(zhì)量泥沙俱下,加大了金融業(yè)的信貸風險;團伙作案犯罪手段日漸專業(yè)化、隱蔽化,欺詐風險提升。引入知識圖譜可提升金融風控防范手段,針對痛點2、痛點4、痛點5“對癥下藥”。
Before:傳統(tǒng)信貸業(yè)務痛點
1.依賴風控人員經(jīng)驗與人工審批,放款效率低、管理成本高
貸前、貸中、貸后的工作更依賴風控人員經(jīng)驗,需雇傭較多員工,人力成本高;審批方式以人工審批為主,一般需要2-3周以上方能放款,審批時間長、效率低下、手續(xù)與流程繁瑣。
2.風控數(shù)據(jù)海量碎片化,盡調(diào)成本高、考證難度大,風險識別監(jiān)測手段弱
在對公業(yè)務中,部分項目信息數(shù)據(jù)呈海量碎片化,盡調(diào)成本高、考證難度大,這一問題對于創(chuàng)新型小微企業(yè)更為嚴重,效果有限的風險識別監(jiān)測手段不利于評估企業(yè)客戶及其風險事件。
3.依賴歷史財務信息進行靜態(tài)分析,不利于把握借款人真實的經(jīng)營狀況
評估企業(yè)信用情況時,銀行更多依賴企業(yè)歷史財務信息進行靜態(tài)分析,依據(jù)較為單一的評價作出信貸決策,難以完全把握借款人真實的經(jīng)營狀況,存在評估局限。
Now:信貸業(yè)務痛點增加
4.金融客戶下沉,客戶信用能力參差不齊,信用風險加劇
伴隨著無接觸信貸興起,線上金融業(yè)務日益增多,助推金融服務下沉,客戶流量入口多元化,隨之而來的是金融客戶下沉。部分客戶是通過第三方平臺推薦引入的流量,這些客戶的信用能力層次不齊,信用風險加劇。
5.團伙作案日漸組織化、專業(yè)化、隱蔽化,欺詐風險提升
保險、貸款和信用卡申請是一些極容易出現(xiàn)信貸欺詐的領域。信貸團伙為實現(xiàn)騙貸,會有組織、有謀劃地開展欺詐,其經(jīng)手的單筆欺詐金額在幾千至上萬之間?;谛刨J團伙犯罪活動呈現(xiàn)出組織化、專業(yè)化、隱蔽化的特點,違反犯罪分子具有相關(guān)金融行業(yè)的從業(yè)經(jīng)歷,犯罪手法相較于過去有了較大程度的提高,而金融一線基層人員對信貸團伙作案的識別與防范存在短板,這為金融業(yè)的正常穩(wěn)定運行埋下了巨大隱患。
場景應用分析一:信貸風控原理及應用
基于數(shù)據(jù)信息搭建網(wǎng)絡,從網(wǎng)絡中識別異常風險
第一章已提到,知識圖譜是復雜的關(guān)系語義網(wǎng)絡,可以從關(guān)系角度提供分析問題的能力,這有利于從正常的特征與行為中挖掘出異常的信用風險與團伙欺詐行為,提升金融機構(gòu)的風控能力。
針對信用風險:信用能力評估圖譜
核心原理:信用能力可依據(jù)信息推斷預測
對私業(yè)務:個人身份、社交關(guān)系網(wǎng)絡、消費記錄、資產(chǎn)負債、年齡等信息可較為客觀反映出的實際消費能力。
對公業(yè)務:企業(yè)間關(guān)系,以及司法稅務、信貸結(jié)算、財務和輿情等業(yè)務均可被記錄與匯總,這些已記錄的信息可透露出借款逾期、負面輿論影響、財務資金漏洞等風險,而風險間具有傳導關(guān)系,概率大小不一,原因可追溯。
針對欺詐風險:知識圖譜助力團伙關(guān)系挖掘,實現(xiàn)異常群簇的敏捷識別
核心原理:團伙作案帶有群體與共性特征,與正常個體存在明顯差異
團伙在信貸詐騙的作案過程中一定會留下蛛蛛絲馬跡。犯罪分子為了節(jié)約犯罪成本,會傾向于使用同一部手機切換不同的賬號,購買的手機一般為成本偏低的安卓手機,手機中的黑產(chǎn)軟件使用共同的網(wǎng)點登錄,同伙預留的電話號碼更有可能為同一電話號碼的多種排列組合。同時,犯罪分子的人員規(guī)模具備一定的數(shù)量特征,人員信息包裝上會具備相似的職位身份,年齡也比較相仿,學歷固定在某一水平,團隊總負債偏高,男女比例有傾斜等。也就是說,犯罪團伙會呈現(xiàn)出針對某一信貸詐騙場景的群體與共性特征,這些特征正是知識圖譜中的關(guān)系。
在關(guān)系網(wǎng)絡中,大多數(shù)正常個體理應為相互獨立的節(jié)點,或與另一個節(jié)點組成規(guī)模為二的團體(多數(shù)可能為家人或親友關(guān)系),若出現(xiàn)三個點以上甚至十幾個點關(guān)系密切時,這些團體可被歸為異常。
場景應用分析二:精準營銷業(yè)務痛點
產(chǎn)品同質(zhì)化且創(chuàng)新設計力度不足;客戶轉(zhuǎn)化難,增量難拓展
場景應用分析二:精準營銷原理及應用
基于知識網(wǎng)絡識別潛在客戶、調(diào)整產(chǎn)品設計,提升服務質(zhì)量
一、銀行場景
預期目標:尋找核心企業(yè),做出進一步營銷動作。
核心原理:搭建好核心企業(yè)的知識圖譜網(wǎng)絡后,可從圖譜中識別核心企業(yè)的上下游與產(chǎn)業(yè)信息,同時融入票據(jù)、貿(mào)易、融資、結(jié)算數(shù)據(jù)等,反映出核心企業(yè)與上下游企業(yè)關(guān)系的緊密度,再結(jié)合企業(yè)的生產(chǎn)周期、實際業(yè)務提供金融產(chǎn)品。
示例:核心企業(yè)A為智能硬件企業(yè),其上游為銷售軟件的核心企業(yè)F與硬件供應商B。B與A為異地買賣關(guān)系,故A讓甲銀行為其提供信用證業(yè)務;而此時A企業(yè)正處于快速成長期,需要大量融資,故A向乙銀行申請貸款。核心企業(yè)D向零售商H賒銷產(chǎn)品,H為境外企業(yè),還款期不確定,故D向甲銀行申請保理業(yè)務。小型企業(yè)向核心企業(yè)F賒銷產(chǎn)品,產(chǎn)生應收賬款,小型企業(yè)之前向乙銀行貸款但現(xiàn)階段無力償還,故其將應收賬款抵押給乙銀行,作為還款用途。
針對業(yè)務:貸款業(yè)務、中收業(yè)務、保理業(yè)務、應收賬款抵押業(yè)務等。
二、保險場景
預期目標:提升服務人員專業(yè)素質(zhì),提升業(yè)務成交率。
核心原理:基于已有的百科、學術(shù)文獻、專業(yè)書籍、保險合同條款建立知識庫與知識問答網(wǎng)絡,形成龐大的知識體系,在搜索過程中直接匹配相關(guān)答案,便于業(yè)務人員快速檢索學習,掌握相關(guān)知識體系。
針對業(yè)務:業(yè)務人員素質(zhì)與運營技能培養(yǎng)。
預期目標:關(guān)聯(lián)投保產(chǎn)品的保險責任及對應保障范圍,快速推理得出理賠責任,防范理賠風險,降低誤賠率。
核心原理:通過已有數(shù)據(jù)構(gòu)建理賠網(wǎng)絡推理理賠結(jié)論。
示例:車險理賠的條件一般包括報案記錄、索賠單證等,基于搭建好的條件網(wǎng)絡,輸入條件,符合網(wǎng)絡條件才能推理出理賠結(jié)論。
針對業(yè)務:各類險種的理賠環(huán)節(jié)。
三、銀行&保險共同場景
預期目標:尋找潛在消費者,依據(jù)新需求設計新產(chǎn)品出售。
核心業(yè)務:首先進行公域、商域、私域流量的轉(zhuǎn)化,后將知識圖譜與機器學習的數(shù)據(jù)挖掘結(jié)合,完成數(shù)據(jù)治理后,形成消費者行為標簽,刻畫消費者畫像,對消費者進行分組,并基于某一群組的新需求搭建新產(chǎn)品知識網(wǎng)絡,設計出新產(chǎn)品。
針對營銷點:場景化、專業(yè)化、差異化、復雜多樣的產(chǎn)品設計更新,如重疾險涉及到的醫(yī)學層面知識極為豐富,知識面廣,病種繁多,需結(jié)合具體病種與專門的理賠計算方式才能設計出符合客戶需求的產(chǎn)品。
? 政務與公安
場景應用分析一:公安研判分析與預警
依據(jù)知識庫快速搭建網(wǎng)絡分析案情,克服內(nèi)外部業(yè)務痛點
Part1:外部情況
傳統(tǒng)犯罪變化:?傳統(tǒng)犯罪向動態(tài)化、組織化、集團化、專業(yè)化發(fā)展,并在加速“上網(wǎng)”,在現(xiàn)代化程度高的都市更是呈現(xiàn)出高科技犯罪與犯罪主體年輕化與智能化的特點。
新興網(wǎng)絡犯罪叢生:以互聯(lián)網(wǎng)為手段的新型網(wǎng)絡犯罪不斷凸顯,呈高發(fā)多發(fā)態(tài)勢,危害日益嚴重。新型網(wǎng)絡犯罪具有隱蔽性、迷惑性、衍變性,其借助互聯(lián)網(wǎng)與移動互聯(lián)等技術(shù)使大量犯罪由現(xiàn)實空間轉(zhuǎn)入虛擬空間,以網(wǎng)絡詐騙為主要類型。
社會人口動態(tài)化:伴隨著交通方式進步而來的是社會人口與物品的流動性加強,這為人口跨地域作案提供了便利,提升了社會治理難度。
Part2:外部情況
打擊犯罪新手段亟待提升:?面對外界變化,公安在傳統(tǒng)犯罪、新型網(wǎng)絡犯罪中難以發(fā)現(xiàn)并挖掘人口與案件的關(guān)系,打擊犯罪新手段急需結(jié)合公安大數(shù)據(jù)與知識圖譜等新技術(shù),增強作戰(zhàn)實力。
編制有限但群眾警情需求量大:因政府編制的特性,公安人員數(shù)量有限,但要處理大量的偵查案件,急需使用新技術(shù)協(xié)助或解放人力。
涉毒團伙網(wǎng)絡挖掘
預期目標:挖掘毒品交易與販毒團伙網(wǎng)絡,快速掌握販毒證據(jù),制定抓捕方案。
核心原理及效果:通過已有專題數(shù)據(jù)庫與知識圖譜技術(shù)快速構(gòu)建販毒網(wǎng)絡,及時發(fā)現(xiàn)動態(tài)化、多變的團伙關(guān)系。
示例:尿檢為陽性的甲經(jīng)常前往吸毒人員經(jīng)常出沒的A酒吧,并收取丙的多筆大金額轉(zhuǎn)賬,還向乙發(fā)起多筆大金額轉(zhuǎn)賬,并與經(jīng)常出沒于邊境的丁有聯(lián)系,因此甲、乙、丁極有可能是涉毒團伙。
服務警種:禁毒與緝毒警察。
網(wǎng)絡詐騙網(wǎng)絡挖掘
預期目標:挖掘網(wǎng)絡詐騙團伙,打擊應對專業(yè)化的詐騙犯罪。
核心原理:通過已有專題數(shù)據(jù)庫與知識圖譜技術(shù)快速構(gòu)建詐騙關(guān)系網(wǎng)絡,研判分析犯罪團伙的組織分工關(guān)系。
示例:王某使用張某的身份注冊A軟件與張女士假意戀愛并騙取其錢財,然而王某的登陸地為菲律賓,且其通過表面為購物軟件的B軟件購買張某的身份信息;B軟件為李某所開發(fā),其使用兩套代碼讓B軟件能夠在購物軟件與身份售賣軟件之間切換。
服務警種:刑偵與經(jīng)偵等。
場景應用分析四:應急管理
以知識庫、關(guān)聯(lián)推理及危險人/物管理服務為核心產(chǎn)品
1.知識體系龐大且信息維度復雜
應急管理涉及?管理、法律、理科、土木等多個專業(yè)學科領域,學科專業(yè)性強,整個認知體系具備?信息量龐大、信息維度復雜、信息關(guān)聯(lián)緊密等特點。
2.應急預案可操作性差且建設不完備
?部分已制定的各種處置突發(fā)性事件預案與應急實踐脫節(jié),有的單位對不同層次的預案概念不清,特別是對專項預案、部門預案會存在沒有及時補充修訂、沒有經(jīng)過專家論證等問題。
3.缺乏智能決策支持
尚未充分挖掘并利用緊急事件的數(shù)據(jù)及數(shù)據(jù)間的關(guān)系,緊急事件缺乏基于數(shù)據(jù)與知識作支撐的事前、事發(fā)、事中、事后4個階段的決策支持。
應用舉例
預期目標:及時出具緊急方案,實現(xiàn)搶險救災。
核心原理及效果:依據(jù)?地震的即時數(shù)據(jù)與資料,以及城市自身的區(qū)位條件、周圍城市物資與人力的響應速度等數(shù)據(jù),結(jié)合知識中臺的知識庫與自動化工具,快速構(gòu)建地震搶險救災知識圖譜,形成第一時間的應急解決方案。
示例:某市發(fā)生重大地震,急需制定應急管理解決方案。通過應急管理知識圖譜,該市基于數(shù)據(jù)形成?發(fā)生時間、地理位置等實體且發(fā)散關(guān)聯(lián)關(guān)系,尋找歷史相似案例,對比出具方案,并依據(jù)應急知識庫列出所需物資,輔助救災人員完成方案思考與擬定。
? 醫(yī)療
場景應用分析一:醫(yī)療流程輔助
輔助院內(nèi)外醫(yī)療流程,提升服務效率
一、主要業(yè)務痛點
Part1:患者端
診療人次基數(shù)大:??攀升的診療人次意味著醫(yī)療衛(wèi)生需求的增加,診療需求缺口逐步擴大。據(jù)統(tǒng)計,2021年中國衛(wèi)生機構(gòu)診療人次已接近85億人次,已恢復至疫情前水平。
人均醫(yī)療衛(wèi)生費用增加:2021年中國人均衛(wèi)生費用已突破5300元,相比去年增長4.6%,居民在個人醫(yī)療衛(wèi)生上的花費增加。
Part2:醫(yī)院端
三級醫(yī)院:??資深醫(yī)師工作超負荷,診療方案出具量巨大;患者等待時間長,易產(chǎn)生醫(yī)患矛盾;年輕醫(yī)師資歷不足,需要持續(xù)指導。
二級醫(yī)院:資深醫(yī)師數(shù)量有限,診斷能力較低,可能存在誤診漏診情況。
一級及未定級醫(yī)院:機構(gòu)數(shù)量最多,是國家推進分級診療的重點分診醫(yī)療機構(gòu)層級,但醫(yī)師與醫(yī)療設備稀缺,診療經(jīng)驗不足,誤診漏診現(xiàn)象較為嚴重。
Part3:監(jiān)管側(cè)
多重因素加劇醫(yī)保支出,醫(yī)??刭M趨緊:???居民自身的合理的醫(yī)保消費、人口老齡化的醫(yī)保支持、疾病譜改變和新病種的出現(xiàn)等不可控因素,以及?醫(yī)保費用增長存在供方誘導需求與需方過度消費等可控因素,都直接或間接地導致醫(yī)保費用的增長。
DRGs付費工作持續(xù)推進:在醫(yī)保局、衛(wèi)健委的推動下,DGRs付費的試點區(qū)域擴大,控費方式逐步精細化,急需借助數(shù)字化與智能化手段輔助DRGs分組。
二、應用建設現(xiàn)狀
Part1:已嵌入應用
CDSS:??將醫(yī)學知識庫與醫(yī)療實例構(gòu)建成知識圖譜網(wǎng)絡,在診中服務于單病種或多病種輔助診斷,達到分診效果。
智慧病案與DRGs:將病歷與疾病數(shù)據(jù)構(gòu)建成知識圖譜網(wǎng)絡,關(guān)聯(lián)患者疾病與應享有的醫(yī)保支付范圍,控制醫(yī)保開支。
智能醫(yī)藥:將患者病歷的臨床診斷與藥物做關(guān)聯(lián),輔助藥方出具、提供用藥建議,并進行用藥審核。
Part2:應用水平
CDSS達到初級應用階段:??針對感冒、肺結(jié)節(jié)等簡單病種可提供輔助診斷服務,在初級智能分診服務應用比較廣泛。
中高級應用仍在研發(fā):針對中級的智能影像輔助分析診斷、高級的DRGs與智能用藥,還停留在實驗研究階段。
Part3:應用建設不足
急于評級而忽視質(zhì)量:??受評級相關(guān)政策的影響,廠商為搭上評級的“快車”,將CDSS等產(chǎn)品作為評級創(chuàng)收的工具,忽視了知識圖譜臨床價值深度的開發(fā)。
基本庫建設欠缺:基本庫包括疾病庫、治療庫、藥品庫、個人健康檔案、醫(yī)生檔案等,現(xiàn)階段的基本庫并不完整,庫中的數(shù)據(jù)資料也不充足,難以進行調(diào)研與Schema構(gòu)建。
三、應用舉例
案例1:CDSS臨床輔助決策
預期目標:??依據(jù)臨床癥狀的關(guān)聯(lián)節(jié)點,輔助年輕醫(yī)師或一級及未定級醫(yī)院診斷出惡性肺結(jié)節(jié)。
核心原理:基于疾病庫與患者的個人健康檔案,將惡性肺結(jié)節(jié)癥狀與患者A的臨床癥狀關(guān)聯(lián)起來,并查看患者A的疾病史,提示醫(yī)師患者A可能患有惡性肺結(jié)節(jié)。
服務部門:門診部、檢測部。
案例2:DRGs疾病與醫(yī)保關(guān)聯(lián)審核
預期目標:??依據(jù)短期急性患者B的臨床診斷與癥狀等關(guān)聯(lián)節(jié)點,進行DRGs分組,核實醫(yī)??蓤箐N的治療費用范圍。
核心原理:基于疾病庫、患者的個人健康檔案、CHS-DRG目錄等知識庫,將患者B的臨床癥狀、手術(shù)復雜度等的相關(guān)內(nèi)容與心臟移植手術(shù)的相關(guān)內(nèi)容做關(guān)聯(lián),提示患者B的術(shù)后排異治療在醫(yī)保報銷范圍。
服務機構(gòu):醫(yī)院與醫(yī)保局。
場景應用分析二:醫(yī)學科研
創(chuàng)新科研方法,提升科研創(chuàng)新實力與研究效率
一、主要業(yè)務痛點
Part1:臨床科學研究
文獻篩選量大、復雜度高:對頂級三甲醫(yī)院而言,為?進行臨床科研創(chuàng)新研究,獲取學術(shù)排名,其需要自創(chuàng)領先的醫(yī)學論文作支持,而醫(yī)學論文中的文獻參考、病理假設推斷與數(shù)據(jù)關(guān)聯(lián)等關(guān)鍵工作帶有篩選量大、復雜度高的特點,研究人員急需借助數(shù)智化工具提升科研工作效率與成功的可能性。
Part2:藥物研發(fā)
居民疾病負擔加重:我國的心血管疾病與癌癥負擔最重,且隨著我國人均期望壽命的延長與老齡化加劇,慢性呼吸疾病、糖尿病與腎病、肌肉骨骼失調(diào)等慢性疾病負擔亦會加重。此外,疫情的出現(xiàn)與變異對整體社會面的健康衛(wèi)生造成巨大威脅。由此,針對各類慢性病、癌癥與傳染性疾病,自主研發(fā)創(chuàng)新藥物,減輕居民疾病負擔已成為制藥的一大趨勢。
藥企的經(jīng)濟利益與藥物研發(fā)業(yè)務難度驅(qū)動:?一方面,藥企藥物研發(fā)成功可獲取創(chuàng)新藥專利,搶占新藥專利紅利,但國內(nèi)藥企的創(chuàng)新藥專利較為稀缺;另一方面,藥物研發(fā)具有高技術(shù)、高投入、高風險、低成功率、審批慢的痛點,藥物發(fā)現(xiàn)階段的數(shù)據(jù)量與計算量巨大。
國家控制藥物成本的工作持續(xù)推進:?提升藥物創(chuàng)新研發(fā)能力,不僅可以控制外國藥物進口成本,而且可以改善病人因經(jīng)濟問題無法購藥的問題。
二、與機器學習相比,知識圖譜在藥物研發(fā)領域的優(yōu)勢
1.頻繁子圖挖掘
機器學習的數(shù)據(jù)特征更多依賴人為篩選,而知識圖譜可以做到頻繁子圖挖掘,即從大量的圖中挖掘出滿足給定支持度的頻繁子圖,同時依據(jù)算法保證這些頻繁圖不重復。知識圖譜的圖特性使其可以更快更自動化地挖掘出藥物子圖。
2.數(shù)據(jù)維度豐富
知識圖譜可基于多維度數(shù)據(jù)構(gòu)建藥物知識庫,將病理學、歷史用藥導致結(jié)果等多角度的數(shù)據(jù)進行關(guān)聯(lián)整合分析,以直觀的圖形式揭示復雜的藥物原理與推理關(guān)系,為藥物研發(fā)提供便捷的工具。
3.可解釋性增強
相比于機器學習的黑箱問題缺陷,知識圖譜可以結(jié)合貝葉斯網(wǎng)絡與GNN等算法,過程中的每一參數(shù)與節(jié)點流程都可展示呈現(xiàn),可為數(shù)據(jù)分析、邏輯推理提供更有說服力的證據(jù)鏈與證據(jù)流程,提高模型的可解釋性。
? 工業(yè)與電力
場景應用分析一:產(chǎn)品與工藝創(chuàng)新研發(fā)
高附加值環(huán)節(jié)依賴國外,需借助知識圖譜創(chuàng)新產(chǎn)品與工藝
一、主要業(yè)務痛點:新產(chǎn)品與新工藝研發(fā)設計不足
高附加值環(huán)節(jié)依賴國外:??國內(nèi)在低端產(chǎn)品制造方面產(chǎn)能過剩,但在高端精細化工業(yè)產(chǎn)品的生產(chǎn)工藝上仍然依賴國外,高技術(shù)、高附加值產(chǎn)品不足。
研究積累薄弱:在化工原理、反應機理、油氣勘探、核心零部件設計等基礎研究方面,國內(nèi)的研究積累比較薄弱,需要將專業(yè)知識與經(jīng)驗進行體系化梳理,輔助新產(chǎn)品與新工藝研發(fā)。
二、知識圖譜搭建過程
知識梳理:??知識圖譜搭建的第一步,需要將業(yè)務體系下的行業(yè)知識梳理好。
邊界確定:如某一細分領域為氨綸,將氨綸的業(yè)內(nèi)專家、化工原理等梳理成知識體,明確研究范圍。
采集過程:包含知識清洗、知識對齊、知識存儲。
管理目的:建立管理機制,對知識進行增減與更新。
三、知識圖譜應用舉例:以半導體光刻膠的產(chǎn)品與工藝研發(fā)設計為例
預期目標:發(fā)現(xiàn)新型半導體光刻膠產(chǎn)品或工藝研發(fā)設計方法,逐步實現(xiàn)半導體光刻膠國產(chǎn)化替代。
核心原理:基于搭建好的半導體光刻膠知識庫,構(gòu)建知識圖譜網(wǎng)絡,發(fā)掘不同類型的半導體光刻膠的特性、化工原理、適用的光刻工藝,光刻工藝細節(jié)等。
業(yè)務價值:以直觀的形式展現(xiàn)產(chǎn)品與工藝研發(fā)知識中的隱性關(guān)系,輔助關(guān)聯(lián)關(guān)系與知識點間相互關(guān)系的發(fā)現(xiàn),激發(fā)研究思路。
服務對象:產(chǎn)品與工藝研發(fā)人員。
所需數(shù)據(jù)特點:以文本化數(shù)據(jù)為主,因為產(chǎn)品與工藝研發(fā)類的知識圖譜更多以專業(yè)知識為基礎進行搭建。
場景應用分析二:安全質(zhì)量控制
檢修與缺陷排查耗時費力,知識圖譜快速提供原因與措施
一、主要業(yè)務痛點
Part1:設備易發(fā)多發(fā)故障,檢修知識與經(jīng)驗需匯聚沉淀
??工業(yè)生產(chǎn)流程與電力調(diào)度過程涉及到多類型、多數(shù)量的設備,這些設備都有專業(yè)的操作步驟與檢修知識,設備故障分析耗費大量人力與時間,而故障的歷史數(shù)據(jù)或檢修經(jīng)驗尚未被系統(tǒng)化地匯集、開發(fā)與利用。如何圍繞設備故障的核心數(shù)據(jù)與經(jīng)驗,提高故障處理效率,節(jié)省成立成本與重復性工作,是設備檢修的業(yè)務難題。
Part2:產(chǎn)品/設備可能存在潛在缺陷,需進行缺陷排查
??工業(yè)與電力對產(chǎn)品/設備的嚴謹性與安全性存在高要求,這就需求相關(guān)人員對工業(yè)/電力整體生產(chǎn)流程所設計設備的安全性、可控性進行嚴格把關(guān),并進行失效影響分析,完成生產(chǎn)異常溯源,其中涉及大量專業(yè)知識與假設,分析檢查過程難度大且時間長。
Part3:人力分析可能存在失誤或不全面,新手需工具輔助
??完全依賴人力勞動帶有不可避免的局限性,如因疲勞所導致的失誤判斷、因認知有限所導致的分析不全面等。此外,新手與經(jīng)驗豐富的專家存在業(yè)務能力差距,需要專業(yè)簡易的工具輔助。
二、知識圖譜核心業(yè)務價值
多維度知識關(guān)聯(lián),快速響應機制建立
??知識圖譜的廣度與維度很多,可以將設備知識、細分領域知識、部門業(yè)務職能等多個維度的知識關(guān)聯(lián)起來,從多維全面的角度去分析問題;
在設備發(fā)生故障時,知識圖譜可以快速找到解決方案,如需要什么職位的人去解決、故障的現(xiàn)象可以關(guān)聯(lián)到哪些原因等。
在發(fā)現(xiàn)設備缺陷時,知識圖譜可以溯源至生產(chǎn)廠商、生產(chǎn)環(huán)節(jié)與流程等,快速分析缺陷原因。
三、應用舉例
預期目標:快速發(fā)現(xiàn)變壓器001的故障原因,并采取相應措施,保證變壓器安全并恢復供電。
核心原理:基于過往的變電站故障原因與知識手冊等搭建知識圖譜網(wǎng)絡,根據(jù)故障現(xiàn)象快速定位原因與措施。
所需數(shù)據(jù)特點:以文本數(shù)據(jù)為主,包含設備知識指南與手冊、基本概念、檢修經(jīng)驗等。結(jié)構(gòu)化數(shù)據(jù)可作為數(shù)值屬性而存在,作為某一故障的具體體現(xiàn)。
觸發(fā)流程:現(xiàn)場故障設備運行數(shù)據(jù)發(fā)出警告信息——故障文本數(shù)據(jù)和系統(tǒng)數(shù)據(jù)構(gòu)建知識圖譜——邏輯分析運算——處置結(jié)果產(chǎn)生。
場景應用分析三:供應鏈管理
通過多維知識圖譜網(wǎng)絡解決供應鏈物資供應與成本管理難題
物資供應難以匹配采購需求
??采購周期不足導致物資難以到貨:部分工業(yè)企業(yè)進行采購時,僅考慮市場需求而缺少對庫存與采購量之間的衡量,有的領域(如煤炭)采購計劃性差,需要隨買隨用,預留的采購時間緊張,可能帶來供應不足或斷供的影響。
采購價格與物資質(zhì)量難以平衡:采購方希望以較低的成本換取優(yōu)質(zhì)的物資,但實際采購時由于中間環(huán)節(jié)多、價格不透明、生產(chǎn)工作量改變等因素的影響,很難找到采購價格與物資品質(zhì)之間的平衡點。
供應鏈成本壓力加劇
高庫存導致的現(xiàn)金流壓力:?因地租成本、企業(yè)擔心潛在的銷售損失、客戶取消訂單、老庫存消化不足、產(chǎn)品設計變更或廢止等因素的影響,制造業(yè)一直存在高庫存問題,這對制造企業(yè)的現(xiàn)金流造成了不小的現(xiàn)金流壓力。
其他因素導致的供應鏈成本壓力:信息流、物流和資金流的信息不透明且多變,以及工業(yè)產(chǎn)品設計的不合理等都會加大供應鏈的復雜程度和管理難度,最終增加供應鏈成本。
案例1: 知識圖譜輔助物資補給
預期目標:及時為車企A供應發(fā)動機,為車輛提供組裝零部件,滿足出貨需求。
核心原理:基于供應鏈知識圖譜網(wǎng)絡,及時發(fā)現(xiàn)甲類發(fā)動機的缺貨狀態(tài),尋找性能型號相似的一類發(fā)動機進行彌補,并比對多家供應商乙類發(fā)動機的產(chǎn)品售價與運輸時間,輔助車企A選擇性價比更高、運輸時間更短的供貨方案。
強需求細分領域:因離散工業(yè)需組裝來自多方供應商的元件、部件等,供貨受到企業(yè)與供應商關(guān)系、供應商內(nèi)部生產(chǎn)等多重因素的影響,故對供應鏈知識圖譜有較強需求。
案例2: 知識圖譜協(xié)助成本分析與營銷策略制定
預期目標:幫助企業(yè)B分析LCD顯示器生產(chǎn)成本上漲原因,并基于此調(diào)整營銷策略。
核心原理:基于供應鏈知識圖譜網(wǎng)絡,發(fā)現(xiàn)LCD顯示器生產(chǎn)成本提高的原因為導電玻璃的供應商C升級了鍍膜技術(shù),提示企業(yè)B提前制定相應的顯示器促銷方案,應對由成本上升所導致的售價上升、銷量降低的情況。
服務對象:財務分析人員與市場營銷人員。
強需求細分領域:與個人消費密切相關(guān)的食品工業(yè)、電子產(chǎn)品工業(yè)等。
持續(xù)進行數(shù)據(jù)治理工程
從源頭保證知識與智慧真實可靠、可用正確
數(shù)據(jù)治理為知識圖譜輸送數(shù)據(jù)源,是知識圖譜構(gòu)建的前置環(huán)節(jié)與基礎性工程。完備良好的數(shù)據(jù)治理不僅能確保知識圖譜在搭建過程中獲取真實可靠的數(shù)據(jù)原料,而且能從源頭上改善信息質(zhì)量,提升知識的準確度,建立符合人類認知體系的數(shù)據(jù)資源池。但是,數(shù)據(jù)治理在知識圖譜(尤其是行業(yè)知識圖譜)建設卡點中是一個老生常談的問題。知識圖譜應用始終要圍繞數(shù)據(jù)標簽、數(shù)據(jù)清洗、數(shù)據(jù)歸一、數(shù)據(jù)銷毀等數(shù)據(jù)治理環(huán)節(jié)展開,應用開發(fā)人員往往需要在前期的數(shù)據(jù)治理工作中投入大量時間和人力,以確保數(shù)據(jù)源的真實性、可靠性、可用性、正確性。當前,數(shù)據(jù)標準不統(tǒng)一、數(shù)據(jù)噪聲大、領域數(shù)據(jù)集缺失、數(shù)據(jù)可信度異常等數(shù)據(jù)治理難題依然困擾著知識圖譜研發(fā)者,持續(xù)進行數(shù)據(jù)治理工程是業(yè)內(nèi)參與者艱巨的使命與職責。
儲備培養(yǎng)行業(yè)專家與技術(shù)專家
缺乏深厚行業(yè)專家與技術(shù)復合型專家,需做好儲備培養(yǎng)工作
目前知識圖譜行業(yè)整體處于開發(fā)資源待完善的局面,行業(yè)與技術(shù)專家資源稀缺屬于其中的一部分情況。一方面,缺少具備深厚行業(yè)經(jīng)驗的專家。由于行業(yè)知識圖譜與行業(yè)的關(guān)聯(lián)度高,開發(fā)人員需要迅速了解業(yè)務與客戶需求,在行業(yè)專家的指導下完成Schema構(gòu)建,若涉及到文本抽取工作還需要行業(yè)專家進行數(shù)據(jù)標注,而各行各業(yè)中的行業(yè)專家往往僅有極少數(shù)。對此,供給方企業(yè)需要鎖定行業(yè)業(yè)務的強項領域、提前招募培養(yǎng)行業(yè)專家、進行內(nèi)外協(xié)作,以完成行業(yè)專家儲備。另一方面,缺少技術(shù)復合型專家。整個知識圖譜應用生產(chǎn)流程不僅涉及知識圖譜算法,生產(chǎn)流程的靠前環(huán)節(jié)還涉及到底層的圖數(shù)據(jù)存儲與數(shù)據(jù)治理、NLP文本抽取和語義轉(zhuǎn)換,同時各環(huán)節(jié)都滲透著機器學習這一底層人工智能技術(shù)。這意味著整個生產(chǎn)流程需要多個技術(shù)領域的工程師協(xié)同合作,而對整套技術(shù)均有了解的技術(shù)專家數(shù)量稀缺。對此,供給方企業(yè)需要在項目中讓技術(shù)實施人員沉淀復合型知識經(jīng)驗,讓企業(yè)內(nèi)部多方的技術(shù)專家進行錯位交流,進行業(yè)務培訓,以完成技術(shù)復合型專家的培養(yǎng)。
研發(fā)國產(chǎn)化圖數(shù)據(jù)庫
特殊的圖存儲結(jié)構(gòu)對底層存儲技術(shù)提出升級需求
由于知識圖譜是二維鏈接的圖結(jié)構(gòu)而非行或列的表結(jié)構(gòu),其需以圖數(shù)據(jù)的形式描述并存儲,該方式能直接反應知識圖譜的內(nèi)部結(jié)構(gòu),有利于知識查詢,結(jié)合圖計算算法進行知識的深度挖掘與推理。滿足這一存儲要求的數(shù)據(jù)庫為近幾年興起的圖數(shù)據(jù)庫。相比于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,圖數(shù)據(jù)庫的數(shù)據(jù)模型以節(jié)點和邊來體現(xiàn),可大大縮短關(guān)聯(lián)關(guān)系的查詢執(zhí)行時間,支持半結(jié)構(gòu)化數(shù)據(jù)存儲,展示多維度的關(guān)聯(lián)關(guān)系。高效便捷的新技術(shù)往往意味著更高的研發(fā)門檻。從時間與歸屬方面看,全球第一款商用圖數(shù)據(jù)庫為2007年誕生的Neo4j,往后十年間的圖數(shù)據(jù)庫研發(fā)商基本分布于海外,而我國第一款商用圖數(shù)據(jù)庫為2017年上線的Galaxybase,比海外布局晚了近十年。從受歡迎度來看,Neo4j以59.4分一騎絕塵,占領著圖數(shù)據(jù)庫市場的高地。隨著國內(nèi)各行業(yè)知識圖譜應用的加深,傳統(tǒng)關(guān)系型數(shù)據(jù)庫的不足逐漸顯現(xiàn),研發(fā)國產(chǎn)化底層圖數(shù)據(jù)庫成為了推進知識圖譜應用的一大底層技術(shù)關(guān)鍵點,同時也從國家戰(zhàn)略角度推動國產(chǎn)信創(chuàng)核心自主可控的步伐。
不斷攻克算法難點
生產(chǎn)流程與算法性能各有難點,有賴于多方協(xié)同攻堅
在知識圖譜的搭建過程中,仍然面臨著各類算法難點,主要難點可歸結(jié)為生產(chǎn)流程中的算法難點和算法性能上的難點。前者體現(xiàn)為知識獲取受數(shù)據(jù)集限制、知識融合干擾因素較多、知識計算的數(shù)據(jù)集與算力不足等問題,而后者體現(xiàn)為算法泛化能力不足、魯棒性不足、缺乏統(tǒng)一測評指標等問題。算法上的難點有賴于供需雙方、學術(shù)界、政府持續(xù)攻堅,而非一方努力即可收獲成功。
優(yōu)化市場開拓策略
培養(yǎng)客戶內(nèi)生需求,探索高性價比產(chǎn)品形式
現(xiàn)階段,知識圖譜的市場開拓面臨著兩大難點:客戶認知有待培養(yǎng)與技術(shù)產(chǎn)品化能力欠缺。從需求方角度看,廣大潛在客戶對知識圖譜普遍缺乏認知,不知道知識圖譜產(chǎn)品與技術(shù)的存在,采購意識尚未覺醒,而機會客戶對知識圖譜多持觀望態(tài)度,不確定知識圖譜能否為自身業(yè)務帶來價值。從供給方角度看,廠商開發(fā)一整套知識圖譜解決方案會涉及建模、求解、應用三方面的巨大成本,需要將成本以保證盈利且客戶能夠承擔的思路分攤到各類費用中。各類費用匯總一般會形成售價較高的重量級解決方案,而重量級解決方案的市場受眾有限,性價比高的輕量級產(chǎn)品更符合廣大客戶偏好。如何將高成本開發(fā)出的重量級技術(shù)解決方案以“小而美”且經(jīng)濟實惠的方式封裝并出售,是廠商不得不解決的問題。
行業(yè)競爭格局走勢
五方盤踞,以強化技術(shù)實力與深化行業(yè)認知為業(yè)務發(fā)展方向
我國當前的知識圖譜市場主要為五方所盤踞:知識圖譜廠商、大數(shù)據(jù)廠商、NLP 廠商、互聯(lián)網(wǎng)大廠、信息化廠商。五類廠商優(yōu)勢各異,可將自身特殊優(yōu)勢作為“出牌技巧”,打出打好知識圖譜這張業(yè)務牌。盡管各方的知識圖譜業(yè)務開拓方式不一,但未來都以強化技術(shù)實力與深化行業(yè)認知為發(fā)展方向,以尋求良好的知識圖譜業(yè)務回饋。
五類廠商優(yōu)勢及知識圖譜業(yè)務發(fā)展方向
知識圖譜廠商:具備行業(yè)知識圖譜先發(fā)優(yōu)勢,對傳統(tǒng)行業(yè)有較為領先的積累,行業(yè)認知較強,知識圖譜技術(shù)資深,行業(yè)場景邏輯實力強。未來將朝更多行業(yè)拓展業(yè)務場景,深化行業(yè)理解并提高技術(shù)實力。
大數(shù)據(jù)廠商:擁有數(shù)字化客群基礎與數(shù)據(jù)積累,數(shù)據(jù)治理能力強,數(shù)據(jù)意識敏感,可在重量級數(shù)字化解決方案中捆綁知識圖譜能力及產(chǎn)品出售。未來將在數(shù)字化業(yè)務基礎上開發(fā)知識圖譜行業(yè)業(yè)務場景,強化知識圖譜技術(shù)。
NLP廠商:具備NLP技術(shù)優(yōu)勢,可結(jié)合語音語義產(chǎn)品配套售賣知識圖譜產(chǎn)品,知識圖譜產(chǎn)品相對輕量化。未來將在NLP業(yè)務基礎上開拓行業(yè)知識圖譜業(yè)務,實現(xiàn)NLP與知識圖譜技術(shù)一體化。
互聯(lián)網(wǎng)大廠:具備知識圖譜底層技術(shù)實力,可將內(nèi)部經(jīng)驗與資源作為開拓傳統(tǒng)行業(yè)市場的利器。未來仍以自身的通用知識圖譜業(yè)務為知識圖譜業(yè)務主力,并以產(chǎn)業(yè)互聯(lián)網(wǎng)為方向,深化行業(yè)認知與積累,開拓行業(yè)知識圖譜業(yè)務。
信息化廠商:擁有信息化客群基礎與數(shù)據(jù)積累,行業(yè)認知較深,可迎合客戶使用習慣直接疊加開發(fā)知識圖譜產(chǎn)品。未來將在信息化存量業(yè)務的基礎上,提升技術(shù)實力,開拓行業(yè)知識圖譜業(yè)務。
知識圖譜應用場景迭代
行業(yè)應用場景邊界拓寬,垂直應用場景被做深做透
前文已經(jīng)提到,高價值且實用性強的垂直場景知識圖譜是未來的業(yè)務發(fā)展方向,這屬于知識圖譜應用場景迭代發(fā)展的內(nèi)容。在知識圖譜行業(yè)發(fā)展過程中,知識圖譜業(yè)務的應用場景可持續(xù)迭代場景廣度與深度。一方面,各行業(yè)對知識圖譜的認知與需求被喚醒,行業(yè)應用場景邊界拓寬,知識圖譜應用模型能力泛化,多種行業(yè)應用同時實現(xiàn)落地。另一方面,隨著行業(yè)認知加深與技術(shù)進步,技術(shù)與業(yè)務的結(jié)合點愈發(fā)精準,行業(yè)場景顆粒度不斷收斂細化。高價值且實用性強的垂直場景得到重視,循序漸進地被做深做透,為傳統(tǒng)企業(yè)的業(yè)務帶來顯著的業(yè)務增效。
知識圖譜產(chǎn)業(yè)生態(tài)構(gòu)建
產(chǎn)業(yè)各方融合共建,產(chǎn)業(yè)生態(tài)逐步成長壯大
知識圖譜生態(tài)需由監(jiān)管引導方、供給方、需求方、投資方、高校及科研院所融合共建,匯聚建設合力,促進產(chǎn)業(yè)生態(tài)成長壯大。各方相互提供資源支持,促成政策、人才、技術(shù)、資本、市場、商業(yè)的交互,探索與克服知識圖譜行業(yè)技術(shù)與業(yè)務難點,共同收獲產(chǎn)業(yè)發(fā)展價值,實現(xiàn)價值創(chuàng)造與價值分配的有機結(jié)合,形成共生共贏的合作體系,推動產(chǎn)業(yè)不斷向前發(fā)展。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- CSDN「智研社」第四期活動開啟-共敘大模型驅(qū)動的云產(chǎn)業(yè)變革與應用創(chuàng)新
- 助推低空經(jīng)濟發(fā)展 2025北京無人機展會 歡迎您
- 第十五屆中國國際納米技術(shù)產(chǎn)業(yè)博覽會
- CHInano 2025 第十五屆中國國際納米技術(shù)產(chǎn)業(yè)博覽會
- 文旅類:品牌較量的新高地丨第十六屆虎嘯獎征賽進行中!
- 答案即將揭曉|2024視聽圈,誰在突破重圍,誰在改變未來?
- 十余年煉就細分王者,這家激光企業(yè)“毫厘之間見真功”
- 銅業(yè)龍頭齊聚南昌!SMM銅業(yè)大會第一波進程函搶先看!
- IBS 2025 第十三屆中國國際生物質(zhì)能源與有機固廢資源化利用高峰論壇
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。