消費金融對實時數(shù)倉系統(tǒng)建設的挑戰(zhàn)及馬上消費金融實踐案例解析

在大數(shù)據(jù)和人工智能時代,數(shù)據(jù)作為資源的一種存在形式,已經(jīng)成為了非常重要的生產(chǎn)要素,通過對其分析挖掘可以創(chuàng)造出巨大的經(jīng)濟價值。

數(shù)據(jù)從產(chǎn)生到應用,需經(jīng)過接入、清洗、整合和加工,這些工作通常在數(shù)據(jù)倉庫中完成,關(guān)于數(shù)倉通常有兩類說法,1類是大數(shù)據(jù)倉庫與傳統(tǒng)數(shù)倉,所謂大數(shù)據(jù)倉庫通常是指采用大數(shù)據(jù)技術(shù)構(gòu)建的數(shù)據(jù)倉庫,隨著hadoop的興起逐漸流行;另1類是離線數(shù)倉與實時數(shù)倉,離線數(shù)倉主要是T+1同步和處理數(shù)據(jù),具有1天的數(shù)據(jù)延遲,而實時數(shù)倉則可以做到實時或者近似實時,具有不同的應用場景。

實時數(shù)倉的發(fā)展已經(jīng)具有較長的歷史,應用到了各行各業(yè),但是作為最近幾年剛興起的消費金融領(lǐng)域,實時數(shù)倉的建設又將面臨哪些新的挑戰(zhàn)?

(一)實時性,消費金融,根據(jù)中國銀監(jiān)會的定義,需以小額、分散為原則開展業(yè)務,以馬上消費金融公司為例,人均借貸3000元,業(yè)務遍及全國,該小額分散的業(yè)務特性決定了必須完全依靠數(shù)據(jù)在線上完成整個授信放貸過程,如果按照傳統(tǒng)銀行的方式線下簽單、人工審批,則會產(chǎn)生巨額的人工成本,以3000元的人均客單價帶來的利潤根本無法承受該成本。

依靠數(shù)據(jù)實時授信要求實時數(shù)倉從數(shù)據(jù)接入、清洗、整合、加工到查詢整個過程需控制在毫秒級完成,因為在整個授信決策過程中除了實時數(shù)倉的數(shù)據(jù)服務外,還有諸多環(huán)節(jié),比如:與前端app對接的api系統(tǒng),留存申請單的申請單系統(tǒng),機器學習的模型評分,控制決策步驟的工作流系統(tǒng),做欺詐、信用評估等決策的規(guī)則引擎系統(tǒng)等,所以每個環(huán)節(jié)都需做到極致,時間盡量壓縮,只有這樣才可能做到一次授信在亞秒級完成,為客戶帶來較好的用戶體驗。

(二)數(shù)據(jù)質(zhì)量,離線數(shù)倉支持的大多是BI報表等統(tǒng)計類業(yè)務,統(tǒng)計類業(yè)務對數(shù)據(jù)質(zhì)量要求不高,出現(xiàn)少量數(shù)據(jù)錯誤并不會引起統(tǒng)計數(shù)據(jù)的較大波動,從而不影響數(shù)據(jù)決策,對于數(shù)據(jù)質(zhì)量要求高的業(yè)務,由于離線數(shù)倉中均是離線任務,任務時效性要求不高,當發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題后,通常會有一定的時間可以修復解決,最終實現(xiàn)較高的數(shù)據(jù)質(zhì)量。對于實時數(shù)倉,很多行業(yè)或者絕大部分公司對它的定位主要還是OLAP業(yè)務,支撐數(shù)據(jù)的準實時分析,對數(shù)據(jù)錯誤不特別敏感,但是在消費金融行業(yè),在第一個

實時性挑戰(zhàn)處有提到,依靠數(shù)據(jù)做實時授信,授信是消費金融公司賴以生存的最關(guān)鍵因素,授信做的好,表現(xiàn)為通過率提升,增加放款額,逾期率降低,減少壞賬成本,一增一減,大幅提升盈利水平,反之,則大幅壓縮盈利空間或者出現(xiàn)放款額越多虧損越大的問題,可見,授信對于實時數(shù)倉的定位將不再是OLAP的分析場景,而是OLTP的聯(lián)機交易業(yè)務,對數(shù)據(jù)質(zhì)量要求極高,盡可能避免或者減少因數(shù)據(jù)問題影響授信業(yè)務。

(三)數(shù)據(jù)獲得/應用成本,同樣圍繞消費金融的授信放貸業(yè)務,如何降低數(shù)據(jù)獲得與應用成本,快速把數(shù)據(jù)價值體現(xiàn)到授信過程中,對于消費金融公司非常重要,在用戶的授信過程,需要用到外部購買數(shù)據(jù),自建數(shù)據(jù),各業(yè)務系統(tǒng)產(chǎn)生的歷史數(shù)據(jù)和當前數(shù)據(jù),這些數(shù)據(jù)具有數(shù)據(jù)量大且散落于各系統(tǒng)庫表中的特點,需有比較好的查詢機制,支持大數(shù)據(jù)量的多維查詢和跨庫甚至是跨異構(gòu)數(shù)據(jù)庫的統(tǒng)一查詢能力,避免當有新的授信規(guī)則需要數(shù)據(jù)時還需到各研發(fā)條線排期開發(fā)數(shù)據(jù)接口或者傳統(tǒng)技術(shù)無法滿足大數(shù)據(jù)量的查詢時效性問題。

授信主要分反欺詐與風險定價兩個大的階段,其中尤其是反欺詐階段,快速迭代反欺詐的規(guī)則和模型,將大幅降低違約成本,能否快速迭代,其中最關(guān)鍵的因素之一就是在線下分析/挖掘數(shù)據(jù)發(fā)現(xiàn)新的規(guī)則或者訓練出更好的模型時,能否在最短的時間內(nèi)對接上依賴的數(shù)據(jù)從而完成生產(chǎn)環(huán)境部署,這需要有非常好的的數(shù)據(jù)架構(gòu)作為基礎,這對傳統(tǒng)的實時數(shù)倉提出了非常大的挑戰(zhàn),實時數(shù)倉架構(gòu)將不再局限在先匯聚數(shù)據(jù)再查詢,是否可以不匯聚任何數(shù)據(jù)或者部分匯聚部分還存于源庫表,在多源異構(gòu)存儲中實現(xiàn)實時數(shù)倉業(yè)務。

綜上所述,在消費金融行業(yè),對數(shù)倉提出了更加高標準的要求,主要體現(xiàn)在實時數(shù)倉的時效性、數(shù)據(jù)質(zhì)量、數(shù)據(jù)查得/應用成本三個方面。

馬上消費金融公司作為消費金融持牌機構(gòu),其打造的符合消費金融業(yè)務特點的實時數(shù)倉項目,基于大數(shù)據(jù)技術(shù)實現(xiàn),比較好的解決了以上挑戰(zhàn),目前已經(jīng)完成對全公司核心系統(tǒng)的所有數(shù)據(jù)實時接入,日接入數(shù)據(jù)超過10億行,自研分布式統(tǒng)一查詢模塊,實現(xiàn)億級數(shù)據(jù)多表關(guān)聯(lián)查詢毫秒級返回且支持異構(gòu)數(shù)據(jù)庫聯(lián)查,為實時風控業(yè)務提供了非常好的數(shù)據(jù)架構(gòu)和數(shù)據(jù)支撐。

下面,我們以馬上消費金融的實時數(shù)倉系統(tǒng)為例,向大家展示消費金融公司基于大數(shù)據(jù)平臺的實時數(shù)倉解決方案。

(一)針對消費金融行業(yè)數(shù)據(jù)處理的實時性要求,馬上消費金融從以下幾方面提出了解決方案:

1、元數(shù)據(jù)的自動管理。在元數(shù)據(jù)當中維護MySql的schema、Kafka的topic、HBase的tableName、rowkey字段,ElasticSearch的索引列字段等信息。

2、性能和規(guī)模擴展性。借助于分布式消息系統(tǒng)Kafka和列式存儲系統(tǒng)HBase以及ElasticSearch集群可動態(tài)擴展系統(tǒng)的高可用性。

3、高指標的SLA。實時數(shù)倉系統(tǒng)提供的服務響應在毫秒級別,7×24小時不宕機提供服務。

4、接口、標準兼容性。提供標準的SQL語句查詢,滿足NoSql解析為標準SQL的查詢。

5、數(shù)據(jù)的一致性。實現(xiàn)數(shù)據(jù)精準實時同步,做到了Exactly Once的語義。

6、配置化、定制化管理。通過配置化管理實現(xiàn)對多個業(yè)務系統(tǒng)數(shù)據(jù)的接入,避免硬編碼,通過定制化SQL對外提供實時的數(shù)據(jù)查詢服務。

(二)馬上消費金融實時數(shù)倉系統(tǒng)的演進過程:

第一階段的實時數(shù)倉系統(tǒng)落地系統(tǒng)架構(gòu),如下圖:

消費金融對實時數(shù)倉系統(tǒng)建設的挑戰(zhàn)及馬上消費金融實踐案例解析

在系統(tǒng)的第一階段,馬上消費金融使用阿里開源的canal對mysql的binlog進行實時同步,將數(shù)據(jù)同步到下游的Kafka。Kafka作為數(shù)據(jù)的緩沖層,可以為系統(tǒng)本身提供數(shù)據(jù)拉取源,同時也可滿足其他業(yè)務部門在Kafka當中的數(shù)據(jù)訂閱需求。

另外,其通過自主開發(fā)的plugin插件進行對Kafka數(shù)據(jù)的消費,將數(shù)據(jù)轉(zhuǎn)存到HBase和ElasticSearch當中;自研的統(tǒng)一查詢平臺,使newSql解析器將標準的SQL查詢解析為對ES查詢的DSL,同時支持ES作為一級查詢引擎,HBase作為二級查詢引擎實現(xiàn)查詢的多層高可靠查詢服務,服務響應平均在幾百毫秒以內(nèi)。

在第一階段的系統(tǒng)落地并實踐一段時間之后,馬上消費金融實時數(shù)倉系統(tǒng)的設計團隊有了新發(fā)現(xiàn),即Dremio可以更好地解決異構(gòu)存儲的數(shù)據(jù)源之間的 join 查詢,如:Elasticsearch、MySQL、MongoDB、Hbase之間進行 join 等多種業(yè)務查詢的場景。經(jīng)過全方位測試,他們進行了該系統(tǒng)第二階段方案的落地。

第二階段的實時數(shù)倉系統(tǒng)落地系統(tǒng)架構(gòu),如下圖:

消費金融對實時數(shù)倉系統(tǒng)建設的挑戰(zhàn)及馬上消費金融實踐案例解析

升級版的實時數(shù)倉系統(tǒng)引入了dremio,這使得系統(tǒng)的響應能力提升了一個數(shù)量級,平均查詢耗時在幾十毫秒以內(nèi),多表join查詢(2000W~1.3億數(shù)據(jù)量)響應時間在幾百毫秒以內(nèi)。進而更好地實現(xiàn)了實時數(shù)據(jù)倉庫對業(yè)務系統(tǒng)數(shù)據(jù)決策的支持,滿足了即席查詢和包含連接、聚合等操作的復雜查詢需求。

結(jié)語

隨著監(jiān)管趨嚴,2018年金融行業(yè)將更加回歸理性,合規(guī)、普惠、服務實體經(jīng)濟將是消費金融公司發(fā)展的主旋律?;谛☆~、大量、短期、高頻的業(yè)務特點,消費金融公司若想兼顧效率與風控,必須在技術(shù)方面尋求解決方案,通過實時數(shù)倉系統(tǒng)創(chuàng)建一站式數(shù)據(jù)中心,自助式對金融數(shù)據(jù)進行多維度分析和聯(lián)機查詢,為用戶的數(shù)據(jù)安全和業(yè)務的快速決策提供重要支撐。馬上消費金融是消費金融領(lǐng)域科技應用的探索者與實踐者,希望本文分享的該公司實時數(shù)據(jù)倉庫系統(tǒng)落地案例對于同業(yè)機構(gòu)解決同類問題有一定的參考意義。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-02-14
消費金融對實時數(shù)倉系統(tǒng)建設的挑戰(zhàn)及馬上消費金融實踐案例解析
在大數(shù)據(jù)和人工智能時代,數(shù)據(jù)作為資源的一種存在形式,已經(jīng)成為了非常重要的生產(chǎn)要素,通過對其分析挖掘可以創(chuàng)造出巨大的經(jīng)濟價值。

長按掃碼 閱讀全文