原標題:從頂級賽事殿堂飛向人間煙火:度小滿的NLP技術突破能給小微企業(yè)帶來什么?
一家企業(yè)的技術實力究竟怎么樣,國際頂級賽事的比拼,絕對是一塊試金石。
最近,在微軟舉辦的MS MARCO 比賽中的文檔排序Document Ranking(文檔排序)任務中,來自度小滿金融科技的AI-NLP團隊就刷新了記錄,超越三星、微軟、谷歌、斯坦福、清華大學等一眾參賽者,榮登榜首(截至2021年3月12日)。
2018年,度小滿金融才開始獨立運營,并組建了技術團隊。兩年多的時間,一家金融科技公司究竟是如何一步步實現(xiàn)了國際頂級賽事的能力飛躍?對于一家商業(yè)公司來說,學術領域的突破又意味著什么,是否能轉化為真實的產業(yè)價值,改變普通人的金融生活?
這些都是“第一名”的光環(huán)背后,更值得我們關注的東西。
過去的成績:技術基因決定故事走向
看到這個新聞,大家的第一反應可能是“是微軟飄了還是谷歌提不動刀了”,這個比賽究竟是干嘛的?
簡單說一下MS MARCO挑戰(zhàn)賽。它是自然語言處理NLP領域的權威比賽,基于微軟構建的大規(guī)模英文閱讀理解數據集MARCO(Microsoft MAchine ReadingCOmprehension),需要參賽者為用戶輸入的問題找尋到最貼切、最需要的答案,并對答案進行排序。
以這次度小滿技術團隊刷新紀錄的文檔排序Document Ranking(文檔排序)任務為例,就至少面臨以下幾個挑戰(zhàn):
首先,MARCO數據集采用的是來自搜索引擎 BING 的用戶真實搜索行為和點擊日志,最大程度地模擬和還原了用戶使用搜索引擎的真實場景,因此數據標注并不完全,這會直接影響模型的性能表現(xiàn);
其次,MARCO數據集規(guī)模非常大,包含數百萬個問題和對應的近千萬篇文檔,而每一個問題都會提供多篇來自搜索結果的網頁文檔,相當于要在一堆文檔中判斷出哪一個是用戶真正想要的,這需要機器對多篇文檔進行綜合理解才能判斷出答案。
此外,MS MARCO挑戰(zhàn)賽由于權威性高、應用價值大,吸引非常多的工業(yè)界巨頭和學術機構來參與,競爭十分激烈。要贏過來自海外谷歌、韓國三星AI研究院、斯坦福大學,國內的清華大學等等的其他隊伍,難度更是直線上升。
而度小滿NLP團隊提交的模型,不僅以0.416的eval分數大幅領先其他團隊,還在第一名的位置維持了一個多月的時間,這不得不讓人好奇,他們到底是怎么做到的?
經過訪談我們得知,度小滿NLP團隊首次提出了DML文本排序算法,通過自主研發(fā)的自適應預訓練語言模型對query(用戶搜索的真實問題)和document文本進行深度理解,利用了數十萬數據來訓練模型,經過召回、重排等多個階段,給出最終排序。
完成突破的過程毫無疑問是充滿艱苦的。度小滿的技術人員透露,參賽隊伍每天幾乎都工作10-15個小時,中間做了非常多的創(chuàng)新和嘗試,不斷優(yōu)化和改進算法??稍捰终f回來,技術創(chuàng)新最終比拼的還是“腦力”。度小滿金融2018年才開始獨立運營,兩年內就能積累起挑戰(zhàn)國際AI巨頭的實力嗎?
原來,度小滿在成立初始,就抱著將NLP等科技引入金融業(yè)務當中的理想,建立起了一支AI團隊。其中一部分人來自百度,眾所周知,百度是中國NLP領域的一面技術旗幟,曾獲得過包括國家科技進步獎在內的諸多權威獎項,這種技術基因也為度小滿所沿襲。而另一方面,度小滿也以十分嚴格的標準吸納技術人才,建構起了一支實力強勁的技術隊伍。
團隊建起來了,安心支持自家的核心業(yè)務就好,為什么非得去國際賽場上“找虐”呢?
一方面,金融領域需要各種語言、語義相關的NLP技術和新方法來提升業(yè)務能力,來對風控模型、用戶畫像等進行升級,用更先進的算法來提升項目,也是度小滿從成立之初就追求的。而國際頂級賽事,自然成了不容錯過的絕佳“練兵場”。
桃李不言,下自成蹊。度小滿在NLP領域的突破,看似奇異,背后卻有著綿長的技術信仰、強烈的業(yè)務訴求支撐其前行。
現(xiàn)實的困境:NLP如何為小微企業(yè)插上翅膀
所有過往,皆為序章。
比起度小滿為什么要參加國際比賽,可能更讓人難以理解的是,刷新紀錄對你我普通人來說有什么意義?這種疑問,恰恰說明科技賦能產業(yè)的改造潛力遠比我們想象中更深。
詩人塞繆爾·約翰遜曾說,語言是科學的唯一工具。事實上,今天度小滿NLP領域所追尋的突破,也是在為金融科技和普通人之間搭建起一座橋梁。
度小滿所提交的模型,其所具備的強有力的文本理解和匹配能力,可以輕松應用于金融、征信等多個領域中,賦能給中小企業(yè)者。
我們知道,中小企業(yè)融資難是個重要而復雜的問題。在現(xiàn)實中小微企業(yè)融資有著幾座難以逾越的高山:
1.融資成本高:由于小微企業(yè)的經營規(guī)模小,風險系數高,一般還沒有抵押物,許多金融機構不愿意放貸,或是設定更高的利息水平;
2.風控難度大:數據碎片化,缺乏長期信用評級,無法完整地了解小微企業(yè)的整體情況,判斷其償債能力,往往難以獲得銀行和資本市場的信任;
3.周轉場景多,現(xiàn)金流壓力大,而傳統(tǒng)融資渠道審核慢、放款慢,著急情況下很容易被黑灰產或不良小貸機構欺騙。
在近幾年的政府的工作報告中,多次提及要“幫助小微企業(yè)降低綜合融資成本”。而通過公開數據我們發(fā)現(xiàn),度小滿針對小微企業(yè)主的年化貸款利率僅有3.65%。而全國銀行業(yè)新發(fā)放普惠性小微貸款的利率平均達到5.93%(2020年數據)。2020年,度小滿累積為小微企業(yè)主提供了3000億元的無抵押信用貸款,人均放款額同比增加35%。
更低的利率,不低的額度,度小滿憑什么這么敢?技術,就是所有不確定性中最大的確定性。
度小滿在MS MARCO比賽中所運用到的數據挖掘、閱讀理解等NLP技術,就已經在度小滿的小微風控模型中投入了實際應用,通過對企業(yè)公章、征信報告等非結構化信息進行深度挖掘和理解,為風控模型提供了更豐富的特征和數據維度,從而可以更高效精準地識別風險因素,提升小微企業(yè)的融資效率,幫助其抵御黑產侵害。
舉個例子,在挑戰(zhàn)賽中,度小滿NLP團隊需要解決一個技術難題:沒有被點擊的搜索結果有可能是錯的,但也有可能是對,如果系統(tǒng)錯過了這些沒有被點擊、但是正確的信息,其排序結果可能無法呈現(xiàn)出最佳效果。
而在小微企業(yè)融資場景中,同樣存在很多這樣的信息,比如有的用戶并沒有提供相關信息或行為,系統(tǒng)就需要對這些沒有標注的樣本,準確地判斷出其風險等級。
推動AI、NLP技術走向產業(yè)側,或許是提升小微企業(yè)融資效率、降低融資成本的解決方案中,最重要的議題之一,
就拿度小滿來說,首先,借助NLP技術跨越信任的高山。對非結構化數據的挖掘,能夠從經營行為、營業(yè)范圍、財務年報等等更多維度的信息中加深對用戶的洞察,準確判斷出對方的資質,解決傳統(tǒng)風控模型樣本不足、評級不準的問題,為資本市場與小微企業(yè)之間建立信任;
其次,利用AI智能化地識別出更多風險指標。傳統(tǒng)風控模型需要人根據業(yè)務需要和經驗,確定哪些特征是有幫助的,而度小滿借助AI可以讓機器自動去學習相關特征,可以將數據得到充分利用,效率更高,征信結果更準確。
最后,通過技術協(xié)同來提升金融服務的可靠性與安全性。AI、NLP領域的技術能力并沒有讓度小滿忽視傳統(tǒng)金融工具的價值,事實上,在讓智能系統(tǒng)給出判斷的同時,度小滿也會結合一些業(yè)內成熟應用的統(tǒng)計方法作為參考,對小微企業(yè)的償債能力和風險系數進行綜合評估。
在度小滿的努力中,自然語言的奧秘被拆解,化成千行百業(yè)的智能化升級契機,小微企業(yè)可以在復雜變幻的商業(yè)環(huán)境中更快速地獲得支持、尋覓新機。這或許可以回答很多人的疑問:為什么企業(yè)要跟學術機構一起在頂級賽事上同臺競技?
答案就在于,每一次技術領域的點滴突破,都有可能改變一些行業(yè)的既有規(guī)則,化不可能為可能,助力更多小微企業(yè)飛向更光明的未來。
未來的企望:科技與產業(yè)的更多握手可能
可以看到,想要在資本市場和小微企業(yè)之間建構起信任橋梁,既需要技術積累,又要有對實體經濟、小微企業(yè)業(yè)態(tài)的真實洞察與服務理念,這恰好也是度小滿一直以來努力的方向。
除了前面提到的風控等場景之外,其實在小微企業(yè)的金融需求中,還存在許多痛點。比如需要反復前往網點當面證明自己的資質、等待人工審核等等,在這些環(huán)節(jié)中,度小滿也從用戶角度結合技術想了很多解決防范。
比如利用OCR技術將對方提供的電子化票據進行識別處理,在線上就能審核,實現(xiàn)申請秒批,有效緩解小微企業(yè)的資金壓力。
借助AI預測,度小滿也會在貸后運用機器人流程自動化(RPA)還款提醒,降低后期的運維成本,也讓小微企業(yè)主避免因逾期還款而帶來的負面影響。
對于合作伙伴來說,借助度小滿的技術能力,可以對更多潛在優(yōu)質客戶進行準確識別,帶來業(yè)務上的良性增長。
也可以說,度小滿目前所扮演的,既是風險的守門員,也是增長的主推手,這是極為稀缺的產業(yè)角色。
從技術特征上推演,NLP技術的潛力能夠落地的場景和需求還有很多。具體要如何激發(fā)出技術的能量,這個問題就交給度小滿去操心吧。對于小微企業(yè)主來說,只需要安心經營未來,不必為資金貸款終日憂心,這就是平凡至美的人間煙火味。
技術的根系越深遠,越能歷久彌長地將價值輸送到每一個產業(yè)細枝末節(jié)當中,直至浸潤每一個人的心田。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。