久久久久久精品毛片aaaa级,91久久精一区二区三区大全,欧洲成人在线免费

原標(biāo)題：讀題or讀你？剝開機(jī)器閱讀理解的神秘外衣

最近一個(gè)有意思的現(xiàn)象，是機(jī)器閱讀理解突然開始熱絡(luò)了起來。

剛剛傳來消息，2月21日，百度自然語言處理團(tuán)隊(duì)研發(fā)的V-Net模型以46.15的Rouge-L得分登上微軟的MS MARCO（Microsoft MAchine Reading COmprehension）機(jī)器閱讀理解測試排行榜首。

加上此前斯坦福大學(xué)的SQuAD競賽中，阿里、哈工大訊飛聯(lián)合實(shí)驗(yàn)室等團(tuán)隊(duì)先后超越了人類平均水平。這意味著，機(jī)器閱讀理解領(lǐng)域的兩大頂級(jí)賽事：MS MARCO和SQuAD的記錄先后由中國團(tuán)隊(duì)打破。

這項(xiàng)技術(shù)的奇點(diǎn)似乎正在現(xiàn)實(shí)世界的邊緣升起。尤其值得注意的是，百度刷新MS MARCO成績依靠的是單模型。一般情況下多模型集成會(huì)拿到更高分?jǐn)?shù)，如此看來，機(jī)器閱讀理解的能力邊界還遠(yuǎn)未觸達(dá)。

但在熱鬧的“軍備競賽”之余，機(jī)器閱讀理解領(lǐng)域的深處并非一團(tuán)和氣。各種爭議和辯論正在這場“機(jī)器答題大秀”背后上演。

比如說，為什么微軟要緊隨SQuAD之后另起爐灶，發(fā)布自己的數(shù)據(jù)集和競賽？以“實(shí)戰(zhàn)派”著稱的百度NLP團(tuán)隊(duì)為什么一定要選擇MS MARCO來剛正面？學(xué)術(shù)界關(guān)于機(jī)器閱讀理解的爭議為何一直不斷？

這些疑問或許可以最終歸因到一個(gè)問題：讓AI做閱讀理解，到底有什么用？

今天讓我們從百度的大冒險(xiǎn)開始說起，聊聊“閱讀理解圈”的江湖恩怨，以及我們接下來可預(yù)見的技術(shù)應(yīng)用未來。

兩大數(shù)據(jù)集對(duì)峙：機(jī)器閱讀理解的問題與爭議

所謂的機(jī)器閱讀理解，基本概念跟咱們上學(xué)時(shí)做的閱讀理解題很相似，同樣都是給出一段材料和問題，讓“考生”給出正確答案。所不同的，僅僅是機(jī)器閱讀理解的主角變成了AI模型而已。

而機(jī)器閱讀理解領(lǐng)域的比賽方式，就像斯坦福大學(xué)著名的AI競賽ImageNet一樣，都是由一個(gè)官方給定的數(shù)據(jù)集+一場跑分競賽組成。各大科技巨頭和世界名校的AI研究團(tuán)隊(duì)是主要參賽選手。

百度NLP團(tuán)隊(duì)這次成功刷新世界記錄的比賽，是微軟在2016年末發(fā)布的MS MARCO。

這個(gè)賽事有趣的地方在于，其運(yùn)用的訓(xùn)練數(shù)據(jù)并非空穴來風(fēng)，而是微軟在產(chǎn)品實(shí)踐中，從真實(shí)用戶那里收集來的問題和答案。MS MARCO是微軟基于搜索引擎BING構(gòu)建的大規(guī)模英文閱讀理解數(shù)據(jù)集，包含10萬個(gè)問題和20萬篇不重復(fù)的文檔。

據(jù)了解，這個(gè)數(shù)據(jù)集的問題全部來自于BING的搜索日志，根據(jù)用戶在BING中輸入的真實(shí)問題模擬搜索引擎中的真實(shí)應(yīng)用場景。此外，又整理了這些問題的人工答案作為訓(xùn)練數(shù)據(jù)。這樣可以讓AI模型通過最接近真實(shí)應(yīng)用的語境來進(jìn)行學(xué)習(xí)、訓(xùn)練和反向?qū)嵺`，完成“學(xué)以致用”的小目標(biāo)。

圈內(nèi)普遍認(rèn)為，微軟這么不容易地搜集一個(gè)源自真實(shí)網(wǎng)絡(luò)的數(shù)據(jù)集，就是希望硬懟斯坦福大學(xué)發(fā)布的SQuAD。

2016年早些時(shí)候，斯坦福大學(xué)相關(guān)團(tuán)隊(duì)制作了一個(gè)用來測試AI模型閱讀理解能力的數(shù)據(jù)集。與MS MARCO不同，SQuAD主要訓(xùn)練數(shù)據(jù)是來自維基百科的536篇文章，以及由人類閱讀這些文章后，提出的10萬多個(gè)問題及相關(guān)答案。

這種非常像校園考試的數(shù)據(jù)設(shè)定，從誕生之日起就爭議不斷。比如NLP領(lǐng)域的大牛Yoav Goldberg就認(rèn)為這個(gè)數(shù)據(jù)集有些太過片面。

SQuAD受到指責(zé)的地方，主要可以分為三個(gè)層面：

1.問題過分簡單。問題的答案主要源自于文檔中的一個(gè)片段，真實(shí)應(yīng)用場景中很少遇到這樣的問題。

2.數(shù)據(jù)多樣性不足。SQuAD只有500多篇文章，內(nèi)容不夠豐富，訓(xùn)練出的模型被質(zhì)疑難以處理其他數(shù)據(jù)或者更復(fù)雜的問題。

3.通用性不強(qiáng)。為了跑分的方便，SQuAD的問題結(jié)構(gòu)比較簡單，涉及到的機(jī)器“推理”一面偏弱，導(dǎo)致其實(shí)用性數(shù)次受到懷疑。

舉個(gè)簡單的例子來描述一下兩個(gè)數(shù)據(jù)集之間的不同：SQuAD大多數(shù)問題的答案來自文檔本身，從文檔中“復(fù)制粘貼”就能完成回答，這樣模式固然更加方便，但客觀上對(duì)問題類型和答案范圍都做了限制，建立在SQuAD上的問題通常更加直白簡單。而MS MARCO的問題則更傾向真實(shí)的語言環(huán)境，需要智能體推理語境進(jìn)行分析。

相對(duì)而言，MS MARCO的難點(diǎn)主要體現(xiàn)在這幾個(gè)方面：

1.對(duì)于每一個(gè)問題，MARCO 提供多篇來自搜索結(jié)果的網(wǎng)頁文檔，系統(tǒng)需要通過閱讀這些文檔來回答用戶提出的問題。但是，文檔中是否含有答案，以及答案具體在哪一篇文檔中，需要系統(tǒng)自己來判斷解決；

2.MARCO 中有一部分問題無法在文檔中直接找到答案，需要閱讀理解模型自己做出判斷；

3.MARCO 也不限制答案必須是文檔中的片段，很多問題的答案必須經(jīng)過多篇文檔綜合提煉得到。

蘿卜白菜各有所愛，有人認(rèn)為SQuAD是最方便測試的機(jī)器閱讀理解比賽，也有人堅(jiān)持MS MARCO是最接近人類問答習(xí)慣的競賽。但爭論的背后或許有一個(gè)共識(shí)正在浮現(xiàn)：機(jī)器閱讀理解的應(yīng)用性，已經(jīng)開始受到產(chǎn)業(yè)的廣泛關(guān)注。

進(jìn)擊的數(shù)據(jù)集：AI閱讀也要重視“素質(zhì)教育”

當(dāng)然，MS MARCO的數(shù)據(jù)集結(jié)構(gòu)同樣也有很多爭議。但相類似的“從生活中來”的機(jī)器閱讀理解訓(xùn)練數(shù)據(jù)集正在越來越多。一句話總結(jié)這種趨勢，大概就是大家發(fā)現(xiàn)，該讓AI從“應(yīng)試教育”變成“素質(zhì)教育”了。

結(jié)構(gòu)緊湊、體系清晰的SQuAD，雖然可以非常便捷地展現(xiàn)出AI模型的測試結(jié)果，但拓展性和實(shí)用性始終受到指責(zé)。許多學(xué)者認(rèn)為，這個(gè)數(shù)據(jù)集有些被過分“考試化”了，導(dǎo)致其最終變成為了競賽而競賽。

而直接從互聯(lián)網(wǎng)文本與產(chǎn)品實(shí)踐問題中訓(xùn)練出的模型，顯然距離應(yīng)用性更近。據(jù)了解，百度NLP團(tuán)隊(duì)選擇MS MARCO來進(jìn)行測試，很重要的一方面是看重了在其基礎(chǔ)上研發(fā)出的技術(shù)，可以更好的投入場景實(shí)踐，貼近在復(fù)雜和開放的互聯(lián)網(wǎng)環(huán)境中解決問題的能力。

其實(shí)仔細(xì)想想，機(jī)器閱讀理解這項(xiàng)技術(shù)，從來都不是紙上談兵的“象牙塔派”，在我們已經(jīng)熟悉的互聯(lián)網(wǎng)應(yīng)用中，就有大量只能依靠機(jī)器閱讀理解來解決的難題。

舉個(gè)例子，當(dāng)用戶在搜索引擎尋找答案的時(shí)候，傳統(tǒng)方案只能依靠用戶互助來回答，正確性和效率都嚴(yán)重不足。但智能體進(jìn)行回答，就不能只依靠關(guān)鍵詞填空來處理。比如絕不會(huì)有用戶提問“（）是我國最長的河流？”；更多情況用戶會(huì)詢問復(fù)雜的問題，需要完整的解決方案和建議。那么，從真實(shí)提問數(shù)據(jù)中學(xué)習(xí)理解材料、回答問題的方案，近乎于AI技術(shù)滿足搜索引擎體驗(yàn)升級(jí)的唯一出路。

再比如最近爭議不斷的內(nèi)容推薦領(lǐng)域。今日頭條最近反復(fù)出狀況，很大程度來源于輿論指責(zé)其過度依賴關(guān)鍵詞進(jìn)行算法推薦，忽略了用戶的對(duì)文章深度與知識(shí)性的需求。這就是因?yàn)槠渌惴ǖ臋C(jī)器閱讀理解能力不夠，無法閱讀真實(shí)的互聯(lián)網(wǎng)材料，給出個(gè)性化的推薦結(jié)果。

除此之外，語音助手、智能客服等領(lǐng)域，都大量依靠于機(jī)器閱讀理解閱讀真實(shí)問題、真實(shí)互聯(lián)網(wǎng)材料，給出完整答案的AI能力。從真實(shí)數(shù)據(jù)中訓(xùn)練AI，可能是破解這些難題的唯一途徑。

百度NLP團(tuán)隊(duì)選擇刷MS MARCO，大概也與產(chǎn)品實(shí)踐的需求息息相關(guān)。已經(jīng)深度部署在百度搜索和問答產(chǎn)品中的機(jī)器閱讀理解，下一步又會(huì)去往何方呢？

中文、通識(shí)、應(yīng)用：可預(yù)見的機(jī)器閱讀理解未來

可以看到，有幾個(gè)傾向性趨勢，已經(jīng)開始發(fā)生在機(jī)器閱讀理解這個(gè)剛剛開始熱絡(luò)的技術(shù)當(dāng)中。

首當(dāng)其沖，目前機(jī)器閱讀理解的訓(xùn)練數(shù)據(jù)集和競賽，大部分集中在英文領(lǐng)域。這個(gè)尷尬正在一步步被打破。

比如百度在去年發(fā)布了與微軟MS MARCO結(jié)構(gòu)類似，但數(shù)據(jù)量更豐富、數(shù)據(jù)更多元的全中文數(shù)據(jù)集DuReader。其首批發(fā)布的數(shù)據(jù)集包含20萬來自百度搜索的真實(shí)問題，100萬互聯(lián)網(wǎng)真實(shí)文檔，以及42萬人工撰寫生成的答案。同時(shí)，數(shù)據(jù)集還標(biāo)注了問題類型、實(shí)體和觀點(diǎn)等豐富信息，并提供開源基線系統(tǒng)和評(píng)測平臺(tái)。據(jù)悉其很快也將進(jìn)入競賽化。

在中國團(tuán)隊(duì)一次次挑戰(zhàn)機(jī)器閱讀理解記錄的同時(shí)，讓技術(shù)紅利釋放到中文世界，似乎已經(jīng)指日可待。

另一方面，機(jī)器閱讀理解的技術(shù)能力如何通用化、泛在化，與各種其他NLP技術(shù)體系相擬合，似乎成為了廣為關(guān)注的話題。讓機(jī)器能“理解”的同時(shí)，還能歸納、能思考、能創(chuàng)作，勾勒出完整的Deep NLP時(shí)代，也已經(jīng)提上了日程。

再者，像百度這樣將機(jī)器閱讀理解能力高效投入搜索、問答等應(yīng)用領(lǐng)域，產(chǎn)生現(xiàn)實(shí)價(jià)值的例子正在增多。相信不久的未來，機(jī)器閱讀理解工具化、集成化，可以滲透到各行各業(yè)當(dāng)中，成為一種信息世界的主流解決方案。

比較大概率的狀況，大概是不久的將來，我們?cè)谑褂冒俣鹊犬a(chǎn)品時(shí)，感到了某種難以具體形容卻又真實(shí)存在的體驗(yàn)提升。那就是因?yàn)闄C(jī)器正在“讀你”，而不是“讀題”。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

讀題or讀你？剝開機(jī)器閱讀理解的神秘外衣

下一篇

讀題or讀你？剝開機(jī)器閱讀理解的神秘外衣