美國“存儲Twitter”,中國也要給博文“建檔”

4月19日,“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”在北京啟動(dòng)。

這個(gè)項(xiàng)目的名字有些讓人費(fèi)解,國家圖書館與互聯(lián)網(wǎng)信息怎么會聯(lián)系在一起,還要戰(zhàn)略保存呢?這要從圖書館的變遷說起。

圖書館存儲公共數(shù)字資源

查一下國家圖書館的百度百科就能知道所以然。

國家圖書館是世界最大、最先進(jìn)的國家圖書館之一,也是亞洲最大圖書館?;ヂ?lián)網(wǎng)時(shí)代,隨著信息創(chuàng)造、傳播和存儲的數(shù)字化,國家圖書館與時(shí)俱進(jìn),1995年就按照數(shù)字化、網(wǎng)絡(luò)化建設(shè)的思路,制定了《國家圖書館網(wǎng)絡(luò)建設(shè)發(fā)展規(guī)劃(1997-2000)》。2001年11月,國家圖書館二期工程暨國家數(shù)字圖書館工程正式立項(xiàng)。截至2017年12月,館藏?cái)?shù)字資源總量達(dá)1323.35TB,包括電子圖書、期刊、報(bào)紙、特藏專藏和視聽文獻(xiàn)。

換言之,圖書館早已不是人們印象中的一個(gè)存滿紙質(zhì)圖書的物理空間,而是一個(gè)以各種載體儲存人類創(chuàng)作信息的地方,圖書館的本質(zhì)就是信息存儲空間。在軟件工程里面,library也有“信息庫”的意思,它包含構(gòu)建應(yīng)用所需的一切,如源代碼、資源文件等等。我大學(xué)讀的是軟件工程,一個(gè)室友留校在圖書館工作,當(dāng)初以為他放棄了本業(yè),現(xiàn)在看來,我誤會他了,圖書館數(shù)字化的大趨勢下,計(jì)算機(jī)、信息化、數(shù)字化都變得越來越重要。

互聯(lián)網(wǎng)公司有海量信息存儲在自己的數(shù)據(jù)庫,就像人人家里都有藏書一樣,但在社會中扮演書籍收藏和公共文化服務(wù)的則是圖書館,這樣再來看“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”就更容易理解。

按照官方說法:

“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”是一個(gè)旨在“建設(shè)覆蓋全國的分級分布式中文互聯(lián)網(wǎng)信息資源采集與保存體系,通過與國內(nèi)重點(diǎn)數(shù)字文化生產(chǎn)和保存機(jī)構(gòu)的合作,推動(dòng)互聯(lián)網(wǎng)信息的社會化保存與服務(wù),構(gòu)建國家互聯(lián)網(wǎng)信息資源戰(zhàn)略保障體系?!?/p>

翻譯一下,就是國家圖書館啟動(dòng)一個(gè)項(xiàng)目,希望可以采集和存儲有價(jià)值的中文互聯(lián)網(wǎng)信息,再將這些信息用于社會,比如政策決策和學(xué)術(shù)研究等非商業(yè)用途。

用國家圖書館官方公布的話術(shù)來說就是:

“互聯(lián)網(wǎng)信息成為人類文明和社會記憶的新載體,客觀反映著一定時(shí)期內(nèi)政治、經(jīng)濟(jì)、文化和社會等方面的變遷。易逝性和不可再生性,使互聯(lián)網(wǎng)信息的采集和保存尤為迫切,而隨著移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的普及,互聯(lián)網(wǎng)信息的規(guī)模爆炸式增長,調(diào)動(dòng)社會力量參與也成為互聯(lián)網(wǎng)信息采集和保存的趨勢。”

現(xiàn)已成為阿里副總裁的涂子沛在《大數(shù)據(jù)》一書也曾分享,美國政府運(yùn)轉(zhuǎn)的底層基礎(chǔ)其實(shí)就是數(shù)據(jù),“社會計(jì)算是大數(shù)據(jù)時(shí)代最大的亮點(diǎn)?!边@本書拿到了國家圖書館文津圖書獎(jiǎng),想必對國家圖書館管理層也有所啟發(fā)。

國家圖書館從2003年開始嘗試對互聯(lián)網(wǎng)資源進(jìn)行采集和保存,2009年成立互聯(lián)網(wǎng)信息保存保護(hù)中心,對國內(nèi)外政治、經(jīng)濟(jì)、文化、科技等領(lǐng)域重要網(wǎng)站和重大專題資源進(jìn)行采集保存,截至2018年,全國各級公共圖書館累計(jì)采集網(wǎng)站23000余個(gè)?!巴七M(jìn)數(shù)字資源建設(shè)與保存工作”是國家圖書館“十三五”規(guī)劃的重要工作之一。在這樣的整體規(guī)劃下,國家圖書館啟動(dòng)了互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目。

首家互聯(lián)網(wǎng)信息戰(zhàn)略保存基地同日在新浪掛牌,由國家圖書館與新浪共建。國家圖書館相關(guān)負(fù)責(zé)人透露:

“在中國境內(nèi)開展互聯(lián)網(wǎng)業(yè)務(wù)、并在相關(guān)領(lǐng)域處于領(lǐng)先地位的企業(yè)機(jī)構(gòu),均可申請成為互聯(lián)網(wǎng)信息戰(zhàn)略保存基地共建主體。共建主體需確保其提供的信息數(shù)據(jù)完整、有效、安全,并擁有合法所有權(quán)、知識產(chǎn)權(quán)或已獲得相應(yīng)授權(quán)。”

換言之,大多數(shù)互聯(lián)網(wǎng)公司都可加入這一項(xiàng)目,這是國家圖書館牽頭的一次社會化數(shù)據(jù)共享、存儲和應(yīng)用實(shí)驗(yàn)。

美國國會圖書館存儲Twitter

美國圖書館行業(yè)一直走在世界前列,一方面,圖書館歷史久、數(shù)量多、規(guī)格高,比如每個(gè)大城市都有歷史古老且富麗堂皇的公共圖書館,很多城市圖書館已成為旅游者打卡地。另一方面,受益于發(fā)達(dá)的IT產(chǎn)業(yè),圖書館擁抱數(shù)字化技術(shù)較為積極。

美國國會圖書館是美國四個(gè)官方國家圖書館之一,是美國歷史最悠久的聯(lián)邦文化機(jī)構(gòu),已經(jīng)成為世界上最大的知識寶庫。2010年,它就與Twitter達(dá)成一項(xiàng)合作協(xié)議,后者向前者提供所有公開的推文,已被刪除和屏蔽的除外,其認(rèn)為,Twitter上簡短的信息可以將“國家故事”中微小、但卻非常重要的部分反映出來。

美國國會圖書館與Twitter的“Twitter保存項(xiàng)目”通過總部位于科羅拉多州博爾德市的社交媒體聚合網(wǎng)站Gnip落地,Gnip發(fā)現(xiàn)要做好這件看似簡單的“信息存儲”的事并不容易。

首先,數(shù)據(jù)高速膨脹。項(xiàng)目啟動(dòng)三年后,2013年Gnip終于實(shí)現(xiàn)了對1700億條推文的存儲,當(dāng)時(shí)已需要每天存儲用戶創(chuàng)造的4億條內(nèi)容,這對存儲空間的消耗十分驚人。移動(dòng)互聯(lián)網(wǎng)時(shí)代,隨著越來越多人使用Twitter,每天產(chǎn)生的內(nèi)容高速膨脹,而且短視頻等新的內(nèi)容形式被不斷引入——數(shù)據(jù)大爆炸是整個(gè)互聯(lián)網(wǎng)面臨的問題。

其次,數(shù)據(jù)峰值問題。Gnip直言,這一項(xiàng)目真正的挑戰(zhàn)來自高峰時(shí)期對tweets 的收集,比如2011年3月日本海嘯期等事件的爆發(fā),當(dāng)時(shí),每秒鐘產(chǎn)生的tweet信息數(shù)量有好幾千。

再次,數(shù)據(jù)利用問題。碎片化的數(shù)據(jù)多且雜,要利用它們就需要大數(shù)據(jù)挖掘等技術(shù)。美國國會圖書館的想法是,先把數(shù)據(jù)存下來再說,怎么用來不及考慮,甚至連歸類都來不及做,到現(xiàn)在,這些數(shù)據(jù)也僅僅是存儲下來而已。

最后,數(shù)據(jù)開放問題。既然是公共圖書館,最大價(jià)值就是對全社會開放,數(shù)字內(nèi)容也不例外。在美國國會圖書館啟動(dòng)“Twitter保存項(xiàng)目”后,全世界研究人員都很感興趣,他們很快收到來自世界各地研究人員的約400個(gè)查詢請求,查詢的主題涉及文化、政治、醫(yī)療、經(jīng)濟(jì)等諸多方面,然而數(shù)據(jù)量太大,技術(shù)實(shí)現(xiàn)不了——即使對2006年和2010年間產(chǎn)生的tweet查閱一邊也需要24個(gè)小時(shí)。

美國國會圖書館在2013年公布的白皮書中寫到:

“讓研究人員獲得這些數(shù)據(jù)的技術(shù)水平要明顯落后于這些數(shù)據(jù)的產(chǎn)生和傳播的技術(shù)水平?,F(xiàn)在技術(shù)不足,而開發(fā)這些技術(shù)的成本非常高?!?/p>

當(dāng)時(shí),美國政府開始推行財(cái)政緊縮政策,國會圖書館經(jīng)費(fèi)緊張,此前其在數(shù)據(jù)收集上已花費(fèi)一大筆資金,沒有更多資金投入到數(shù)據(jù)的挖掘、利用和開放上。2018年,這一項(xiàng)目再次遇到困難,Twitter信息爆炸式增長,服務(wù)器不堪重負(fù),美國國會圖書館表示將不再收集Twitter上所有公開推文,而是保存他們認(rèn)為重要的(比如特朗普的?),到現(xiàn)在為止,這一項(xiàng)目也僅限于數(shù)據(jù)存儲,依然未能實(shí)現(xiàn)對數(shù)據(jù)的挖掘、利用和開放,當(dāng)然我們不用懷疑這樣做的價(jià)值:數(shù)據(jù)就是資產(chǎn),未來終可挖掘。

不只是美國,澳大利亞、法國、瑞典和荷蘭等國都在90年代啟動(dòng)了國家級的互聯(lián)網(wǎng)數(shù)據(jù)收集策略,相對而言,中國“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”雖然來得較晚,卻有望基于當(dāng)下更加成熟的技術(shù)和更加獨(dú)特的模式,實(shí)現(xiàn)互聯(lián)網(wǎng)信息存儲、利用和開放的多贏。

國家圖書館憑什么存儲整個(gè)互聯(lián)網(wǎng)?

或許是看到了美國國會圖書館與Twitter合作遇到的困難,“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”采取了截然不同的模式。

與美國國會圖書館將Twitter內(nèi)容存儲到合作方的服務(wù)器不同,“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”采取社會化、分布式和分級式的數(shù)據(jù)保存機(jī)制,國家圖書館根據(jù)保存規(guī)范、數(shù)據(jù)遴選機(jī)制和服務(wù)需要提供使用需求,互聯(lián)網(wǎng)公司負(fù)責(zé)內(nèi)容存儲,這樣可以避免數(shù)據(jù)的重復(fù)存儲。

將所有互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行二次存儲本身就不現(xiàn)實(shí)。互聯(lián)網(wǎng)內(nèi)容十分多元,比如首家參與到這一項(xiàng)目的微博,覆蓋的數(shù)據(jù)類型比Twitter更多樣,不只是有短文字,還有短視頻、圖片和文章等大雜燴內(nèi)容,財(cái)報(bào)顯示,2018年12月微博月活已達(dá)4.62億,12月日均活躍用戶數(shù)突破2億關(guān)口,微博上的存量內(nèi)容,截至2018年12月已有多達(dá)2000多億條博文、500多億張圖片、4億個(gè)視頻和近5000億互動(dòng),每天博文增量超過1億,數(shù)據(jù)量巨大。如此海量數(shù)據(jù),再轉(zhuǎn)存到單獨(dú)服務(wù)器即不可能,亦無必要。

正是基于社會化存儲的模式,“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”不像美國國會圖書館只與Twitter一樣“點(diǎn)對點(diǎn)”合作,而是“點(diǎn)對多”合作。國家圖書館牽頭,任何符合條件的互聯(lián)網(wǎng)公司都可申請加入其中。隨著移動(dòng)互聯(lián)網(wǎng)的普及,互聯(lián)網(wǎng)正時(shí)時(shí)刻刻對真實(shí)世界進(jìn)行映射,不僅是微博的博文,快手記錄真實(shí)世界的短視頻、知乎的帖子,都是寶貴的社會信息資源,都可以成為“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”保存的目標(biāo)。

尤為重要的是,“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”不只是單純地保存數(shù)據(jù),而是“保存、利用和開放”三管旗下,國家圖書館擅長的是學(xué)術(shù)和公信力,而不是技術(shù),因此具體的應(yīng)用依然是國圖提需求,互聯(lián)網(wǎng)公司負(fù)責(zé)信息處理。

比如在與新浪的合作中,互聯(lián)網(wǎng)數(shù)據(jù)分析報(bào)告、政府公開信息分析報(bào)告、社會群體的公益性信息服務(wù),都有可能成為這些信息的用途。今天,AI技術(shù)特別是自然語言處理技術(shù)比前幾年已經(jīng)成熟很多,擁有信息流、搜索等業(yè)務(wù)的微博和新浪在自然語言處理技術(shù)上也有深厚積累,這意味著,它們有能力對平臺上的海量互聯(lián)網(wǎng)內(nèi)容進(jìn)行挖掘,滿足公共社會的非商業(yè)公益查詢需求。

從“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”的設(shè)計(jì)來看,應(yīng)該是看到美國國會圖書館與Twitter的合作模式的弊端后,進(jìn)行的全新機(jī)制設(shè)計(jì)。雖然這一項(xiàng)目沒有形式上的“保存”,但事實(shí)上卻實(shí)現(xiàn)了互聯(lián)網(wǎng)公開信息的“歸檔”,同時(shí)可以實(shí)現(xiàn)利用和開放。

跟美國國會圖書館看中Twitter“小卻重要”內(nèi)容能反映社會進(jìn)程的邏輯一樣,國家圖書館首先與微博合作也是看中其UGC社會化屬性。微博上每個(gè)用戶以不同形式從個(gè)體視角記錄生活、探索世界和討論話題,形成了海量信息,這部分信息和其他互聯(lián)網(wǎng)平臺的信息是差異化的,而在國家圖書館此前對互聯(lián)網(wǎng)信息的采集和保護(hù)中,這類信息也不是重點(diǎn),是從結(jié)構(gòu)上豐富了國家圖書館的館藏信息,所以具有更大的價(jià)值。

不僅如此,最近幾年已經(jīng)發(fā)生過很多因?yàn)楣娫谖⒉┥系膮⑴c而引起關(guān)注、最后推動(dòng)事件獲得解決的案例,比如2017年網(wǎng)友舉報(bào)有人駕駛越野車追趕藏羚羊的案件、2018年的“疫苗造假事件”等。可以說,微博不但是能全面反映社會發(fā)展進(jìn)程的互聯(lián)網(wǎng)平臺,而且用戶在微博上發(fā)布的內(nèi)容,本身就是社會發(fā)展進(jìn)程的一部分。這種獨(dú)特的價(jià)值是其他平臺無法取代的。

如果“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”項(xiàng)目能夠成功,對于很多已經(jīng)和即將開展互聯(lián)網(wǎng)信息保存的國家來說,應(yīng)該會成為又一個(gè)“中國式樣本”。

如果覺得文章不錯(cuò),可以+我luochaozhuli進(jìn)群(備注:進(jìn)群)交流。

歡迎關(guān)注 BT商業(yè)科技(bttimes)

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-04-20
美國“存儲Twitter”,中國也要給博文“建檔”
4月19日,“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”在北京啟動(dòng)。圖書館存儲公共數(shù)字資源查一下國家圖書館的百度百科就能知道所以然。

長按掃碼 閱讀全文