近日,“尋找姓鴨的人”“因姓氏太罕見全村集體改姓鴨”登上微博熱搜,引發(fā)熱議。截至發(fā)稿,相關(guān)話題閱讀量達1.6億。這背后發(fā)生了什么?
故事還得從古代說起。云南麗江傈僳族中有一個以鳥為圖騰的家族,姓“nià”,即上面一個鳥字,下面一個甲字,意為飛翔的鳥。
然而到了現(xiàn)代,這個字卻成為了生僻字,在信息系統(tǒng)中無法輸入和顯示,帶來種種不便,全村村民無奈只能改姓為“鴨”。
值得注意的是,他們不是個例。許多人的姓氏、家鄉(xiāng)地名不被信息時代接納,他們或是辦不了銀行卡,或是買不了火車票,甚至連最簡單的在線支付都用不了。
據(jù)統(tǒng)計,全國有6000萬人名及大量地名、古籍、方言中包含生僻字,其中多數(shù)尚未實現(xiàn)數(shù)字化。
生僻字?jǐn)?shù)字化為什么這么難?
“最老的身份證上,姓氏是手寫上去的。換二代身份證的時候,電腦里顯示不出來,就通知我們改名了,直接打成了鴨子的鴨。”一位“nià”姓村民在接受媒體采訪時如此表示。
這位村民稱,自己并不喜歡姓“鴨”。但不喜歡也得改,不然就用不了微信,買不了火車票,醫(yī)院不能正常實名掛號,社保公積金也難辦,總之所有需要實名認(rèn)證的地方都很麻煩。
據(jù)了解,1994年編纂的《中華字?!?,收錄漢字約87000個,而我們手機、電腦能打出來的字,僅有3萬個左右。
為什么會出現(xiàn)這種情況呢?
工信部電子標(biāo)準(zhǔn)院主任黃姍姍向TechWeb等表示,漢字與英語不同,英語是表音文字,漢字是表意(圖形)文字。信息系統(tǒng)要認(rèn)識漢字,需要有字、形和編碼三者建立對照表,某個漢字有形無碼,或者其編碼不被某個系統(tǒng)支持,就是信息時代的生僻字。
可以說,生僻字是表意字所特有的信息處理問題。具體來看,漢字信息處理的難點來自四個方面:
一是漢字信息化編碼難度高。漢字與拉丁文字一樣,需要一字一形一碼,要對數(shù)萬個漢字逐一進行編碼、整理和考證工作,難度很高。
二是字形規(guī)范化工作量大。每個漢字都有其獨特的字形,確定每個字的規(guī)范字形并設(shè)計開發(fā)字庫產(chǎn)品,也費時費力。
三是生僻字標(biāo)準(zhǔn)化專業(yè)復(fù)雜。尚有大量人名、地名生僻字未收錄于標(biāo)準(zhǔn),沒有獲得編碼,也就難以實現(xiàn)輸入、處理和輸出。
四是產(chǎn)品對標(biāo)準(zhǔn)的支持不充分。很多信息技術(shù)產(chǎn)品和服務(wù)系統(tǒng)只支持2萬多字,忽視生僻字處理的需求。
要用電腦打出一個漢字,需要有對應(yīng)且全國統(tǒng)一的漢字編碼——對應(yīng)的字形——輸入法支持該漢字的輸入——系統(tǒng)或應(yīng)用支持該漢字的顯示,四個步驟中任何一環(huán)掉鏈子,都無法完成數(shù)字化。
nià姓村民何時能找回自己的姓?
由于“鴨”姓無法寄托“nià”姓的真正含義,現(xiàn)在當(dāng)?shù)氐男『⒊錾蠡径几鷭寢屝铡S小皀ià”姓村民在得知自己的姓氏登上熱搜后有些欣喜,也許能找到一個合適的解決辦法。
為解決這個難題,騰訊搜狗輸入法真的想出了辦法,嘗試用一個鍵盤和一個小程序來幫助“nià”姓村民找回自己的姓氏。
1.生僻字小程序
對于沒有編碼的生僻字,要從頭開始,首先要做的是找到它們。所以,騰訊和工信部電子工業(yè)標(biāo)準(zhǔn)化研究院共同發(fā)布了“生僻字征集”小程序,用戶通過拍照上傳,就可以提交。
據(jù)騰訊輸入法部總經(jīng)理魯劍披露,4月20日“生僻字征集”小程序上線后,首日訪問量突破63萬,用戶提交生僻字1404個。
大家提交的生僻字將經(jīng)過考證、審查、賦碼等一系列環(huán)節(jié),專業(yè)審核通過的生僻字將被賦碼并收錄進國標(biāo)字庫,并最終實現(xiàn)在電腦、手機等設(shè)備及信息系統(tǒng)中輸入與顯示。
2.生僻字鍵盤
針對已有編碼的文字,或是用戶只識生僻字字形、不知讀音的情況,騰訊搜狗輸入法開發(fā)上線了“生僻字鍵盤”,通過拆解字形實現(xiàn)三種生僻字輸入方式,包括筆畫輸入、拼音輸入,以及“拼音+筆畫”的混合輸入。
同時,騰訊搜狗輸入法還與字庫廠商合作,將已編碼的文字設(shè)計成字體包,供用戶下載使用。用戶就可以用搜狗輸入法打出生僻字,并在更多平臺上顯示了。
據(jù)騰訊方面透露,“nià”姓村民再過兩年,就可以打出自己的姓來了。這主要因為“編碼還需要兩年左右才能公布,這是一個過程。”
One More Thing
上世紀(jì)60年代,隨著商用電腦的普及,人們開始用計算機處理文字,但當(dāng)時的技術(shù)還不能有效處理英文以外的文字。直到1974年,我國“748”工程啟動,一批學(xué)者、專家前赴后繼,開啟漢字信息化攻關(guān),漢字進入信息化處理的時代。
1980年,全球第一個漢字編碼標(biāo)準(zhǔn)GB 2312《信息交換用漢字編碼字符集 基本集》發(fā)布,讓計算機處理漢字成為現(xiàn)實。此后,中文信息處理領(lǐng)域累計發(fā)布一百余項國家標(biāo)準(zhǔn),一些生僻字和少數(shù)民族的文字也得以進入數(shù)字時代。
2022年7月,國家市場監(jiān)管總局批準(zhǔn)發(fā)布《信息技術(shù) 中文編碼字符集》(GB 18030-2022 國標(biāo)),新版標(biāo)準(zhǔn)共收錄漢字88115個,比上一版增加錄入了1.7萬余個生僻漢字,不僅收錄《通用規(guī)范漢字表》全部漢字,還可覆蓋我國絕大部分人名、地名用生僻字以及文獻、科技等專業(yè)領(lǐng)域的用字。新版標(biāo)準(zhǔn)將于2023年8月1日正式實施。
總體而言,解決生僻字難題,是難度高、周期長的體系化改造,涉及相關(guān)方眾多。騰訊等企業(yè)愿意秉持“科技向善”,助力解決這一難題得到很多網(wǎng)友點贊。正如一位網(wǎng)友說的,這是一件很有意義的“小事”,希望能一直做下去。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 個人信息出境個人信息保護認(rèn)證辦法向社會公開征求意見
- 閑魚為倒賣演出門票提供服務(wù)被罰款10.66萬元
- 蘋果CEO庫克向特朗普就職典禮捐款100萬美元
- 問界起訴廣州問界 M7 交通事故鑒定機構(gòu)
- 外國手機在華銷量暴跌 47% 蘋果面臨困境
- 這一次,傳奇不僅請了國際籃球巨星代言 還能爆飛天茅臺
- 學(xué)而思學(xué)習(xí)機:2024年智能交互2.3 億次 訂正7497萬道錯題
- 做好AI時代云安全,亞馬遜云科技又有這些新思路
- 承認(rèn)監(jiān)聽用戶隱私?蘋果同意支付9500萬美元和解Siri竊聽隱私集體訴訟
- 微信語音消息可以倍速播放了?騰訊客服回應(yīng)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。