古彝文傳承至今已有數(shù)千年歷史,是世界上最古老的文字之一。2022年12月21日,合合信息與上海大學(xué)社會(huì)學(xué)院正式簽署校企合作協(xié)議,雙方將合力完成以國家珍貴古籍《西南彝志》為中心的貴州古彝文圖像識(shí)別及數(shù)字化校對項(xiàng)目(簡稱“古彝文數(shù)字化項(xiàng)目”)。
上海大學(xué)社會(huì)學(xué)院院長黃曉春、合合信息智能技術(shù)平臺(tái)事業(yè)部副總經(jīng)理郭豐俊共同出席簽約儀式
此前,在中國西南多家高校的共同努力下,規(guī)范和通用彝文的數(shù)字化工作取得了重要突破,而上海大學(xué)攜手合合信息推進(jìn)的古彝文數(shù)字化項(xiàng)目,更側(cè)重于對原生態(tài)彝文識(shí)別的攻堅(jiān)克難。項(xiàng)目將根據(jù)上海大學(xué)古彝文研究員設(shè)計(jì)的四字節(jié)編碼系統(tǒng),引入合合信息智能文字識(shí)別技術(shù),對異體字、變體字、誤用字和混用字等進(jìn)行標(biāo)注、識(shí)別、比對,并由此建立起精確的彝文古籍電子數(shù)據(jù)庫,在古彝文研究領(lǐng)域?qū)儆谑讋?chuàng)。
亟待識(shí)別的古彝文,比《康熙字典》字?jǐn)?shù)還多
彝文是云南、貴州、四川等地的彝族人使用的文字,而“古彝文”專指在民間流通使用的原生態(tài)彝文。根據(jù)《滇川黔桂彝文字集》,目前記錄在冊的古彝文多達(dá)87046個(gè)。非母語研究者在翻譯古彝文時(shí),通常需要在母語者的幫助下記音,再用漢語逐字直譯,最后采用漢語對整句話進(jìn)行意譯。
由于古彝文尚未取得預(yù)留的Unicode編碼區(qū)段,數(shù)字化工程還處于起步階段,所以在印刷出版時(shí),需由一位彝文繕寫員先將彝文字和國際編碼抄寫在書頁的左側(cè),再將已輸入電腦的漢文譯文打印、剪切后粘貼在相應(yīng)彝文字的右側(cè),形成目前常見的“四行體”彝漢文對譯,過程相對繁瑣。
畢節(jié)市彝文文獻(xiàn)翻譯研究中心展示漢譯書稿
古彝文與漢字并非一一對應(yīng)關(guān)系,存在大量的異體字、變體字。在相對規(guī)范的漢譯本彝文典籍中就有至少15%的變體字,原稿中只會(huì)更多;每個(gè)字的異體寫法少則2-3個(gè),多則幾十種。從總量上看,未經(jīng)整理規(guī)范的古彝文字符數(shù)高達(dá)八萬七千多個(gè),比《康熙字典》的四萬七千余字還多。據(jù)古彝文數(shù)字化團(tuán)隊(duì)研究人員透露,若想要找到某個(gè)字在一本古籍里的全部樣例,手動(dòng)查閱需要耗費(fèi)一整天,如建立起完善的古彝文數(shù)據(jù)庫和翻譯系統(tǒng),可極大提升研究效率。
表示“種類”的彝文字[mo21]/[m?33]的四個(gè)極為相似的變體
兩個(gè)形似、但音義完全不同的彝文字,字義分別為“酒”、“儀禮”
“漢文古籍識(shí)別所面對的頁面殘損、字形復(fù)雜、字跡模糊等問題,在彝文古籍識(shí)別中全部存在,還有一些任務(wù)是更加特殊的。”合合信息智能技術(shù)平臺(tái)事業(yè)部副總經(jīng)理郭豐俊博士提到,彝文古籍時(shí)常出現(xiàn)加字、替字、整句倒置、文字方向不統(tǒng)一等現(xiàn)象,給文字定位造成挑戰(zhàn)。再加上古彝文從未經(jīng)過統(tǒng)一,異體字、變體字眾多。合合信息將基于“AI+OCR”融合下的智能文字識(shí)別技術(shù),解決古彝文識(shí)別的版式檢測、圖像處理和文字識(shí)別的難題。
據(jù)悉,2021年、2022年世界人工智能大會(huì)上,合合信息用AI技術(shù)對甲骨文、西周鐘鼎文進(jìn)行精準(zhǔn)識(shí)別,受到包括央視、人民日報(bào)、新華社在內(nèi)的上百家主流媒體的關(guān)注。郭豐俊博士表示,甲骨文和古彝文追溯源頭都屬于以刻畫符號(hào)表意的文字,兩種文字的識(shí)別方式有相通之處,此次古彝文數(shù)字化項(xiàng)目的開啟,也成為合合信息智能文字識(shí)別技術(shù)賦能文字保護(hù)及文化傳承的重要里程碑。
用科技開啟古彝文“傳統(tǒng)的新生命周期”
1950年,當(dāng)代著名社會(huì)學(xué)家費(fèi)孝通先生訪問貴州畢節(jié)時(shí),率先認(rèn)識(shí)到彝文古籍對理解西南邊疆歷史的重要性,并鼓勵(lì)籌建翻譯機(jī)構(gòu),也為當(dāng)下的古彝文研究提供了支持。古彝文數(shù)字化項(xiàng)目發(fā)起人、上海大學(xué)人類學(xué)民俗學(xué)研究所講師邵文苑所在的上海大學(xué)社會(huì)學(xué)院,便長期設(shè)有費(fèi)孝通田野調(diào)查項(xiàng)目資助計(jì)劃。
古籍?dāng)?shù)字化的過程同時(shí)也是保護(hù)古籍的過程。2017年,72位全國人大代表聯(lián)名建議實(shí)施中華古籍?dāng)?shù)字資源總庫體系建設(shè)工程,實(shí)現(xiàn)歷史文明的有序傳承。本次合合信息與上海大學(xué)共同研究的《西南彝志》共計(jì)26卷,有“彝族歷史文化的百科全書”之譽(yù),對研究彝族歷史、經(jīng)濟(jì)、文化十分重要。
古彝文數(shù)字化的價(jià)值并不止步于學(xué)術(shù)研究。隨著我國小康社會(huì)的全面建成,人們對精神文化關(guān)注度日益提升,以民俗為主題的現(xiàn)代文藝創(chuàng)作、娛樂活動(dòng)讓傳統(tǒng)文化煥發(fā)新的生機(jī),例如中央歌劇院演繹的柯爾克孜族英雄史詩《瑪納斯》,既尊重了民族文化特色,又體現(xiàn)了新時(shí)代的風(fēng)采。
邵文苑提到,古彝文文獻(xiàn)和口傳史詩中記錄了很多南詔古國、夜郎古國、巴蜀古國的奇聞異事,在理解典籍的基礎(chǔ)上,可以通過電影、音樂劇、浸入式戲劇等形式進(jìn)行創(chuàng)作,或打造“元宇宙”世界、IP主題樂園,讓更多人跨越語種的隔閡,感受更多元的民族文化,傾聽獨(dú)具特色的中國故事。
“傳統(tǒng)也和人一樣有生老病死的過程,并和人一樣有通過后代延續(xù)‘生命’的能力,這種理論被稱為‘傳統(tǒng)的生命周期’。”邵文苑表示,智能文字識(shí)別技術(shù)“牽手”傳統(tǒng)典籍研究,會(huì)是古彝文“傳統(tǒng)的新生命周期”的開始。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )