合合信息智能文字識別技術“牽手”傳統(tǒng)典籍研究 開啟古彝文“傳統(tǒng)的新生命周期

彝文是云南、貴州、四川等地的彝族人使用的文字,而“古彝文”專指在民間流通使用的原生態(tài)彝文。古彝文傳承至今已有數千年歷史,是世界上最古老的文字之一。根據《滇川黔桂彝文字集》,目前記錄在冊的古彝文多達87046個。在中國西南多家高校的共同努力下,規(guī)范和通用彝文的數字化工作取得了重要突破。為了幫助建立起完善的古彝文數據庫和翻譯系統(tǒng),極大提升研究效率,合合信息與上海大學社會學院正式簽署校企合作協議,將智能文字識別技術引用到古彝文研究工作,并由此建立起精確的彝文古籍電子數據庫,在古彝文研究領域屬于首創(chuàng)。

畢節(jié)市彝文文獻翻譯研究中心展示漢譯書稿

當前非母語研究者在翻譯古彝文時,通常需要在母語者的幫助下記音,再用漢語逐字直譯,最后采用漢語對整句話進行意譯。由于古彝文尚未取得預留的Unicode編碼區(qū)段,數字化工程還處于起步階段,所以在印刷出版時,需由一位彝文繕寫員先將彝文字和國際編碼抄寫在書頁的左側,再將已輸入電腦的漢文譯文打印、剪切后粘貼在相應彝文字的右側,形成目前常見的“四行體”彝漢文對譯,過程十分繁瑣。

由于古彝文與漢字并非一 一對應關系,存在大量的異體字、變體字。在相對規(guī)范的漢譯本彝文典籍中就有至少15%的變體字,原稿中只會更多;每個字的異體寫法少則2-3個,多則幾十種。若想要找到某個字在一本古籍里的全部樣例,手動查閱需要耗費一整天。不僅如此,除了頁面殘損、字形復雜、字跡模糊等古籍識別中常遇到的問題外,彝文古籍還常出現加字、替字、整句倒置、文字方向不統(tǒng)一等現象,給文字定位造成挑戰(zhàn)。再加上古彝文從未經過統(tǒng)一,異體字、變體字眾多,給古彝文數字化團隊帶來非常大的挑戰(zhàn)。

此次上海大學社會學院與合合信息合作,將通過合合信息基于“AI+OCR”融合下的智能文字識別技術,來解決解決古彝文識別的版式檢測、圖像處理和文字識別的難題,通過對大量的彝文古籍文字深度學習和訓練,智能文字識別技術的效率及準確性也會越高,將更快推動古彝文研究進展。

本次合合信息與上海大學共同研究的《西南彝志》共計26卷,有“彝族歷史文化的百科全書”之譽,對研究彝族歷史、經濟、文化十分重要。古彝文數字化項目發(fā)起人、上海大學人類學民俗學研究所講師邵文苑表示,“傳統(tǒng)也和人一樣有生老病死的過程,并和人一樣有通過后代延續(xù)‘生命’的能力,這種理論被稱為‘傳統(tǒng)的生命周期’。”他同時表示,智能文字識別技術“牽手”傳統(tǒng)典籍研究,會是古彝文“傳統(tǒng)的新生命周期”的開始。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )