合合信息:以文檔解析技術(shù)賦能大模型,破解語料難題

在大模型迅速發(fā)展的背景下,模型訓練語料的質(zhì)量和數(shù)量成為關(guān)鍵因素。然而,當前面臨著高質(zhì)量語料短缺的問題,大量有價值的語料沉睡在各種文檔中,難以被有效利用。合合信息的文檔解析技術(shù)為解決這一難題提供了新的途徑。

據(jù)人工智能研究人員小組Epoch研究估計,機器學習數(shù)據(jù)集可能會在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”。以中文語料為例,其在全球通用的大模型數(shù)據(jù)訓練集中占比僅為1.3%,數(shù)量和質(zhì)量都存在不足。同時,文檔的復雜版面結(jié)構(gòu)也制約了大模型的訓練語料處理能力。

為了應(yīng)對這一挑戰(zhàn),合合信息在WAIC 2024和CCIG 2024上分別展示了其用于大模型語料訓練的“加速器”產(chǎn)品——TextIn智能文檔處理平臺。該平臺由TextIn文檔解析、TextIn Embedding(文本向量數(shù)據(jù)模型)以及OpenKIE三大工具組成。

TextIn文檔解析在處理復雜語料方面表現(xiàn)出色。以銀行基金對賬單托管業(yè)務(wù)為例,面對眾多基金公司不同的賬單樣式和復雜表格,TextIn文檔解析能夠快速、準確地從非結(jié)構(gòu)化圖文信息中抽取數(shù)據(jù),并智能還原文檔的閱讀順序。它還能處理無線表、跨頁表格、公式等復雜元素,最快1.5秒就能完成百頁長文檔的解析。此外,在面對多類型樣本問題時,TextIn文檔解析注重圖表數(shù)據(jù)訓練,能將柱狀圖、折線圖、餅圖等十余種常見圖表還原為Json或Markdown格式,讓大模型更好地理解圖表數(shù)據(jù)和學習專業(yè)文檔的論證邏輯。

TextIn Embedding模型則能提高大模型信息搜索和問答的質(zhì)量、效率和準確性。它像“指南針”一樣,通過深入學習大量中文語料,迅速找到目標信息定位并提取有效文本特征,完成分類和聚類任務(wù)。該模型還引入了持續(xù)學習訓練方式,支持可變輸出維度,提升了模型系統(tǒng)的性能和體驗。

OpenKIE是一個可用于圖像文檔的信息抽取工具,能自動抽取文檔中所需信息,并應(yīng)用或?qū)氲狡渌到y(tǒng)中。例如,合合信息與百川智能合作,將百頁文檔的整體處理速率提升超過10倍,共同破解了多文檔元素識別、版面分析等難題。

在CCIG 2024上,合合信息智能創(chuàng)新事業(yè)部研發(fā)總監(jiān)常揚分享了智能文檔處理技術(shù)在文檔解析領(lǐng)域的工作。文檔解析的難點在于準確識別文檔元素和理解其邏輯關(guān)系,需要關(guān)注“物理版面分析”和“邏輯版面分析”。合合信息通過十幾年技術(shù)積淀,打通了文檔智能化處理的全流程,能靈活識別各種版面元素,準確還原文檔閱讀順序,為大模型提供精準的訓練語料和文檔問答應(yīng)用體驗。

目前,TextIn智能文檔處理平臺已可覆蓋金融、醫(yī)學、財經(jīng)、媒體等47個場景,共3200余類文檔,被用于百川智能等多家頭部大模型廠商的預(yù)訓練流程,并積累了小批量開發(fā)者用戶。

未來,合合信息將重點瞄準金融、醫(yī)療等行業(yè)推出垂直領(lǐng)域產(chǎn)品,同時面向開發(fā)者推進內(nèi)測計劃,吸納更多用戶參與到產(chǎn)品共創(chuàng)和優(yōu)化中,以持續(xù)提升文檔解析技術(shù)在大模型領(lǐng)域的應(yīng)用價值。

合合信息的文檔解析技術(shù)為大模型的發(fā)展提供了有力支持,有望推動大模型在各行業(yè)的廣泛應(yīng)用,為數(shù)字化轉(zhuǎn)型帶來新的機遇。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )