国内视频在线精品一区,久久人人超碰人爱

7月4日至7日，2024世界人工智能大會(huì)在上海拉開(kāi)帷幕?，F(xiàn)階段，“百模大戰(zhàn)”現(xiàn)象背后的中國(guó)大模型發(fā)展前景與堵點(diǎn)仍然是各界關(guān)注的焦點(diǎn)。如何幫助大模型在信息的海洋中快速找準(zhǔn)航向，在數(shù)據(jù)的荒漠中找到高質(zhì)量的“水源”？合合信息在本次大會(huì)上展示了大模型“加速器”解決方案。

微信圖片_20240704170015.jpg

據(jù)了解，在大模型訓(xùn)練的上游階段，“加速器”中的文檔解析引擎將助力大模型突破在書(shū)籍、論文、研報(bào)等文檔中的版面解析障礙，從源頭為模型訓(xùn)練與應(yīng)用輸送純凈的“燃料”，助力大模型跑得更快；“加速器”還加載了行業(yè)領(lǐng)先的acge文本向量化模型，助力大模型解決“已讀亂回”的“幻覺(jué)”問(wèn)題，讓大模型在正確的航線(xiàn)上行駛得更遠(yuǎn)。

大模型發(fā)展需要“智慧燃料”

大模型技術(shù)的發(fā)展和應(yīng)用，預(yù)示著更加智能化、個(gè)性化未來(lái)的到來(lái)。如果將大模型比喻為正在疾馳的科技列車(chē)，語(yǔ)料便是珍貴的“燃料”。對(duì)于中國(guó)的大模型企業(yè)而言，語(yǔ)料短缺問(wèn)題更為嚴(yán)峻。當(dāng)前大模型數(shù)據(jù)集主要為英文，中文語(yǔ)料占比較低；無(wú)線(xiàn)表、跨頁(yè)表格、復(fù)雜公式等元素的處理仍是大模型語(yǔ)料處理中的另一個(gè)“攔路虎”。

文檔解析技術(shù)是支撐大模型語(yǔ)料訓(xùn)練的關(guān)鍵技術(shù)之一，面臨著從海量文檔中高效提煉“智慧燃料”的艱巨任務(wù)。合合信息的文檔解析引擎具備強(qiáng)大的“動(dòng)能”，最快1.5秒可解析百頁(yè)長(zhǎng)文檔中的文本、表格、圖像等非結(jié)構(gòu)化數(shù)據(jù)，也是當(dāng)前市面上同類(lèi)文檔解析引擎中處理速度最快的產(chǎn)品之一；同時(shí)，引擎還具備優(yōu)秀的文檔“理解力”，可智能還原文檔閱讀順序，加速了模型在預(yù)訓(xùn)練、開(kāi)發(fā)、使用落地等多方面的流程。

大模型使用文檔解析引擎之前（左框）和之后（右框）的效果對(duì)比。使用后大模型具備了更快速、優(yōu)秀的文檔要素分析、表格內(nèi)容識(shí)別能力。

金融報(bào)表、行業(yè)報(bào)告等高知識(shí)密度的文檔中，表格的含義是最精華的數(shù)據(jù)指標(biāo)。失之毫厘差之千里，一個(gè)單元格的理解問(wèn)題，可能導(dǎo)致整個(gè)表格的識(shí)別結(jié)果產(chǎn)生誤差，所以表格的還原準(zhǔn)確率，直接影響著模型問(wèn)答的效果。在現(xiàn)場(chǎng)，參觀(guān)者可選擇物理、醫(yī)學(xué)、金融、社會(huì)學(xué)等多個(gè)知識(shí)領(lǐng)域的文檔，向大模型提問(wèn)專(zhuān)業(yè)問(wèn)題，例如對(duì)特定表格內(nèi)容的總結(jié)、關(guān)鍵要素的分析等。對(duì)比測(cè)試結(jié)果顯示，加載了文檔解析引擎的大模型，在回答問(wèn)題的速度、準(zhǔn)確度上更勝一籌。

文檔解析引擎幫大模型“讀懂”圖表

在文檔解析范疇中，針對(duì)圖表類(lèi)素材的識(shí)別、內(nèi)容理解是多數(shù)大模型亟待解決的障礙，合合信息大模型“加速器”則打通了這一堵點(diǎn)：引擎能夠深度“洞察”圖表內(nèi)容，對(duì)研報(bào)、論文等文檔中的柱狀圖、折線(xiàn)圖、餅圖、雷達(dá)圖等十余種常見(jiàn)圖表進(jìn)行“還原”，巧妙轉(zhuǎn)化大模型能夠理解的markdown格式，使數(shù)據(jù)和圖表的價(jià)值潛能充分釋放。

在文檔解析引擎的幫助下，大模型可以直接獲取圖表原始的結(jié)構(gòu)化數(shù)據(jù)，高效地學(xué)習(xí)理解商業(yè)研報(bào)和學(xué)術(shù)論文等專(zhuān)業(yè)文檔中的論證邏輯，提升語(yǔ)言理解、數(shù)據(jù)處理、知識(shí)推理分析的效率和準(zhǔn)確性，滿(mǎn)足更高價(jià)值的金融和學(xué)術(shù)等應(yīng)用場(chǎng)景的需要。

在實(shí)際應(yīng)用場(chǎng)景中，圖表的呈現(xiàn)形式多樣。受美術(shù)排版、內(nèi)容風(fēng)格影響，部分圖表除坐標(biāo)系區(qū)間外，不會(huì)顯示具體的節(jié)點(diǎn)數(shù)值，給大模型的“認(rèn)知”工作帶來(lái)了困擾。值得關(guān)注的是，合合信息文檔解析引擎已經(jīng)能夠做到在圖表不顯示具體數(shù)值的情況下，僅依據(jù)坐標(biāo)軸區(qū)間估算具體數(shù)值，實(shí)現(xiàn)了行業(yè)級(jí)突破。

文檔解析引擎基于坐標(biāo)軸區(qū)間，對(duì)不顯示具體數(shù)據(jù)的圖表進(jìn)行數(shù)值估算。

acge模型：為大模型穿越信息迷霧“導(dǎo)航”

如果說(shuō)文檔解析是為大模型加滿(mǎn)油，acge模型則是為其配備了精準(zhǔn)的“導(dǎo)航系統(tǒng)”。合合信息大模型“加速器”加載了acge_text_embedding模型（簡(jiǎn)稱(chēng)“acge模型”），如同“指南針”一般，引導(dǎo)大模型在信息的汪洋大海中準(zhǔn)確定位目標(biāo)，減少“幻覺(jué)”發(fā)生，提升回答問(wèn)題的準(zhǔn)確性和針對(duì)性。

acge模型通過(guò)對(duì)大量中文文本數(shù)據(jù)的深入學(xué)習(xí)，有效提取文本特征，幫助大模型快速在信息的海洋里“撈針”，其在分類(lèi)和聚類(lèi)任務(wù)中展現(xiàn)出高準(zhǔn)確率，讓大模型更準(zhǔn)確地理解專(zhuān)業(yè)問(wèn)題。模型不僅在信息檢索和分類(lèi)任務(wù)上展現(xiàn)了卓越的性能，更通過(guò)持續(xù)學(xué)習(xí)機(jī)制，克服了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的遺忘難題，為各行各業(yè)大模型的智能化升級(jí)提供了強(qiáng)大的推動(dòng)力。

與頭部廠(chǎng)商共尋大模型專(zhuān)業(yè)化發(fā)展之路

在表格內(nèi)容還原、復(fù)雜樣本處理、多語(yǔ)言文檔識(shí)別等方面，合合信息大模型“加速器”具備高準(zhǔn)確性和穩(wěn)定性，大幅提升了模型的理解力，并通過(guò)其強(qiáng)大的多語(yǔ)言識(shí)別、多類(lèi)型支持能力，為多個(gè)行業(yè)提供了高效、準(zhǔn)確、實(shí)用的文檔解析服務(wù)。本次世界人工智能大會(huì)現(xiàn)場(chǎng)，合合信息與百川智能攜手，穿透雙欄、多欄、表格、圖片等復(fù)雜的版式，從金融、社科等多領(lǐng)域文檔圖像中快速提取關(guān)鍵信息，精準(zhǔn)地回答用戶(hù)“刁鉆”的專(zhuān)業(yè)問(wèn)題，引起了業(yè)內(nèi)人士的關(guān)注。

百川智能是一家研發(fā)通用人工智能并提供相關(guān)服務(wù)的公司，核心業(yè)務(wù)是打造基礎(chǔ)大模型及顛覆性上層應(yīng)用。在大模型文檔處理場(chǎng)景中，合合信息與百川共同探索技術(shù)應(yīng)用新范式，破解困擾大模型產(chǎn)業(yè)已久的多文檔元素識(shí)別、版面分析難題，將對(duì)百頁(yè)文檔的整體處理速率提升超過(guò)10倍。

百川智能表示，大模型技術(shù)應(yīng)用到千行百業(yè)，除了模型底層技術(shù)能力提升，離不開(kāi)與行業(yè)知識(shí)庫(kù)的協(xié)作。大模型+知識(shí)庫(kù)能解決大部分企業(yè)定制化需求，有效提升工作效率。例如文檔解析是企業(yè)工作流中最常用到的，它的表現(xiàn)關(guān)乎數(shù)據(jù)輸入準(zhǔn)確性、信息提取的完整性及作用于應(yīng)用場(chǎng)景的擴(kuò)展，可以說(shuō)深度鑄就了廣度。與合合信息等專(zhuān)業(yè)伙伴之間的緊密配合，可以共同克服這些技術(shù)和場(chǎng)景瓶頸，未來(lái)也希望能匯集各方力量，共同推動(dòng)大模型落地行業(yè)應(yīng)用的進(jìn)步。

合合信息智能創(chuàng)新事業(yè)部總經(jīng)理唐琪提到，目前，大模型“加速器”已被多家大模型廠(chǎng)商應(yīng)用于金融、醫(yī)學(xué)、財(cái)經(jīng)、媒體等多領(lǐng)域的文檔的解析中，助力大模型更順利地接軌“專(zhuān)業(yè)課”，它不僅僅是一套技術(shù)工具，更是推動(dòng)行業(yè)專(zhuān)業(yè)知識(shí)管理革新、提升業(yè)務(wù)效率的重要基石。未來(lái)，大模型加速器將陪伴更多行業(yè)級(jí)知識(shí)庫(kù)的建立，讓大模型的服務(wù)潤(rùn)澤社會(huì)各個(gè)角落，實(shí)現(xiàn)“智能觸手可及”。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）