未來(lái)屬于會(huì)用AI的企業(yè)!自己做的免費(fèi)智慧發(fā)票助手,簡(jiǎn)單又強(qiáng)大

文 | 智能相對(duì)論

作者 | 陳泊丞

報(bào)銷(xiāo)發(fā)票的整理、歸納和處理在公司的日常運(yùn)行中扮演著極為重要的角色,但同時(shí)這又是一件極為繁瑣且重復(fù)性較強(qiáng)的工作,那么我們是否可以基于AI技術(shù)打造一個(gè)智能化的發(fā)票助手,幫助財(cái)會(huì)人員快速識(shí)別發(fā)票信息、整理歸檔,全面提供工作效率?基于這個(gè)想法,我們嘗試了多款大模型產(chǎn)品,發(fā)現(xiàn)智譜多模態(tài)大模型GLM-4V-Flash的推出,正好可以很好地支持我們創(chuàng)建一個(gè)智能化的發(fā)票助手,為財(cái)會(huì)工作帶來(lái)全新的解決方案。

01、什么是GLM-4V-Flash?

GLM-4V-Flash是智譜開(kāi)放平臺(tái)(bigmodel.cn)新上線的免費(fèi)的視覺(jué)理解模型。自此,智譜迎來(lái)全免費(fèi)最強(qiáng)“全家桶”產(chǎn)品,不僅基于4V系列模型的各項(xiàng)優(yōu)秀能力,更在圖像處理上實(shí)現(xiàn)了精確度的提升,具備多語(yǔ)言、多模態(tài)處理能力,支持包括中文、英語(yǔ)、日語(yǔ)、韓語(yǔ)、德語(yǔ)在內(nèi)的26種語(yǔ)言,并支持圖像描述生成、圖像分類(lèi)、視覺(jué)推理、視覺(jué)問(wèn)答(VQA)以及圖像情感分析等高級(jí)圖像處理功能。

基于智譜開(kāi)放平臺(tái)的“全家桶”產(chǎn)品,能夠針對(duì)特定垂直行業(yè)提供精準(zhǔn)的場(chǎng)景解決方案,以低成本投入助力開(kāi)發(fā)者迅速融入大模型時(shí)代,無(wú)需顧慮大模型圖像處理的高昂成本。同時(shí),GLM-4V-Flash無(wú)論是在信息提取、內(nèi)容創(chuàng)作,還是圖片識(shí)別等領(lǐng)域都具備不錯(cuò)的性能表現(xiàn)和效果反饋,真正將模型的基礎(chǔ)能力轉(zhuǎn)化為實(shí)際應(yīng)用場(chǎng)景解決方案。

02、基于GLM-4V-Flash,如何打造智慧發(fā)票助手?

智慧發(fā)票助手是一個(gè)多學(xué)科交叉應(yīng)用的結(jié)果,涉及OCR、NLP、計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域的技術(shù)協(xié)同工作,以確保發(fā)票信息的快速、準(zhǔn)確提取和處理。隨著技術(shù)的發(fā)展與應(yīng)用的深入,這一系統(tǒng)的準(zhǔn)確性和效率也會(huì)不斷提高,從而輔助財(cái)會(huì)人員高效地處理相關(guān)工作。

智慧發(fā)票助手的打造需要用到GLM-4V-Flash以下這些能力:

1.多模態(tài)處理能力:用于分析發(fā)票圖像的整體布局,識(shí)別文本內(nèi)容、表格、框線和其他視覺(jué)元素,這對(duì)于正確解析復(fù)雜格式(特別是非結(jié)構(gòu)化的數(shù)據(jù))的發(fā)票至關(guān)重要。此外,這一能力還可以用來(lái)檢測(cè)發(fā)票的完整性(例如是否有缺失部分)以及是否為篡改過(guò)的文件,以確保發(fā)票的合規(guī)性。

2.多語(yǔ)言理解能力:考慮跨國(guó)企業(yè)或跨國(guó)業(yè)務(wù)需求,會(huì)有不同國(guó)家的發(fā)票報(bào)銷(xiāo),可用于識(shí)別不同國(guó)家的語(yǔ)言,拓展智慧發(fā)票助手的應(yīng)用范圍。

3.規(guī)則引擎:根據(jù)預(yù)定義的業(yè)務(wù)邏輯和法規(guī)要求來(lái)驗(yàn)證發(fā)票信息的正確性和合規(guī)性。例如,檢查稅率是否正確應(yīng)用,或者確認(rèn)發(fā)票上的公司注冊(cè)號(hào)是否存在并有效等等。

4.自適應(yīng)學(xué)習(xí)與自動(dòng)化工作流:隨著應(yīng)用深化,智慧發(fā)票助手將可以形成一個(gè)完整的發(fā)票處理流水線,從接收到發(fā)票圖片開(kāi)始,經(jīng)過(guò)多模態(tài)處理、識(shí)別,再到最終的驗(yàn)證和歸檔,整個(gè)過(guò)程都可以被高度自動(dòng)化,同時(shí)還可以根據(jù)新出現(xiàn)的發(fā)票類(lèi)型或用戶提供的反饋不斷優(yōu)化自身的性能。

03、GLM-4V-Flash實(shí)操

一、API調(diào)用申請(qǐng)

打開(kāi)鏈接:

https://bigmodel.cnutm_source=4&utm_campaign=yrgzh&_channel_track_key=ztOmCKeq

2.申請(qǐng)調(diào)用:GLM-4V支持同步調(diào)用

二、以下為調(diào)用實(shí)操:

在這里,我們調(diào)用了GLM-4V-Flash系列模型,以實(shí)現(xiàn)圖像內(nèi)容的精準(zhǔn)識(shí)別,來(lái)完成對(duì)報(bào)銷(xiāo)發(fā)票的處理。

同時(shí),為了讓?xiě)?yīng)用更像一個(gè)智能化的AI助手,我們還簡(jiǎn)單地對(duì)其進(jìn)行了命名,叫作“鈴聲易寫(xiě)1.0”,并配上「智能相對(duì)論」的圖標(biāo)Logo,以及對(duì)文字內(nèi)容進(jìn)行了區(qū)別配色,輸出為一個(gè)直觀的聊天窗口,只需要對(duì)話即可完成智慧發(fā)票助手的工作。

上傳發(fā)票信息:為了進(jìn)一步測(cè)試性能,我們選擇了把所有發(fā)票整理到同一個(gè)文件夾內(nèi),同時(shí)上傳。

我們?cè)诰W(wǎng)上找了兩張不同的發(fā)票,分別為紙質(zhì)中文發(fā)票照片、電子中文發(fā)票圖片,來(lái)讓GLM-4V-Flash進(jìn)行識(shí)別。

識(shí)別成功:我們還讓GLM-4V-Flash在識(shí)別后自動(dòng)歸納重點(diǎn)信息,并輸出為一個(gè)csv表格,方便財(cái)會(huì)人員查看、校對(duì)。

從輸出表格信息可見(jiàn),GLM-4V-Flash成功識(shí)別了報(bào)銷(xiāo)發(fā)票的重要信息,包括買(mǎi)賣(mài)雙方名稱、稅號(hào)和消費(fèi)金額、稅率、稅額等等。

當(dāng)我們只上傳一張發(fā)票圖片,不需要GLM-4V-Flash輸出表格,而是完整的識(shí)別信息,可以看到GLM-4V-Flash基于多模態(tài)處理能力,會(huì)對(duì)整張發(fā)票進(jìn)行全面的識(shí)別,精準(zhǔn)歸納出圖片上的一切信息,甚至是發(fā)票的蓋章情況。

也就是說(shuō),如果能進(jìn)一步用好GLM-4V-Flash的這一能力,我們所打造的智慧發(fā)票助手不僅能識(shí)別發(fā)票信息,甚至還可以驗(yàn)證發(fā)票的蓋章情況,確認(rèn)合規(guī)性,又進(jìn)一步節(jié)省了財(cái)會(huì)人員的校對(duì)流程,大大提高工作效率。

為了進(jìn)一步驗(yàn)證GLM-4V-Flash的多語(yǔ)言識(shí)別能力,同時(shí)考慮到外國(guó)沒(méi)有發(fā)票形式,大多采用消費(fèi)單據(jù)來(lái)作為報(bào)銷(xiāo)憑證,結(jié)合實(shí)際場(chǎng)景需求,我們又上傳了一張全英文的消費(fèi)單據(jù)。

結(jié)果顯示,GLM-4V-Flash依舊可以很好地識(shí)別消費(fèi)單據(jù)的具體內(nèi)容,且條理非常清晰。那么,我們只需要進(jìn)一步像前面那樣,讓GLM-4V-Flash將這些信息整理歸納,并輸出到同一張csv表格中,就能統(tǒng)一不同國(guó)家發(fā)票、單據(jù)的報(bào)銷(xiāo)匯總。

當(dāng)然,若要得到一個(gè)更“聰明”的智慧發(fā)票助手,我們還需要進(jìn)一步預(yù)定義GLM-4V-Flash的業(yè)務(wù)邏輯和法規(guī)要求,從而讓其更好地識(shí)別、驗(yàn)證并歸納公司發(fā)票信息。但是,不可否認(rèn),有了上述這些強(qiáng)大能力的支持,我們想要基于智譜開(kāi)放平臺(tái)來(lái)打造一個(gè)智慧發(fā)票助手,并不復(fù)雜。

04、人人都能開(kāi)啟企業(yè)的數(shù)智化轉(zhuǎn)型升級(jí)

基于實(shí)操表現(xiàn)來(lái)看,GLM-4V-Flash具備強(qiáng)大的多模態(tài)處理能力、多語(yǔ)言識(shí)別能力,不需要開(kāi)發(fā)者做過(guò)多的操作就能調(diào)用,用于打造一個(gè)不錯(cuò)的智慧發(fā)票助手。那么,在這個(gè)基礎(chǔ)上,只要我們基于智譜開(kāi)放平臺(tái),根據(jù)不同的業(yè)務(wù)需求打造多個(gè)AI助手,再進(jìn)行匯總、協(xié)同,融入公司的數(shù)智化流程以及加入公司的外掛知識(shí)庫(kù)進(jìn)行訓(xùn)練、微調(diào),我們很容易就能實(shí)現(xiàn)公司的數(shù)智化轉(zhuǎn)型。

比如,我們現(xiàn)在已經(jīng)擁有了一個(gè)智能識(shí)別、整理歸納的智慧發(fā)票助手,再把智慧發(fā)票助手與公司OA(如供應(yīng)鏈采購(gòu)、員工差旅、營(yíng)銷(xiāo)活動(dòng)等)結(jié)合起來(lái),自動(dòng)識(shí)別各種重要節(jié)點(diǎn)的發(fā)票信息,并智能化生成各種電子報(bào)表,就能協(xié)助財(cái)會(huì)部分做好財(cái)務(wù)管理、成本控制等,同時(shí)也更好地協(xié)助業(yè)務(wù)部門(mén)的工作。而這樣的能力再拓展,用于合同管理、檔案歸納等重要文書(shū)工作,也將加速公司資產(chǎn)數(shù)智化,全面推進(jìn)公司轉(zhuǎn)型升級(jí)。

可以預(yù)想,隨著智譜開(kāi)放平臺(tái)“全家桶”產(chǎn)品的開(kāi)放調(diào)用,企業(yè)的數(shù)智化轉(zhuǎn)型也就有了非常強(qiáng)大的技術(shù)能力支持,只需要基于公司對(duì)業(yè)務(wù)的理解和需求,再進(jìn)行簡(jiǎn)單的調(diào)用、開(kāi)發(fā),就能很容易得到一個(gè)全面且強(qiáng)大的AI應(yīng)用,支持各類(lèi)重點(diǎn)業(yè)務(wù)的發(fā)展。智譜開(kāi)放平臺(tái)的技術(shù)能力是沒(méi)問(wèn)題的,重點(diǎn)在于公司應(yīng)該如何去用它,構(gòu)建自己的AI應(yīng)用模式。

*本文圖片均來(lái)源于網(wǎng)絡(luò)

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-12-19
未來(lái)屬于會(huì)用AI的企業(yè)!自己做的免費(fèi)智慧發(fā)票助手,簡(jiǎn)單又強(qiáng)大
未來(lái)屬于會(huì)用AI的企業(yè)!自己做的免費(fèi)智慧發(fā)票助手,簡(jiǎn)單又強(qiáng)大

長(zhǎng)按掃碼 閱讀全文