蜜度攜“跨模態(tài)信息檢索”與“智能校對”兩大應(yīng)用開啟數(shù)智化新未來

在剛剛落幕的2022世界人工智能大會(WAIC)中,上海蜜度信息技術(shù)有限公司不僅與上海市人工智能行業(yè)協(xié)會主辦了“數(shù)據(jù)智能與內(nèi)容認(rèn)知高峰論壇”,邀請數(shù)據(jù)智能領(lǐng)域的國內(nèi)外頂級學(xué)者共同深度探討了技術(shù)演進(jìn)與未來愿景;在展覽活動中更通過“蜜小智”“蜜小度”“蜜小校”等虛擬形象,帶領(lǐng)觀眾沉浸式地感受了跨模態(tài)信息檢索與智能校對兩大數(shù)據(jù)智能應(yīng)用在具體場景中的賦能。

作為蜜度以強(qiáng)大科研能力與深邃行業(yè)洞察研發(fā)的兩大創(chuàng)新應(yīng)用,跨模態(tài)信息檢索和智能校對能夠成為深化數(shù)據(jù)價值和提升工作效率的重要途徑?;趦烧叩亩鄨鼍皵?shù)據(jù)智能產(chǎn)品和解決方案,也已經(jīng)為不同行業(yè)用戶提供了從數(shù)據(jù)融合到智能認(rèn)知、從策略生成到自動處理的全流程服務(wù),全面助力政府及企業(yè)的數(shù)智化轉(zhuǎn)型升級。

跨模態(tài)檢索:匯集湍流,覓取一瓢

人類活動伴隨著信息的產(chǎn)生與散播,而隨著技術(shù)的進(jìn)階,信息的模態(tài)也從單一文本向多模態(tài)發(fā)展,包括圖片、音頻和視頻在內(nèi)的多模態(tài)信息占比越來越大。而當(dāng)湍流般的龐雜訊息噴涌而至,跨越模態(tài)的檢索能幫助我們更接近我們尋覓的答案。

在技術(shù)角度,跨模態(tài)的實(shí)現(xiàn)主要依賴以下四個層面的技術(shù):

一是跨模態(tài)對比學(xué)習(xí),指首先從單模態(tài)數(shù)據(jù)中的相似性排序進(jìn)行數(shù)據(jù)增強(qiáng),再使用對應(yīng)特征計算對比學(xué)習(xí)損失,最終使模型在多模態(tài)任務(wù)中的表現(xiàn)更為出色。

二是跨模態(tài)語義融合,指通過整合不同模態(tài)間的模型和特征,提高理解能力與效率,實(shí)現(xiàn)對語音文字文本的自動糾錯,提升識別準(zhǔn)確率。

三是跨模態(tài)語義表征,指整合多模態(tài)信息,并對表征進(jìn)行聯(lián)合,從而實(shí)現(xiàn)視頻內(nèi)容的一體化識別。

四是跨模態(tài)語義檢索,指通過用搜索特征向量對海量目標(biāo)高維向量進(jìn)行近似最近鄰計算,實(shí)現(xiàn)語義檢索及TopN相似結(jié)果的召回,最終提高檢索結(jié)果的精度。

秉承高效而全面的跨模態(tài)檢索能力,蜜度旗下跨模態(tài)檢索平臺“蜜度索驥”在保障了文本判讀與圖片識別準(zhǔn)確率的同時,還能夠智能識別圖片中的文字內(nèi)容,準(zhǔn)確解析視頻中的字幕、背景、封面等特征元素。

對模型的細(xì)節(jié)優(yōu)化同樣步履不停,目前,蜜度索驥已實(shí)現(xiàn)對常規(guī)常見場景的快速識別與提取,并針對一百余個政務(wù)類單位、近300個特殊場景進(jìn)行加強(qiáng)訓(xùn)練,實(shí)現(xiàn)特殊場景識別;并通過智能識別能力輸出視覺、語音多維度內(nèi)容標(biāo)簽,進(jìn)一步提高檢索效率。

目前,蜜度旗下的蜜度索驥、蜜度版權(quán)通、城感通等產(chǎn)品已經(jīng)植入了先進(jìn)的跨模態(tài)檢索能力,為社會治理、網(wǎng)絡(luò)安全、版權(quán)保護(hù)、品牌決策、營銷洞察等場景打造了標(biāo)桿化應(yīng)用。

除了各種場景化應(yīng)用之外,跨模態(tài)檢索的發(fā)展也為AIGC(AI Generated Content,人工智能自主生成內(nèi)容)帶來了前所未有的勢能。一個極好的例子就是正在迅猛發(fā)展中的AI繪畫——借助大模型的跨模態(tài)綜合技術(shù)能力,人工智能可以通過表征學(xué)習(xí)將圖像、視頻、音頻、語義等多模態(tài)信息融合,再佐以跨模態(tài)數(shù)據(jù)的協(xié)同訓(xùn)練,最終讓抽象的自然語言可以經(jīng)由預(yù)訓(xùn)練模型自動完成視覺圖像的自動生成。

蜜度AI小畫家“蜜小度”繪制作品

隨著人工智能技術(shù)的全局發(fā)展,跨模態(tài)檢索提升的不僅是搜索效率與結(jié)果質(zhì)量,同樣也幫助我們突破人腦的創(chuàng)意限制,用貼切的想象力營建更精彩的未來世界。

智能校對:一目萬行,纖悉無遺

蜜度在智能校對應(yīng)用能力通過結(jié)合行業(yè)先進(jìn)的自然語言處理、知識圖譜與光學(xué)字符識別等技術(shù),實(shí)現(xiàn)了對中文文本和語義關(guān)系錯誤的自動發(fā)現(xiàn)與糾正處理,可廣泛應(yīng)用于政府公文、新聞稿件、日常寫作等場景,在降低差錯概率和提升文本質(zhì)量的同時,也大幅度提高工作效率。

在技術(shù)角度,智能校對的實(shí)現(xiàn)主要有以下特點(diǎn):

一是基于“大數(shù)據(jù)+大模型”,百億級別的平衡語料,實(shí)現(xiàn)細(xì)微語義信息的捕捉、辨別。

二是專用校對知識圖譜,以知識圖譜技術(shù)驅(qū)動,刻畫人物、機(jī)構(gòu)、地域等實(shí)體關(guān)系,實(shí)現(xiàn)時政相關(guān)表述校對,讓字符串擁有關(guān)聯(lián)語義。

三是專業(yè)領(lǐng)域校對賦能,通過集成學(xué)習(xí)技術(shù),能夠快速形成不同行業(yè)的校對能力。

蜜度旗下AI智能校對平臺“蜜度校對通”就是基于智能校對應(yīng)用而開發(fā)的專業(yè)軟件。蜜度校對通圍繞中文語言特點(diǎn)及使用習(xí)慣,以百億級訓(xùn)練語料為基礎(chǔ),覆蓋文字標(biāo)點(diǎn)差錯、知識性差錯、內(nèi)容導(dǎo)向風(fēng)險三大審核與校對類型,并擁有25類全棧審核與校對能力,能夠?qū)﹀e別字、詞,多字、少字錯誤,語義重復(fù),語序錯誤,句式雜糅,量與單位差錯;專有名詞及術(shù)語,法律法規(guī)名稱,常識差錯等內(nèi)容進(jìn)行智能審核與校對,有效解決內(nèi)容的規(guī)范性、安全性、合法性問題。

無論是政務(wù)單位的日常公文、思想?yún)R報、宣傳稿、工作總結(jié)等材料;還是圖書、期刊、科研報告、論文、媒體通稿、專題報道等文稿;抑或音像電子、網(wǎng)絡(luò)游戲等電子出版物;以及企業(yè)軟文、品宣物料、策劃案等內(nèi)容,都可以由蜜度校對通執(zhí)行快速錯敏校對,一站式全方位地提高內(nèi)容質(zhì)量,保障內(nèi)容安全。

AI智能校對平臺——蜜度校對通

就在此次2022世界人工智能大會(WAIC)現(xiàn)場,軟硬件本地化智能解決方案——校對通AI-Box也正式發(fā)布,作為首個通過華為昇騰AI生態(tài)認(rèn)證的本地化智能校對解決方案,校對通AI-Box既可以在本地化的部署下,充分保障數(shù)據(jù)私密性;也能夠作為專屬的邊緣計算,大幅度提升用戶工作效率;同時也在融入華為昇騰 AI 生態(tài)體系的過程中,與主流國產(chǎn)系統(tǒng)共同營造高質(zhì)量的數(shù)字辦公體驗(yàn)。

對數(shù)據(jù)最好的尊重是智能化地挖掘它們蘊(yùn)藏的價值,而在此過程中,我們不僅可以凝集人類的過往經(jīng)驗(yàn)用以打造更快捷的算法模型,也需要人工智能使用不同于人腦的方式感知這個世界,從而開辟一個全新的方式,不僅理解萬物,也汲取能量,最終創(chuàng)造更精彩的未來。

人工智能是屬于這個時代的強(qiáng)大工具,它不僅是信息檢索長途上的同行者,也是重構(gòu)世界的創(chuàng)造者,而作為數(shù)據(jù)智能領(lǐng)域的領(lǐng)軍者,蜜度致力于用每一點(diǎn)技術(shù)進(jìn)步,推動各行各業(yè)的數(shù)智化發(fā)展,與業(yè)內(nèi)合作伙伴以及廣大用戶一同,眾行致遠(yuǎn),探索浩瀚。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )