日韩A级一区二区三区无码,日本欧美国产精品第一页久久

“高估了短期價(jià)值，低估了長期影響。”伴隨一個(gè)新技術(shù)熱點(diǎn)的出現(xiàn)，我們總會(huì)聽到提醒的聲音。

在新技術(shù)實(shí)際產(chǎn)生難以置信的變革效果之前，往往存在一個(gè)不長不短的“炒作”鴻溝：有的入局者激流勇進(jìn)，樂在其中;而有的玩家則放慢腳步，重新思考如何凸顯創(chuàng)新的價(jià)值。

那么，大模型如何發(fā)揮出大眾和產(chǎn)業(yè)所期待的價(jià)值?如何打造行業(yè)大模型?又該如何評價(jià)大模型產(chǎn)品的好壞?

明略科技集團(tuán)的CTO郝杰接受51CTO專訪，講述作為一名深耕AI技術(shù)多年的開拓者，在大模型技術(shù)浪潮中的產(chǎn)品創(chuàng)新之道。

尋找成本更低的路徑

ChatGPT掀起熱潮的同時(shí)，其高昂的訓(xùn)練成本也驚動(dòng)了整個(gè)AI界，不管是參數(shù)量、數(shù)據(jù)量，還是數(shù)據(jù)的處理過程成本、算力、存儲(chǔ)、推理部署等等，都需要非常高的投入。但凡企業(yè)要入局大模型，高額成本都是一個(gè)不可逾越的難題。

然而，明略科技的情況則更為不同。明略的客戶包括很多行業(yè)，比如：美妝、化妝品、汽車、3C、大健康等等。具體來講，就是要在大模型時(shí)代把效果好的技術(shù)和服務(wù)帶到他們的產(chǎn)品中去，帶到他們的營銷、銷售、服務(wù)等各種流程中去。

所以，這個(gè)難題更為苛刻，如郝杰所說：“我們需要在降低成本的條件下，做出各行各業(yè)的大模型來。”比如說，美妝行業(yè)大模型、汽車行業(yè)大模型、3C行業(yè)大模型等等。“因此，從技術(shù)上來講，我們面臨的是一個(gè)大模型自適應(yīng)的問題。”

比行業(yè)自適應(yīng)顆粒度更小的，則是場景自適應(yīng)、流程自適應(yīng)，橫向展開還有多語言、多語種自適應(yīng)等等，都是需要解決的問題。

舉個(gè)例子，明略有一些海外的業(yè)務(wù)，或者是客戶在海外開展的業(yè)務(wù)，比如說在東南亞市場上的社交輿情分析洞察，就有多語種適應(yīng)等技術(shù)的介入。

自適應(yīng)其實(shí)就是用盡量小的代價(jià)去實(shí)現(xiàn)一個(gè)非常好的效果。好的大模型需要具備通用大模型的好的邏輯性、語言的順暢度，同時(shí)還需要要實(shí)現(xiàn)一個(gè)通用大模型所不具備的，某個(gè)行業(yè)或具體的領(lǐng)域中的事實(shí)真實(shí)性、專業(yè)性。

而后者，恰恰是明略很有可能做得更好的。這正是行業(yè)大模型實(shí)現(xiàn)的路徑。行業(yè)大模型、場景大模型，與通用型的大模型不同，它會(huì)注入到我們千行百業(yè)的場景中做自適應(yīng)，同時(shí)也可以做到低成本化。

行業(yè)大模型的關(guān)鍵步驟

對明略科技而言，已經(jīng)積累下來很多對各行業(yè)的理解和認(rèn)知，這些認(rèn)知已經(jīng)通過知識(shí)庫，或者是知識(shí)圖譜的形式來沉淀在明略科技內(nèi)部了。明略科技旗下子品牌秒針系統(tǒng)給各行各業(yè)的客戶提供社交媒體平臺(tái)上的內(nèi)容分析洞察，再比如團(tuán)隊(duì)中經(jīng)驗(yàn)豐富的行業(yè)分析師，以及在報(bào)告分析生成或洞察分析中，產(chǎn)研團(tuán)隊(duì)提供的各種工具和服務(wù)等等。

所以，目前明略已經(jīng)擁有很多頭部行業(yè)，或者說重點(diǎn)行業(yè)的知識(shí)庫和知識(shí)圖譜。知識(shí)圖譜相對于知識(shí)庫，它在知識(shí)表示上的級(jí)別或?qū)哟尉透咭恍?，更完美一些?/p>

在做行業(yè)大模型時(shí)，明略有一個(gè)非常關(guān)鍵的步驟叫做知識(shí)增強(qiáng)，利用已經(jīng)積累下來的這些知識(shí)庫、知識(shí)圖譜，或者是說其中的實(shí)體關(guān)系、屬性等等這些非常高價(jià)值的內(nèi)容，參與到大模型訓(xùn)練中去。這樣，在具體的一個(gè)行業(yè)或場景中訓(xùn)練出來的大模型，評測效果往往是顯著的高于通用大模型的。這是明略的方法論。

產(chǎn)品臨界點(diǎn)：一場理想與現(xiàn)實(shí)的考量

判斷是否做一款產(chǎn)品，要看當(dāng)時(shí)的技術(shù)成熟度和用戶接受程度，如果只有剛性需求，技術(shù)成熟度不足的情況下，則很難以支撐它用短平快的方法做出來。一位知名投資人就曾表示，某團(tuán)隊(duì)投入1000人基于騰訊會(huì)議做自動(dòng)會(huì)議紀(jì)要，做了一年，準(zhǔn)確率也只有60%，而用ChatGPT能夠達(dá)到90%的準(zhǔn)確率。

那么，在決定做一款AI產(chǎn)品前，產(chǎn)研決策者會(huì)有哪些考量呢?郝杰給我們講述了自己團(tuán)隊(duì)的一個(gè)案例。2021年，郝杰曾組織產(chǎn)研同學(xué)認(rèn)真做過了幾番討論，目的就是要不要做一個(gè)騰訊會(huì)議的外掛式的會(huì)議紀(jì)要整理、梳理的工具產(chǎn)品。

“線上會(huì)議越來越多，大家有這樣剛性的需求。而且，明略有在做一款重要?jiǎng)?chuàng)新會(huì)議工具產(chǎn)品，是圍繞著騰訊的企業(yè)微信來開發(fā)的。它和騰訊文檔、騰訊會(huì)議的關(guān)系天生就是緊密相關(guān)的。所以當(dāng)時(shí)有這樣的想法也是自然而然的。”郝杰回憶道。

最終討論的結(jié)果是，前年并沒有直接去做，而是在去年年底開始執(zhí)行的，而且已經(jīng)做到了一個(gè)里程碑。“現(xiàn)在我們有一個(gè)會(huì)議分析SaaS軟件，因?yàn)檫@個(gè)工具可以自動(dòng)把會(huì)議語音文件根據(jù)內(nèi)容大意進(jìn)行切條，我們?nèi)∶麨?lsquo;小條’。”

“小條”是基于明略的語音識(shí)別和自然語言處理技術(shù)，也接入了大模型的接口，具有會(huì)議轉(zhuǎn)錄功能，還能結(jié)合剪輯技術(shù)以把獨(dú)立的一段內(nèi)容進(jìn)行標(biāo)注，這樣可以方便事后重聽，或者是剪輯的時(shí)候找當(dāng)時(shí)的重點(diǎn)，是一款非常實(shí)用且方便的會(huì)議工具。

ChatGPT出來之后，會(huì)議分析這一類的服務(wù)，恰好就變成了針對大模型的一種淺層封裝，成本就會(huì)非常小。

但是這也要求決策者對于時(shí)機(jī)的把握，要抓得很準(zhǔn)。因?yàn)檫@也意味著進(jìn)入了新的紅海，即使是在校學(xué)生，也可以在大模型的加持下，做出一個(gè)會(huì)議的分析系統(tǒng)，或者是校園里面網(wǎng)課視頻的分析、分割系統(tǒng)來。這個(gè)時(shí)候比拼的就是產(chǎn)品上的功能、亮點(diǎn)，它在用戶交付過程當(dāng)中如何去思考設(shè)計(jì)的更加貼心，這樣它就能夠通過SaaS軟件抓住更多的訂閱者進(jìn)行“滾雪球”。

謹(jǐn)慎樂觀：大模型也會(huì)被顛覆

如今技術(shù)發(fā)展空前爆炸，簡直可以用“以天為單位的迭代速度”來形容。那么，生成式AI的天花板會(huì)在哪里呢?

在郝杰看來，生成式AI、大模型肯定是存在天花板的。“有一種說法，可能有一些人認(rèn)為沒有天花板，認(rèn)為規(guī)模一直做下去，這種涌現(xiàn)能力就能更進(jìn)一步的迸發(fā)出來，認(rèn)為這就是通往AGI的必經(jīng)之路了，這是非常樂觀派的一種看法。”

郝杰對此卻保持謹(jǐn)慎。技術(shù)的發(fā)展總是逐步向前的，一定會(huì)有其他的技術(shù)顛覆掉大模型技術(shù)，至少是局部的顛覆。

誠然，大模型能夠顛覆之前“不太大的預(yù)訓(xùn)練模型+tuning”的時(shí)代，也會(huì)有一個(gè)新技術(shù)的出現(xiàn)和大模型技術(shù)產(chǎn)生了一些融合，產(chǎn)生一些化學(xué)反應(yīng)，來顛覆掉大模型。

“模型在規(guī)模上是一個(gè)漸變，然后效果上產(chǎn)生了一定的質(zhì)變，也就是涌現(xiàn)能力的出現(xiàn)。”大模型也是站在 Transformer 這樣基礎(chǔ)模型的肩膀上，漸進(jìn)式地，然后有了BERT、GPT?；蛘哒f，它也是深度學(xué)習(xí)，而且是向更加深、更加寬、更加大的幾個(gè)維度上，走向極致之后的產(chǎn)物，它本身是一個(gè)漸變。

如果說跟天花板對應(yīng)的變量在哪里?郝杰做了一個(gè)大膽的預(yù)測，“也許顛覆大模型的技術(shù)，或更偉大的技術(shù)，今年就已經(jīng)在地球的某一個(gè)角落里已經(jīng)萌芽了。”

這一預(yù)測是有跡可循的。時(shí)間回到郝杰初上大學(xué)的1991年。那一年，日本的文部省剛剛宣布第五代計(jì)算機(jī)的研發(fā)失敗了。當(dāng)時(shí)第五代計(jì)算機(jī)的目標(biāo)，就是要做到“能聽會(huì)說，能歌善舞”，“既要識(shí)別理解，還能生成創(chuàng)作”。

“其實(shí)你把第五代計(jì)算機(jī)的目標(biāo)展開一看，與OpenAI正在和即將實(shí)現(xiàn)的偉大目標(biāo)不謀而合。但當(dāng)時(shí)為什么失敗了?因?yàn)樯窠?jīng)網(wǎng)絡(luò)做不到太深，會(huì)發(fā)生梯度消失或者梯度爆炸的難題，當(dāng)時(shí)是解決不了的，算力也跟不上。恰好就是在同樣的時(shí)間，1992年，Schmidhuber，這位偉大的LSTM之父，和他學(xué)生提出了多層級(jí)神經(jīng)網(wǎng)絡(luò)，在30多年前就解決了梯隊(duì)消失和梯隊(duì)爆炸的問題。而正是他當(dāng)年的貢獻(xiàn)，使得2012年之后的深度學(xué)習(xí)大放異彩。”

那么，大模型的天花板如何捅破它?這個(gè)答案也許此時(shí)就在某個(gè)角落里，也許在一個(gè)不知名的實(shí)驗(yàn)室里，也許在某幾個(gè)不知名的老師和學(xué)生那里。“也期待我們的大腦里會(huì)閃過某個(gè)火花，在某個(gè)時(shí)刻點(diǎn)上受到了類似的啟發(fā)。”

沒必要一切都由大模型再造

大模型雖好，但盲目的狂潮往往會(huì)陷入泥潭，很多人在狂熱的時(shí)候沒有考慮到成本。在郝杰看來，不惜一切代價(jià)，用大模型把一切產(chǎn)品和服務(wù)再造一遍是極不現(xiàn)實(shí)的。“我遇到了這樣的同行或者是朋友，就會(huì)反問一下：你有幾塊卡?”據(jù)說全國也就只有20萬塊A100的卡，比較大的公司會(huì)有上萬塊的卡。因此，能分到團(tuán)隊(duì)甚至個(gè)人名下的算力，實(shí)在杯水車薪。

在企業(yè)中做這些產(chǎn)品、服務(wù)的時(shí)候，需要一個(gè)非常全面、平衡的考慮，我們要考慮性價(jià)比，要考慮投入產(chǎn)出。“根據(jù)客戶的場景來考量我們一款產(chǎn)品或服務(wù)的效果、效率和成本，而尋求達(dá)到一個(gè)最佳的平衡。”郝杰說道。

那如何善用而不濫用大模型呢?郝杰繼續(xù)講道，“如果我們的客戶非常需要做一些生成類的任務(wù)，比如說營銷軟文的生成，我們確實(shí)是離不開大模型，我們要善用大模型的威力。”

但如果企業(yè)已有的產(chǎn)品，或者是服務(wù)中原有的一些成熟的功能，它建立在小模型的基礎(chǔ)上，效果已經(jīng)很不錯(cuò)了。那這時(shí)就沒有必要推倒重來。因?yàn)橥频怪貋聿粌H意味著重復(fù)的開發(fā)，甚至?xí)?dǎo)致部署成本、推理成本的上升。而且，盲目上一個(gè)大模型，用GPU推理，也會(huì)給我們的客戶也帶來了一些不必要的負(fù)擔(dān)。

“只有當(dāng)客戶對服務(wù)的效果不滿意，或者希望增新功能時(shí)，才有必要重新設(shè)計(jì)，二次開發(fā)這個(gè)模塊，這是我對善用和不濫用大模型的一點(diǎn)理解。”

新名詞出現(xiàn)后，怎么追趕呢?是要利用好自身以往的技術(shù)資產(chǎn)，把上一個(gè)技術(shù)范式中積累下來的工程技巧、算法上的創(chuàng)新，剖析出來，判斷這些寶貴經(jīng)驗(yàn)?zāi)懿荒芗藿釉谛碌募夹g(shù)范式上去。舉個(gè)例子，如果我們在 Transformer 這個(gè)技術(shù)模型上做過一些小改進(jìn)，微創(chuàng)新的話，現(xiàn)在就很容易思考能不能把它搬到類似GPT這樣大的模型中來獲取一些效果和效率方面的提升。

大模型性能好壞，如何評判

往往一個(gè)新技術(shù)出現(xiàn)了之后，行業(yè)中，包括政府組織，都會(huì)陸續(xù)誕生一些評測類的標(biāo)準(zhǔn)化組織，而標(biāo)準(zhǔn)化組織則會(huì)制訂行業(yè)標(biāo)準(zhǔn)，而政府層面的標(biāo)準(zhǔn)前期往往是從這些技術(shù)的評測手段、評測標(biāo)準(zhǔn)，指標(biāo)定義去入手的。

具體而言，明略科技對于相關(guān)的大模型技術(shù)、產(chǎn)品也有自己適用的一套評測指標(biāo)。比如說生成圖片的質(zhì)量，不僅包括CV領(lǐng)域中一些客觀評價(jià)的指標(biāo)，峰值信噪比，均方差、誤差等等。還要包括一些主觀評價(jià)的指標(biāo)，主觀評價(jià)通常是邀請十幾個(gè)、幾十個(gè)，甚至更多的用戶/新用戶，大家針對生成的圖片/視頻進(jìn)行觀摩之后進(jìn)行打分。維度包括很多，比如亮度、對比度、色彩把控度方面的一些主觀上舒適程度的打分，以及對于圖片、視頻內(nèi)容本身的主觀感覺，帶來了一個(gè)認(rèn)同感或是愉悅感。

其實(shí)細(xì)分領(lǐng)域內(nèi)，有很多大家目前已經(jīng)約定俗成的指標(biāo)，也有更多有待我們挖掘，和取得共識(shí)的一些新的指標(biāo)。

隨著這樣的產(chǎn)品，這樣的服務(wù)進(jìn)入到具體的行業(yè)或者是場景中，明略還要進(jìn)一步評測，依賴于這些場景具體的指標(biāo)。這就定義得更加精細(xì)化了，這些往往是一些行業(yè)標(biāo)準(zhǔn)中會(huì)出現(xiàn)的評測指標(biāo)。

“2021年底的國際說話人識(shí)別大賽中，明略科技語音團(tuán)隊(duì)拿到了第一名，再往前我們也拿到過機(jī)器翻譯和防偽人臉識(shí)別方面的世界第一，去年年底我們的Blockformer刷榜中文語音識(shí)別的第一名。我們在三大AI子領(lǐng)域中，在重要的國際比賽或者是刷榜中都拿到了第一名。這個(gè)標(biāo)志著我們的AI技術(shù)已經(jīng)進(jìn)入到業(yè)內(nèi)前沿，我們在我們的客戶面前呈現(xiàn)出這樣的結(jié)果來也帶給他們一些信心。”

郝杰預(yù)測，未來是會(huì)出現(xiàn)專門服務(wù)大模型評測的、專門性的組織或者是機(jī)構(gòu)。“如同手機(jī)行業(yè)的跑分網(wǎng)站一樣，經(jīng)過了充分競爭之后，某類產(chǎn)品以及細(xì)分的各項(xiàng)指標(biāo)評測就會(huì)出現(xiàn)一個(gè)或多個(gè)專門性的評測機(jī)構(gòu)，所以個(gè)人預(yù)測大模型或早或晚也會(huì)出現(xiàn)在世界范圍內(nèi)大家都共同信任的一些評測機(jī)構(gòu)，它們會(huì)有高度概括細(xì)分領(lǐng)域的評測指標(biāo)，不僅能夠覆蓋各行各業(yè)的生產(chǎn)場景，也能夠覆蓋全人類的很多生活場景。”

刷榜單不是目的，而是競爭力

目前，第三方評測在業(yè)界有著不小的公信力。因此，參加外部比賽/刷榜，往往成為凸顯自己產(chǎn)品競爭力的重要選擇。

“很多時(shí)候，如果只靠一些自己定義的測試集去講，缺乏和業(yè)內(nèi)橫向的benchmark，這樣往往缺少說服力。因?yàn)槔习搴芟肼牭侥愫透偲分g有什么區(qū)別?客戶也很想知道你和競品之間誰高誰低，所以轉(zhuǎn)向第三方的評測是必然的。”

的確，“刷榜單”在AI圈內(nèi)并不少見，在這個(gè)圈子里“競賽”的意味則更濃厚一些，而從事AI的同學(xué)往往也需要通過刷榜去證明自己的算法，比如在第三方定義的指標(biāo)下取得了什么樣的成績和排名，這樣來證明自己和團(tuán)隊(duì)。

斗力頻催鼓，爭都更上籌。對于AI人才團(tuán)隊(duì)的建設(shè)，明略科技，一貫堅(jiān)持“以賽代練”的培養(yǎng)方式。

“AI領(lǐng)域每年都會(huì)有頂級(jí)、重要比賽，比如說語音合成領(lǐng)域的‘BlizzardChallenge’，機(jī)器翻譯界的頂級(jí)大賽‘WMT國際機(jī)器翻譯大賽’，再比如語音識(shí)別領(lǐng)域，前幾年的CHiME系列等等。去年年底，我們在‘中文普通話語音識(shí)別榜’上獲得了第一名，用的評測數(shù)據(jù)庫是AISHELL-1。”

當(dāng)然，刷榜是手段，而不是目的。“我們的首要目標(biāo)，是全力以赴地把這個(gè)技術(shù)落地在公司的產(chǎn)品中，落地在各種場景中。同時(shí)，我們也需要大賽榜單來驗(yàn)證自己的技術(shù)，讓其在客戶面前具備更強(qiáng)的說服力。”

招人、用人、培養(yǎng)人，是建設(shè)一個(gè)優(yōu)秀的團(tuán)隊(duì)必須要回答的問題，AI團(tuán)隊(duì)也不例外。經(jīng)過多年的積累，郝杰總結(jié)了一套口訣：“心強(qiáng)、手硬、眼光高”。

心強(qiáng)，就是一定要找那些內(nèi)心非常堅(jiān)定，要做就要做到業(yè)內(nèi)第一的人，哪怕他現(xiàn)在是三流，但是他那顆心想得很大。“心有多大，我們就給他多大的舞臺(tái)，讓他做到第一名。”

手硬，這里指的是“兩手硬”，“我們強(qiáng)調(diào)的是：工程和算法都得硬，也只有這樣，才會(huì)做出更好的系統(tǒng)，更好的模型。”

眼光高，即目標(biāo)要高，“要瞄準(zhǔn)頂級(jí)大賽的冠軍，我們一路走來就是這樣培養(yǎng)團(tuán)隊(duì)的。”

寫在最后

春花無數(shù)，終不如秋實(shí)之果。每每新的技術(shù)潮水翻涌之時(shí)，“有理想的務(wù)實(shí)派”總是在自己的航線里發(fā)現(xiàn)一方新大陸。他們，一面深耕自己的賽道優(yōu)勢，磨礪以須，及鋒而試;一面開眼看世界，敢于論劍，直掛云帆。

高目標(biāo)、講實(shí)效、不冒進(jìn)、不浮夸，在“亂花漸欲迷人眼”的大模型浪潮之中，明略科技始終堅(jiān)定地做一名有理想的務(wù)實(shí)派。

“把知識(shí)注入到大模型中去!找到解決問題的臨界點(diǎn)!”

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

專訪明略科技CTO郝杰：大模型也會(huì)被顛覆，要找到產(chǎn)品的臨界點(diǎn)！

專訪明略科技CTO郝杰：大模型也會(huì)被顛覆，要找到產(chǎn)品的臨界點(diǎn)！