2023年,科技圈的“頂流”莫過于大模型。自ChatGPT的問世拉開大模型與生成式AI產業(yè)的發(fā)展序幕后,國內大模型快速跟進,已完成從技術到產品、再到商業(yè)的階段跨越,并深入垂直行業(yè)領域。
新技術的爆發(fā),催生新的應用場景與產品模式,撬動影響全行業(yè)的智能化變革。滾滾趨勢下,作為從業(yè)者、創(chuàng)業(yè)者,將面對怎樣的機遇和挑戰(zhàn),又該如何破局迎來AGI新時代?
近日,「大模型時代的機遇與挑戰(zhàn)」騰訊云TVP AI創(chuàng)變研討會在上海騰云大廈舉行,特邀 AI 領域頂級大咖,圍繞大模型熱點話題進行深度分享與研討,共同探索大模型時代的未來風向。大模型——技術、價值、生態(tài)
IDEA研究院認知計算與自然語言研究中心講席科學家、騰訊云TVP 張家興老師,帶來《大模型——技術、價值、生態(tài)》主題分享。
談及GPT大模型誕生的歷程,張家興老師從十余年在深度學習領域的資深研究經(jīng)驗出發(fā),用模型結構、訓練技術、算力+系統(tǒng)和數(shù)據(jù)四條主線來闡述整個技術發(fā)展的背后趨勢,并重點分享了幾個關鍵節(jié)點:
● 模型結構創(chuàng)新:深度學習的興起推動了模型結構的創(chuàng)新,其中Transformer結構起到了關鍵作用。它突破了模型1億參數(shù)的瓶頸,統(tǒng)一了各種注意力機制的嘗試方法,也解決了任務設計的難題;
● 訓練技術突破:標志性事件是2018年BERT模型,張家興老師認為模型結構是物理基礎,而訓練技術使得人工智能具備特定能力;
● 算力與數(shù)據(jù)的進步:底層的芯片不斷進步,性能提升了100倍以上。
張家興老師指出,任何一次大的技術范式的變化,都是一次類型的消失,或者都是一種走向統(tǒng)一的過程,大模型就是這樣的一種新的技術范式變化。在ChatGPT 出現(xiàn)后,模型結構走向統(tǒng)一,之后就會快速“分歧”,整個技術領域重新分工,促使新的生產鏈的形成,這種變化標志著大模型將成為一個新的產業(yè)。
在整個技術的范式變化過程中,張家興老師所帶領團隊研發(fā)的模型方向也在變化,從一開始的封神榜,到如今構建姜子牙系列專家大模型。張家興老師分析到,構建一個全能力的大模型存在一定挑戰(zhàn),不同能力之間可能存在沖突和不兼容性,因此將各個能力拆分成獨立的模型,以便能夠專注于每個能力的發(fā)展。通過定制針對性的訓練策略,從而達到每個能力的最佳表現(xiàn)。
張家興老師認為,在“百模大戰(zhàn)”的競爭格局中,訓練技術的探索性極為重要。他強調,訓練技術本身即是一個探索的過程。在訓練過程中探索好的生成方式,并在人類反饋學習中引導模型的發(fā)展。
在大模型應用產品方面。張家興老師提出從專家模型到客戶端進行層層封裝的思路:
第一層封裝是一體化封裝:包括代碼模型及微調、應用和高效推理工具等,并設置好各種使用場景;
第二層封裝是模型和算力整合封裝:張家興老師在這一方面正在和騰訊云展開合作,積極推進將模型和算力結合在一個大模型產品中提供給客戶,做到“開箱即用”。 AGI時代的技術創(chuàng)新范式與思考
Boolan首席技術專家、全球機器學習技術大會主席、騰訊云TVP 李建忠老師,帶來了題為《AGI時代的技術創(chuàng)新范式與思考》的主題演講。
李建忠老師首先從產業(yè)的角度對技術的發(fā)展進行了時間線的梳理,他認為連接和計算都經(jīng)歷了從1.0到2.0的革命性變化。1840-1940年的這100年間是連接的1.0時代,電報之后電話、廣播、電視相繼誕生,是最早的連接技術。1946年第一代計算機出現(xiàn),而后大型機、小型機、微型機、PC出現(xiàn),這是計算的1.0時代。之后隨著1995年互聯(lián)網(wǎng)出現(xiàn)后,Web2.0、移動互聯(lián)網(wǎng)、云服務問世,這是連接2.0時代,相比上一代,連接從單向走向雙向。再到2017年Transformer結構的出現(xiàn),GPT的迭代是計算2.0時代,這個時代還將繼續(xù),李建忠老師認為按照過往技術發(fā)展的曲線,這個時間會持續(xù)到2035年左右。
同時,李建忠老師分析指出,在技術的發(fā)展過程中,呈現(xiàn)出一種連接和計算的“鐘擺”狀態(tài)。而這兩者之間的關系,他認為連接解決的是生產關系,而計算解決的是生產力的問題。連接模式的邏輯是提供信息供用戶決策,是廣告天然的土壤;而計算模式的邏輯是要用戶向機器提供數(shù)據(jù)來幫助決策,其商業(yè)模式更趨向收費。在計算邏輯下,效率優(yōu)先,結果至上。
李建忠老師提出了范式轉換的“立方體”模型,在該模型中X軸代表人類需求,如信息、娛樂、搜索、社交、商業(yè);Y軸代表技術平臺,即連接1.0、計算1.0、連接2.0、計算2.0;Z軸代表媒介交互,如文字、圖片、音頻、視頻、三維等。他認為需求和技術的交叉點是創(chuàng)新的關鍵,同時強調媒介的變化對于產品和創(chuàng)新的影響。在智能時代,填充不同象限代表對應不同方向,比如大模型與不同領域結合,為其創(chuàng)新和產品發(fā)展提供新的思路。
基于此,李建忠老師總結了大模型具備四大核心能力:
● 生成模型:是其最成熟和最強大的部分,能夠生成各種內容;
● 知識抽象:壓縮人類知識,為知識密集型行業(yè)帶來革新;
● 語言交互:是人機對話的核心,有巨大的想象空間;
● 邏輯推理:具備邏輯、規(guī)劃、記憶能力,成為具身智能。
以大模型核心能力為支點與不同領域結合會帶來怎樣的創(chuàng)新機會?李建忠老師以大模型應用層為切入點提出兩個主要方向:AI-Native和AI-Copilot。AI-Native是指完全融入AI的新型產品或服務,高風險高回報。AI-Copilot則是以漸進增強的方式,將AI能力嵌入現(xiàn)有的商業(yè)閉環(huán)中,并與現(xiàn)有的基礎設施兼容和擴展。
同樣,在軟件領域,李建忠老師分享了大模型為軟件開發(fā)帶來的三大范式轉換:
● 開發(fā)范式:大模型將改變代碼編寫方式,從工程師寫代碼為主到AIGC生成代碼為主;
● 交互范式:從圖形交互界面(GUI)轉為自然語言交互界面(NUI),包括NUI+GUI協(xié)同、渠道結構化輸入中間環(huán)節(jié)的變革,以及拆除孤立應用間的壁壘,實現(xiàn)應用和服務的無縫集成;
● 交付范式:即用戶共創(chuàng)可塑軟件,這種開放性將使軟件的功能范圍變得更為廣泛。
李建忠老師認為,在未來的三到五年內,整個AGI產業(yè)的成熟度將達到一個新的高度,帶來巨大的創(chuàng)新機會。 利用無處不在的硬件算力和開放軟件解鎖生成式人工智能
英特爾院士、大數(shù)據(jù)技術全球CTO、騰訊云TVP 戴金權老師,帶來《利用無處不在的硬件算力和開放軟件解鎖生成式人工智能》主題分享。
戴金權老師首先分享了英特爾團隊在生成式人工智能領域的工作。他提到,影響生成式AI的眾多因素中,算力是非常重要的支撐因素,英特爾針對端到端的AI的流水線如何提升效率、如何對AI加速進行了針對性的優(yōu)化。
通過軟硬件結合,英特爾成功提高了AI深度學習的速度,甚至可以實現(xiàn)免費的軟件AI加速器;在生成式AI計算加速方面,戴金權老師提到數(shù)據(jù)中心端是重點,它將有力支持大模型的訓練和超大規(guī)模推理。
在英特爾最近發(fā)布的Gaudi2深度學習加速器中,與Hugging Face合作進行模型優(yōu)化。同時,英特爾在服務器上加入了Intel AMX,其由兩部分組成:一個是2D的寄存器文件,另一個是矩陣加速支持。戴金權老師提到,這樣做的好處在于能夠在通用CPU的服務器上實現(xiàn)硬件加速的能力,在通用計算的場景下具有一定意義。
針對云端存儲的用戶數(shù)據(jù)和私有化部署的大模型如何保障安全不泄漏的行業(yè)需求,戴金權老師分享到,通過硬件保護和軟件安全技術,可實現(xiàn)全鏈路的隱私保護,確保數(shù)據(jù)和模型在計算過程中對其他用戶不可見,只在硬件保護的環(huán)境中進行計算,既保證了安全,又接近明文計算的效率。
為實現(xiàn)AI無所不在的愿景,近期英特爾開源了基于INT4在 Intel CPU上的大模型推理庫,支持在英特爾上跑超過百億參數(shù)的大模型,戴金權老師介紹并演示了其功能特性:
● 支持INT3、INT4、NF4、INT8等多種技術;
● 技術易于使用和遷移,可以加速任何基于PyTorch的大模型,并實現(xiàn)高效優(yōu)化;
● 兼容社區(qū)常用的API;一兩行代碼即可遷移現(xiàn)有應用。
最后,戴金權老師表達了他對于大模型應用在從PC無縫擴展到GPU到云這一未來趨勢的期待,這一新的應用場景值得大家共同去探索。 面向大模型,如何打造云上最強算力集群
騰訊云高性能計算研發(fā)負責人 戚元覲老師,帶來《面向大模型,如何打造云上最強算力集群》的主題分享。
首先,戚元覲老師對深度學習與AI分布式訓練進行了介紹。他提到為了解決大模型訓練中語料數(shù)據(jù)集過大和模型參數(shù)劇增的問題,需要采用分布式計算。就此,戚元覲老師分享了當下大模型訓練中的一些分布式計算方案:
● 數(shù)據(jù)并行:按照模型的數(shù)據(jù)集切分并發(fā)送到各個GPU上進行計算,每個GPU分別計算自己的梯度,再進行全局同步以更新模型參數(shù);
● 模型并行-流水線并行:按照模型的層級進行切分,不同部分將分配到不同的GPU上進行計算,進行梯度計算和傳遞;
● 模型并行-張量并行:對模型進行更細粒度的切分,將模型的參數(shù)權重進行橫向或縱向的切分;
此外,還有如專家并行,由各個專家系統(tǒng)組成并路由到不同的系統(tǒng)中進行計算。
戚元覲老師提到,分布式計算可以充分利用多個GPU的計算資源,加快訓練速度,并解決單個GPU內存不足的問題。不同的方法適用于不同的場景和模型結構,選擇合適的并行策略可以提升訓練效率和性能。
分布式訓練方法對網(wǎng)絡通信有較高的要求,業(yè)內大都采用3D并行方式,特別是在3D并行的場景下,帶寬需求對于吞吐量是敏感的。在訓練中,想要不讓網(wǎng)絡成為計算的瓶頸,機器與機器之間的通信帶寬需要達到1.6Tbps。
為了應對以上挑戰(zhàn),騰訊云推出了AI算力底座——高性能計算集群HCC,可廣泛應用于大模型、自動駕駛、商業(yè)推薦系統(tǒng)、圖像識別等人工智能模型訓練場景,其具有以下特性優(yōu)勢:
● 搭配高性能GPU:提供強大算力;
● 低延時RDMA網(wǎng)絡:節(jié)點互聯(lián)網(wǎng)絡低至2us,帶寬支持1.6Tbps-3.2Tbps;
● GpuDirect RDMA:GPU計算數(shù)據(jù)無需繞行,跨機點對點直連;
● TACO訓練加速套件:一鍵提升人工智能訓練性能。
騰訊云首發(fā)的H800計算集群采用多軌道的流量架構,能夠大大減少不必要的數(shù)據(jù)傳輸,提升網(wǎng)絡性能,在業(yè)界處于領先地位。
除了硬件支持外,騰訊云還提供了自研的集合通信庫TCCL,得益于自研的交換機架構,TCCL實現(xiàn)了端網(wǎng)協(xié)同,解決流量負載不均的問題,可以在雙網(wǎng)口環(huán)境下提升流量約40%。同時提供拓撲感知親和性調度功能,旨在最小化流量繞行。它具有動態(tài)感知能力,可根據(jù)最優(yōu)順序進行任務分配,避免通信數(shù)據(jù)擁堵。
戚元覲老師提到,騰訊云的方案都采用雙上聯(lián)的網(wǎng)絡設計結構,相比單口訓練的可用性更高。數(shù)據(jù)存儲方面,騰訊云提供了Turbo CF5文件存儲方案和COS方案,通過多級加速提升數(shù)據(jù)訪問性能。
同時,為提高用戶的算力使用率,騰訊云推出了TACO Kit加速套件,通過對內存和顯存的統(tǒng)一管理,減少數(shù)據(jù)的來回搬移,加快參數(shù)更新的速度;還有TACO lnfer推理加速,讓支持推理透明、加速,帶給用戶更好的體驗服務。
戚元覲老師總結到,騰訊云高性能計算集群HCC方案能夠從數(shù)據(jù)讀取、訓練計算、網(wǎng)絡交換等多個層面助力用戶又快又持續(xù)地完成每一個訓練任務,為用戶云上訓練提供完整的流程支持。 探討辯論環(huán)節(jié)
主題分享結束后,主持人中國信通院低代碼/無代碼推進中心技術專家、騰訊云TVP 沈欣老師做了精彩的總結,他提到大模型的發(fā)展所帶來最核心和關鍵的影響是生產關系的變化。如“程序員是否會消失”這個問題,可以將程序員比喻成馬車時代趕馬的人,現(xiàn)在還會有養(yǎng)馬的人,但是他們已經(jīng)被開車的人淘汰了。軟件開發(fā)行業(yè)將被AI重塑,這是未來的程序員所將面對的迭代和變化挑戰(zhàn)。
隨后,迎來了火花迸發(fā)的探討辯論環(huán)節(jié)。主持人沈欣老師提出了頗具深度的四個開放話題與兩個辯論題目,現(xiàn)場嘉賓以小組形式,對各個話題展開了充分的討論,在熱烈的交流與辯論中碰撞出眾多精彩的觀點。
話題1:隨著大模型的發(fā)展,未來將會形成怎樣的AI生態(tài),會如何影響IT行業(yè)的格局?
來自第二組的發(fā)言代表,盛派網(wǎng)絡創(chuàng)始人兼首席架構師、騰訊云TVP 蘇震巍老師提出,AI未來將重塑整個軟件行業(yè)的生態(tài)及商業(yè)模式,包括現(xiàn)在軟件應用的形態(tài)、互聯(lián)網(wǎng)運行的模式、用戶付費的方式等等。同時隨著AI進一步推動生產力發(fā)展,可以預見未來企業(yè)對人員的需求將發(fā)生極大的改變,程序員將在一定程度上減少。
蘇震巍老師進一步總結到,AI會在三大方面影響我們未來的商業(yè)和工作:AI推動生產效率變革,影響生產力和生產關系的變化;獲取知識和使用知識的方式改變,效率提升;AI會成為資產的一部分,數(shù)據(jù)確權等問題值得關注。
話題2:AI算力的私有化部署和云部署有哪些差異和優(yōu)勢,分別更適合哪些場景?
第三組的發(fā)言代表,美團金融服務平臺研究員、騰訊云TVP 丁雪豐老師,從成本、安全性和靈活性三個視角對AI算力的私有化部署和云部署進行了比較。
● 從成本角度看:云部署對于中小企業(yè)而言,無論在硬件投入還是維護方面都更符合當下企業(yè)的降本增效需求;
● 從安全性角度看:他認為部分行業(yè),如金融行業(yè)的的安全性和合規(guī)性要求極高,私有化部署更為適用;
● 從靈活性角度看:公有云不僅可以單純地按需提供算力,對于成熟的場景也能提供一站式解決方案,用戶可以根據(jù)實際需求選擇合適的使用方式,在滿足安全與合規(guī)的場景下更推薦選擇云部署。
話題3:企業(yè)應如何衡量AI的價值,如何量化成本結構和價值,在不同的業(yè)務有哪些案例?
來自第四組的發(fā)言代表,騰訊云TVP 徐巍老師提出以下五個評估維度:是否為企業(yè)創(chuàng)造價值、節(jié)約成本、提升企業(yè)生產力、提升客戶滿意度,以及助力業(yè)務增長。徐巍老師補充到,不同企業(yè)和行業(yè)面臨的挑戰(zhàn)和目標也各不相同,因此評估AI的價值需要結合其具體情況和目標進行綜合考量。
同時,就ToB和ToC的業(yè)務場景而言,在ToB領域,智能客服、數(shù)字人、AI知識庫和企業(yè)培訓等已經(jīng)被許多企業(yè)應用;在ToC領域,當下AI生成等是主流的應用場景。
談及AI的成本構成,徐巍老師認為當下主要包括算力成本、AI技術的開發(fā)和維護成本,以及AI產品的運營和推廣成本。
話題4:在大模型的熱潮下,大公司和創(chuàng)業(yè)公司分別有哪些可以切入的創(chuàng)新機遇?
第一組的發(fā)言代表,Boolan首席技術專家、全球機器學習技術大會主席、騰訊云TVP 李建忠老師認為從數(shù)據(jù)的優(yōu)勢角度看,當下AI領域的創(chuàng)新對大公司或成熟的公司友好,但從開源的角度來看,他認為對創(chuàng)業(yè)公司更友好。
李建忠老師以產品的發(fā)展模式展開闡述,AI-Native的模式更適合創(chuàng)業(yè)型公司,因為面對新事物的到來它們具備全新的起點和思維模式,而且一些創(chuàng)業(yè)公司的投入并不弱于大公司。
辯論題目1:未來大模型開源是主流or 閉源是主流?
第一組的發(fā)言代表,Boolan首席技術專家、全球機器學習技術大會主席、騰訊云TVP 李建忠老師是“開源方”,他首先定義了“主流”一詞:用戶最多就是主流;他認為與閉源相比,開源可以實現(xiàn)邊緣層和模型層的良好標準化;同時開源能夠集合整個行業(yè)之力在一個點上進行優(yōu)化,帶來更多的資源和投入;
隨后,來自第二組的發(fā)言代表,盛派網(wǎng)絡創(chuàng)始人兼首席架構師、騰訊云TVP 蘇震巍老師作為“閉源方”先就“主流”定義進行了反駁,他認為真正能夠有影響力推動整個行業(yè)變革,同時在商業(yè)上形成持久循環(huán)的,有更健康生態(tài)的才是主流,并以閉源的ChatGPT4為例進行了論證。他強調,大模型包含了模型本身和數(shù)據(jù)源,因此算法開源和成果的開源,并不就代表大模型的開源,并舉例了Lama2的各種限制。蘇震巍老師認為當前的一些所謂開源框架,被用作營銷工具,違背了開源的真正的精神。
之后“開源方”的李建忠老師進行了針對性反駁,他首先糾正了對方的“開源營銷說”,強調開源是生態(tài)級的革命。同時就ChatGPT4的例子,他認為其最初源頭是來自谷歌的開源,且OpenAI也在準備開源中。
“閉源方”的蘇震巍老師隨后補充,不否認開源的生態(tài)革命,但事實上很多開源是迫于競爭壓力下的搶占市場份額的商業(yè)行為。同時他表示,知識的共享并不代表是開源。
辯論題目2:更看好通用大模型賽道or垂直大模型賽道?
第三組的發(fā)言代表,美團金融服務平臺研究員、騰訊云TVP 丁雪豐老師更看好通用大模型賽道,他認為從更大、更高的歷史觀視角看,通用大模型的發(fā)展是必然的,而且在應用層可以避免垂直大模型的局限性。同時未來隨著通用大模型的學習范圍不斷拓展,當前的垂直領域都將被覆蓋。
更看好垂直大模型賽道的第四組的發(fā)言代表,騰訊云TVP 徐巍老師則是從三個角度闡述他的觀點:從商業(yè)模式看,垂直大模型有豐富的應用場景,可落地,商業(yè)模式經(jīng)過驗證是成立的;從成本角度看,大模型的算力成本極高,垂直大模型的成本更加可控;從數(shù)據(jù)角度來說,作為大模型訓練極為重要的部分,通用大模型所需要的數(shù)據(jù)量巨大,數(shù)據(jù)源限制性高,垂直知識庫的可實現(xiàn)性更高。
隨后“通用大模型”方的丁雪豐老師進一步論述,通用大模型在當前AI領域的重要性不言而喻,它提供了技術基座,為各種應用提供了支持;而且,基礎的、通用的能力發(fā)展是自主可控的必然要求。
“垂直大模型”方的徐巍老師做了最后的補充,他認為從賽道生態(tài)角度來看,垂直大模型賽道的玩家更多,更能形成百花齊放的生態(tài),帶來更高的商業(yè)價值和社會價值。 結語
本次研討會的探討與辯論話題沒有確定的答案,大模型發(fā)展方興未艾,將為每一個技術從業(yè)者、企業(yè)和行業(yè)都帶來新的影響。本次活動已圓滿落下帷幕,但騰訊云TVP專家們對于技術的探索還將繼續(xù),他們秉持著“用科技影響世界”的初心和愿景,持續(xù)以創(chuàng)新之心積極擁抱大模型時代的變革與趨勢,以敬畏之意理性迎接未來的機遇和挑戰(zhàn)。
TVP,即騰訊云最具價值專家(Tencent Cloud Valuable Professional),是騰訊云授予云計算領域技術專家的一個獎項。TVP致力打造與行業(yè)技術專家的交流平臺,促進騰訊云與技術專家和用戶之間的有效溝通,從而構建云計算技術生態(tài),實現(xiàn)“用科技影響世界”的美好愿景。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )