在過去一年,AIGC 以星星之火,點(diǎn)燃全球燎原之勢(shì)。如今巨變?nèi)栽谶M(jìn)行,各行各業(yè)積極擁抱技術(shù)變革,帶來諸多智能應(yīng)用創(chuàng)新。然而開發(fā)者在實(shí)際落地 AIGC 的過程中,如何做技術(shù)選型?如何將前沿技術(shù)有效地融入現(xiàn)有業(yè)務(wù)流程,兼顧實(shí)用性和用戶體驗(yàn)?如何加快前沿技術(shù)落地,進(jìn)而推動(dòng)產(chǎn)業(yè)升級(jí)?
6 月 15 日, 由騰訊云 TVP 與 CSDN 聯(lián)合主辦的「 AIGC 落地的正確姿勢(shì) —— Techo TVP 技術(shù)沙龍」活動(dòng)在上海舉辦,本次沙龍匯聚 AI 領(lǐng)域產(chǎn)學(xué)研優(yōu)秀代表、技術(shù)大咖,聚焦 AIGC落地思考與應(yīng)用實(shí)踐,分享最新、最實(shí)用的案例,一同探討如何加快 AI 應(yīng)用的創(chuàng)新步伐。
從科研到實(shí)踐的深度探索
數(shù)智人“嬌嬌”全解析
上海交通大學(xué)電子工程系教授&圖像所副所長、騰訊云 TVP 宋利
未來已來,數(shù)字人已滲透到各行各業(yè),成為新一代的生產(chǎn)力和創(chuàng)造力。從科研到實(shí)踐,數(shù)智人“嬌嬌”的誕生,既是技術(shù)的集成展示,也是對(duì)個(gè)性化、互動(dòng)性未來的創(chuàng)新探索。
上海交通大學(xué)電子工程系教授&圖像所副所長、騰訊云 TVP 宋利在《科研到落地:“數(shù)智人-嬌嬌”》的演講中,先是回顧近五年來數(shù)字人技術(shù)的演變歷程,梳理當(dāng)前數(shù)字人技術(shù)的前沿進(jìn)展,如基于語音驅(qū)動(dòng)的運(yùn)動(dòng)穩(wěn)定的數(shù)字人視頻合成,基于顯式、隱式記憶增強(qiáng)的語音驅(qū)動(dòng)數(shù)字人合成,身份匹配對(duì)應(yīng)學(xué)習(xí)的高保真人臉驅(qū)動(dòng),基于解耦潛在運(yùn)動(dòng)表征的高保真數(shù)字人驅(qū)動(dòng)、高保真音頻驅(qū)動(dòng)的歌唱數(shù)字人合成等創(chuàng)新研究。
不僅探索學(xué)術(shù)研究,宋教授還帶領(lǐng)團(tuán)隊(duì)積極進(jìn)行技術(shù)落地,推出數(shù)智人“嬌嬌”項(xiàng)目。“嬌嬌”以一位擅長直播的同學(xué)為原型,通過拍攝綠幕視頻并結(jié)合聲音數(shù)據(jù)進(jìn)行訓(xùn)練而成,“嬌嬌”可以進(jìn)行對(duì)話聊天、口播、歌曲演唱、新聞播報(bào)、健康顧問、多語種口譯等工作。“嬌嬌”不僅體現(xiàn)了數(shù)字人在娛樂、教育等領(lǐng)域的廣泛應(yīng)用潛力,還作為首個(gè)高校虛擬數(shù)字人主播,引發(fā)廣泛關(guān)注。
如今數(shù)字人向更廣泛的商業(yè)和社會(huì)應(yīng)用場景邁進(jìn),與此同時(shí),數(shù)字人行業(yè)存在政策風(fēng)險(xiǎn)和商業(yè)模式不確定性等挑戰(zhàn)。在宋教授看來,盡管 ToC 市場吸引力大,但 ToB 領(lǐng)域因成本效益和應(yīng)用深度,展現(xiàn)出更大的商業(yè)潛力。數(shù)字人處于快速發(fā)展中,不僅在形象創(chuàng)造上不斷進(jìn)步,也在向更復(fù)雜的動(dòng)作、情感交互等方向探索。展望未來,結(jié)合高質(zhì)量的交互能力將是未來數(shù)字人發(fā)展的重要方向。
騰訊混元大模型賦能AIGC應(yīng)用落地
推進(jìn)產(chǎn)業(yè)智能化升級(jí)
騰訊云大模型產(chǎn)品專家 屈蕾
騰訊混元大模型歷經(jīng)迭代日趨成熟,堅(jiān)持全鏈路自主研發(fā)技術(shù),支持眾多場景的創(chuàng)新應(yīng)用,實(shí)現(xiàn)技術(shù)與應(yīng)用同行,期待更多開發(fā)者與企業(yè)加入,共創(chuàng)大模型應(yīng)用新紀(jì)元。
騰訊云大模型產(chǎn)品專家 屈蕾在《騰訊混元大模型全場景 AIGC 應(yīng)用實(shí)踐》的主題演講中介紹,騰訊混元大模型是騰訊全鏈路自主研發(fā)的通用大語言模型,自 2023 年 9月上線以來,經(jīng)歷多輪迭代,騰訊混元大模型不斷成長、性能不斷提升,現(xiàn)已擁有萬億級(jí)參數(shù)規(guī)模,從稠密模型架構(gòu)向稀疏化架構(gòu)演進(jìn),孵化不同的模型形態(tài),采用混合專家模型 (MoE) 結(jié)構(gòu),提高訓(xùn)練和推理效率及專業(yè)領(lǐng)域適應(yīng)性,具備強(qiáng)大的中文創(chuàng)作能力。
騰訊混元大模型構(gòu)建三層自主可控的國產(chǎn)大模型全棧技術(shù)架構(gòu):上層為自研高速網(wǎng)絡(luò)互聯(lián)來支撐模型訓(xùn)練,預(yù)計(jì) 2024 年將達(dá)到單集群 10 萬卡規(guī)模,低端卡也能訓(xùn)練萬億參數(shù)大模型;中層為自研 Angel 大模型訓(xùn)練和推理平臺(tái),可高效調(diào)度異構(gòu)卡集群,將萬億大模型的推理成本較開源模型下降 70%,并持續(xù)優(yōu)化;底層是采用混合專家模型 (MoE) 結(jié)構(gòu)。
騰訊混元大模型在 SuperClue 和沙利文報(bào)告等第三方測(cè)評(píng)中獲得高度評(píng)價(jià),效果居于國內(nèi)第一梯隊(duì)。目前混元大模型已接入 600+ 騰訊內(nèi)部業(yè)務(wù),其應(yīng)用場景廣泛,如騰訊文檔 AI 智能助手輔助文案創(chuàng)作、騰訊會(huì)議 AI 小助手自動(dòng)總結(jié)、智能數(shù)字人和游戲 npc 的角色扮演能力增強(qiáng)用戶體驗(yàn)、AI 代碼生成等,實(shí)現(xiàn)技術(shù)與應(yīng)用同行,充分釋放生產(chǎn)力。
此外,騰訊混元大模型在多模態(tài)能力上也持續(xù)迭代升級(jí)。在生圖領(lǐng)域,騰訊混元文生圖基礎(chǔ)架構(gòu)已全面升級(jí)至 Sora 同款的 DiT 架構(gòu),支持中英文雙語輸入及理解,具備多輪繪圖能力,測(cè)評(píng)結(jié)果國內(nèi)領(lǐng)先;在生視頻領(lǐng)域,騰訊混元支持文生視頻、圖生視頻、圖文生視頻、視頻生視頻等多種視頻生成能力,已經(jīng)支持 16s 視頻生成;在生 3D 層面,騰訊混元已布局文/圖生 3D,單圖僅需 30 秒即可生成 3D 模型。
目前,騰訊混元大模型多模態(tài)能力已通過騰訊云以 API 形式面向企業(yè)用戶和開發(fā)者開放,在廣告、電商、傳媒、游戲、教育等不同行業(yè)落地應(yīng)用。其中,混元生文提供了萬億參數(shù) hunyuan-pro、千億參數(shù) hunyuan-standard、百億參數(shù) hunyuan-lite等多種尺寸的模型服務(wù),期待更多伙伴與開發(fā)者加入,共同探索大模型的邊界與新應(yīng)用場景,攜手推進(jìn)大模型技術(shù)創(chuàng)新發(fā)展。
解讀QQ影像中心AIGC創(chuàng)新與實(shí)踐
釋放AI無限潛力
QQ專家算法研究員 程培
面對(duì)日新月異的 AIGC 技術(shù)發(fā)展,QQ 構(gòu)建 AIGC 技術(shù)體系,持續(xù)推出系列創(chuàng)新工具和應(yīng)用,賦能用戶個(gè)性化內(nèi)容創(chuàng)造,積極探索 AIGC 的廣泛應(yīng)用潛力與價(jià)值。
QQ 專家算法研究員 程培在《QQ 影像中心 AIGC 的創(chuàng)新和應(yīng)用》的分享中談到,目前 QQ 在基礎(chǔ)層,打造出語言以及圖文大模型、3D 生成大模型;在組件層,擁有圖片/視頻生成技術(shù),3D 數(shù)字資產(chǎn)生成技術(shù);在應(yīng)用層,QQ 相機(jī)、小程序、天天 P 圖、超級(jí) QQ 秀等均已融入 AIGC 技術(shù)。
QQ 影像中心在幾年前開始部署研究 AIGC 技術(shù),目前取得一些進(jìn)展:Diffusion 模型廣受熱議,然而在落地的過程中,面臨畫面構(gòu)圖不穩(wěn)定、語義質(zhì)量差等效果瓶頸,優(yōu)質(zhì)結(jié)果生成投入成本高等性能瓶頸。早在 2022 年,程培團(tuán)隊(duì)針對(duì) Diffusion 模型進(jìn)行優(yōu)化,從 0 到 1 搭建“優(yōu)化-選型-生產(chǎn)-上線”流程,持續(xù)進(jìn)行風(fēng)格效果訓(xùn)練積累,積累風(fēng)格超 20 種。最終將優(yōu)化后的技術(shù)應(yīng)用到 QQ 小世界 520 活動(dòng)上,得到用戶的熱烈討論與關(guān)注。QQ 作為國內(nèi)最早一批上線這類創(chuàng)新 AIGC活動(dòng),例如熱門特效 “異次元的我”,用戶只需上傳一張自己的照片,就能通過 AI 識(shí)別,一鍵生成與自己十分相像的漫畫圖片,當(dāng)時(shí)的傳播率極高。
AI 寫真照最初用戶的使用門檻高,需要用戶上傳多張不同角度的照片,還要在線訓(xùn)練,對(duì)機(jī)器資源消耗較大,且可能影響用戶體驗(yàn)。如何在不進(jìn)行后置微調(diào)的情況下,只給一張人像照,讓 Diffusion 模型具備人臉 ID 的保持、變化、風(fēng)格化等能力,使得模型的生成結(jié)果具備多樣性。對(duì)此,騰訊推出 FaceStudio,通過先進(jìn)的混合人臉 ID 引導(dǎo)機(jī)制,在不犧牲個(gè)人身份特征的情況下,實(shí)現(xiàn)風(fēng)格化的人物圖像合成。這項(xiàng)技術(shù)成功應(yīng)用在 QQ 頭像定制館、七夕頭像等活動(dòng)。
大多數(shù)擴(kuò)散模型使用 CLIP 作為文本編碼器,這將可能限制它們理解復(fù)雜提示的能力,對(duì)此騰訊推出 ELLA,可將 LLM 與擴(kuò)散模型無縫結(jié)合,將 LLM 能力注入擴(kuò)散模型,提升現(xiàn)有文生圖模型語義匹配程度,還可輕松集成社區(qū)模型和工具,兼容社區(qū)生態(tài)。并進(jìn)一步研發(fā) EMMA 框架,解決角色一致性生成問題,使同一人物在不同場景中保持一致,實(shí)現(xiàn)連貫的視覺敘事。
在視頻生成上,實(shí)現(xiàn)穩(wěn)定且風(fēng)格強(qiáng)烈的視頻內(nèi)容生成,展現(xiàn)在多人及單人場景中的良好應(yīng)用效果,目前團(tuán)隊(duì)將相關(guān)算法落地在 QQ 短視頻開發(fā)者開放平臺(tái)。在 3D 生成上,打造超 Q 服飾紋理生成系統(tǒng),落地超 Q 秀業(yè)務(wù),給用戶帶來嶄新體驗(yàn)。
開發(fā)者如何擁抱AI 2.0時(shí)代?
易編橙網(wǎng)絡(luò)科技 CTO、「程序員 : 職場效能必修寶典」作者 田杰
開發(fā)者積極擁抱 AI 2.0時(shí)代,通過在 AIGC 工具層與應(yīng)用層創(chuàng)新,在細(xì)分領(lǐng)域創(chuàng)造價(jià)值,無需畏懼被技術(shù)替代,致力成為利用 AI 提升業(yè)務(wù)與個(gè)人競爭力的先行者。
易編橙網(wǎng)絡(luò)科技 CTO、「程序員 : 職場效能必修寶典」作者 田杰在《開發(fā)者如何擁抱AI 2.0 時(shí)代》中指出,隨著 AIGC 的興起,普通開發(fā)者面臨被技術(shù)替代的焦慮,但同時(shí)存在轉(zhuǎn)型與機(jī)遇。田杰通過分析最新行業(yè)動(dòng)態(tài)、市場數(shù)據(jù)等,幫助開發(fā)者理清思路,鼓勵(lì)開發(fā)者把握 AIGC 新機(jī)遇,通過持續(xù)學(xué)習(xí)和創(chuàng)新,成為 AIGC 的弄潮兒。
田杰鼓勵(lì)開發(fā)者不應(yīng)局限于傳統(tǒng)編程語言的學(xué)習(xí),更應(yīng)關(guān)注如何結(jié)合 AI 技術(shù)提升個(gè)人競爭力,利用智能體為用戶提供更高效、個(gè)性化的服務(wù)。他表示,“所有的 App 應(yīng)用都值得用 AI 重新做一遍,這就是應(yīng)用級(jí)開發(fā)者的機(jī)會(huì)”。盡管大型科技公司正積極布局大模型市場,但對(duì)于小型企業(yè)和個(gè)人開發(fā)者而言,專注于細(xì)分領(lǐng)域、創(chuàng)新業(yè)務(wù)模式和應(yīng)用場景,利用好信息差和快速反應(yīng)能力,如高考志愿填報(bào)助手等,通過快速響應(yīng)市場需求和提供定制化解決方案, 實(shí)現(xiàn)技術(shù)與市場的有效對(duì)接。
結(jié)語
隨著 AI 技術(shù)飛速發(fā)展,AIGC 正從概念走向廣泛的應(yīng)用實(shí)踐,為各行各業(yè)帶來前所未有的創(chuàng)新變革。在本次「 AIGC 落地的正確姿勢(shì) —— Techo TVP 技術(shù)沙龍」,五位技術(shù)大咖從多角度分享前沿、多元的 AIGC 親身實(shí)踐,為開發(fā)者帶來諸多啟發(fā)。在各位嘉賓的精彩分享下,本次活動(dòng)圓滿落幕。
未來,騰訊云 TVP 將繼續(xù)攜手更多專家大咖,為開發(fā)者朋友分享更多干貨技術(shù)和前沿洞察、落地實(shí)踐,獻(xiàn)上一場場精彩有料、有趣、有用的技術(shù)盛宴。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )