阿里云百煉上線音視頻實時互動功能,人人都能創(chuàng)建專屬多模態(tài)應(yīng)用

近日,阿里云百煉上線了全新音視頻實時互動功能,用戶可在百煉上自由選擇文本、語音和視覺理解等200多款模型,無需代碼,數(shù)分鐘即可搭建一個能聽、能看、會說的專屬AI助手。阿里云百煉還支持以sdk的形式集成到Web、ioS和安卓應(yīng)用,可應(yīng)用于AI虛擬助手、虛擬陪伴和AI老師等場景。

圖片1.jpg

用戶在百煉上幾分鐘即可搭建一個能聽、能看、會說的專屬AI助手

過去一年,大模型正在從純文本模態(tài)向語音和視覺等多模態(tài)演進,極大地拓寬了大模型應(yīng)用的想象空間。然而現(xiàn)有單一模型仍舊無法處理復(fù)雜的任務(wù),為了進一步加速單一大模型構(gòu)建成像人一樣自然交互的復(fù)雜AI應(yīng)用,阿里云百煉提供了200多款語言模型Qwen、視覺語言模型Qwen2-VL、語音合成模型CosyVoice等全模態(tài)全尺寸大模型,同時聯(lián)合阿里云AI實時互動方案,在國內(nèi)率先為用戶提供了便捷的工作流應(yīng)用和智能體編排應(yīng)用,例如支持構(gòu)建RAG知識庫、Prompt調(diào)優(yōu)、sdk集成等。

據(jù)介紹,在視覺理解模型方面,阿里云Qwen2-VL具備強大的視覺智能體能力,例如采用多模態(tài)旋轉(zhuǎn)位置嵌入(M-ROPE)方法,能夠同時捕捉和整合一維文本序列、二維視覺圖像以及三維視頻的位置信息,模型具備更好地理解和建模復(fù)雜的多模態(tài)數(shù)據(jù),該模型一經(jīng)推出就成為開源社區(qū)最受歡迎的多模態(tài)大模型;在音頻方面,阿里云語音合成模型CosyVoice,通過對生成語音的情感、韻律進行細粒度的控制,情感表現(xiàn)力上得到明顯提升,阿里云AI實時互動方案還可提供化智能降噪、智能打斷、智能斷句等超擬人對話能力。

以搭建一個視覺能力的AI應(yīng)用為例,用戶進入百煉應(yīng)用控制臺后,僅需上傳圖片知識庫、編寫提示詞、設(shè)置音頻、調(diào)優(yōu)這四步,數(shù)分鐘內(nèi)就能創(chuàng)建一個能完成專屬視頻交互的AI應(yīng)用,基于Qwen-VL強大的視覺推理能力,它不僅能識別物體的種類,還能準確描述物體的風格、特點、位置以及物體上的文字等關(guān)鍵信息。此外搭建好的應(yīng)用還支持以音視頻sdk集成到用戶的Web、ioS或者安卓應(yīng)用中,幫助企業(yè)快速實現(xiàn)業(yè)務(wù)創(chuàng)新。

據(jù)介紹,阿里云百煉上的通義API每百萬tokens價格已降至0.3元,一汽、金山、哈啰集團、國家天文臺等超30萬企業(yè)和機構(gòu)在使用阿里云百煉。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2024-12-19
阿里云百煉上線音視頻實時互動功能,人人都能創(chuàng)建專屬多模態(tài)應(yīng)用
近日,阿里云百煉上線了全新音視頻實時互動功能,用戶可在百煉上自由選擇文本、語音和視覺理解等200多款模型,無需代碼,數(shù)分鐘即可搭建一個能聽、能看、會說的專屬AI助手。

長按掃碼 閱讀全文