一種能真實將人物插入圖片的模型


演示模型的能力,以現(xiàn)實的方式將個人插入不同的場景。 挑戰(zhàn)包括在給定的場景背景下推斷一個合理的姿勢,重新設(shè)置人的姿勢,以及協(xié)調(diào)插入與光照和陰影的關(guān)系。

該模型能夠?qū)⑷宋镎鎸嵉夭迦敫鞣N場景中。挑戰(zhàn)包括根據(jù)場景背景推斷合理的姿勢,重新擺放人物,并使插入的人物在光線和陰影方面和諧。

生成模型的近期出現(xiàn)為創(chuàng)意產(chǎn)業(yè)帶來了有趣的新可能性。例如,它們可以讓藝術(shù)家和數(shù)字內(nèi)容創(chuàng)作者輕松地制作將不同圖像或視頻元素整合在一起的真實媒體內(nèi)容。

受到這些最新進展的啟發(fā),斯坦福大學、加州大學伯克利分校和Adobe研究所的研究人員開發(fā)了一種新模型,可以將特定人物真實地插入不同場景,例如在健身房鍛煉、在海灘上觀看日落等。


展示模型在推理時的輔助任務(wù),包括產(chǎn)生與場景兼容的人的幻覺,生成適合于給定人的場景,以及在虛擬試穿設(shè)置中交換衣服。

他們提出的基于擴散模型的架構(gòu),在arXiv服務(wù)器上的預(yù)發(fā)布論文中介紹,并將于今年6月在溫哥華舉行的計算機視覺和模式識別會議(CVPR)上展示。

該研究的主要目標是將生成模型應(yīng)用于可供性感知任務(wù),希望獲得更可靠、真實的結(jié)果。在他們的最新論文中,專注于將人物真實地插入給定場景的問題。

模型的輸入包括一個人物圖像和一個場景圖像,輸出是包含該人物的真實場景圖像。該生成模型通過自監(jiān)督訓練方法訓練,表現(xiàn)出了一系列有趣的輔助功能,如人物產(chǎn)生和虛擬試衣。


自我監(jiān)督訓練方案。 提取兩個隨機幀,第一幀中的人被屏蔽掉。 然后,第二幀中的人被用作調(diào)節(jié)元素以補繪圖像。

研究人員使用自監(jiān)督訓練方法訓練了一個擴散模型,這是一種可以將“噪聲”轉(zhuǎn)換成期望圖像的生成模型。擴散模型通過“破壞”訓練數(shù)據(jù)、向其添加“噪聲”,然后通過逆過程恢復部分原始數(shù)據(jù)來實現(xiàn)。

經(jīng)過一系列初步測試,研究人員發(fā)現(xiàn)模型表現(xiàn)出色,生成了相當真實的圖片。他們的模型預(yù)測的可供性比過去非生成模型產(chǎn)生的可供性更好,適用范圍更廣。

未來,這種模型可以應(yīng)用于創(chuàng)意軟件工具和照片編輯智能手機應(yīng)用,支持藝術(shù)家和媒體創(chuàng)作者的工作,讓用戶輕松、真實地將人物插入照片。

未來研究方向包括增加生成姿勢的可控性,擴展系統(tǒng)生成人物在場景中移動的真實視頻,研究模型效率,以及將本文方法應(yīng)用于所有對象。

本文譯自 techxplore,由 bali 編輯發(fā)布。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2023-05-26
一種能真實將人物插入圖片的模型
該模型能夠?qū)⑷宋镎鎸嵉夭迦敫鞣N場景中。挑戰(zhàn)包括根據(jù)場景背景推斷合理的姿勢,重新擺放人物,并使插入的人物在光線和陰影方面和諧。生成模型的近期出現(xiàn)為創(chuàng)意產(chǎn)業(yè)帶來了有趣的新可能性。

長按掃碼 閱讀全文