昇騰CANN論文上榜CVPR,全景圖像生成算法交互性再增強(qiáng)!

近日,CVPR 2022放榜,基于昇騰CANN的AI論文《Interactive Image Synthesis with Panoptic Layout Generation》強(qiáng)勢(shì)上榜。這為AI發(fā)燒友們開辟了一條新的圖像生成之路隨手選擇幾個(gè)類別的基礎(chǔ)元素,并做大小和位置的拖動(dòng),便能自動(dòng)生成一副攝影作品,堪比專業(yè)攝影師!

CVPR全稱IEEEConference on Computer Vision and Pattern Recognition,是計(jì)算機(jī)視覺領(lǐng)域三大頂會(huì)之一,并且是唯一一個(gè)年度學(xué)術(shù)會(huì)議。在快速更新迭代的計(jì)算機(jī)學(xué)科中,CVPR已然成為了計(jì)算機(jī)視覺領(lǐng)域的“頂流”。

本論文基于交互式的圖像生成,提出基于全景布局(Panoptic Layout)輔助圖像生成的方法,即PLGAN(Panoptic Layout Generation)算法,提高了交互場(chǎng)景下生成圖像的質(zhì)量及其穩(wěn)定性。該論文在COCO-Stuff和VG兩個(gè)公開數(shù)據(jù)集和自行收集的Landscape風(fēng)景數(shù)據(jù)集上,進(jìn)行了實(shí)驗(yàn)驗(yàn)證并取得了很好的效果。目前已經(jīng)在華為Atlas系列服務(wù)器上實(shí)現(xiàn)了該算法,其配備了昇騰AI處理器提供算力支持,并借助異構(gòu)計(jì)算架構(gòu)CANN(Compute Architecture for Neural Networks)充分釋放硬件澎湃算力,發(fā)揮極致AI性能。

昇騰CANN論文上榜CVPR,全景圖像生成算法交互性再增強(qiáng)!

下面我們來看下對(duì)比交互式圖像生成方法Grid2Im,本論文PLGAN算法的表現(xiàn)效果:

大多數(shù)交互式圖像生成方法,都采用生成圖像布局(Layout)為中間結(jié)果,來輔助最終的圖像合成(例如 Grid2Im [1])。為了解決交互場(chǎng)景下圖像生成質(zhì)量穩(wěn)定性問題,我們從圖像布局(Layout)構(gòu)建入手。通常的圖像布局(Layout)有逐像素填充的語(yǔ)義圖層(例如GauGAN),還有基于Bounding Box的實(shí)例圖像布局(Instance Layout)。

語(yǔ)義圖層在空間布局上逐像素對(duì)應(yīng)生成的圖像,可以很好的控制需要合成的圖像,但其構(gòu)建比較復(fù)雜,因此大多數(shù)多模態(tài)圖像生成和交互場(chǎng)景采用實(shí)例圖像布局(Instance Layout)。然而,實(shí)例圖像布局(Instance Layout)本質(zhì)上是采用由不同物體的位置方框(Bounding Box)和形狀(Mask)組合而成的,不同物體的位置方框(Bounding Box)之間和形狀邊緣的不匹配,都會(huì)出現(xiàn)圖像布局填不滿的情況,在用戶交互的場(chǎng)景下尤其明顯,這使得以此為條件的條件生成模型,在最終生成圖像中出現(xiàn)偽影和噪聲,如圖1所示。因此構(gòu)建一個(gè)可以解決此“區(qū)域缺失”問題的圖像布局(Layout),是我們所關(guān)注的重點(diǎn)。

昇騰CANN論文上榜CVPR,全景圖像生成算法交互性再增強(qiáng)!

Figure 1. Scene-to-image synthesis by Grid2Im [1] vs. PLGAN

針對(duì)上述問題,引入全景分割[3]的概念,提出了基于全景布局(Panoptic Layout)的圖像合成方法。在全景分割問題中[3],將物體類別分為了可數(shù)類(things)和不可數(shù)類(stuff),其中可數(shù)類(things)指有特定形狀的前景類別,不可數(shù)類(stuff)指沒有特定形狀的背景類別。因此引入此概念,將通常的實(shí)例布局(Instance Layout)構(gòu)建過程中分為Instance分支和Stuff分支分別處理可數(shù)類(things)和不可數(shù)類(stuff),如下圖所示。

昇騰CANN論文上榜CVPR,全景圖像生成算法交互性再增強(qiáng)!

Figure 2. Overview of the PLGAN architecture

Instance分支采用通常的做法,先同時(shí)生成位置方框和形狀,然后將其組合成實(shí)例布局(Instance Layout)。對(duì)于Stuff分支則使用全新的做法,直接生成填充布局(Stuff Layout),由于此結(jié)果是直接由模型通過Softmax層得到,其在整個(gè)圖像空間上,不會(huì)有空缺部分,以此來解決“區(qū)域缺失”問題。因?yàn)閷?duì)于不可數(shù)類別,其形狀也不是固定的,這種整體生成的方式對(duì)于類別識(shí)別來說,不會(huì)帶來很大的影響。分別生成的兩個(gè)布局,可以通過ISA-Norm層來聚合到一起,形成最后的布局(Layout)。從布局(Layout)到最終的圖像生成,我們采用SOTA模型CAL2I[2]方法,得到最終的合成圖像。

昇騰CANN論文上榜CVPR,全景圖像生成算法交互性再增強(qiáng)!

Figure 3. Illustration of Instance- and Stuff-Aware Normalization.

在實(shí)驗(yàn)設(shè)計(jì)上,采用對(duì)公開數(shù)據(jù)集的標(biāo)注信息做擾動(dòng)的方式,模擬交互式場(chǎng)景下的輸入,在指標(biāo)和視覺對(duì)比上,都得到了SOTA(state of the art)水平,尤其在輸入擾動(dòng)的情況下,生成圖像的質(zhì)量更加穩(wěn)定。

昇騰CANN論文上榜CVPR,全景圖像生成算法交互性再增強(qiáng)!

昇騰CANN論文上榜CVPR,全景圖像生成算法交互性再增強(qiáng)!

Figure 4. Visual comparison between sample images generated from perturbed BBoxes (Pert BBoxes) on the COCO-Stuff dataset

昇騰CANN論文上榜CVPR,全景圖像生成算法交互性再增強(qiáng)!

Figure 5. Visual comparison between instance layouts and panoptic layouts on the COCO-Stuff dataset

昇騰社區(qū)(hiascend.com同步上新基于該論文的AI試玩應(yīng)用,小伙伴們?cè)诮o定的畫布中,可以選擇任意元素,大海、沙灘、天空,隨心拼接拆合,然后通過華為Atlas 200 DK推理,可實(shí)時(shí)生成獨(dú)一無二的真實(shí)AI風(fēng)景畫,掃描下方二維碼即刻體驗(yàn)。

參考文獻(xiàn)

[1] Oron Ashual and Lior Wolf. Specifying object attributes and relations in interactive scene generation. In Proceedings of the IEEE International Conference on Computer Vision, pages 4561–4569, 2019.

[2] Sen He, Wentong Liao, Michael Yang, Yongxin Yang, Yi-Zhe Song, Bodo Rosenhahn, and Tao Xiang. Context-aware layout to image generation with enhanced object appearance. In CVPR, 2021.

[3] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, and Piotr Doll´ar. Panoptic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9404–9413, 2019.

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )