近日我校多篇論文被人工智能與計(jì)算機(jī)視覺(jué)領(lǐng)域的CCF A類(lèi)頂級(jí)會(huì)議CVPR 2023錄用,彰顯了我校在科研和學(xué)生學(xué)術(shù)創(chuàng)新能力培養(yǎng)方面的成效。
顏成鋼教授團(tuán)隊(duì)以杭電為第一單位的論文“Gaussian Label Distribution Learning for Spherical Object Detection”被計(jì)算機(jī)視覺(jué)領(lǐng)域的CCF A類(lèi)頂級(jí)會(huì)議CVPR 2023主會(huì)(main conference)接收,該論文的合作單位有中國(guó)科學(xué)院計(jì)算技術(shù)研究所。論文第一作者是我?!爸悄苄畔⑻幚韺?shí)驗(yàn)室”(HDU IIPLab)的博士研究生徐杭。
全景視覺(jué)數(shù)據(jù)是通過(guò)全景數(shù)據(jù)采集設(shè)備采集得到的全景圖像或全景視頻,它包含了空間中全方位360度的視覺(jué)信息,具有“視野全、可交互、沉浸感強(qiáng)”的特點(diǎn)。這使得其在很多領(lǐng)域都得到了很好的應(yīng)用,如虛擬現(xiàn)實(shí)、機(jī)器人、視頻監(jiān)控等。本研究工作專(zhuān)注于全景視覺(jué)目標(biāo)檢測(cè)領(lǐng)域,提出了一種簡(jiǎn)單有效的回歸損失函數(shù)來(lái)提升全景視覺(jué)目標(biāo)檢測(cè)算法的性能。具體來(lái)說(shuō),在訓(xùn)練階段,首先將預(yù)測(cè)的球面矩形框和真實(shí)的球面矩形框的切面轉(zhuǎn)換成高斯分布。然后,使用K-L散度來(lái)度量?jī)蓚€(gè)分布之間的距離。在測(cè)試階段,直接從已訓(xùn)練模型中獲得球形包圍框的輸出,因此網(wǎng)絡(luò)的推理時(shí)間保持不變。整個(gè)方法的框架如下所示:
圖1 訓(xùn)練模型框架
論文“Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering”研究了如何利用“外部知識(shí)”進(jìn)行跨媒體推理的挑戰(zhàn)性問(wèn)題。GPT-3、ChatGPT等大規(guī)模語(yǔ)言模型內(nèi)部蘊(yùn)含了豐富的知識(shí),如何將其作為隱式知識(shí)庫(kù)來(lái)進(jìn)行推理是跨媒體研究的挑戰(zhàn)性問(wèn)題。本文提出的Prophet方法提出一種 “答案啟發(fā)”的通用跨媒體推理框架,通過(guò)在大模型上游引入一個(gè)可學(xué)習(xí)的任務(wù)相關(guān)視覺(jué)問(wèn)答小模型,來(lái)更好地激發(fā)大模型的潛力。該論文第一作者為媒體智能實(shí)驗(yàn)室碩士研究生邵鎮(zhèn)煒同學(xué),通訊作者為計(jì)算機(jī)學(xué)院余宙教授。邵鎮(zhèn)煒同學(xué)患有“進(jìn)行性脊肌萎縮癥”,肢體一級(jí)殘疾,沒(méi)有生活自理能力,生活和學(xué)習(xí)需要母親全程照顧。他常年堅(jiān)持與病魔抗?fàn)?,同輪椅為伴,克服因身體缺陷帶來(lái)的種種不便,并努力追求卓越。2017年以644分的成績(jī)被杭州電子科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)錄取,大學(xué)期間獲得2018年中國(guó)大學(xué)生自強(qiáng)之星、2020年度國(guó)家獎(jiǎng)學(xué)金和浙江省優(yōu)秀畢業(yè)生等榮譽(yù)。2021年通過(guò)研究生推免的方式加入媒體智能實(shí)驗(yàn)室攻讀碩士研究生。
圖2 通用跨媒體推理框架
論文 "Masked and Adaptive Transformer for Exemplar Based Image Translation"提出了一種新穎的基于示例的圖像翻譯框架,主要關(guān)注跨域間建立準(zhǔn)確的語(yǔ)義對(duì)應(yīng)關(guān)系,以學(xué)得示例風(fēng)格圖像生成。該工作提出了 “masked and adaptive transformer” 結(jié)構(gòu)來(lái)學(xué)習(xí)對(duì)應(yīng)關(guān)系以執(zhí)行上下文感知的特征增強(qiáng)。在對(duì)比學(xué)習(xí)約束和全局風(fēng)格注入的引導(dǎo)下,可生成高質(zhì)量風(fēng)格圖像。該論文第一作者為計(jì)算機(jī)學(xué)院智能可視建模與仿真實(shí)驗(yàn)室(iGame-Lab)2021級(jí)碩士研究生蔣暢,通訊作者為高飛副教授,論文的合作者包括碩士生馬彪、林裕浩,西安電子科技大學(xué)王楠楠教授和杭電iGame實(shí)驗(yàn)室負(fù)責(zé)人徐崗教授。
論文"ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning over Untrimmed Videos"構(gòu)建了目前最大的面向復(fù)雜長(zhǎng)視頻的問(wèn)答數(shù)據(jù)集,通過(guò)人工標(biāo)注“細(xì)粒度”視頻場(chǎng)景圖,在1萬(wàn)個(gè)長(zhǎng)視頻上自動(dòng)生成了14億問(wèn)答樣本,過(guò)濾平衡后最終形成1300萬(wàn)樣本,比現(xiàn)有最大的視頻問(wèn)答數(shù)據(jù)集(斯坦福大學(xué)的AGQA)大一個(gè)數(shù)量級(jí),在問(wèn)答細(xì)粒度方面優(yōu)勢(shì)明顯。論文第一作者為余宙教授,通訊作者為俞俊教授,碩士研究生鄭力祥同學(xué)參與了本文的主要工作。
圖3 ANetQA框架
圖4 Masked and Adaptive Transformer圖像翻譯效果圖
論文“Trajectory-Aware Body Interaction Transformer for Multi-Person Pose Forecasting”以多人動(dòng)作預(yù)測(cè)為研究方向。該論文為人文藝術(shù)與數(shù)字媒體學(xué)院智能媒體計(jì)算研究所最新研究成果,論文第一作者為碩士生彭小剛,第二作者為碩士生毛思遠(yuǎn),通訊作者為吳子朝副教授。多人三維人體姿態(tài)(運(yùn)動(dòng))預(yù)測(cè)在計(jì)算機(jī)視覺(jué)和人工智能領(lǐng)域都有著巨大的應(yīng)用價(jià)值,例如人機(jī)交互,無(wú)人駕駛,智能監(jiān)控和虛擬現(xiàn)實(shí)等,其解決的任務(wù)是根據(jù)觀察到的一段運(yùn)動(dòng)序列去盡可能準(zhǔn)確地預(yù)測(cè)未來(lái)的姿態(tài)變化和運(yùn)動(dòng)軌跡?,F(xiàn)有的大部分研究方法基本都基于單人姿態(tài)預(yù)測(cè),沒(méi)有考慮人與人之間的復(fù)雜交互影響,如下圖5所示。此外基于單人預(yù)測(cè)的方法主要關(guān)注如何建模人體的局部姿態(tài)運(yùn)動(dòng)而忽略了在三維環(huán)境中的全局位置變化。近年來(lái),雖然逐漸出現(xiàn)了一些多人姿態(tài)預(yù)測(cè)的工作來(lái)解決上述問(wèn)題,但這些方法只簡(jiǎn)單將人體姿態(tài)序列表征成時(shí)序序列來(lái)建模人體之間的運(yùn)動(dòng)相關(guān)性,沒(méi)有更加細(xì)粒度地去建模人體之間的身體部位交互。
圖5. (a) 復(fù)雜場(chǎng)景下的多人運(yùn)動(dòng)交互,其交互程度有高有低。(b) 關(guān)于身體部位交互的建模思路。
因此,研究團(tuán)隊(duì)提出一個(gè)基于軌跡感知的身體互動(dòng)Transformer模型去有效建模多人之間的身體部位互動(dòng)。為了給Transfomer模型輸入更有效的數(shù)據(jù),我們先引入一個(gè)時(shí)序部位劃分模塊,將每個(gè)人的姿態(tài)運(yùn)動(dòng)序列按照身體部位進(jìn)行劃分并把所有人劃分好的序列拼接成一個(gè)整體,稱作多人身體部位序列(MPBP) 。 該序列包括了多人的時(shí)序和身體部位信息。 我們的方法在相關(guān)數(shù)據(jù)集的短期 (0.2 —1.0s) 和長(zhǎng)期 (1.0—3.0s) 預(yù)測(cè)任務(wù)上都表現(xiàn)出最佳的性能。
CVPR(Computer Vision and Pattern Recognition)是人工智能與計(jì)算機(jī)視覺(jué)領(lǐng)域最高級(jí)別的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議,也是中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的A類(lèi)國(guó)際學(xué)術(shù)會(huì)議,每年六月召開(kāi)一次。會(huì)議于6月18日-22日在加拿大溫哥華召開(kāi),今年CVPR共收到了創(chuàng)紀(jì)錄的9155篇投稿論文,錄用2360篇論文,錄用率約為25.78%。