近日,計算機學院俞俊教授團隊以杭電為第一單位的論文被計算機視覺領域的頂級會議CVPR 2022(CCF A類會議)錄用。該項研究由俞俊教授團隊與美國NEC實驗室合作完成。第一作者為實驗室博士后包俊,俞俊教授為本文通訊作者。
該論文ESCNet: Gaze Target Detection with the Understanding of 3D Scenes提出了一種基于單張圖像3D重建的視線目標檢測模型。視線目標檢測任務的目的在于判斷自然場景中人物看在哪里,即注意力的位置。視線目標檢測廣泛應用于多種場景中,如人機交互、輔助駕駛、認知科學研究和醫(yī)療診斷。傳統(tǒng)方法或只使用2D圖像信息,或只使用部分深度信息。本文提出一種基于3D幾何信息輔助的模型ESCNet。對于單張圖片,先通過深度估計和標的物體得到3D點云,然后獲取點云里從每個角度最靠近目標人物的點的集合。ESCNet包括幾何模塊和場景分析模塊,前者單從3D幾何信息判斷人物視線可能到達的物體并得到初始熱圖,后者通過分析場景其他信息精煉初始熱圖。本文的方法在GazeFollow數(shù)據(jù)集上AUC準確率相比現(xiàn)有最好的結果提升顯著,并超越了該數(shù)據(jù)集上人類的水平。