近日,自動化學(xué)院(人工智能學(xué)院)顏成鋼教授團(tuán)隊以杭電為第一單位的論文Gait Recognition in the Wild with Multi-hop Temporal Switch被多媒體領(lǐng)域頂級會議ACM Multimedia(CCF A類會議)錄用。該文章的作者依次為鄭錦凱、劉鑫辰、古曉艷、孫垚棋、淦創(chuàng)、張繼勇、劉武、顏成鋼。
本文第一作者鄭錦凱表示,現(xiàn)有的步態(tài)識別研究主要集中于實驗室場景。但是人們生活在現(xiàn)實世界中,真實場景下的步態(tài)識別是一個更加需要關(guān)注的實際問題,近年來引起了多媒體領(lǐng)域和計算機視覺界的廣泛關(guān)注。目前的方法在實驗室場景下獲得了極高的性能,但在最近提出的真實場景步態(tài)數(shù)據(jù)集上的準(zhǔn)確性卻很不理想,因為這些方法很難建模非受控場景(即真實場景)下的步態(tài)時序變化。本文提出了一種新的多級時間跳變方法,以實現(xiàn)對真實場景中步態(tài)模式的有效時間建模。具體地說,我們設(shè)計了一種新的步態(tài)識別網(wǎng)絡(luò)——多跳時間跳變網(wǎng)絡(luò)(MTSGait),它可以同時學(xué)習(xí)空間特征和多尺度時間特征。與現(xiàn)有的使用三維卷積進(jìn)行時間建模的方法不同,我們的方法通過二維卷積對步態(tài)序列的時間動力學(xué)進(jìn)行建模。該方法與基于三維卷積的模型相比,只需要較少的模型參數(shù)就能達(dá)到較高的識別準(zhǔn)確率,同時降低了模型的優(yōu)化難度。該方法通過對二維卷積核的具體設(shè)計,消除了相鄰幀間的特征不對齊問題。此外,本文還提出了一種新的步態(tài)數(shù)據(jù)采樣策略,即非循環(huán)連續(xù)采樣,使得模型能夠?qū)W習(xí)到更魯棒的步態(tài)時間特征。最后,本文提出的方法在GREW和Gait3D兩大公開的真實場景步態(tài)數(shù)據(jù)集上取得了顯著提升。
鄭錦凱同學(xué)是杭電智能信息處理實驗的碩博連讀研究生。他專注于步態(tài)識別和計算機視覺領(lǐng)域的研究,此前以第一作者身份在計算機視覺頂級會議CVPR(CCF A類)和ISCAS國際學(xué)術(shù)會議上發(fā)表過論文,并榮獲2021年度IEEE MSA-TC最佳論文提名獎。
杭州電子科技大學(xué)“智能信息處理實驗室”(HDU IIPLab)主任為顏成鋼教授。實驗室現(xiàn)有在職教師16名,含3位國家級人才及4位省級人才,包括浙江省“錢江學(xué)者”特聘教授、浙江省杰出青年基金獲得者、浙江省“151人才工程”第一層次、浙江省高校中青年學(xué)科帶頭人重點資助等多名國家及省部級人才。現(xiàn)有碩博生87名,畢業(yè)生多就職于阿里巴巴、騰訊、字節(jié)跳動、海康威視、華為、網(wǎng)易等國內(nèi)知名大公司。實驗室采用與海內(nèi)外知名高校、研究所(清華大學(xué)、北京大學(xué)、中國科學(xué)院、美國北卡羅來納大學(xué)教堂山分校、澳大利亞悉尼科技大學(xué)、京東AI研究院等等)聯(lián)合培養(yǎng)制,長期致力于智能信息處理方面的研究,主要研究方向包括:機器學(xué)習(xí)、模式識別、計算機視覺、計算機圖形學(xué)、醫(yī)學(xué)影像處理、生物信息學(xué)等。實驗室為學(xué)校交叉創(chuàng)新團(tuán)隊,擁有自由開放的學(xué)術(shù)氛圍和國際前沿的研究方向,可以在多個學(xué)院招生,包括但不限于自動化、計算機、電子、通信等學(xué)院。