国产免费观看青青草原网站_久久精品视频色悠悠_影音先锋激情5566_日本一區二區三區免費高清在線_麻豆精品一区综合av_丰满的大屁股一区二区_男女啪啪免费网站_草莓视频app在线观看下载_午夜寂寞少妇AA片_混乱的生物课月老师后续视频

 
您現(xiàn)在的位置:首頁 ? 知識(shí)庫 ? 軟件開發(fā) 軟件開發(fā)
IJCAI 2018|分層式共現(xiàn)網(wǎng)絡(luò),更好的動(dòng)作識(shí)別和檢測
發(fā)布日期:2018-04-24

動(dòng)作識(shí)別和檢測等對人類行為的分析是計(jì)算機(jī)視覺領(lǐng)域一個(gè)基礎(chǔ)而又困難的任務(wù),也有很廣泛的應(yīng)用范圍,比如智能監(jiān)控系統(tǒng)、人機(jī)交互、游戲控制和機(jī)器人。鉸接式的人體姿態(tài)(也被稱為骨架(skeleton))能為描述人體動(dòng)作提供非常好的表征。一方面,骨架數(shù)據(jù)在背景噪聲中具有固有的穩(wěn)健性,并且能提供人體動(dòng)作的抽象信息和高層面特征。另一方面,與 RGB 數(shù)據(jù)相比,骨架數(shù)據(jù)的規(guī)模非常小,這讓我們可以設(shè)計(jì)出輕量級且硬件友好的模型。

本論文關(guān)注的是基于骨架的人體動(dòng)作識(shí)別和檢測問題(圖 1)。骨架的相互作用和組合在描述動(dòng)作特征上共同發(fā)揮了關(guān)鍵性作用。有很多早期研究都曾試圖根據(jù)骨架序列來設(shè)計(jì)和提取共現(xiàn)特征(co-occurrence feature),比如每個(gè)關(guān)節(jié)的配對的相對位置 [Wang et al., 2014]、配對關(guān)節(jié)的空間方向 [Jin and Choi, 2012]、Cov3DJ [Hussein et al., 2013] 和 HOJ3D [Xia et al., 2012] 等基于統(tǒng)計(jì)的特征。另一方面,帶有長短期記憶(LSTM)神經(jīng)元的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)也常被用于建模骨架的時(shí)間序列 [Shahroudy et al., 2016; Song et al., 2017; Liu et al., 2016]。盡管 LSTM 網(wǎng)絡(luò)就是為建模長期的時(shí)間依賴關(guān)系而設(shè)計(jì)的,但由于時(shí)間建模是在原始輸入空間上完成的,所以它們難以直接從骨架上學(xué)習(xí)到高層面的特征 [Sainath et al., 2015]。而全連接層則有能力聚合所有輸入神經(jīng)元的全局信息,進(jìn)而可以學(xué)習(xí)到共現(xiàn)特征。[Zhu et al., 2016] 提出了一種端到端的全連接深度 LSTM 網(wǎng)絡(luò)來根據(jù)骨架數(shù)據(jù)學(xué)習(xí)共現(xiàn)特征。

圖 1:基于骨架的人體動(dòng)作識(shí)別的工作流程

CNN 模型在提取高層面信息方面能力出色,并且也已經(jīng)被用于根據(jù)骨架學(xué)習(xí)空間-時(shí)間特征 [Du et al., 2016; Ke et al., 2017]。這些基于 CNN 的方法可以通過將時(shí)間動(dòng)態(tài)和骨架關(guān)節(jié)分別編碼成行和列而將骨架序列表示成一張圖像,然后就像圖像分類一樣將圖像輸入 CNN 來識(shí)別其中含有的動(dòng)作。但是,在這種情況下,只有卷積核內(nèi)的相鄰關(guān)節(jié)才被認(rèn)為是在學(xué)習(xí)共現(xiàn)特征。盡管感受野(receptive field)能在之后的卷積層中覆蓋骨架的所有關(guān)節(jié),但我們很難有效地從所有關(guān)節(jié)中挖掘共現(xiàn)特征。由于空間維度中的權(quán)重共享機(jī)制,CNN 模型無法為每個(gè)關(guān)節(jié)都學(xué)習(xí)自由的參數(shù)。這促使我們設(shè)計(jì)一個(gè)能獲得所有關(guān)節(jié)的全局響應(yīng)的模型,以利用不同關(guān)節(jié)之間的相關(guān)性。

我們提出了一種端到端的共現(xiàn)特征學(xué)習(xí)框架,其使用了 CNN 來自動(dòng)地從骨架序列中學(xué)習(xí)分層的共現(xiàn)特征。我們發(fā)現(xiàn)一個(gè)卷積層的輸出是來自所有輸入通道的全局響應(yīng)。如果一個(gè)骨架的每個(gè)關(guān)節(jié)都被當(dāng)作是一個(gè)通道,那么卷積層就可以輕松地學(xué)習(xí)所有關(guān)節(jié)的共現(xiàn)。更具體而言,我們將骨架序列表示成了一個(gè)形狀幀×關(guān)節(jié)×3(最后一維作為通道)的張量。我們首先使用核大小為 n×1 的卷積層獨(dú)立地為每個(gè)關(guān)節(jié)學(xué)習(xí)了點(diǎn)層面的特征。然后我們再將該卷積層的輸出轉(zhuǎn)置,以將關(guān)節(jié)的維度作為通道。在這個(gè)轉(zhuǎn)置運(yùn)算之后,后續(xù)的層分層地聚合來自所有關(guān)節(jié)的全局特征。此外,我們引入了一種雙流式的框架 [Simonyan and Zisserman, 2014] 來明確地融合骨架運(yùn)動(dòng)特征。

本研究工作的主要貢獻(xiàn)總結(jié)如下:

  • 我們提出使用 CNN 模型來學(xué)習(xí)骨架數(shù)據(jù)的全局共現(xiàn)特征,研究表明這優(yōu)于局部共現(xiàn)特征。

  • 我們設(shè)計(jì)了一種全新的端到端分層式特征學(xué)習(xí)網(wǎng)絡(luò),其中的特征是從點(diǎn)層面特征到全局共現(xiàn)特征逐漸聚合起來的。

  • 我們?nèi)娴厥褂昧硕嗳颂卣魅诤喜呗裕@讓我們的網(wǎng)絡(luò)可以輕松地?cái)U(kuò)展用于人數(shù)不同的場景。

  • 在動(dòng)作識(shí)別和檢測任務(wù)的基準(zhǔn)上,我們提出的框架優(yōu)于所有已有的當(dāng)前最佳方法。

圖 2:3×3 卷積的分解分為兩個(gè)步驟。(a) 每個(gè)輸入通道的空間域中的獨(dú)立 2D 卷積,其中的特征是從 3×3 的臨近區(qū)域局部聚合的。(b) 各個(gè)通道上逐個(gè)元素求和,其中的特征是在所有輸入通道上全局地聚合。

圖 3:我們提出的分層式共現(xiàn)網(wǎng)絡(luò)(HCN:Hierarchical Co-occurrence Network)的概況。綠色模塊是卷積層,其中最后一維表示輸出通道的數(shù)量。后面的「/2」表示卷積之后附帶的最大池化層,步幅為 2。轉(zhuǎn)置層是根據(jù)順序參數(shù)重新排列輸入張量的維度。conv1、conv5、conv6 和 fc7 之后附加了 ReLU 激活函數(shù)以引入非線性。

圖 4:用于多人特征融合的后期融合(late fusion)圖。最大、平均和連接操作在表現(xiàn)和泛化性能上得到了評估。

圖 5:時(shí)間動(dòng)作檢測框架。圖 3 描述了其中的骨干網(wǎng)絡(luò)。還有兩個(gè)子網(wǎng)絡(luò)分別用于時(shí)間上提議的分割和動(dòng)作分類。

表 2:在 NTU RGB+D 數(shù)據(jù)集上的動(dòng)作分類表現(xiàn)。CS 和 CV 分別表示 cross-subject 和 cross-view 的設(shè)置。

表 3:在 SBU 數(shù)據(jù)集上的動(dòng)作分類表現(xiàn)。

圖 6:在 NTU RGB+D 數(shù)據(jù)集上的 cross-subject 設(shè)置中,在每個(gè)類別上 HCN 相對于 HCN-local 的準(zhǔn)確度變化。為了清楚簡明,這里只給出了變化超過 1% 的類別。

論文:使用分層聚合實(shí)現(xiàn)用于動(dòng)作識(shí)別和檢測的基于骨架數(shù)據(jù)的共現(xiàn)特征學(xué)習(xí)(Co-occurrence Feature Learning from Skeleton Data for Action Recognition and Detection with Hierarchical Aggregation)

論文鏈接:https://arxiv.org/abs/1804.06055

摘要:隨著大規(guī)模骨架數(shù)據(jù)集變得可用,基于骨架的人體動(dòng)作識(shí)別近來也受到了越來越多的關(guān)注。解決這一任務(wù)的最關(guān)鍵因素在于兩方面:用于關(guān)節(jié)共現(xiàn)的幀內(nèi)表征和用于骨架的時(shí)間演化的幀間表征。我們在本論文中提出了一種端到端的卷積式共現(xiàn)特征學(xué)習(xí)框架。這些共現(xiàn)特征是用一種分層式的方法學(xué)習(xí)到的,其中不同層次的環(huán)境信息(contextual information)是逐漸聚合的。首先獨(dú)立地編碼每個(gè)節(jié)點(diǎn)的點(diǎn)層面的信息。然后同時(shí)在空間域和時(shí)間域?qū)⑺鼈兘M合成形義表征。具體而言,我們引入了一種全局空間聚合方案,可以學(xué)習(xí)到優(yōu)于局部聚合方法的關(guān)節(jié)共現(xiàn)特征。此外,我們還將原始的骨架坐標(biāo)與它們的時(shí)間差異整合成了一種雙流式的范式。實(shí)驗(yàn)表明,我們的方法在 NTU RGB+D、SBU Kinect Interaction 和 PKU-MMD 等動(dòng)作識(shí)別和檢測基準(zhǔn)上的表現(xiàn)能穩(wěn)定地優(yōu)于其它當(dāng)前最佳方法。

  • 1.公司登記注冊于2003年1月27日,清遠(yuǎn)市桑達(dá)電子網(wǎng)絡(luò)媒體有限公司
    2.公司2006年起成為清遠(yuǎn)市政府定點(diǎn)協(xié)議供貨商,電子采購供貨商
    3.公司2007年被清遠(yuǎn)市相關(guān)政府部門評為安防行業(yè)狀元
    4.公司2007年起成為長城電腦清遠(yuǎn)如意服務(wù)站(SP368)
    5.公司2007年承建清遠(yuǎn)市橫河路口電子警察工程,開創(chuàng)清遠(yuǎn)電子警察先河。
  • 6.公司2007年起成為IBM合作伙伴、公司2010年底成為金蝶軟件清遠(yuǎn)金牌代理(伙伴編號:30030013)
    7.公司組團(tuán)隊(duì)參加南方都市報(bào)組織的創(chuàng)富評選,獲廣東80強(qiáng)。公司申請多項(xiàng)軟件著作權(quán)、專利權(quán)
    8.2016年起公司成為粵東西北地區(qū)為數(shù)不多的雙軟企業(yè),確立“讓軟件驅(qū)動(dòng)世界,讓智能改變生活!"企業(yè)理想
    9.2016-01-29更名為廣東互動(dòng)電子網(wǎng)絡(luò)媒體有限公司
    10.2021-01-13更名為廣東互動(dòng)電子有限公司
  • 投資合作咨詢熱線電話:0763-3391888 3323588
  • 做一個(gè)負(fù)責(zé)任的百年企業(yè)! 天行健,君子以自強(qiáng)不息;地勢坤,君子以厚德載物;
    為用戶創(chuàng)造價(jià)值! 讓軟件驅(qū)動(dòng)世界; 讓智能改變生活; 超越顧客期望,幫助顧客成功;
    對客戶負(fù)責(zé),對員工負(fù)責(zé),對企業(yè)命運(yùn)負(fù)責(zé)!幫助支持公司的客戶成功;幫助忠誠于公司的員工成功!
  • 聯(lián)系電話:0763-3391888 3323588 3318977
    服務(wù)熱線:18023314222 QQ:529623964
  • 工作QQ:2501204690 商務(wù)QQ: 602045550
    投資及業(yè)務(wù)投訴QQ: 529623964
    微信:小米哥 微信號:qysed3391888
    騰訊微博:桑達(dá)網(wǎng)絡(luò)-基石與起點(diǎn)
  • E-MAIL:222#QYSED.CN ok3391888#163.com (請用@替換#)
在線客服
  • 系統(tǒng)集成咨詢
    點(diǎn)擊這里給我發(fā)消息
  • 網(wǎng)站\微信\軟件咨詢
    點(diǎn)擊這里給我發(fā)消息
  • 售后服務(wù)
    點(diǎn)擊這里給我發(fā)消息
  • 投資合作
    點(diǎn)擊這里給我發(fā)消息