完美世界国际版下载,殿上欢,yy玄幻小说排行榜完本

国产免费观看青青草原网站_久久精品视频色悠悠_影音先锋激情5566_日本一區二區三區免費高清在線_麻豆精品一区综合av_丰满的大屁股一区二区_男女啪啪免费网站_草莓视频app在线观看下载_午夜寂寞少妇AA片_混乱的生物课月老师后续视频

您現(xiàn)在的位置：首頁 ? 知識(shí)庫 ? 軟件開發(fā) 軟件開發(fā)

IJCAI 2018｜分層式共現(xiàn)網(wǎng)絡(luò)，更好的動(dòng)作識(shí)別和檢測

發(fā)布日期：2018-04-24

動(dòng)作識(shí)別和檢測等對人類行為的分析是計(jì)算機(jī)視覺領(lǐng)域一個(gè)基礎(chǔ)而又困難的任務(wù)，也有很廣泛的應(yīng)用范圍，比如智能監(jiān)控系統(tǒng)、人機(jī)交互、游戲控制和機(jī)器人。鉸接式的人體姿態(tài)（也被稱為骨架（skeleton））能為描述人體動(dòng)作提供非常好的表征。一方面，骨架數(shù)據(jù)在背景噪聲中具有固有的穩(wěn)健性，并且能提供人體動(dòng)作的抽象信息和高層面特征。另一方面，與 RGB 數(shù)據(jù)相比，骨架數(shù)據(jù)的規(guī)模非常小，這讓我們可以設(shè)計(jì)出輕量級且硬件友好的模型。

本論文關(guān)注的是基于骨架的人體動(dòng)作識(shí)別和檢測問題（圖 1）。骨架的相互作用和組合在描述動(dòng)作特征上共同發(fā)揮了關(guān)鍵性作用。有很多早期研究都曾試圖根據(jù)骨架序列來設(shè)計(jì)和提取共現(xiàn)特征（co-occurrence feature），比如每個(gè)關(guān)節(jié)的配對的相對位置 [Wang et al., 2014]、配對關(guān)節(jié)的空間方向 [Jin and Choi, 2012]、Cov3DJ [Hussein et al., 2013] 和 HOJ3D [Xia et al., 2012] 等基于統(tǒng)計(jì)的特征。另一方面，帶有長短期記憶（LSTM）神經(jīng)元的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）也常被用于建模骨架的時(shí)間序列 [Shahroudy et al., 2016; Song et al., 2017; Liu et al., 2016]。盡管 LSTM 網(wǎng)絡(luò)就是為建模長期的時(shí)間依賴關(guān)系而設(shè)計(jì)的，但由于時(shí)間建模是在原始輸入空間上完成的，所以它們難以直接從骨架上學(xué)習(xí)到高層面的特征 [Sainath et al., 2015]。而全連接層則有能力聚合所有輸入神經(jīng)元的全局信息，進(jìn)而可以學(xué)習(xí)到共現(xiàn)特征。[Zhu et al., 2016] 提出了一種端到端的全連接深度 LSTM 網(wǎng)絡(luò)來根據(jù)骨架數(shù)據(jù)學(xué)習(xí)共現(xiàn)特征。

圖 1：基于骨架的人體動(dòng)作識(shí)別的工作流程

CNN 模型在提取高層面信息方面能力出色，并且也已經(jīng)被用于根據(jù)骨架學(xué)習(xí)空間-時(shí)間特征 [Du et al., 2016; Ke et al., 2017]。這些基于 CNN 的方法可以通過將時(shí)間動(dòng)態(tài)和骨架關(guān)節(jié)分別編碼成行和列而將骨架序列表示成一張圖像，然后就像圖像分類一樣將圖像輸入 CNN 來識(shí)別其中含有的動(dòng)作。但是，在這種情況下，只有卷積核內(nèi)的相鄰關(guān)節(jié)才被認(rèn)為是在學(xué)習(xí)共現(xiàn)特征。盡管感受野（receptive field）能在之后的卷積層中覆蓋骨架的所有關(guān)節(jié)，但我們很難有效地從所有關(guān)節(jié)中挖掘共現(xiàn)特征。由于空間維度中的權(quán)重共享機(jī)制，CNN 模型無法為每個(gè)關(guān)節(jié)都學(xué)習(xí)自由的參數(shù)。這促使我們設(shè)計(jì)一個(gè)能獲得所有關(guān)節(jié)的全局響應(yīng)的模型，以利用不同關(guān)節(jié)之間的相關(guān)性。

我們提出了一種端到端的共現(xiàn)特征學(xué)習(xí)框架，其使用了 CNN 來自動(dòng)地從骨架序列中學(xué)習(xí)分層的共現(xiàn)特征。我們發(fā)現(xiàn)一個(gè)卷積層的輸出是來自所有輸入通道的全局響應(yīng)。如果一個(gè)骨架的每個(gè)關(guān)節(jié)都被當(dāng)作是一個(gè)通道，那么卷積層就可以輕松地學(xué)習(xí)所有關(guān)節(jié)的共現(xiàn)。更具體而言，我們將骨架序列表示成了一個(gè)形狀幀×關(guān)節(jié)×3（最后一維作為通道）的張量。我們首先使用核大小為 n×1 的卷積層獨(dú)立地為每個(gè)關(guān)節(jié)學(xué)習(xí)了點(diǎn)層面的特征。然后我們再將該卷積層的輸出轉(zhuǎn)置，以將關(guān)節(jié)的維度作為通道。在這個(gè)轉(zhuǎn)置運(yùn)算之后，后續(xù)的層分層地聚合來自所有關(guān)節(jié)的全局特征。此外，我們引入了一種雙流式的框架 [Simonyan and Zisserman, 2014] 來明確地融合骨架運(yùn)動(dòng)特征。

本研究工作的主要貢獻(xiàn)總結(jié)如下：

我們提出使用 CNN 模型來學(xué)習(xí)骨架數(shù)據(jù)的全局共現(xiàn)特征，研究表明這優(yōu)于局部共現(xiàn)特征。
我們設(shè)計(jì)了一種全新的端到端分層式特征學(xué)習(xí)網(wǎng)絡(luò)，其中的特征是從點(diǎn)層面特征到全局共現(xiàn)特征逐漸聚合起來的。
我們?nèi)娴厥褂昧硕嗳颂卣魅诤喜呗裕@讓我們的網(wǎng)絡(luò)可以輕松地?cái)U(kuò)展用于人數(shù)不同的場景。
在動(dòng)作識(shí)別和檢測任務(wù)的基準(zhǔn)上，我們提出的框架優(yōu)于所有已有的當(dāng)前最佳方法。

圖 2：3×3 卷積的分解分為兩個(gè)步驟。(a) 每個(gè)輸入通道的空間域中的獨(dú)立 2D 卷積，其中的特征是從 3×3 的臨近區(qū)域局部聚合的。(b) 各個(gè)通道上逐個(gè)元素求和，其中的特征是在所有輸入通道上全局地聚合。

圖 3：我們提出的分層式共現(xiàn)網(wǎng)絡(luò)（HCN：Hierarchical Co-occurrence Network）的概況。綠色模塊是卷積層，其中最后一維表示輸出通道的數(shù)量。后面的「/2」表示卷積之后附帶的最大池化層，步幅為 2。轉(zhuǎn)置層是根據(jù)順序參數(shù)重新排列輸入張量的維度。conv1、conv5、conv6 和 fc7 之后附加了 ReLU 激活函數(shù)以引入非線性。

圖 4：用于多人特征融合的后期融合（late fusion）圖。最大、平均和連接操作在表現(xiàn)和泛化性能上得到了評估。

圖 5：時(shí)間動(dòng)作檢測框架。圖 3 描述了其中的骨干網(wǎng)絡(luò)。還有兩個(gè)子網(wǎng)絡(luò)分別用于時(shí)間上提議的分割和動(dòng)作分類。

表 2：在 NTU RGB+D 數(shù)據(jù)集上的動(dòng)作分類表現(xiàn)。CS 和 CV 分別表示 cross-subject 和 cross-view 的設(shè)置。

表 3：在 SBU 數(shù)據(jù)集上的動(dòng)作分類表現(xiàn)。

圖 6：在 NTU RGB+D 數(shù)據(jù)集上的 cross-subject 設(shè)置中，在每個(gè)類別上 HCN 相對于 HCN-local 的準(zhǔn)確度變化。為了清楚簡明，這里只給出了變化超過 1% 的類別。

論文：使用分層聚合實(shí)現(xiàn)用于動(dòng)作識(shí)別和檢測的基于骨架數(shù)據(jù)的共現(xiàn)特征學(xué)習(xí)（Co-occurrence Feature Learning from Skeleton Data for Action Recognition and Detection with Hierarchical Aggregation）

論文鏈接：https://arxiv.org/abs/1804.06055

摘要：隨著大規(guī)模骨架數(shù)據(jù)集變得可用，基于骨架的人體動(dòng)作識(shí)別近來也受到了越來越多的關(guān)注。解決這一任務(wù)的最關(guān)鍵因素在于兩方面：用于關(guān)節(jié)共現(xiàn)的幀內(nèi)表征和用于骨架的時(shí)間演化的幀間表征。我們在本論文中提出了一種端到端的卷積式共現(xiàn)特征學(xué)習(xí)框架。這些共現(xiàn)特征是用一種分層式的方法學(xué)習(xí)到的，其中不同層次的環(huán)境信息（contextual information）是逐漸聚合的。首先獨(dú)立地編碼每個(gè)節(jié)點(diǎn)的點(diǎn)層面的信息。然后同時(shí)在空間域和時(shí)間域?qū)⑺鼈兘M合成形義表征。具體而言，我們引入了一種全局空間聚合方案，可以學(xué)習(xí)到優(yōu)于局部聚合方法的關(guān)節(jié)共現(xiàn)特征。此外，我們還將原始的骨架坐標(biāo)與它們的時(shí)間差異整合成了一種雙流式的范式。實(shí)驗(yàn)表明，我們的方法在 NTU RGB+D、SBU Kinect Interaction 和 PKU-MMD 等動(dòng)作識(shí)別和檢測基準(zhǔn)上的表現(xiàn)能穩(wěn)定地優(yōu)于其它當(dāng)前最佳方法。

上一篇：適用物聯(lián)網(wǎng)環(huán)境通信協(xié)議：MQTT（消息隊(duì)列遙測傳輸）協(xié)議
下一篇：Tomcat開啟https配置CA證書

【打印此文】【關(guān)閉窗口】