軟件開發(fā)

萬物皆可“計(jì)算機(jī)視覺”

Mask-RCNN進(jìn)行目標(biāo)檢測和實(shí)例分割

想做計(jì)算機(jī)視覺？深度學(xué)習(xí)是最近的發(fā)展方向。大規(guī)模數(shù)據(jù)集加上深度卷積神經(jīng)網(wǎng)絡(luò)（CNNs）的表征能力使得超精確和穩(wěn)健的模型成為可能?，F(xiàn)在只剩下一個挑戰(zhàn)：如何設(shè)計(jì)你的模型。

由于計(jì)算機(jī)視覺領(lǐng)域廣泛而復(fù)雜，因此解決方案并不總是很清晰。計(jì)算機(jī)視覺中的許多標(biāo)準(zhǔn)任務(wù)都需要特別考慮：分類，檢測，分割，姿態(tài)估計(jì)，增強(qiáng)和恢復(fù)，動作識別。盡管用于每個任務(wù)的最先進(jìn)的網(wǎng)絡(luò)表現(xiàn)出共同的模式，但他們都需要自己獨(dú)特的設(shè)計(jì)風(fēng)格。

那么我們?nèi)绾螢樗羞@些不同的任務(wù)建立模型呢？

讓我來告訴你如何用深度學(xué)習(xí)在計(jì)算機(jī)視覺中做所有事情！

分類

所有任務(wù)中最為人所知的！圖像分類網(wǎng)絡(luò)以固定尺寸的輸入開始。輸入圖像可以具有任意數(shù)量的通道，但對于RGB圖像通常為3。在設(shè)計(jì)網(wǎng)絡(luò)時，分辨率在技術(shù)上可以是任何尺寸，只要它足夠大以支持你將在整個網(wǎng)絡(luò)中執(zhí)行的下采樣數(shù)量。例如，如果您在網(wǎng)絡(luò)中進(jìn)行4次下采樣，那么您的輸入尺寸需要至少為 4² = 16 x 16 像素。

當(dāng)你進(jìn)入網(wǎng)絡(luò)更深層時，空間分辨率將會降低，就像我們盡力擠壓所有信息并降低到一維向量表示。為了確保網(wǎng)絡(luò)始終具有繼承其提取的所有信息的能力，我們根據(jù)深度按比例增加特征圖的數(shù)量以適應(yīng)空間分辨率的降低。也就是說，我們在下采樣過程中丟失了空間信息，為了適應(yīng)損失，我們擴(kuò)展了我們的特征圖以增加我們的語義信息。

在你選擇了一定數(shù)量的下采樣后，特征圖會被矢量化并送入一系列全連接層。最后一層的輸出與數(shù)據(jù)集中的類一樣多。

目標(biāo)檢測

目標(biāo)檢測器有兩種形式：單階段和兩階段。它們兩者都以“錨框”開始；這些是默認(rèn)的邊界框。我們的檢測器將預(yù)測這些方框與邊界框真值之間的差異，而不是直接預(yù)測方框。

在兩階段檢測器中，我們自然有兩個網(wǎng)絡(luò)：一個框提議網(wǎng)絡(luò)和一個分類網(wǎng)絡(luò)。框提議網(wǎng)絡(luò)得到了邊界框的坐標(biāo)，它認(rèn)為目標(biāo)在這里的可能性很大；再次提醒，這些坐標(biāo)都是相對于錨框的。然后，分類網(wǎng)絡(luò)獲取每個邊界框并對其中的潛在物體進(jìn)行分類。

在單階段檢測器中，提議和分類器網(wǎng)絡(luò)被融合到一個單獨(dú)的階段中。網(wǎng)絡(luò)直接預(yù)測邊界框坐標(biāo)和在該框內(nèi)物體的類別。因?yàn)閮蓚€階段融合在一起，所以單階段檢測器往往比兩階段更快。但是由于兩個任務(wù)的分離，兩階段檢測器具有更高的精度。

Faster-RCNN 兩階段目標(biāo)檢測架構(gòu)

SSD 一階段目標(biāo)檢測架構(gòu)

分割

分割是計(jì)算機(jī)視覺中更獨(dú)特的任務(wù)之一，因?yàn)榫W(wǎng)絡(luò)需要學(xué)習(xí)低級和高級信息。低級信息通過像素精確地分割圖像中的每個區(qū)域和物體，而高級信息用于直接對這些像素進(jìn)行分類。這就需要將網(wǎng)絡(luò)設(shè)計(jì)成結(jié)合低級信息和高級信息的結(jié)構(gòu)，其中低級空間信息來自于前面層且是高分辨率的，高級語義信息來自于較深層且是低分辨率的。

正如我們在下面看到的，我們首先在標(biāo)準(zhǔn)分類網(wǎng)絡(luò)上運(yùn)行我們的圖像。然后，我們從網(wǎng)絡(luò)的每個階段提取特征，從而使用從低到高的級別內(nèi)的信息。每個級別的信息都是獨(dú)立處理的，然后依次將它們組合在一起。在組合信息時，我們對特征圖進(jìn)行上采樣以最終獲得完整的圖像分辨率。

GCN分割架構(gòu)

姿態(tài)估計(jì)

姿態(tài)估計(jì)模型需要完成兩個任務(wù)：（1）檢測每個身體部位圖像中的關(guān)鍵點(diǎn)（2）找出如何正確連接這些關(guān)鍵點(diǎn)的方式。這分為三個階段：

1、使用標(biāo)準(zhǔn)分類網(wǎng)絡(luò)從圖像中提取特征

2、鑒于這些特點(diǎn)，訓(xùn)練一個子網(wǎng)絡(luò)來預(yù)測一組2D熱力圖。每張熱力圖都與一個特定的關(guān)鍵點(diǎn)相關(guān)聯(lián)，并且包含每個圖像像素是否可能存在關(guān)鍵點(diǎn)的置信值。

3、再次給出分類網(wǎng)絡(luò)的特征，我們訓(xùn)練一個子網(wǎng)絡(luò)來預(yù)測一組2D向量場，其中每個向量場編碼關(guān)鍵點(diǎn)之間的關(guān)聯(lián)度。具有高度關(guān)聯(lián)性的關(guān)鍵點(diǎn)就稱其為連接的。

以這種方式訓(xùn)練模型與子網(wǎng)絡(luò)將共同優(yōu)化檢測關(guān)鍵點(diǎn)并將它們連接在一起。

開放式姿態(tài)估計(jì)體系結(jié)構(gòu)

增強(qiáng)和恢復(fù)

增強(qiáng)和恢復(fù)網(wǎng)絡(luò)是它們自己的獨(dú)特之處。因?yàn)槲覀冋嬲P(guān)心的是高像素/空間精度，所以我們不會對這些進(jìn)行任何降采樣。降采樣真的會殺死這些信息，因?yàn)樗鼤p少我們空間精度的許多像素。相反，所有的處理都是在完整的圖像分辨率下完成的。

我們首先將要增強(qiáng)/恢復(fù)的圖像以全解析度傳遞到我們的網(wǎng)絡(luò)，而不進(jìn)行任何修正。網(wǎng)絡(luò)僅僅由一堆卷積和激活函數(shù)組成。這些塊通常是最初為圖像分類而開發(fā)的那些塊的靈感，有時是直接副本，例如殘余塊、密集塊、擠壓激勵塊等。由于我們希望直接預(yù)測圖像像素，不需要任何的概率或分?jǐn)?shù)，所以在最后一層上沒有激活功能，甚至沒有sigmoid或softmax。。

這就是所有這些類型的網(wǎng)絡(luò)！在圖像的全解析度下進(jìn)行大量的處理，以獲得高空間精度，這些使用已經(jīng)證明與其他任務(wù)相同的卷積。

EDSR超分辨率架構(gòu)

行為識別

動作識別是少數(shù)幾個需要視頻數(shù)據(jù)才能正常工作的應(yīng)用之一。要對一個動作進(jìn)行分類，我們需要知道隨著時間的推移場景發(fā)生的變化；這導(dǎo)致我們需要視頻。所以我們的網(wǎng)絡(luò)必須訓(xùn)練以學(xué)習(xí)空間和時間信息。也就是空間和時間的變化。最適合的網(wǎng)絡(luò)是3D-CNN。

3D- CNN，顧名思義，就是一個使用3D卷積的卷積網(wǎng)絡(luò)！它們不同于常規(guī)CNN的地方在于其卷積應(yīng)用于三維空間：寬度、高度和時間。因此，每個輸出像素都是基于它周圍的像素和相同位置上的前幀和后幀中的像素進(jìn)行計(jì)算預(yù)測的！

直接進(jìn)行圖像的批量傳遞

視頻幀可以通過以下幾種方式傳遞:

(1)直接以大批量，如圖1所示。由于我們正在傳遞一組序列幀，因此空間和時間信息都是可用的

單幀+光流(左)。視頻+光流(右)

(2)我們還可以在一個流(數(shù)據(jù)的空間信息)中傳遞單個圖像幀，并從視頻(數(shù)據(jù)的時間信息)中傳遞其相應(yīng)的光流表示。我們將使用常規(guī)的2D CNNs從兩者中提取特征，然后將它們組合起來傳遞給我們的3D CNN，它將組合這兩種類型的信息

(3)將我們的幀序列傳遞給一個3D CNN，將視頻的光流表示傳遞給另一個3D CNN。這兩個數(shù)據(jù)流都有可用的空間和時間信息。這可能是最慢的選項(xiàng)，但同時也可能是最準(zhǔn)確的選項(xiàng)，因?yàn)槲覀冋趯σ曨l的兩個不同表示進(jìn)行特定的處理，這兩個表示都包含所有信息。

所有這些網(wǎng)絡(luò)都輸出視頻的動作分類。

軟件開發(fā)

萬物皆可“計(jì)算機(jī)視覺”