CVPR 2018 | 美國東北大學(xué)提出MoNet，使用緊密池化緩解特征高維問題-AET-電子技術(shù)應(yīng)用

CVPR 2018 | 美國東北大學(xué)提出MoNet，使用緊密池化緩解特征高維問題

日期： 2018-02-27

關(guān)鍵詞： 計算機 CNN 雙線性

近日，來自美國東北大學(xué)和美國信息科學(xué)研究所的研究者聯(lián)合發(fā)布論文《MoNet: Moments Embedding Network》，提出 MoNet 網(wǎng)絡(luò)，使用新型子矩陣平方根層，在雙線性池化之前執(zhí)行矩陣歸一化，結(jié)合緊湊池化在不損害性能的前提下大幅降低維度，其性能優(yōu)于 G^2DeNet。目前該論文已被 CVPR 2018 接收。

將圖像的局部表示嵌入成既具有代表性、又不受輕微噪聲影響的特征，是很多計算機視覺任務(wù)中的重要一步。在深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）成功之前，研究人員使用手動的連續(xù)獨立步驟解決該問題。典型包括 HOG、SIFT、協(xié)方差描述子、VLAD、Fisher 向量和雙線性池化。盡管 CNN 是端到端地訓(xùn)練的，但是它們可以被看作兩部分：卷積層負(fù)責(zé)特征提取步驟，后面的全連接層是編碼步驟。現(xiàn)在已有多項研究探索用卷積嵌入方法替換全連接層，無論訓(xùn)練采用兩段式還是端到端方式。

微信圖片_20180227140819.jpg

表 1. 不同神經(jīng)網(wǎng)絡(luò)的二階統(tǒng)計信息對比。雙線性 CNN（BCNN）僅具備二階信息，沒有使用矩陣歸一化。改進后的 BCNN（iBCNN）和 G^2DeNet 都利用了矩陣歸一化，但是都受制于高維度，因為它們需要計算一個很大的池化矩陣的平方根。本論文提出的 MoNet，在新型子矩陣平方根層（sub-matrix square-root layer）的幫助下，可以直接歸一化局部特征，同時，通過使用緊湊池化（compact pooling）替代全雙線性池化，可以大幅降低最后的表示維度。

雙線性 CNN 由 Lin et al. 首次提出，旨在池化不同空間位置的二階統(tǒng)計信息。雙線性池化已被證明在多項任務(wù)中有用，包括細(xì)粒度圖像分類、大規(guī)模圖像識別、分割、視覺問答、人臉識別和藝術(shù)風(fēng)格重建。Wang et al. 提出，使用高斯嵌入層納入一階信息。實踐證明，歸一化方法對這些 CNN 的性能也很重要。研究者提出了兩種歸一化方法用于雙線性池化矩陣：對于

其中微信圖片_20180227141007.png 表示局部特征，一方面，由于 M 是正定對稱矩陣（SPD），Ionescu et al. 提出使用矩陣對數(shù)（matrix-logarithm）來將 SPD 矩陣從黎曼流行映射到歐氏空間，即

微信圖片_20180227141053.png （微信圖片_20180227141210.png ）

另一方面，Wang et al. 提出矩陣方冪（matrix-power）方法，將 M 非線性地擴展到微信圖片_20180227141324.png

。兩項研究中，矩陣方冪的性能和數(shù)值穩(wěn)定性都優(yōu)于矩陣對數(shù)。此外，Li et al. 對矩陣方冪歸一化在解決通用大規(guī)模圖像識別問題上的優(yōu)秀性能提供了理論支持。因此，本論文提出將矩陣方冪正則化整合進 MoNet 架構(gòu)中。

微信圖片_20180227141356.jpg

圖 1. 論文提出的 MoNet 架構(gòu)圖示。該架構(gòu)使用論文提出的子矩陣平方根層，這使得在雙線性池化之前執(zhí)行矩陣歸一化或進一步使用緊湊池化，在不損害性能的前提下大幅降低維度成為可能。

上述特征編碼的一個重要缺陷是編碼后特征的維度極高。由于張量相乘，最后的特征維度是，其中 C 是最后一個卷積層的特征通道數(shù)。即使在 C 相對較低的情況下，如 VGG16 中，C = 512，最后特征的維度也超過 260K。該問題可通過隨機投影（random projection）、張量速寫（tensor sketching）和低秩屬性來緩解。但是，由于矩陣方冪歸一化層應(yīng)用在池化矩陣 M 上，因此很難結(jié)合矩陣歸一化和緊湊池化來同時達到更好的性能和更低的最后特征維度。

本論文使用同質(zhì)填充局部特征（homogeneous padded local feature）的張量積重寫了 G^2DeNet 的方程，使之對齊 BCNN 架構(gòu)，以使高斯嵌入操作和雙線性池化解耦合。本論文沒有特別關(guān)注雙線性池化矩陣 M，而是推導(dǎo)出子矩陣平方根層，對（非）同質(zhì)局部特征上直接執(zhí)行矩陣方冪歸一化。在新型子矩陣平方根層的幫助下，研究者利用緊湊池化逼近張量積，同時使維度更低。

本論文的貢獻有以下三方面：

利用實證矩矩陣（moment matrix）結(jié)合 G^2DeNet 和雙線性池化 CNN，并將高斯嵌入與雙線性池化解耦合。

提出新型子矩陣平方根層，在雙線性池化層之前直接對特征執(zhí)行歸一化處理，從而利用緊湊池化降低表示的維度。

利用矩陣反向傳播推導(dǎo)出子矩陣平方根層的梯度，這樣 MoNet 架構(gòu)可以進行協(xié)同優(yōu)化。

MoNet

MoNet 網(wǎng)絡(luò)的架構(gòu)概述如上述圖 1 所示。在本節(jié)中，我們將詳述每個模塊的設(shè)計。

對于輸入圖像 I，ReLU X 之后最后一個卷積層的輸出由整個空間位置 i = 1, 2, . . . , n 上的局部特征 x_i 組成。接著，我們將其映射到齊次坐標(biāo)，方法是添加額外的值為 1 的維度，并把所有元素除以。之后，應(yīng)用一個適當(dāng)?shù)淖泳仃嚻椒礁鶜w一化。最后，使用一個緊密雙線性池化層池化整個空間位置中所有 n 個特征，并在最后的全連接層之前進行逐元素的平方根正則化和歸一化。

微信圖片_20180227142034.jpg

表 4：細(xì)粒度分類上的實驗結(jié)果。雙線性和 TS 分別表征全雙線性池化和 Tensor Sketch 緊密池化。每欄中的最佳表現(xiàn)標(biāo)為紅色。

論文：MoNet: Moments Embedding Network

微信圖片_20180227142105.jpg

論文鏈接：https://arxiv.org/abs/1802.07303

近期雙線性池化作為一種特征編碼層被提出，可在深度網(wǎng)絡(luò)的卷積層之后使用，提升在多個視覺任務(wù)中的表現(xiàn)。與傳統(tǒng)的全局平均池化層或全連接層相比，雙線性池化以平移不變式的形式收集二階信息。但是，這一池化層家族的一個嚴(yán)重弊端是其維度爆炸。為解決這一問題，已探索了緊密的近似池化方法。另外，最近成果表明，通過矩陣歸一化來調(diào)整不穩(wěn)定的較高階信息可獲得顯著的性能提升。然而，緊密池化與矩陣歸一化的結(jié)合至今未被探索。

在本論文中，我們通過實證矩矩陣結(jié)合了雙線性池化層與全局高斯嵌入層。此外，我們提出一個全新的子矩陣平方根層，借助此層，可以直接歸一化卷積層的輸出，并通過現(xiàn)成的緊密池化方法來緩解維度問題。我們在三個廣泛使用的細(xì)粒度分類數(shù)據(jù)集上進行了實驗，實驗表明，我們提出的 MoNet 架構(gòu)相比 G^2DeNet 架構(gòu)有著更好的表現(xiàn)。與緊密池化技術(shù)結(jié)合使用時，本方法可以用維度數(shù)降低了 96% 的編碼特征獲得可比的表現(xiàn)。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

CVPR 2018 | 美國東北大學(xué)提出MoNet，使用緊密池化緩解特征高維問題

日期： 2018-02-27

相關(guān)內(nèi)容