近日,,來(lái)自美國(guó)東北大學(xué)和美國(guó)信息科學(xué)研究所的研究者聯(lián)合發(fā)布論文《MoNet: Moments Embedding Network》,,提出 MoNet 網(wǎng)絡(luò),使用新型子矩陣平方根層,,在雙線性池化之前執(zhí)行矩陣歸一化,,結(jié)合緊湊池化在不損害性能的前提下大幅降低維度,其性能優(yōu)于 G^2DeNet,。目前該論文已被 CVPR 2018 接收,。
將圖像的局部表示嵌入成既具有代表性、又不受輕微噪聲影響的特征,,是很多計(jì)算機(jī)視覺(jué)任務(wù)中的重要一步,。在深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)成功之前,研究人員使用手動(dòng)的連續(xù)獨(dú)立步驟解決該問(wèn)題,。典型包括 HOG,、SIFT、協(xié)方差描述子,、VLAD,、Fisher 向量和雙線性池化。盡管 CNN 是端到端地訓(xùn)練的,,但是它們可以被看作兩部分:卷積層負(fù)責(zé)特征提取步驟,,后面的全連接層是編碼步驟。現(xiàn)在已有多項(xiàng)研究探索用卷積嵌入方法替換全連接層,,無(wú)論訓(xùn)練采用兩段式還是端到端方式,。
表 1. 不同神經(jīng)網(wǎng)絡(luò)的二階統(tǒng)計(jì)信息對(duì)比。雙線性 CNN(BCNN)僅具備二階信息,,沒(méi)有使用矩陣歸一化,。改進(jìn)后的 BCNN(iBCNN)和 G^2DeNet 都利用了矩陣歸一化,但是都受制于高維度,,因?yàn)樗鼈冃枰?jì)算一個(gè)很大的池化矩陣的平方根,。本論文提出的 MoNet,,在新型子矩陣平方根層(sub-matrix square-root layer)的幫助下,可以直接歸一化局部特征,,同時(shí),,通過(guò)使用緊湊池化(compact pooling)替代全雙線性池化,可以大幅降低最后的表示維度,。
雙線性 CNN 由 Lin et al. 首次提出,,旨在池化不同空間位置的二階統(tǒng)計(jì)信息。雙線性池化已被證明在多項(xiàng)任務(wù)中有用,,包括細(xì)粒度圖像分類(lèi),、大規(guī)模圖像識(shí)別、分割,、視覺(jué)問(wèn)答,、人臉識(shí)別和藝術(shù)風(fēng)格重建。Wang et al. 提出,,使用高斯嵌入層納入一階信息,。實(shí)踐證明,歸一化方法對(duì)這些 CNN 的性能也很重要,。研究者提出了兩種歸一化方法用于雙線性池化矩陣:對(duì)于
其中表示局部特征,,一方面,由于 M 是正定對(duì)稱(chēng)矩陣(SPD),,Ionescu et al. 提出使用矩陣對(duì)數(shù)(matrix-logarithm)來(lái)將 SPD 矩陣從黎曼流行映射到歐氏空間,,即
(
)
另一方面,Wang et al. 提出矩陣方冪(matrix-power)方法,,將 M 非線性地?cái)U(kuò)展到
,。兩項(xiàng)研究中,矩陣方冪的性能和數(shù)值穩(wěn)定性都優(yōu)于矩陣對(duì)數(shù),。此外,,Li et al. 對(duì)矩陣方冪歸一化在解決通用大規(guī)模圖像識(shí)別問(wèn)題上的優(yōu)秀性能提供了理論支持。因此,,本論文提出將矩陣方冪正則化整合進(jìn) MoNet 架構(gòu)中,。
圖 1. 論文提出的 MoNet 架構(gòu)圖示。該架構(gòu)使用論文提出的子矩陣平方根層,,這使得在雙線性池化之前執(zhí)行矩陣歸一化或進(jìn)一步使用緊湊池化,,在不損害性能的前提下大幅降低維度成為可能。
上述特征編碼的一個(gè)重要缺陷是編碼后特征的維度極高,。由于張量相乘,,最后的特征維度是,其中 C 是最后一個(gè)卷積層的特征通道數(shù)。即使在 C 相對(duì)較低的情況下,,如 VGG16 中,,C = 512,最后特征的維度也超過(guò) 260K,。該問(wèn)題可通過(guò)隨機(jī)投影(random projection),、張量速寫(xiě)(tensor sketching)和低秩屬性來(lái)緩解。但是,,由于矩陣方冪歸一化層應(yīng)用在池化矩陣 M 上,,因此很難結(jié)合矩陣歸一化和緊湊池化來(lái)同時(shí)達(dá)到更好的性能和更低的最后特征維度。
本論文使用同質(zhì)填充局部特征(homogeneous padded local feature)的張量積重寫(xiě)了 G^2DeNet 的方程,,使之對(duì)齊 BCNN 架構(gòu),,以使高斯嵌入操作和雙線性池化解耦合。本論文沒(méi)有特別關(guān)注雙線性池化矩陣 M,,而是推導(dǎo)出子矩陣平方根層,對(duì)(非)同質(zhì)局部特征上直接執(zhí)行矩陣方冪歸一化,。在新型子矩陣平方根層的幫助下,,研究者利用緊湊池化逼近張量積,同時(shí)使維度更低,。
本論文的貢獻(xiàn)有以下三方面:
利用實(shí)證矩矩陣(moment matrix)結(jié)合 G^2DeNet 和雙線性池化 CNN,,并將高斯嵌入與雙線性池化解耦合。
提出新型子矩陣平方根層,,在雙線性池化層之前直接對(duì)特征執(zhí)行歸一化處理,,從而利用緊湊池化降低表示的維度。
利用矩陣反向傳播推導(dǎo)出子矩陣平方根層的梯度,,這樣 MoNet 架構(gòu)可以進(jìn)行協(xié)同優(yōu)化,。
MoNet
MoNet 網(wǎng)絡(luò)的架構(gòu)概述如上述圖 1 所示。在本節(jié)中,,我們將詳述每個(gè)模塊的設(shè)計(jì),。
對(duì)于輸入圖像 I,ReLU X 之后最后一個(gè)卷積層的輸出由整個(gè)空間位置 i = 1, 2, . . . , n 上的局部特征 x_i 組成,。接著,,我們將其映射到齊次坐標(biāo),方法是添加額外的值為 1 的維度,,并把所有元素除以,。之后,應(yīng)用一個(gè)適當(dāng)?shù)淖泳仃嚻椒礁鶜w一化,。最后,,使用一個(gè)緊密雙線性池化層池化整個(gè)空間位置中所有 n 個(gè)特征,并在最后的全連接層之前進(jìn)行逐元素的平方根正則化和
歸一化。
表 4:細(xì)粒度分類(lèi)上的實(shí)驗(yàn)結(jié)果,。雙線性和 TS 分別表征全雙線性池化和 Tensor Sketch 緊密池化,。每欄中的最佳表現(xiàn)標(biāo)為紅色。
論文:MoNet: Moments Embedding Network
論文鏈接:https://arxiv.org/abs/1802.07303
近期雙線性池化作為一種特征編碼層被提出,,可在深度網(wǎng)絡(luò)的卷積層之后使用,,提升在多個(gè)視覺(jué)任務(wù)中的表現(xiàn)。與傳統(tǒng)的全局平均池化層或全連接層相比,,雙線性池化以平移不變式的形式收集二階信息,。但是,這一池化層家族的一個(gè)嚴(yán)重弊端是其維度爆炸,。為解決這一問(wèn)題,,已探索了緊密的近似池化方法。另外,,最近成果表明,,通過(guò)矩陣歸一化來(lái)調(diào)整不穩(wěn)定的較高階信息可獲得顯著的性能提升。然而,,緊密池化與矩陣歸一化的結(jié)合至今未被探索,。
在本論文中,我們通過(guò)實(shí)證矩矩陣結(jié)合了雙線性池化層與全局高斯嵌入層,。此外,,我們提出一個(gè)全新的子矩陣平方根層,借助此層,,可以直接歸一化卷積層的輸出,,并通過(guò)現(xiàn)成的緊密池化方法來(lái)緩解維度問(wèn)題。我們?cè)谌齻€(gè)廣泛使用的細(xì)粒度分類(lèi)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),,實(shí)驗(yàn)表明,,我們提出的 MoNet 架構(gòu)相比 G^2DeNet 架構(gòu)有著更好的表現(xiàn)。與緊密池化技術(shù)結(jié)合使用時(shí),,本方法可以用維度數(shù)降低了 96% 的編碼特征獲得可比的表現(xiàn),。