VGG-VERY DEEP CONVOLUTIONAL NETWORK SFOR LARGE-SCALE IMAGE RECOGNITION

前言

這篇的摘要寫說針對AlexNet的基礎上主要做了兩方面的改進：
1.使用了最小的3x3卷積核尺寸和最小間隔。

在整個圖片和multi-scale上訓練和測試圖片。
論文原句：1. Use smaller receptive window size and smaller stride of the first convolutional layer.
2.Training and testing the networks densely over the whole image and over multiple scales.

1	AlexNet做改進, 所以VGG本身的問題並不會在這篇討論, 會在ResNet那篇再探討。

架構

採用較小的Filter尺寸-3x3，卷積的間隔s=1:
1：3x3是最小的能夠捕獲上下左右和中心概念的尺寸。
2：兩個3x3的捲基層的有限感受野是5x5；三個3x3的感受野是7x7，可以替代大的filter尺寸。
3：多個3x3的捲基層比一個大尺寸filter卷基層有更多的非線性，使得判決函數更加具有判決性。
4：多個3x3的捲積層比一個大尺寸的filter有更少的參數，假設卷基層的輸入和輸出的特徵圖大小相同為C，那麼三個3x3的捲積層參數個數3x（3x3xCxC）=27CC；一個7x7的捲積層參數為49CC；所以可以把三個3x3的filter看成是一個7x7filter的分解（中間層有非線性的分解）。
也使用過1x1 filter:
作用是在不影響輸入輸出維數的情況下，對輸入進行線性形變，然後通過Relu進行非線性處理，增加網絡的非線性表達能力。
Max-Pooling：2x2，間隔s=2；

論文中解釋關於僅使用3x3 conv kernel，因為兩個3x3的conv kernel疊合的reception field等效於一個5x5 conv kernel(亦即每個pixel可以correlate到周圍的5x5個pixel), 而三個3x3則可以等效於一個7x7，但兩層3x3的參數量僅有一層5x5的(3x3x2)/(5x5) = 0.72倍，而三層3x3參數量是一層7x7的(3x3x3)/(7x7)=0.55倍，對應到的範圍等效並且可使得需參數量更少，並且疊越多層Conv+ReLU的特徵學習能力比單一層Conv+ReLU來的更好。

Filter Size
相對於AlexNet 每個Stage僅含有一個Conv層, Filter 7x7, VGG每個Stage有2~4個Conv層,而Filter只有3x3, 原論文內”This can be seen as imposing a regularization on the 7 × 7 conv. filters, forcing them to have a decomposition through the 3 × 3 filters”
他說7x7 filter可以被分解成若干个3x3的filter的叠加。
類比一下n維空間的向量x，x的正交分解
x = x1(1, 0, 0, ….) + x2(0, 1, 0, …) + x3(0, 0, 1,…) + … + xn(0, 0, 0, …, 1)

每一組的每一層的filter被類比成n維歐幾里得空間的基底。
若VGG的一組含有3層3x3的filter，則我們則假設一個7x7的filter可以被分解成3種“正交”的3x3的filter。

作者原文：First, we incorporate three non-linearrectification layers instead of a single one, which makes the decision function more discriminative.Second, we decrease the number of parameters: assuming that both the input and the output of athree-layer 3 × 3 convolution stack has C channels, the stack is parametrised by 3 32C^2 = 27C^2weights; at the same time, a single 7 × 7 conv. layer would require 72C^2 = 49C^2

後來googleNet
將3×3的卷積分解成31和13的卷積，可以減少33％的計算量，如果將3×3分解為兩個2×2的，可以減少11％的計算量，而且利用非對稱卷積的效果還更好。
實踐表明，不要過早的使用這種分解操作，在特徵映射大小為（12〜20）之間，使用它，效果是比較好的。