PyTorch : FCN によるセマンティック・セグメンテーション

作成 : (株)クラスキャットセールスインフォメーション
日時 : 07/24/2017

概要

先に TensorFlow : FCN によるセグメンテーションで FCN (Fully Convolutional Network) モデルによるセマンティック・セグメンテーションの実験をしましたが、同様に PASCAL VOC2012 を題材として PyTorch 実装でも試してみます。

今回は FCN のスキップ・アーキテクチャの有無という視点ではなく、原論文どおりに FCN-8s, FCN-16s, そして FCN-32s それぞれのモデル実装を比較してみます。FCN-8s をベースとしてこれらの違いは decoder でスキップを行なう際の位置と数です。

また損失グラフと予想画像の表示のために visdom も使用します。

念のため PASCAL VOC 2012 について再度説明しておきますと、このデータセットは物体検出やセグメンテーション目的で標準的に利用されるデータセットです。セグメンテーションについては訓練セットが 1464 画像、検証セットが 1449 画像用意されていて総計 2,913 枚あります。クラスは以下の 20 ありますが (背景をカウントすれば 21) :

1=aeroplane, 2=bicycle, 3=bird, 4=boat, 5=bottle, 6=bus, 7=car , 8=cat, 9=chair, 10=cow, 11=diningtable, 12=dog, 13=horse, 14=motorbike, 15=person, 16=potted plant, 17=sheep, 18=sofa, 19=train, 20=tv/monitor

クラスの詳細については以下を参照してください :

PASCAL VOC2011 Example Segmentations

以下は FCN-8s のケースのトレーニングによる予想画像の推移を示した例です。表示は PASCAL のラベル風にしてあります :

モデルとトレーニング

モデル

FCN の原論文 – Fully Convolutional Networks for Semantic Segmentation – では FCN-8s, FCN-16s, そして FCN-32s のサブモデルに分けられています。基本構造は共通で便宜上 encoder/decoder で分けて考えると、encoder は分類器として (完全結合層ではなく) 畳み込み層を使用した VGG-16 をベースとしており、decoder では upsampling を反復します。

この時 decoder でスキップ・アーキテクチャを導入して (encoder の) 浅い層の出力が反映されるようにするわけですが、ここでサブモデル間で違いがあります。FCN-8s では (VGG の) ブロック 3 と 4 の出力も反映し、FCN-16s ではブロック 4 の出力も反映します。FCN-32s では最終出力のみを使用します。その結果、最終ステップで upsampling する際のストライドが 8, 16, 32 になるためにそれぞれ FCN-8s, FCN-16s そして FCN-32s と呼称するようです。当然、FCN-32s が粗い結果になります。