読み方 : ピックストゥーピックス
Pix2Pix
概要
Pix2Pixとは、敵対的生成ネットワーク(GAN)を応用して、入力画像と対応する出力画像の組を用いて学習し、ある画像を別の画像表現へ変換する画像生成モデル。線画の着色や航空写真の地図化といった画像から画像への変換タスクを汎用的に実現したモデルである。

通常のGANと同様に、本物らしい画像を作る「生成者」ネットワークと、生成された画像が本物かどうか見破ろうとする「識別者」ネットワークが競い合う。生成者は入力画像を条件として受け取り、それに対応する出力画像を生成する。一方、識別者は入力画像と生成画像の組が実データか生成データかを判別する。
これに加えて、生成された画像が正解の画像とピクセル単位でどれだけ近いかを評価する損失関数を組み合わせることで、入力の構造を維持したまま、細部まで整合性の取れた変換が可能となっている。
ネットワーク構造では、入力と出力で情報の欠落を防ぐために「U-Net」と呼ばれるスキップ結合を持つネットワークが採用されている。識別側には画像全体ではなく局所的な領域(パッチ)ごとに真偽を判定する「PatchGAN」が導入され、細部の表現を鮮明に再現することに寄与している。
Pix2Pixは、異なる種類の画像間の橋渡しを単一のアルゴリズムで実現でき、線画から写真のような写実的な画像への変換、白黒写真のカラー化、線画の着色など多様な画像変換タスクに応用されている。ただし、学習には必ず「変換前」と「変換後」の対になる教師データが必要であり、データの収集・作成の制約が大きい問題がある。