連合学習【federated learning】フェデレーテッドラーニング

連合学習とは?

複数の端末や組織に分散したデータを一か所に集めずに、協調して機械学習モデルを訓練する手法。プライバシー保護と機械学習の活用を両立させる手段として、近年注目が高まっている。
連合学習のイメージ画像

従来の機械学習では、スマートフォンや医療機器、各組織のサーバなどに蓄積されたデータを中央のサーバへ転送し、一括して学習を行うのが一般的であった。この方法は、個人の健康情報や通信履歴など、外部への送信が難しいデータには適用しにくい。データを移動させること自体が、プライバシー侵害や情報漏洩のリスクを生じさせるからである。

連合学習では、データを元の場所に置いたまま、データを持つ機器が連携して一つのモデルの学習を進める。最初に、学習全体を司る中央のサーバがモデルの初期状態を構築し、各端末へ配布する。各端末は手元のデータだけを使って学習を行い、モデルの更新差分(重みの変化量や勾配など)のみをサーバへ返送する。

サーバは各端末から届いた差分を統合してモデルを改良し、再び各端末へ配布する。この繰り返しによって、データを一か所に集めることなくモデルの精度を高めていくことができる。この過程で学習に用いる生データそのものがネットワークを流れることはない。中央サーバへの処理集中を避けられるため、通信コストの削減や応答速度の改善にも寄与する。

活用が進んでいる分野は、データの外部共有が制限される領域である。医療機関が患者の診察記録を互いに開示せずに共通の診断支援モデルを構築する場合や、スマートフォンの文字入力予測の改善などがその例にあたる。米グーグル(Google)社がスマートフォンの文字入力アプリ「Gboard」の予測入力機能にこの手法を採用したことで広く知られるようになった。

一方、端末ごとにデータの量や偏りが異なる「非IID」(Non-Independent and Identically Distributed)という性質があり、学習結果に不均一さが生じる問題が生じることが知られている。また、更新差分から元のデータをある程度復元できる可能性が指摘されており、「差分プライバシー」や「秘密計算」といった技術との組み合わせによってプライバシー保護を強化する研究が続いている。端末が外部の攻撃者に乗っ取られるなどした場合、誤った差分を送信してモデルを汚染しようとする攻撃が行われる可能性も指摘されている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。