差分プライバシー【differential privacy】
差分プライバシーとは?

業務などで個人データを解析して利用する際、元になった人物の特定に繋がる情報を秘匿する「匿名化」が行われることがある。従来の方式では、氏名や住所といった識別情報を単純に削除することで個人を守ろうとしてきた。しかし、複数の公開データを照合すれば個人が再特定されるリスクは残る。
差分プライバシーはこの問題を根本から捉え直し、攻撃者がどのような補助情報を持っていても特定できないよう、集計結果に意図的な「ノイズ」(統計的な誤差)を加える。これにより、ある特定の人物のデータが含まれているか否かにかかわらず、出力結果がほとんど変わらない状態を作り出す。
保護の強度は「プライバシー予算」と呼ばれるパラメータ(ε)で管理される。εが小さいほどノイズが大きくなり個人情報の保護は強まるが、統計としての精度は低下する。逆に、εが大きければ精度は上がるものの、個人の影響が結果に表れやすくなる。このトレードオフに対してをどこで折り合いをつけるかが実務上の課題となる。
実装の形態は大きく二種類に分かれる。データを一か所に集めてから処理する「中央型」と、収集前に各端末でノイズを加える「局所型」である。局所型はデータを管理する組織そのものを信頼しなくてよいため保護は強まるが、精度は中央型より落ちる。米アップル(Apple)社はiOSの利用統計収集に、米グーグル(Google)社はChromeのデータ収集に局所型を採用しており、米国勢調査局は2020年の国勢調査の集計処理に中央型を採用した。
近年では機械学習への応用も進んでいる。モデルの学習に個人データを使う場合、学習済みモデルを分析することで元データの情報が推測されるリスクがある。差分プライバシーを学習プロセスに組み込むことで、このリスクを抑えながらモデルを構築できる。数学的な定義に基づいてプライバシー保護の度合いを評価でき、個人情報を保護しながらデータ活用を行うための方法として研究と実装が進められている。