読み方 : ケーとくめいせい

k-匿名性【k-anonymity】

k-匿名性とは?

個人に関するデータを公開や共有する際に、特定の人物が識別されないようにするための匿名化の指標。データ中で同じ属性の組み合わせを持つレコードが少なくともk件以上存在する状態を満たすように加工することで、個人の特定を困難にする。
k-匿名性のイメージ画像

個人についての記録を含むデータから、氏名や電話番号といった直接的な識別情報を削除しても、年齢や性別、居住地域といった属性を組み合わせることで個人が特定できてしまうことがある。こうした間接的な識別につながる属性を「準識別子」と呼ぶ。

k-匿名性は、準識別子の組み合わせが同一であるレコードデータセット内にk件以上存在するよう加工することで、ある特定の一人を他のk-1人から区別できない状態を作り出す。kが5であれば、同じ属性の組み合わせを持つ候補が常に5人以上存在することになり、外部データと照合されても特定の一人に結びつけることが難しくなる。

この基準を満たすための代表的な加工手法が「汎化」と「抑制」である。汎化とは、「32歳」を「30代」に、「市区町村」を「都道府県」に置き換えるように、情報の粒度を意図的に粗くする操作を指す。抑制は、同じ属性を持つ人数が基準を満たせない場合に、そのレコードデータセットから除外する操作である。kの値を大きく設定するほど識別は困難になるが、データの詳細さは失われるトレードオフがあり、分析の目的と照らし合わせて調整する必要がある。

k-匿名性には構造上の限界がある。同じグループ内の機微な属性値が偏っていると、個人を特定できなくても「このグループに属する人物は全員ある病気を持つ」といった推測が成り立ってしまう。この弱点を補う拡張として、グループ内の機微属性の多様性を保証する「l-多様性」や、属性値の分布をデータセット全体に近似させる「t-近似性」(t-近接性)といった手法が提案されており、実務では複数の手法を組み合わせて安全性を高めるのが一般的である。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。