読み方 : ごうせいデータ

合成データ【synthetic data】

合成データとは?

現実の観測や記録から収集されるデータに似たデータを、統計モデルやアルゴリズムに基づいて自動生成したもの。実在する個人の情報を含まない形で、元データの統計的な性質や特徴的なパターンを再現する。
合成データのイメージ画像

生成AIなどに用いられる高度な機械学習モデルを開発するには大量の学習データが必要だが、個人情報保護の規制や収集コストの問題から、実際のデータを十分な量を確保できないケースは多く存在する。医療や金融の分野では実データの共有に制限があり、研究・開発に必要なデータを集めにくい状況が続いている。

合成データはこうした制約を回避する手段の一つで、特定の傾向やパターンを持つデータコンピュータによって人工的に作り出す。例えば、医療に関するデータが必要な場合に、患者の記録を直接使わなくても、同じ統計的傾向をもつデータを生成することで、プライバシーリスクを抑えたまま分析や検証を進めることができる。

主な生成手法として、確率分布を仮定して乱数からデータを作る方法、物理法則や業務手順を再現したシミュレーションから得る方法、実データを学習した生成モデルから新たなデータを出力する方法などがある。自動運転車の開発では、物理法則を実装した仮想空間に街や道路を構築して走行データを大量に生成する手法が実用化されている。飛び出しへの対応といった現実では再現やデータ収集が難しい事故や危険な場面も、シミュレーション上であれば安全に再現できる。

現在では、医療や金融、製造業などの分野で活用が進んでいる。規制の厳しい業界では実データの取り扱いに慎重にならざるをえないため、合成データへの需要は高まりつつある。実データの完全な代替とは言えないが、不足するデータを補い、開発環境を整えたり機械学習モデルの精度を向上させるための現実的な選択肢として定着しつつある。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。