データクレンジング 【data cleansing】 データクリーニング / data cleaning

概要

データクレンジング(data cleansing)とは、データベースなどに保存されているデータの中から、重複や誤記、表記の揺れなどを探し出し、削除や修正、正規化などをってデータの品質を高めること。

蓄積されたデータを分析したり活用したりする際に、同じ意味を表しているのに表記が微妙に異なっていて同一とみなされない例など、そのままでは自動処理に適さない状態になっていることがある。特に、複数の情報源からデータを集めた場合や、一件ごとに入力者が異なる場合などにこの点が問題となることが多い。

そのような場合に、一定の基準やルールなどを定め、一項目ずつデータを調べて適切な状態に編集、統合、補正などしていく処理や作業をデータクレンジングという。具体的な手法はデータの種類や形式、利用目的などにより様々である。

一般的な例としては、全角文字半角文字の違いや、空白文字や区切り記号の有無、人名の異体字の誤りや姓名の分割・併合、法人名の表記(株式会社と(株)の違いなど)、住所や電話番号の表記法などが対象となり、それぞれについて表記ルールを決めて修正や削除などをなっていく。

(2020.3.13更新)

他の辞典による解説 (外部サイト)

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。
ホーム画面への追加方法
1.ブラウザの 共有ボタンのアイコン 共有ボタンをタップ
2.メニューの「ホーム画面に追加」をタップ
閉じる