生データとは
データマイニングで使用されるデータは、厳選データというよりも、「集まってきたデータ」という感が強くなります。集まってきたままのデータは「生データ」と呼ばれ、解析には不向きなデータです。
大規模::大規模なデータをコンピュータに渡して、はいどうぞと簡単にいきません。大規模データ対策を考えなければいけません。
悪質::実際のデータにはよくあることですが、データ採取不足で抜け項目があったり、不正データ、特異的なデータが存在します。これら質の悪いデータが存在すると正しいマイニングが行えませんので、悪質データを処理するクレンジング作業が必要となります。
バラバラ::集められたデータは実に様々な顔をもっています。データ毎に単位が異なっていたり、数字のデータであるかと思えば、カテゴリーデータであったり。この状態は生データとしてはごく自然なことなのですが、マイニングをするためには統一したデータ形式が必要です。