ソフトウェア
Chemometrix > ケモメトリックス > データの視覚化  
EZ Chrom Elite

3. データを視覚化する

テーブル表示のデータを図としてプロットすると、データの構造を視覚的に理解できます。
1. テーブル表示
1つの図には、千の単語や数値の価値があります。例えば、サンプル数が70、変数が10個の行列の場合、テーブル中には数値が700個あります。このような数値の羅列からデータに潜在している情報を抽出するのは困難です。しかし、下図のような理解しにくい数値のテーブルでも、図として表示すると理解が容易になります。

図 テーブル表示
2. ラインプロット
1つのサンプルを1つの線で表現したラインプロットでは、テーブルで数字を見ただけでは見過ごすような変則的な値を指摘してくれる場合があります。全てのサンプルのラインプロットを重ねることで、アウトライヤーの可能性があるサンプルを迅速に発見できます。下図は、近赤外スペクトルの重ね書きです。この膨大なデータは、かなり均一ですが、1つのサンプルだけが、明確に異なっています。 このような場合には、アウトライヤーを取り除いてモデルを構築する可能性があります。

図 1つのアウトライヤーサンプルを含むデータのラインプロット

また、変数のラインプロットでは、規則性を示してくれます。下図では、上図で示されたアウトライヤーが、変数のラインプロットでも同様に他と異なります。

図 1つのアウトライヤーを含む変数のラインプロット

1つの変数に対するラインプロットでは、データの傾向が示されます。例えば、連続したサンプルが、変数において着実に増加する場合は、測定時におけて望ましくないドリフトが予想されます。この場合、微分などの変換が必要になる可能性があります。

図 変数に傾向がある場合のラインプロット

サンプルのラインプロットと同様に、変数を重ねたラインプロットでは、その他の規則性を明確に示す場合があります。下図は複数の変数のラインプロットを重ねた例で、変数の異なったレスポンスレベルやデータセットのサブグループの間における異なった相関のレスポンスを示しています。

図 複数の変数のラインプロット
3. 散布図
変数の二次元または三次元の散布図は、変数間の相関を明確に示します。マルチプロットとは、二次元散布図の集まりです。下図のマルチプロットは、いくつかの変数が高い相関性を示しています。ただし、マルチプロットの方法は、変数の数が比較的少ない時だけに有効です。

図 相関のある変数とない変数のマルチプロット

データによっては、散布図でクラスターを明確に区別できる変数の組み合わせを発見できます。もし、目的が分類ならば、この視覚的な解析で十分です。

図 3つのクラスターの三次元散布図

極端に異常なサンプルは、散布図のプロットの中でも際立ちます。例えば、下図では、アウトライヤーのデータポイントが明確に示されています。

図 明確なアウトライヤーがある二次元の散布図

データセットの構造を視覚化する方法には、いくつもありますが、結局1回につき2次元または3次元の情報だけが処理されるという能力の制限があります。多変量のデータセットには、高い次元が存在するため、複雑なデータセットを解釈し特徴づける能力についての限界を克服するために、多くの多変量解析の手法が開発されました。
Software