![]() |
|
| Chemometrix > ケモメトリックス > データの組織化 | |
![]() |
2. データを組織化する |
||
| 通常、複数の測定器からデータを組み合わせることが必要な場合、1つのデータシートに全てのデータを、まとめる方が便利です。このようにしてデータを蓄積する利点は、サンプルや変数が多いほど、データに潜んでいる化学的または物理的な意味を理解する機会が多くなるからです。もちろん不便な場合もあります。つまり、異なる分析装置からのデータは、1つのデータシートにするのが難しく、ファイル形式が統一されていない場合があります。全てのデータをコンピュータで読み込める1つのファイル形式で作成することが、多変量解析の段階で最も時間を費やす場合がある点に注意してください。 | ||
1.部分的にデータを組み立てる |
||
新しいサンプルや新しい測定値を古いデータに、挿入することによって、膨大なデータセットを組み立てられます。ここで、最初にデータを組織化する際に考えるべき、いくつかの質問があります、
|
||
2. トレーニングセットの構造 |
||
| 分類または回帰分析のモデルを作るには、トレーニングセットが必要になります。このトレーニグセットには、モデルの基になる説明変数以外の変数が含まれます。 分類のモデルを構築するときは、クラス変数が特別な情報になります。つまり、それぞれのサンプルにおいて予め割り当てたカテゴリーです。例えば、近赤外(NIR)スペクトルに基づく、サンプルを古いか新しいかのどちらかに分類するのが目的の場合、トレーニングセットの各サンプルは、NIR分光光度計に無関係の手段で新しいか古いかがすでに決められています。そして、この情報は、スペクトルの情報と共に含まれます。よって、分類(KNNやSIMCA)を実行するには、最低1つのクラス変数が入力されているデータセットが必要になります。 回帰モデルを構築する場合、目的変数が特別な情報になります。すなわち、予測しようとしている各サンプルの測定値です。例えば、NIRスペクトルからガソリンのオクタン価を予測するのが目的の場合、トレーニングセットの各サンプルについて、すでにオクタンエンジンから分析が行われている必要があります。そして、この情報は、スペクトル情報と共に含まれる情報になります。よって、主成分回帰分析やPLSを実行するには、最低1つの目的変数が入力されているデータセットが必要になります。 |
||
3. データセットの構造 |
||
例えば、次のような複数のクロマトグラムを考えます。![]() 図 複数のクロマトグラムのデータ 通常、行ベクトルは1つのサンプルを意味します。つまり、行ベクトルとは以下のようになります。 ここで、行ベクトルの各値は、そのサンプルから得られる変数の各測定結果です。クロマトグラムの場合、1つのサンプルにおける各ピークの面積値や高さ、または電圧値に相当します。 一方、列ベクトルは1つの変数を意味します。 ![]() ここで、列ベクトルの各値は、ある変数において測定された各サンプルの値です。クロマトグラムの場合、1つのピークまたは保持時間における各サンプルの面積値や高さ、または電圧値に相当します。 この行ベクトルと列ベクトルを組み合わせたのが行列です。つまり行列は、必ず下図のような長方形(または正方形)になります。サンプルを行列の行として設定するため、n個のサンプルについての情報が入力されているデータシートは、n行になります。
図 複数のクロマトグラムの行列表示 クラス変数と目的変数が存在する場合、これらの変数中に存在する要素の数は、トレーニングセットのサンプル数に等しくなります。 備考:データシートの行と列の数についての説明では、サンプルと変数の名前が数として数えられていません。 |
||
4. データの正当性を調べる |
||
複数のデータが1つのデータシートに集合された後(特にデータを複数のソースから挿入した場合)、注意深く欠損値を探します。欠落しているデータが存在すると解析ができません。欠損値の補正が薦められるのは、いくつかの値が欠落していて、データ解析に与える影響がごくわずかな時だけです。多くの値が欠損している場合、対応するサンプルと(または)変数を除外するほうが適切です。
|
| Software |