![]() |
|
| Chemometrix > ケモメトリックス > 回帰分析 | |
![]() |
10. 回帰分析(Regression Methods ) |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1. PCR/PLS |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ほとんどの多変量解析の最終目的は,関連する特性値を予測するためのモデルを構築することです.この特性とは,カテゴリー,または連続している数値です.カテゴリーを予測するためのモデルを構築する方法は,KNNとSIMCAで既に説明されています.一方,連続的な特性では,回帰分析法によりモデルが構築され,予測が行われます. 回帰分析は,ある量的なサンプルの性質(目的変数)と1つまたは複数の説明変数の間の関係を確立します.分析化学においての説明変数とは,クロマトグラフまたは分光光度計による測定値です.この回帰分析では, 特別なセンサーを必要し,維持するコストが高かい,全体の特性や濃度を測定する方法の代替として使用できる利点があります.単回帰分析と比較して,多変量回帰分析では正確さが向上し,アウトライヤーの発見も行なえます. モデルを作成するために使用されるデータは,トレーニングセットと呼ばれ,モデルの構築段階は,検量(Calibration)と呼ばれます. モデルが構築された後,未知試料に適用される前に,必ずモデルが適切であるか確認する必要があります.バリデーションによって,予測モデルの質が確立されます.一般的には,予測される特性が既に分かっているサンプルを用いて予測を行います.作成したモデルは,トレーニングセットを非常によく説明しているかもしれませんが,後々のサンプルに適用した際には貧弱な予測しかできないかもしれません.よって,バリデーションは,どのくらい上手にモデル構築を行うかを教えてくれるので,モデルを構築する過程と同様に重要です. ファクターに基づく回帰分析としては,主成分回帰分析(PCR)とPartial Least Squares(PLS)があります.どちらの方法も説明変数のブロックを低い次元で表現します.これらの方法は,この表現をどのように計算するかで異なります.これらの違いの分岐点は常に明確なわけではないので,PCRとPLSのどちらを使用するのが良いのか迷う場合があります.多くのデータセットに対して,最終結果の信頼できるモデルを作り出すのに,どちらか一方が他方より大幅に優れているとはいえません. ここで説明するPLSアルゴリズムは,しばしばPLS1と呼ばれます.複数の目的変数が組みとして計算されるPLS2は説明していません.PLSとPCRについての理論や適用についての詳細は,Martensらの文献を参照してください. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2. 数学的な背景 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| どのように多変量回帰分析を適用するかを説明する前に,その幾つかの背景について説明します.この項では,PCRとPLSの両方の数学的な背景を説明します. m個の測定がn個のサンプルで測られた場合を考えます.各サンプルには,m個の説明変数が行ベクトル内に配列されています.これらの行ベクトルは,X(または説明変数)ブロックと呼ばれるn行とm列から成り立つ行列に含まれます.Y(または目的変数)ブロックには,n個の要素をもつ列ベクトルが最低1つ含まれています.以下の説明の中で,iはサンプルの番号,jは説明変数の番号,kはファクターの番号を意味します.ファクターの最大数としてのgは,mとnの小さい方に等しいとします. 重回帰分析(Multilinear Regression) 測定値xj(ここでj = 1,2...,m)の組み合わせから,いくつかの値yを予測するには,まずはじめに,この2組みの測定値の関係を確立する必要があります.もし,yがxに直線関係があると仮定すると,以下のように書けます. ここで,(回帰係数と呼ばれる)ベータが,探している関係を明示します.n個のサンプルのセット(i = 1,2,... n)では,下式のようになります. (平均化して最初のベータを取り除いた)行列の形は,以下のようになります. yが正確にXブロックから表現できないため,エラーベクトル,fが含まれます. ここで,(T)は転置行列を意味します.これから下式が得られます. 新しいxからyを予測するには,式−54を式−52へ代入します. この方法は重回帰分析(MLR),または逆最小二乗(ILS: Inverse Least Squares)と呼ばれ,変数の数よりサンプルの数の方が多い場合に使用できます.n行m列の転置が要求されている点に注意してください.もし,Xの列が線形で従属しているか相関が高い場合,行列は奇妙(singular)になってしまいます.実際に,この意味は,計算された回帰係数が比較的不正確になってしまうことを意味します.想像できると思いますが,不十分に決定された回帰係数のモデルに基づく予測は,同様に不正確になります.ファクターに基づいた回帰分析を使用すると,この問題を回避できます(下記参照).この方法で使用する変数は,定義から相関がありません. ファクターに基づく回帰分析 多くの多変量データは,高い相関のある測定値を含みます.例えば,多くの分光光度計では,複数の波長で測定を行います.1つの波長における大きな変化は,しばしば他の波長でも似たような変化を伴います.相関のある変数は,ある意味で複製のようにふるまい,重複の観点からは好適です.しかし,MLRでは,各変数が他の変数と独立していると定義しています.多くの場合,これは明らかに間違っています.この仮説の違反は,相関性の高い変数を含むデータセットに適用された時,MLRが失敗する原因になります.使用できる多変量技術としてMLRしかない場合,相関のある変数を見つけ,取り除く必要があります.よって,MLRで重要な点は,多くの場合,元の説明変数のデータセットからどの変数を使用して,どの変数を削除するかを決めることです.つまり,変数の選択です. MLRに代わる方法として,ファクターに基づく方法があります.「主成分分析」で説明されているように,それらはデータセットの変動量を「説明する」説明変数の線形結合を見つけだします.これらの線形結合は,ローディングまたは潜在変数と呼ばれる,複数のファクターです.それらは,相関のない望ましい特性を持つ新しい変数として考えられます.複数のファクターに基づく方法(PCRとPLS)は,どのようにファクターを定義するかという点で異なります.すなわち,元の変数の線形結合をどのように見つけるかです.この方法の長所は,データが除去されないことです.つまり,全てのデータを計算に使用します.短所は,ファクターの解釈の難しさと,どれ位多くのファクターを使用するかを決める必要があることです. 主成分回帰分析(Principal Components Regression) 主成分回帰分析(PCR)では,説明変数のブロック(つまり,Xブロック)が,最初にPCAとして分解されます.ここでのPCRは,特異値分解(SVD: Singular Value Decomposition)の方法で説明します.SVDでは,行列Xが,3つの行列に分解されます. 行列Uは行空間の固有ベクトル値です.行列Vは列空間の固有ベクトルです.そして,Sは対角線行列で,その対角線の各要素が特異値と呼ばれます.特異値は,Xの転置行列にXを掛けて得られる固有値の平方根です.特異値の数は,サンプルまたは説明変数のどちらか小さい方と同じ数になります.このような分解の利点は,問題となるような可能性のある逆行列(inversion)が避けられることです.SVDの結果は,式−57と式−58のように主成分分析の結果と互換性がある点に注意してください. ここでは,Xを特異値分解で置き換えて,回帰分析を処理します.まず,式−56を式−52へ代入します. これをβについて解くと以下のようになります. これから,未知としての PCRで注意する点は,Xの特異値分解がXのみに依存している点です.つまり,Yのブロックは,UやS,Vに影響されず,βのみに影響されます. PLS回帰分析(Partial Least Squares Regression) PLSは,PCAの主成分と相似しているファクターを発見します.しかし,これらのファクターにはXとYのブロックの相関に関しての情報が含まれいるため,状況によっては, PCRより信頼のおけるモデルを構築できます. PLSの元々の説明は,NIPALSアルゴリズムに基づいていました).その後,行列のバイダイアゴナリゼーション(bidiagonalization)がPLSに等しいことが示されました.この方法に興味のある方は,詳細に関してManneの論文を参照してください.バイダイアゴナリゼーション行列は,SVDから得られる行列と類似しています.ここでは,PCRとPLSで類似した記号を使用するために生じる混乱を裂けるために,PLSの行列に下線を示しています. UとV は,UやVと同じではありません.PLSのスコアやローディングは,PCRのスコアやローディングと,非常によく似ていますが,異なります.注目すべき点として,このローディングは直交しますが,NIPALSスコアでは直交しません.Rは,PCRのSのような対角線行列ではありません.主対角線と主対角線の1つ右の要素以外の値がゼロの行列(right bidiagonal)になります.R行列の対角線の値は,SVDの特異値と同等ではありません.しかし,擬固有値ベクトル(pseudo-eigenvalue vector)はPLSスコアから計算されます. PLSの擬固有値は,PCRで決められた実際の固有値,つまりファクターによって計算された変動の量を表わす固有値と似ています.PCRの場合は,変動量がXブロックの変動の量を意味します.しかし,PLSでは,変動量にYブロックの影響も含んでいます.以後の説明では,PLSの結果を扱う際に,この擬という修飾語句を省略します. PLSの回帰分析のステップは,式−62を式−52に代入する以外はPCRと同樣に実行されます. 新しいxからのyを予測するのが,以下の式です. 縮小された行列 もしXをg個のファクターに完全に分解すると,式−60と式−66の回帰ベクトルは,式−54の形と同じになります.最初のk列だけ使用すると,Xのkファクターによる近似が形成されます.この過程は,データセットの次元数を減少します.縮小された行列(Tk)とローディング行列(Vk)に関しては,「PCA」で説明されています.(PCRのスコア/ローディング行列とSVD分解との関係については,式−57と式−58を参照してください.また,PLSのスコア/ローディング行列の分解については,式−63と式−64を参照してください.)元のX行列を低い次元に近似して置き換えることは,ファクターに基づいた回帰の中心的な考えです.このステップには,重要な利点あります.つまり,結果としての回帰係数には,MLRの係数に関連していた,大きな相関の不確定さがなくなります.もちろん,欠点もあります.つまり,kの数を設定する必要があります.このkが回帰係数や後から予測する全ての量を決定してしまいます. ファクターの最適数を予測する PCRやPLSは,最初のファクターに大きな変動の量を集約するので,あるポイントを越えると残りの変動量は本質的にノイズになります.つまり,ファクターを2つの部分に分割できます.1つは関連性のある情報を含み,もう1つは関連のない情報(つまりノイズ)を含みます.ファクターの最適数を見つけることは,この2つの部分の境を確定することです.実際には,抽出されたファクター数を変えながら幾つかの基準を計算する必要があります.最後のファクターまでを抽出した時,この基準が最小に到達する位置によって,最適なファクター数を指摘してくれるのが望ましいです.多くの場合,ファクターの最大数(g)は,ファクターの最適数よりかなり大きい数になります.最適数が決定されると,追加のファクター予測を(計算できますが)ストップできます.固有値は対応するファクターによって表わされた変動量の大きさを示しているため,固有値からストップの基準を決められます.ここでは,Malinowski)によって説明されている幾つかの方法の中から,減少した固有値についてのIND機能とF検定の2つの方法について説明します. モデルのサイズを推測する全く違うアプローチが,バリデーションつまりモデルの予測能力を評価するプロセスです.通常,将来のデータ予測を行うためにモデルを構築します.もし,不十分なファクター数しか使用してなければ,重要な情報がモデルから欠けているため,将来の予測は信頼できなくなってしまいます.一方,モデルが多くのファクターを含んでいる場合,トレーニングセットに特有のランダムな変動量がモデルに含まれているため,将来の予測は同様に誤解を与えます.これはモデルのサイズを,予測能力に基づく基準によってストップすることで推測できることを意味します. 固有値に基づく基準 1) IND機能 IND機能(Indicator function),真のエラー(real error(RE)),から計算されます.K個のファクターが抽出された後,g-kの残りのファクターに関連する変動量は,それらの g-k個の固有値を合計すれば分かります.つまりREkを式−68から計算できます. [式 -68]次に,REからINDを計算します. kが1からgまでの間で変化し,またINDがそれぞれのk値で計算された場合,最適ファクター数はINDの最小値に対応します. 2)減少された固有値に基づくF検定 Malinowskiは,ノイズと減少される固有値が統計的に等しいと提案しています.k番目の減少した固有値は以下のように定義されます. 減少した固有値は,分散として扱われます.すなわち,それぞれのファクターが抽出されたとき,F検定が,その減少する固有値が残りの減少する固有値と統計学的に違っているかを決めるのに使用されます.Malinowskiは,改善された分散予想をだすために,残りの減少する固有値を利用します. [式 -71]F比は以下のように計算されます. そして,確率95%で1と g-kの自由度のF表の値から比較します.gが,サンプル数(n)と目的変数の数(m)の少ない方の数を表わしている点に注意してください. ファクターの最適数を決めるのに失敗がない安全な方法は,今のところありません.示唆された値を,勘と経験に基づいて勇気をもってくつがえすことも必要です.
そして,予測残差を導きます. ここで, バリデーションサンプル nvのセットについての予測残差平方和(Prediction Residual Error Sum of Squares(PRESS))を計算します. 予測残差平方和に関連するのが,予測値の標準偏差(Standard Error of Prediction(SEP))です.SEPはサンプル数を考慮に入れ,y変数と同じ単位になります. [式 -76]バリデーションの最も単純な方法は,トレーニングセットサンプルからの予測です.このタイプのSEPは,検量の標準偏差(Standard Error of Calibration(SEC))と呼ばれます.SECは,モデル内のkファクター数で修正されます. [式 -77]もし,将来のサンプルすべてが,トレーニングセットとまったく同じであるならば,SECがモデルの信頼性の正確な測定になります.トレーニングセットに似ていますが,同一でない将来のサンプルにとってSECは,観察されるよりも小さい予測エラーを示唆するため楽観的すぎます.さらに,SECはファクター数の増加につれて,着実に減少します.ストップの基準としての有効性には限界があります. しかし,もしモデルがモデル構築過程の中に含まれないサンプルでバリデーションされる場合,このSEPはSECと異なった形を示す場合があります. バリデーションのためだけの別個のデータセットが,常に存在しているわけではありません.その1つの妥協がクロスバリデーションです.クロスバリデーションは,leave-one-out法とも呼ばれます.クロスバリデーションでは,トレーニングセットから1つのサンプルを一時的に除外し,残っているサンプルからモデルが構築されます.このモデルから,除外されたサンプルの目的変数の予測が行われ,その残差が記録されます.その後,除外されたサンプルはトレーニングセットに戻され,別のサンプルが除外され,新しいモデルが構築されます.そして,新しい予測値と残差が導かれます.すべてのサンプルが1回は除外されるまで,この過程が繰り返されます.蓄積された残差から計算されたPRESSは,対応するクロスバリデーションの標準偏差(Standard Error of Cross-Validation(SECV))に変換されます.SECVは,分母がSECと同じような方法でモデルのサイズに修正されるため,SECより大きいのが普通です. ファクター数に対して,SECVのプロットの最小値を見つけるのは簡単です.しかし,この最小値が,1だけ少ない主成分のモデルと大幅に違わないこともあります.図−42は,9個のファクターが抽出されていますが,8個のファクターのモデルは9個のファクターのモデルと統計学上違うとは考えないケースを示しています. ![]() 図 -42 SEVのプロット F検定では,2つのPRESS値が大幅に違うかどうかを決定できます).最小値のPRESSモデルより少ないファクターをもつモデルを比較するだけです. クロスバリデーション クロスバリデーションでは激しい計算を実行するので,モデル構築の最初の段階でこのステップを省略したいと思うかもしれません.しかし,最終的には,モデルをバリデーションしなければなりません. バリデーションの方法 一回に2つ以上のサンプルを取り出す際には,除外のパターンについて必ず選択をしてください.表3−5では,クロス(Cross)とステップバリデーション(Step validation)における除外パターンの違いを表で説明しています.ステップ法は,連続するサンプルの組みを除外しますが,クロス法では集合しているサンプルの組みを除外します.どちらの場合でも,全てのサンプルが必ず一回は除外されます.そして,除外される数でサンプル数を割り切れない時には,最後に少ないサンプル数を除外することになります. この2つのleave-outの方法によって,データセットにおけるサンプルのシーケンスが原因で起こる傾向を最小限にできます.ステップ法とクロス法のどちからを使用するかのガイドラインは,以下のとおりです.
表 -5 クロスバリデーションとストップバリデーションの除外パターン
アウトライヤーの発見 アウトライヤーは,ファクターの最適数の推測をゆがめます.もし,あるサンプルに独特な変動量のパターンがある場合,余分なファクターがそれに適合するように要求されます.つまり,ファクターの最適数を推測する前に,トレーニングセットからアウトライヤーを除去する必要があります. Xブロックの残差 スコアとローディングがファクターの最大数より少なくなるように縮小された場合,それらは,元のデータ行列Xの近似を表わします.元のデータとその近似との差としての残差は,次のように計算されます. ここで,kの下付き記号はk個のファクターで縮小されたスコアとローディングを示しています.行列 大多数の変数に対して大きい残差をもつサンプル,または大多数のサンプルに対し大きなX残差をもつ変数には,精密な調査が必要です.それらのサンプルには,Xブロックのエラーまたは異常の可能性があります. F比の確率 サンプルの残差の分散 [式 -80]ただし, 残差の分散は,以下のようにトレーニングセット全体としても計算できます. [式 -81]1つのサンプル残差が [式 -82]i番目のサンプルがそのトレーニングセットの母集団に属すと仮定すると,Fiは式−82の右辺の量から計算され,1と (n-k-1)自由度に基づいて計算されます. レベレージ(Leverage) 影響力がある(高いレベレージの)サンプルは,アウトライヤーを探す時に特に興味があります.もし,サンプルの輪郭が平均的なトレーニングセットの輪郭と大きく異なっていると,それはモデルに大きな影響を与え,主成分空間でそのサンプルの位置にモデルを近づけてしまいます.サンプルの影響は,そのレベレージ(h)によって量的に示されます.i番目のサンプルの場合,下式のようになります. この量は,トレーニングセットの中心点までのサンプルの距離を表します).これは,「マハラノビス距離」と似ています.モデルのサイズが大きくなるにつれ, k = gになり, スチューデント残差 アウトライヤーを探す際に,Y残差を調べるのは自然なことです.もし,サンプルのy値が極端であれば, [式 -84]スチューデント残差( riは,普通に分布していると推測されるため,t検定が,サンプルのスチューデント残差が「大きすぎる」かどうかを判断するのに使用できます. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.PCRとPLSのモデル構築 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| PCRまたはPLSの計算を実行すると,多くの計算結果を表示できます ファクターに基づく回帰分析によって計算されたオブジェクトは,アウトライヤーのサンプルを探したり,ファクターの最適数を選択したり,変数の除去を決定するのに役立ちます.それぞれを以下で説明します.モデルの構築は,反復作業である点を覚えておいてください.一回だけ回帰アルゴリズムを実行し,すぐに予測を開始することはまれです.つまり,モデルの最適化,サンプル,変数および環境設定パラメータの「最良」な組み合わせを見つけることに多くの時間を費やします. 前にも説明したように,PCRとPLSは似ている結果を表示します. 固有値 固有値は,PCRとPLSの回帰分析で抽出された各ファクターによって表現される変動量についての測定値を示しています. PCRから得られる固有値は,単純に減少します.これはPCAによる分解の結果です.つまり,連続する各ファクターが前のファクターより小さい変動量を示すためです.運がよければ,固有値の減少が急勾配になります.後で平らになるような急勾配が図-43に示されており,適切なファクターと不適切なファクターの境界は明らかです. 図 -43 減少する固有値プロット 最初のPLSのファクターをいくつか抽出すると,固有値は減少する可能性があります.しかし,後からPLSの固有値は図−45のように増加する場合がよくあります.この挙動は,PLSのアルゴリズムが,Xブロック/Y変数間の相関からファクターを抽出するからです. ![]() 図 -44 PLSの固有値プロット エラー ![]() 図 -45 (a) SEC (b) SEVのプロット スコア PCRとPLSのスコアプロットは,データセットの均一性を示し,データにおける異常なサンプルまたはグルーピングに注意を向かせてくれます.理想的なトレーニングセットでは,スコアプロットにクラスターがなく,希薄な部分のないポイント群を示します.スコアでのクラスターは,サンプルが均一でないことを示し,2つ以上の回帰モデルが必要になることを示しています.図−45は,不均一なサンプルを示しています.つまり,2つのグループを確認できます. ![]() 図 -46 不均一なスコア 前にも記したように, PLSとPCRのスコアは,異なる方法で計算されます.PCRは,XブロックについてのPCAの分解から出発するため,PCRとPCAのスコアは,同一です.PCRのスコアは厳密にはXブロックから導かれますから,y変数によって変更されません.しかし,PLSのスコアはYブロックの変動量がPLSの分解の一部を担っているので,各y変数によって異なります. ローディング ローディングは,ファクターの座標軸の形成に,どの測定された変数が組合わされているかを示します.ローディングのラインプロットと元のデータを比較すると,それぞれのファクターによって,どのようにデータの特徴がモデル化されているか分かります.つまり,どのような現象がモデルに寄与しているかについての情報を教えてくれる場合があります.この比較を図−47に示します. ![]() 図 -47 生データとローディングの比較 モデルで使用する,最適なファクター数を決める時,ノイズのあるローディングをもつファクターを除外することを考慮してください. Yフィット Yフィットは,トレーニングセットサンプルの予測結果を示します.Yの測定値をX軸,Yの予測値をY軸にしたときのプロットを図−48に示します. ![]() 図 -48 Y フィット 予測または測定値Yによるプロットでは,傾き1の斜めのラインを表示できます. 測定値Yに対して,予測値を表示することは,それぞれの表現や予測でのモデルの質の感じがつかめます.もし,モデルが,XブロックとY変数の関係を完璧に表現できている場合,全てのサンプルポイントは対角線上にプロットされます.しかし,ファクターの最適数が少ない場合,サンプルのポイントはラインの回りに散らばります. 残差は,ランダムに散らばり,一定のばらつきがあり,測定値Yやサンプル番号と相関すべきではありません.もし,一定でないばらつきの証拠があれば,目的変数が説明変数の線形機能であるという仮定は,正当でなくなります. アウトライヤー診断 アウトライヤーの診断図は,レベレージとスチューデント残差の前述の2つの数量から表示できます.名前から分かるように,この診断図からアウトライヤーの識別をできます.この図には2つのスレッシュホールドラインが示されます. アウトライヤーを探す時には,スチューデント残差のスレッシュホールドは95%信頼区間に基づいていますので,母集団の5%はカットオフ値を越えることが予想されます.驚くことではないのですが,そのような理由で大きなデータセットの場合,多数のサンプルがスレッシュホールドを越えています.似たようにレベレージのスレッシュホールドは非常に大ざっぱなカットオフになります.それをわずかに越えているようなサンプルを,必ずしも問題にする必要はありません.両方のスレッシュホールドを越えているサンプルまたは1つのスレッシュホールドを大幅に越えているサンプルを除去してから,回帰分析のアルゴリズムを再実行してください.レベレージが大きいサンプルが極端なy値と関連している場合,多分問題にはなりません.それは単に検量範囲の端に位置しているだけです.モデルサイズについて近似的な考えがある場合,1つのサイズの残差スレッシュホールドを大幅に越えているが,追加のファクターが抽出された時には,残差スレッシュホールド内にあるサンプルのアウトライヤー診断を調べてください.この事は,追加されたファクターはこれらのサンプルだけをモデル化していることを示しています.最後に,あやしいサンプルのX残差を調べ,不適合の範囲を探してください.これによって,他のトレーニングセットサンプルとは何が似ていないのか理解できます. 非常にレベレージの大きいサンプルの例を,図−49に示します.スペクトルは特異的ですが,関連するYの値は極端でありません.このような特異的なデータポイントが,回帰ベクトルに大きな影響を与えます. ![]() 図 -49 高いレベレージ 図−50では,非常に高いスチューデント残差を示していますが,通常のレベレージ範囲にあるサンプル(std3a)の例を示しています.スペクトルに問題はありませんが,予測Yと測定値Yがまったく異なっています. ![]() 図 -50 高いスチューデント残差 回帰ベクトル 回帰ベクトルには,モデル係数が含まれます.回帰ベクトルのラインプロットは,目的変数をモデル化する際に,どの説明変数が重要であるかを示してくれます.非常に小さい係数の変数は,予測に大きく貢献しません.この情報は変数を除去することになるかもしれません.回帰ベクトルは,モデルに含まれているローディングの加重された合計として考えられます. ![]() 図 -51 回帰ベクトル 回帰ベクトルのラインプロットをファクター変更の数として見ることは,きわめて有効です.ファクター数が小さく,それぞれの追加のファクターが大きな変動量を占める時,ベクトルの形はファクター数で大きく変化します.ファクターを追加しても変化がそれほど目立たない場合,ランダムな変動量がモデル化されているという合図になります. X残差 ファクター数を変更しながらこのプロットを見ていくと,サンプルまたは変数の不十分な適合が発見できます.図−52では,約870nmに大きな残差をもつ場合を示しています. ![]() 図 -52 X残差 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3. PCRとPLSの予測結果 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| PCRまたはPLSを実行するとモデルが構築されます.予測されるサンプルには目的変数やクラス変数を含んでいても,含まなくても構いません. エラーの解析 もし,予測されるサンプルが,トレーニングセットの目的変数と同じ名前を持つ目的変数のデータを含んでいると,エラーの程度が計算できます.図−53には,それぞれのyに関する,モデルのファクター数,PRESS,SEPならびに線形相関係数rが表示されています.このオブジェクトのSEPとトレーニングセットのSEVが同等である場合,トレーニングセットのサンプルと予測ターゲットのサンプルが同じ母集団から抽出され,モデルは適切な数のファクターを含んでいます. ![]() 図 -53 予測のエラー 予測結果 各サンプルの各目的変数の予測値は,テーブルの形式で表示できます.図−54では,PLSの予測結果を示しています. ![]() 図 -54 PLSでの予測結果 X残差 予測の際にも作成できるX残差は,先に説明されているX残差と同様です.図-55には,小さな予測セットのX残差のラインプロットを表示しています.2つのサンプルが,うまくモデルに適合していない,つまり大きなX残差が存在している点に注目してください. ![]() 図 -55 予測のX残差 予測の際の大きいX残差は,サンプルがトレーニングセットと同じ母集団に属さないことを示唆しています.一番大きい残差をもつ変数は,予測されたサンプルがトレーニングセットと最も異なっている変数範囲を示します.例えば,スペクトルの適用例で,添加物が予測されるサンプルにはあるが,トレーニングセットの方にはないとき,予測のX残差は,添加物がシグナルに著しく寄与している範囲で大きくなります.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Software |