Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


PCA von transponierten Matrizen

Author: Hans Lohninger

Möchte man die Hauptkomponentenanalyse auf Datenmatrizen anwenden, bei denen die Zahl der Variablen p größer als die Zahl der Objekte n ist (ein klassisches Beispiel ist die Analyse von Spektren bei nur wenigen Proben), so kann die Berechnung ziemlich viel Zeit in Anspruch nehmen, da die PCA ja auf der Lösung des Eigenwertproblems für die Kovarianzmatrix beruht. Die Dimension der Kovarianzmatrix ist aber p x p, was bei großem p (also vielen Variablen) zu großen Matrizen führt.

Andererseits weiß man aber auch aus der Matrixalgebra, dass der Rang einer Matrix nie größer als min(p,n) sein kann, wodurch die maximale Zahl der Hauptkomponenten ebenfalls auf min(p,n) beschränkt ist. Das bedeutet, dass bei Datenmatrizen mit mehr Variablen als Objekten unnötig viel gerechnet wird, da in diesem Fall ja p - n Hauptkomponenten einen Eigenwert von null aufweisen müssen.

Um die Berechnung zu beschleunigen, kann man nun die Datenmatrix vor der Hauptkomponentenzerlegung transponieren, die PCA damit mit einer viel kleineren Kovarianzmatrix durchführen, und dann die Ergebnisse zurückrechnen. Dabei gelten folgende Zusammenhänge:


und

mit

n .... Zahl der Objekte der Originalmatrix
p .... Zahl der Variablen der Originalmatrix
λk .... Eigenwert der k-ten Hauptkomponente der Originalmatrix
λkT .... Eigenwert der k-ten Hauptkomponente der transponierten Matrix
X .... Originalmatrix
ak .... k-ter Eigenvektor der Originalmatrix
akT .... k-ter Eigenvektor der transponierten Matrix

Hinweis: Ein Punkt, der oft für Verwirrung sorgt, ist die Tatsache, dass bei der PCA die Richtung der Eigenvektoren nicht eindeutig bestimmt werden kann. Die ermittelte Richtung hängt vom verwendeten Algorithmus der Hauptkomponentenanalyse und von Rundungsfehlern ab. Es kann daher vorkommen, dass die Vorzeichen einzelner Eigenvektoren durch das oben beschriebene Verfahren invertiert werden (im Vergleich zur direkten Berechnung der Eigenvektoren).


Last Update: 2012-10-08