Hauptkomponentenanalyse

Die Grauwertverteilung (Abb a) zeigt eine elliptische Form, die Daten sind also hoch korreliert. Die Eigenvektoren der Varianz-Covarianz-Matrix definieren dabei die Richtung der Halbachsen dieses Ellipsoids, die Eigenwerte ihre Länge. Aus der Covarianz-Matrix werden die Eigenvektoren und Eigenwerte berechnet.

Um die Hauptkomponenten (HK) zu ermitteln, wird ein neues Koordinatensystem x' und y' geschaffen, indem der Ursprung an die Mittelwerte µ₁ und µ₂ der beiden Kanäle versetzt wird. Die Originaldaten müssen also von x nach x' und y nach y' transformiert werden (Abb. b).

Das neue Koordinatensystem wird dann um seinen Ursprung mit dem Winkel rotiert. Damit ist seine x-Achse entlang der größten Varianz der Daten ausgerichtet (Abb c). Diese Achse bildet die erste Hauptkomponente und hat die Richtung der größten Streuung. Die senkrecht zu ihr stehende Achse ist die zweite Hauptkomponente.
Bei n-Dimensionen entstehen natürlich n-dimensionale Punktwolken mit entsprechender Anzahl von Raumachsen, die senkrecht zur 1. HK liegen.

Um die Originaldaten von den x'- und y'-Achsen auf die Hauptkomponenten-Achsen zu transformieren, müssen Koeffizienten benutzt werden, die aus der Covarianz-Matrix des Original-Datensatzes stammen. Als Ergebnis der Transformation ergeben sich die Matrix der Eigenwerte und der Eigenvektoren (geben Auskunft über die Korrelation zwischen den HK und den Originalkanälen), sowie die Varianz in jeder HK.