Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu. |
Home Multivariate Daten Grundlagen Distanzmaße | |
Siehe auch: Clusteranalyse, Agglomerative Clusterverfahren, Distanzmatrix | |
Search the VIAS Library | Index | |
DistanzmaßeAuthor: Hans Lohninger
Abstände zwischen Objekten im multidimensionalen Raum bilden die Grundlage vieler multivariater Methoden der Datenanalyse. Unterschiedliche Methoden zur Berechnung der Abstände zu verwenden, kann die Ergebnisse einer Methode beträchtlich beeinflussen. Die Ähnlichkeiten von Objekten und deren Abstände sind nahe miteinander verwandt und werden oft verwechselt. Während der Ausdruck "Abstand" präziser und im mathematischen Sinn verwendet wird, hängt die genaue Bedeutung des Begriffs "Ähnlichkeit" oft von den Umständen und dem Gebiet der Anwendung ab. Allgemein kann der Abstand dij zwischen zwei Punkten im n-dimensionalen Raum durch die Gleichung von Minkowski berechnet werden: mit k als dem Index der Koordinaten und p für die Art des Abstands. Es gibt drei Spezialfälle des Minkowski-Abstands:
Die Mahalanobis-Distanz ist mit der euklidischen Distanz verwandt; für unkorrelierte, standardisierte Daten sind die beiden gleich. Sie kann leicht durch Einbeziehen der inversen Kovarianzmatrix C-1 in die Distanzberechnung errechnet werden: Ein anderes Abstandsmaß, das eher ein Maß für die Ähnlichkeit zwischen zwei Objekten ist, wurde von Jaccard () vorgeschlagen (es wird manchmal auch Tanimoto-Koeffizient genannt): , mit (x.y), als inneres Produkt der zwei Vektoren x und y. Man beachte, dass der Jaccard-Koeffizient für Objekte ohne Abstand gleich 1,0 wird. Außerdem kann der Tanimoto-Koeffizient auch auf binäre Daten angewendet werden: T = Nxy / (Nx + Ny - Nxy)
mit Nx, Ny.... Zahl der 1-Bits in den Vektoren x und y und
|
|
Home Multivariate Daten Grundlagen Distanzmaße |