IBM SPSS Statistics – Was enthält das Base Modul?

IBM SPSS Statistics Logo 200px

Die Statistiksoftware SPSS kann viele verschiedene Szenarien abdecken. Für manche Funktionalitäten werden zusätzliche Module benötigt, doch auch das günstigste Grundpaket SPSS Statistitcs Base enthält bereits viele Auswertungs- und Analyse-Funktionen. In unserem Beitrag zeigen wir Ihnen, welche Funktionen das Grundpaket IBM SPSS Statistics Base bereits enthält. Weitere Funktionaltitäten können über zusätzliche Module hinzugefügt werden.

SPSS Statistics Base Lizenzierung und Preise

In unserem Beitrag zu den unterschiedlichen Lizenzierungsmöglichkeiten von SPSS Statistics Base (Authorized User, Concurrent User, Fixed Term) finden Sie eine Erklärung der Preisunterschiede und der unterschiedlichen Einsatzmöglichkeiten.

Die einfachste Lizenzierungsmöglichkeit ist die Authorized User Lizenz, die wir hier aufführen:

Bezeichnung
IBM SPSS STATISTICS BASE AUTHORIZED USER LICENSE + SW SUBSCRIPTION & SUPPORT 12 MONTHS
SKU: D0EJ9LL

Eine Übersicht aller SPSS Module finden Sie auf unserer IBM Seite.

Funktionale Bestandteile von SPSS Statistics 23 Base

Codebook

Das Codebook meldet die Datenwörterbuchinformationen – wie Variablennamen, Variablenbeschriftungen, Wertbeschriftungen, fehlende Werte – und Auswertungsstatistiken für alle oder bestimmte Variablen und Mehrfachantwortsets im aktiven Dataset. Für nominale und ordinale Variablen und Mehrfachantwortsets enthalten die Auswertungsstatistiken Häufigkeiten und Prozentangaben. Für metrische Variablen enthalten die Auswertungsstatistiken Mittelwert, Standardabweichung und Quartile.

Häufigkeiten

Die Prozedur „Häufigkeiten“ stellt Statistiken und grafische Darstellungen für die Beschreibung vieler Variablentypen zur Verfügung. Die Prozedur „Häufigkeiten“ ist ein guter Ausgangspunkt für die Betrachtung Ihrer Daten.

Bei Häufigkeitsberichten und Balkendiagrammen können Sie die unterschiedlichen Werte in aufsteigender oder absteigender Reihenfolge anordnen oder die Kategorien nach deren Häufigkeiten ordnen. Der Häufigkeitsbericht kann unterdrückt werden, wenn für eine Variable viele unterschiedliche Werte vorhanden sind. Sie können Diagramme mit Häufigkeiten (die Standardeinstellung) oder Prozentsätzen beschriften.

Deskriptive Statistiken

Mit der Prozedur „Deskriptive Statistiken“ werden in einer einzelnen Tabelle univariate Auswertungsstatistiken für verschiedene Variablen angezeigt und standardisierte Werte (Z-Scores) errechnet. Variablen können folgendermaßen geordnet werden: nach der Größe ihres Mittelwerts (in aufsteigender oder absteigender Reihenfolge), alphabetisch oder in der Reihenfolge, in der sie ausgewählt wurden (dies ist die Standardeinstellung).

Wenn Z-Scores gespeichert werden, werden sie den Daten im Dateneditor hinzugefügt und sind für Diagramme, Datenlisten und Analysen verfügbar. Wenn Variablen in verschiedenen Einheiten aufgezeichnet werden (zum Beispiel Bruttoinlandsprodukt pro Kopf der Bevölkerung und Prozentsatz der Alphabetisierung), werden die Variablen durch eine Z-Score-Transformation zur Erleichterung des visuellen Vergleichs auf einer gemeinsamen Skala angeordnet.

Explorative Datenanalyse

Mit der Prozedur „Explorative Datenanalyse“ werden Auswertungsstatistiken und grafische Darstellungen für alle Fälle oder für separate Fallgruppen erzeugt. Es kann viele Gründe für die Verwendung der Prozedur „Explorative Datenanalyse“ geben: Sichten von Daten, Erkennen von Ausreißern, Beschreibung, Überprüfung der Annahmen und Charakterisieren der Unterschiede zwischen Teilgesamtheiten (Fallgruppen). Beim Sichten der Daten können Sie ungewöhnliche Werte, Extremwerte, Lücken in den Daten oder andere Auffälligkeiten erkennen. Durch die explorative Datenanalyse können Sie sich vergewissern, ob die für die Datenanalyse vorgesehenen statistischen Methoden geeignet sind. Die Untersuchung kann ergeben, dass Sie die Daten transformieren müssen, falls die Methode eine Normalverteilung erfordert. Sie können sich stattdessen auch für die Verwendung nicht parametrischer Tests entscheiden.

Kreuztabellen

Mit der Prozedur „Kreuztabellen“ erzeugen Sie Zwei- und Mehrwegetabellen. Es stehen eine Vielzahl von Tests und Zusammenhangsmaßen für Zweiwegetabellen zur Verfügung. Welcher Test oder welches Maß verwendet wird, hängt von der Struktur der Tabelle ab und davon, ob die Kategorien geordnet sind.

Statistiken und Zusammenhangsmaße für Kreuztabellen werden nur für Zweiwegetabellen berechnet. Wenn Sie eine Zeile, eine Spalte und einen Schichtfaktor (Kontrollvariable) festlegen, wird von der Prozedur „Kreuztabelle“ eine separate Ausgabe mit der entsprechenden Statistik sowie den Maßen für jeden Wert des Schichtfaktors (oder eine Kombination der Werte für zwei oder mehrere Kontrollvariablen) angezeigt. Wenn zum Beispiel Geschlecht ein Schichtfaktor für eine Tabelle ist, wobei verheiratet (Ja, Nein) gegenüber Leben (ist das Leben aufregend, Routine oder langweilig) untersucht wird, werden die Ergebnisse für eine Zweiwegetabelle für weibliche Personen getrennt von den männlichen berechnet und als aufeinander folgende separate Ausgaben gedruckt.

Zusammenfassen

Mit der Prozedur „Zusammenfassen“ werden Untergruppenstatistiken für Variablen innerhalb der Kategorien einer oder mehrerer Gruppierungsvariablen berechnet. Alle Ebenen der Gruppierungsvariablen werden in die Kreuztabelle aufgenommen. Sie können wählen, in welcher Reihenfolge die Statistiken angezeigt werden. Außerdem werden Auswertungsstatistiken für jede Variable über alle Kategorien angezeigt. Die Datenwerte jeder Kategorie können aufgelistet oder unterdrückt werden. Bei umfangreichen Datasets haben Sie die Möglichkeit, nur die ersten n Fälle aufzulisten.

Mittelwerte

Mit der Prozedur „Mittelwerte“ werden die Mittelwerte von Untergruppen und verwandte univariate Statistiken für abhängige Variablen innerhalb von Kategorien von mindestens einer unabhängigen Variablen berechnet. Wahlweise können Sie eine einfaktorielle Varianzanalyse, Eta und einen Test auf Linearität berechnen lassen.

OLAP-Würfel

Mit der Prozedur „OLAP-Würfel“ (Online Analytical Processing) werden Gesamtwerte, Mittelwerte und andere univariate Statistiken für stetige Auswertungsvariablen innerhalb der Kategorien von mindestens einer kategorialen Gruppierungsvariablen berechnet. Für jede Kategorie der Gruppierungsvariablen wird eine separate Schicht erstellt.

t-Test

  • t-Test bei unabhängigen Stichproben
    Im t-Test bei unabhängigen Stichproben werden die Mittelwerte von zwei Fallgruppen verglichen. Im Idealfall sollten die Subjekte bei diesem Test zufällig zwei Gruppen zugeordnet werden, sodass Unterschiede bei den Antworten lediglich auf die Behandlung (bzw. Nichtbehandlung) und keine sonstigen Faktoren zurückzuführen sind. Dies ist nicht der Fall, wenn Sie die Durchschnittseinkommen von Männern und Frauen vergleichen. Die jeweiligen Personen sind nicht zufällig auf die Gruppen „männlich“ oder „weiblich“ verteilt. In solchen Situationen müssen Sie sicherstellen, dass signifikante Differenzen der Mittelwerte nicht durch Abweichungen bei anderen Faktoren verborgen oder verstärkt werden. Unterschiede im Durchschnittseinkommen können auch durch Faktoren wie den Bildungsstand beeinflusst werden (nicht nur durch das Geschlecht).
  • t-Test bei Stichproben mit paarigen Werten
    Mit der Prozedur „t-Test bei Stichproben mit paarigen Werten“ werden die Mittelwerte zweier Variablen für eine einzelne Gruppe verglichen. Diese Prozedur berechnet für jeden Fall die Differenzen zwischen den Werten der zwei Variablen und überprüft, ob der Durchschnitt von 0 abweicht.
  • t-Test bei einer Stichprobe
    Die Prozedur „t-Test bei einer Stichprobe“ prüft, ob der Mittelwert einer einzelnen Variablen von einer angegebenen Konstanten abweicht.

Einfaktorielle ANOVA

Die Prozedur Einfaktorielle ANOVA führt eine einfaktorielle Varianzanalyse für eine quantitative abhängige Variable mit einer einzelnen (unabhängigen) Faktorvariablen durch. Mit der Varianzanalyse wird die Hypothese überprüft, dass mehrere Mittelwerte gleich sind. Dieses Verfahren ist eine Erweiterung des T-Tests bei zwei Stichproben.

Sie können zusätzlich zur Feststellung, dass Differenzen zwischen Mittelwerten vorhanden sind, auch bestimmen, welche Mittelwerte abweichen. Für den Vergleich von Mittelwerten gibt es zwei Arten von Tests: A-priori-Kontraste und Post-hoc-Tests. Kontraste sind Tests, die vor der Ausführung des Experiments eingerichtet werden, Post-hoc-Tests werden nach dem Experiment ausgeführt. Sie können auch auf Trends für mehrere Kategorien testen.

GLM – Univariat

Mit der Prozedur „GLM – Univariat“ können Sie Regressionsanalysen und Varianzanalysen für eine abhängige Variable mit einem oder mehreren Faktoren und/oder Variablen durchführen. Die Faktorvariablen unterteilen die Grundgesamtheit in Gruppen. Unter Verwendung dieser auf einem allgemeinen linearen Modell basierenden Prozedur können Sie Nullhypothesen über die Effekte anderer Variablen auf die Mittelwerte verschiedener Gruppierungen einer einzelnen abhängigen Variablen testen. Sie können die Interaktionen zwischen Faktoren und die Effekte einzelner Faktoren untersuchen, von denen einige zufällig sein können. Außerdem können Sie die Auswirkungen von Kovariaten und Interaktionen zwischen Kovariaten und Faktoren berücksichtigen. Bei der Regressionsanalyse werden die unabhängigen Variablen (Prädiktorvariablen) als Kovariaten angegeben.

Es können sowohl ausgewogene als auch unausgewogene Modelle getestet werden. Ein Design ist ausgewogen, wenn jede Zelle im Modell dieselbe Anzahl von Fällen enthält. Mit der Prozedur „GLM – Univariat“ werden nicht nur Hypothesen getestet, sondern zugleich Parameter geschätzt.

Zum Testen von Hypothesen stehen häufig verwendete A-priori-Kontraste zur Verfügung. Nachdem die Signifikanz mit einem F-Gesamttest nachgewiesen wurde, können Sie Post-hoc-Tests verwenden, um Differenzen zwischen bestimmten Mittelwerten berechnen zu lassen. Geschätzte Randmittel dienen als Schätzungen für die vorhergesagten Mittelwerte der Zellen im Modell, und mit Profilplots (Interaktionsdiagrammen) dieser Mittelwerte können Sie einige dieser Beziehungen in einfacher Weise visuell darstellen.

Bivariate Korrelationen

Mit der Prozedur „Bivariate Korrelationen“ werden der Korrelationskoeffizient nach Pearson, Spearman-Rho und Kendall-Tau-b mit ihren jeweiligen Signifikanzniveaus errechnet. Mit Korrelationen werden die Beziehungen zwischen Variablen oder deren Rängen gemessen. Untersuchen Sie Ihre Daten vor dem Berechnen eines Korrelationskoeffizienten auf Ausreißer, da diese zu irreführenden Ergebnissen führen können. Stellen Sie fest, ob wirklich ein linearer Zusammenhang existiert. Der Korrelationskoeffizient nach Pearson ist ein Maß für den linearen Zusammenhang. Wenn zwei Variablen miteinander in starker Beziehung stehen, der Zusammenhang aber nicht linear ist, ist der Korrelationskoeffizient nach Pearson keine geeignete Statistik zum Messen des Zusammenhangs.

Residuen, Einflusswerte, die Cook-Distanz und Hebelwerte können zum Überprüfen von Annahmen als neue Variablen in der Datendatei gespeichert werden.

Mit der WLS-Gewichtung können Sie eine Variable angeben, um Beobachtungen für eine WLS-Analyse (Weighted Least Squares – gewichtete kleinste Quadrate) unterschiedlich zu gewichten. Dies kann notwendig sein, um etwaige Unterschiede in der Präzision von Messungen auszugleichen.

Partielle Korrelationen

Partielle Korrelationskoeffizienten beschreiben die Beziehung zwischen zwei Variablen. Die Prozedur „Partielle Korrelationen“ berechnet diese Koeffizienten, wobei die Effekte von einer oder mehr zusätzlichen Variablen überprüft werden. Korrelationen sind Maße für lineare Zusammenhänge. Zwei Variablen können fehlerlos miteinander verbunden sein. Wenn es sich aber nicht um eine lineare Beziehung handelt, ist der Korrelationskoeffizient zur Messung des Zusammenhangs zwischen den beiden Variablen nicht geeignet.

Distanzen

Durch diese Prozedur kann eine Vielzahl von Statistiken berechnet werden, indem Ähnlichkeiten oder Unähnlichkeiten (Distanzen) zwischen Paaren von Variablen oder Fällen gemessen werden. Diese Ähnlichkeits- oder Distanzmaße können dann bei anderen Prozeduren, beispielsweise der Faktorenanalyse, der Clusteranalyse oder der multidimensionalen Skalierung zur Analyse komplexer Datasets verwendet werden.

Lineare Modelle

Bei linearen Modellen wird ein stetiges Ziel auf der Basis linearer Beziehungen zwischen dem Ziel und einem oder mehreren Prädiktoren vorhergesagt.

Lineare Modelle sind relativ einfach und bieten eine leicht zu interpretierende mathematische Formel für das Scoring. Die Eigenschaften dieser Modelle sind umfassend bekannt und sie lassen sich üblicherweise sehr schnell im Vergleich zu anderen Modelltypen (beispielsweise neuronale Netze oder Entscheidungsbäume) im selben Dataset erstellen.

Lineare Regression

Mit „Lineare Regression“ werden die Koeffizienten der linearen Gleichung unter Einbeziehung einer oder mehrerer unabhängiger Variablen geschätzt, die den Wert der abhängigen Variablen am besten vorhersagen. Sie können beispielsweise den Versuch unternehmen, die Jahresverkaufsbilanz eines Verkäufers (die abhängige Variable) nach unabhängigen Variablen wie Alter, Bildungsstand und Anzahl der Berufsjahre vorherzusagen.

Ordinale Regression

Die ordinale Regression ermöglicht es, die Abhängigkeit einer polytomen ordinalen Antwortvariablen von einem Set von Prädiktoren zu modellieren. Bei diesen kann es sich um Faktoren oder Kovariaten handeln. Die Gestaltung der ordinalen Regression basiert auf der Methodologie von McCullagh (1980, 1998). In der Syntax wird diese Prozedur als PLUM bezeichnet.

Das Standardverfahren der linearen Regressionsanalyse beinhaltet die Minimierung der Summe von quadrierten Differenzen zwischen einer Antwortvariablen (abhängig) und einer gewichteten Kombination von Prädiktorvariablen (unabhängig). Die geschätzten Koeffizienten geben die Auswirkung einer Änderung in den Prädiktoren auf die Antwortvariable wieder. Es wird angenommen, dass die Antwortvariable in dem Sinne numerisch ist, dass die Änderungen im Niveau der Antwortvariablen über die gesamte Spannweite der Antwortvariablen gleich sind. So beträgt die Differenz in der Körpergröße zwischen einer Person mit einer Größe von 150 cm und einer Person mit einer Größe von 140 cm beispielsweise 10 cm. Diese Angabe hat die gleiche Bedeutung wie die Differenz zwischen einer Person mit einer Größe von 210 cm und einer Person mit einer Größe von 200 cm. Bei ordinalen Variablen sind diese Beziehungen jedoch nicht notwendigerweise gegeben. Bei diesen Variablen kann die Auswahl und Anzahl von Antwortkategorien willkürlich ausfallen.

Kurvenanpassung

Mit der Prozedur „Kurvenanpassung“ werden Regressionsstatistiken zur Kurvenanpassung und zugehörige Diagramme für 11 verschiedene Regressionsmodelle zur Kurvenanpassung erstellt. Für jede abhängige Variable wird ein separates Modell erstellt. Außerdem können Sie vorhergesagte Werte, Residuen und Vorhersageintervalle als neue Variablen speichern.

Regression mit partiellen kleinsten Quadraten

Die Prozedur „Regression mit partiellen kleinsten Quadraten“ schätzt Regressionsmodelle mit partiellen kleinsten Quadraten (Partial Least Squares, PLS;, auch als „Projektion auf latente Struktur“ (Projection to Latent Structure) bezeichnet). PLS ist ein Vorhersageverfahren, das eine Alternative zum Regressionsmodell der gewöhnlichen kleinsten Quadrate (Ordinary Least Squares, OLS), zur kanonischen Korrelation bzw. zur Strukturgleichungsmodellierung darstellt und besonders nützlich ist, wenn die Prädiktorvariablen eine hohe Korrelation aufweisen oder wenn die Anzahl der Prädiktoren die Anzahl der Fälle übersteigt.

PLS kombiniert Merkmale der Hauptkomponentenanalyse mit Merkmalen der mehrfachen Regression. Zunächst wird ein Set latenter Faktoren extrahiert, die einen möglichst großen Anteil der Kovarianz zwischen den unabhängigen und den abhängigen Variablen erklären. Anschließend werden in einem Regressionsschritt die Werte der abhängigen Variablen mithilfe der Zerlegung der unabhängigen Variablen vorhergesagt.

Nächste-Nachbarn-Analyse

Die Nächste-Nachbarn-Analyse ist eine Methode für die Klassifikation von Fällen nach ihrer Ähnlichkeit mit anderen Fällen. Für Machine Learning wurde sie als Methode für die Mustererkennung in Daten ohne exakte Entsprechung mit gespeicherten Mustern oder Fällen entwickelt. Ähnliche Fälle liegen nah beieinander und Fälle mit geringer Ähnlichkeit sind weit voneinander entfernt. Daher kann der Abstand zwischen zwei Fällen als Maß für ihre Unähnlichkeit herangezogen werden.

Fälle, die nah beieinander liegen, werden als „Nachbarn“ bezeichnet. Wenn ein neuer Fall (Holdout) vorgelegt wird, wird sein Abstand zu den einzelnen Fällen im Modell berechnet. Die Klassifikationen der ähnlichsten Fälle – der nächstgelegenen Nachbarn – werden ermittelt und der neue Fall wird in die Kategorie eingeordnet, die die größte Anzahl an nächstgelegenen Nachbarn aufweist.

Sie können die Anzahl der nächstgelegenen Nachbarn angeben, die untersucht werden sollen; dieser Wert wird als k bezeichnet.

Die Nächste-Nachbarn-Analyse kann auch für die Berechnung von Werten für ein stetiges Ziel verwendet werden. Hierbei wird der Durchschnitts- oder Medianzielwert der nächstgelegenen Nachbarn verwendet, um den vorhergesagten Wert für den neuen Fall zu beziehen.

Diskriminanzanalyse

Die Diskriminanzanalyse erstellt ein Vorhersagemodell für Gruppenzugehörigkeiten. Dieses Modell besteht aus einer Diskriminanzfunktion (oder bei mehr als zwei Gruppen ein Set von Diskriminanzfunktionen) auf der Grundlage derjenigen linearen Kombinationen der Prädiktorvariablen, welche die beste Diskriminanz zwischen den Gruppen ergeben. Die Funktionen werden aus einer Stichprobe der Fälle generiert, bei denen die Gruppenzugehörigkeit bekannt ist. Diese Funktionen können dann auf neue Fälle mit Messungen für die Prädiktorvariablen, aber unbekannter Gruppenzugehörigkeit angewandt werden.

Faktorenanalyse

Mit der Faktorenanalyse wird versucht, die zugrunde liegenden Variablen oder Faktoren zu bestimmen, welche die Korrelationsmuster innerhalb eines Sets beobachteter Variablen erklären. Die Faktorenanalyse wird häufig zur Datenreduktion verwendet, indem wenige Faktoren identifiziert werden, welche den größten Teil der in einer großen Anzahl manifester Variablen aufgetretenen Varianz erklären. Die Faktorenanalyse kann auch zum Generieren von Hypothesen über kausale Mechanismen oder zum Sichten von Variablen für die anschließende Analyse verwendet werden (zum Beispiel, um vor einer linearen Regressionsanalyse Kollinearität zu erkennen).

Die Prozedur „Faktorenanalyse“ bietet ein hohes Maß an Flexibilität:

  • Es stehen sieben Methoden der Faktorextraktion zur Verfügung.
  • Es sind fünf Rotationsmethoden verfügbar, einschließlich der direkten Oblimin-Methode und Promax-Methode für nicht orthogonale Rotationen.
  • Für die Berechnung von Faktorscores stehen drei Methoden zur Verfügung. Die Scores können für weitere Analysen als Variablen gespeichert werden.

Two-Step-Clusteranalyse

Bei der Two-Step-Clusteranalyse handelt es sich um eine explorative Prozedur zum Ermitteln von natürlichen Gruppierungen (Clustern) innerhalb eines Datasets, die andernfalls nicht erkennbar wären. Der von der Prozedur verwendete Algorithmus verfügt über vielfältige nützliche Funktionen, durch die er sich von traditionellen Clustermethoden unterscheidet.

  • Verarbeitung von kategorialen und stetigen Variablen: Die Annahme der Unabhängigkeit der Variablen ermöglicht eine kombinierte multinomiale Normalverteilung für kategoriale und stetige Variablen.
  • Automatische Auswahl der Clusteranzahl: Durch den Vergleich der Werte eines Modellauswahlkriteriums in verschiedenen Clusteranalysen kann die optimale Anzahl der Cluster von der Prozedur automatisch bestimmt werden.
  • Skalierbarkeit: Durch das Zusammenfassen der Datensätze in einem Clusterfunktionsbaum (CF-Baum) können mit dem Two-Step-Algorithmus sehr große Datendateien analysiert werden.

Hierarchische Clusteranalyse

Mit dieser Prozedur wird anhand ausgewählter Merkmale versucht, relativ homogene Fallgruppen oder Variablen zu identifizieren. Dabei wird ein Algorithmus eingesetzt, der für jeden Fall oder für jede Variable, einen separaten Cluster bildet und die Cluster so lange kombiniert, bis nur noch einer zurückbleibt. Sie können einfache Variablen analysieren oder eine Auswahl aus einer Vielfalt von Transformationen zur Standardisierung treffen. Distanz- oder Ähnlichkeitsmaße werden durch die Prozedur „Ähnlichkeiten“ generiert. Für jeden Schritt werden Statistiken angezeigt, um Sie bei der Auswahl der besten Lösung zu unterstützen.

K-Means-Clusteranalyse

Diese Prozedur kann relativ homogene Fallgruppen aufgrund ausgewählter Eigenschaften identifizieren, wobei ein Algorithmus verwendet wird, der eine große Anzahl von Fällen verarbeiten kann. Der Algorithmus erfordert jedoch, dass Sie die Anzahl der Cluster festlegen. Wenn Ihnen die anfänglichen Clusterzentren bekannt sind, können Sie diese angeben. Sie können eine der beiden Methoden zur Klassifikation der Fälle auswählen, entweder iteratives Aktualisieren der Clusterzentren oder nur Klassifizieren. Sie können Clusterzugehörigkeit, Informationen zur Distanz und endgültige Clusterzentren speichern. Wahlweise können Sie eine Variable festlegen, mit deren Werte fallweise Ausgaben beschriftet werden. Sie können außerdem eine F-Statistik zur Varianzanalyse anfordern. Während es sich bei dieser Statistik um eine opportunistische Statistik handelt (mit dieser Prozedur wird versucht, tatsächlich voneinander abweichende Gruppen zu bilden), lassen sich aus der relativen Größe der Statistik Informationen über den Beitrag jeder Variablen zu der Trennung der Gruppen gewinnen.

Nicht parametrische Tests

Nicht parametrische Tests machen minimale Annahmen über die zugrunde liegende Verteilung der Daten. Die in diesen Dialogfeldern verfügbaren Tests können anhand dessen, wie die Daten organisiert sind, in drei große Kategorien gruppiert werden:

  • Ein Test bei einer Stichprobe analysiert ein Feld.
  • Ein Test bei verbundenen Stichproben vergleicht zwei oder mehr Felder für das gleiche Fallset.
  • Ein Test bei unabhängigen Stichproben analysiert ein Feld, das durch Kategorien eines anderen Felds gruppiert wurde.

Reliabilitätsanalyse

Die Reliabilitätsanalyse ermöglicht es Ihnen, die Eigenschaften von Messniveaus und der Items zu untersuchen, aus denen diese sich zusammensetzen. Mit der Prozedur „Reliabilitätsanalyse“ können Sie eine Anzahl von allgemein verwendeten Reliabilitäten des Messniveaus berechnen, und es werden Ihnen Informationen über die Beziehungen zwischen den Items in der Skala zur Verfügung gestellt. Intraklassen-Korrelationskoeffizienten können verwendet werden, um Reliabilitätsschätzungen der Urteiler zu berechnen.

Multidimensionale Skalierung

Bei der multidimensionalen Skalierung wird versucht, die Struktur in einem Set von Distanzmaßen zwischen Objekten oder Fällen zu erkennen. Diese Aufgabe wird durch das Zuweisen von Beobachtungen zu bestimmten Positionen in einem konzeptuellen Raum (gewöhnlich zwei- oder dreidimensional) erzielt, und zwar so, dass die Distanzen zwischen den Punkten des Raums mit den gegebenen Unähnlichkeiten so gut wie möglich übereinstimmen. In vielen Fällen können die Dimensionen dieses konzeptuellen Raums interpretiert und für ein besseres Verständnis Ihrer Daten verwendet werden.

Wenn Sie über objektiv gemessene Variablen verfügen, können Sie die multidimensionale Skalierung als Technik zur Datenreduktion verwenden (erforderlichenfalls berechnet die Prozedur „Multidimensionale Skalierung“ die Distanzen aus multivariaten Daten für Sie). Die multidimensionale Skalierung kann auch auf subjektive Bewertungen von Unähnlichkeiten zwischen Objekten oder Konzepten angewendet werden. Außerdem kann die Prozedur „Multidimensionale Skalierung“ Unähnlichkeitsdaten aus mehreren Quellen verarbeiten, beispielsweise von mehreren Befragern oder Befragten einer Umfrage.

Verhältnisstatistik

Die Prozedur „Verhältnisstatistik“ bietet eine umfassende Liste mit Auswertungsstatistiken zur Beschreibung des Verhältnisses zwischen zwei metrischen Variablen.

Sie können die Ausgabe nach Werten einer Gruppierungsvariablen in auf- oder absteigender Reihenfolge sortieren. Der Bericht für die Verhältnisstatistik kann in der Ausgabe unterdrückt werden, und die Ergebnisse können in einer externen Datei gespeichert werden.

ROC-Kurven

Diese Prozedur stellt einen sinnvollen Weg zur Beurteilung von Klassifikationsschemas dar, bei denen eine Variable mit zwei Kategorien verwendet wird, um Subjekte zu klassifizieren.

Exakte Tests

Mit Exact Tests stehen Ihnen zwei zusätzliche Methoden zum Berechnen von Signifikanzniveaus für die Statistiken zur Verfügung, auf die Sie über die Prozeduren „Kreuztabellen“ und „Nicht parametrische Tests“ zugreifen können. Diese Methoden, die exakte Methode und die Monte-Carlo-Methode, bieten eine Möglichkeit, akkurate Ergebnisse zu erzielen, selbst wenn die Daten keine der zugrunde liegenden Annahmen erfüllen, die für verlässliche Ergebnisse unter Verwendung der asymptotischen Standardmethode notwendig sind. Nur verfügbar, wenn Sie die Exact Tests-Optionen erworben haben.

Simulation

Bei Vorhersagemodellen, wie beispielsweise der linearen Regression, ist eine Menge bekannter Eingaben erforderlich, um ein Ergebnis bzw. einen Zielwert vorherzusagen. In vielen Anwendungen in der Praxis sind die Werte der Eingaben jedoch unsicher. Durch die Simulation können Sie die Unsicherheit in den Eingaben für Vorhersagemodelle berücksichtigen und die Wahrscheinlichkeit verschiedener Ausgaben des Modells bei Vorhandensein dieser Unsicherheit einschätzen. Nehmen wir beispielsweise an, Sie verwenden ein Profitmodell, bei dem die Materialkosten als Eingaben verwendet werden, aufgrund von Marktschwankungen besteht jedoch eine gewisse Unsicherheit in Bezug auf diese Kosten. Mithilfe der Simulation können Sie diese Unsicherheit modellieren und ihre Auswirkung auf den Profit bestimmen.

Bei der Simulation in IBM SPSS Statistics wird die Monte-Carlo-Methode verwendet. Unsichere Eingaben werden mit Wahrscheinlichkeitsverteilungen (z. B. Dreiecksverteilung) modelliert und simulierte Werte für diese Eingaben werden durch Ziehen aus diesen Verteilungen generiert. Bei Eingaben mit bekannten Werten werden stets die bekannten Werte verwendet (feste Eingaben). Das Vorhersagemodell wird jeweils mit einem simulierten Wert für jede unsichere Eingabe und mit festen Werten für die bekannten Eingaben ausgewertet, um das Ziel (bzw. die Ziele) des Modells zu berechnen. Dieser Prozess wird viele Male wiederholt (üblicherweise mehrere Zehntausend oder Hunderttausend Mal), was zu einer Verteilung der Zielwerte führt, die zur Beantwortung probabilistischer Fragen verwendet werden kann. Im Rahmen von IBM SPSS Statistics generiert jede Wiederholung des Prozesses einen separaten Fall (Datensatz) von Daten, der aus dem Set der simulierten Werte für die unsicheren Eingaben, den Werten für die festen Eingaben und dem vorhergesagten Ziel (bzw. den vorhergesagten Zielen) des Modells besteht.

Sie können Daten auch ohne Vorhersagemodell simulieren, indem Sie für zu simulierende Variablen Wahrscheinlichkeitsverteilungen angeben. Jeder generierte Fall von Daten besteht aus dem Set simulierter Werte für die angegebenen Variablen.

Zur Ausführung einer Simulation müssen Sie Details angeben, wie beispielsweise das Vorhersagemodell, die Wahrscheinlichkeitsverteilungen für die unsicheren Eingaben, Korrelationen zwischen diesen Eingaben sowie Werte für etwaige feste Eingaben. Nachdem Sie alle Details für eine Simulation angegeben haben, können Sie sie ausführen und die Spezifikationen bei Bedarf in einer Simulationsplan-Datei speichern. Sie können den Simulationsplan für andere Benutzer freigeben, die dadurch die Simulation ausführen können, ohne im Detail wissen zu müssen, wie sie erstellt wurde.

Für die Arbeit mit Simulationen stehen zwei Schnittstellen zur Verfügung. Der Simulation Builder ist eine erweiterte Schnittstelle für Benutzer, die Simulationen entwerfen und ausführen. Er stellt alle Funktionen bereit, die zum Entwerfen einer Simulation, zum Speichern der Spezifikationen in einer Simulationsplandatei, zur Angabe der Ausgaben sowie für die Ausführung der Simulation erforderlich sind. Sie können eine Simulation auf der Grundlage einer IBM SPSS-Modelldatei oder einer Menge benutzerdefinierter Gleichungen erstellen, die Sie im Simulation Builder festlegen. Sie können auch einen bestehenden Simulationsplan in den Simulation Builder laden, beliebige Einstellungen ändern und die Simulation ausführen und dabei bei Bedarf den aktualisierten Plan speichern. Bei Benutzern, die einen Simulationsplan besitzen und in erster Linie die Simulation ausführen möchten, steht eine einfachere Schnittstelle zur Verfügung. Mit dieser Schnittstelle können Sie Einstellungen bearbeiten, mit denen Sie die Simulation unter anderen Bedingungen ausführen können, sie bietet jedoch nicht den vollen Funktionsumfang des Simulation Builder für den Entwurf von Simulationen.

Georäumliche Modellierung

Georäumliche Modellierungsverfahren ermitteln Muster in Daten, die eine räumliche Komponente (Kartenkomponente) enthalten. Der Geomodellierungsassistent stellt Methoden für die Analyse von Geodaten mit und ohne Zeitkomponente bereit.

  • Assoziationen auf der Basis von Ereignis- und Geodaten suchen (Geoassoziationsregeln)
    Mithilfe von Geoassoziationsregeln können Sie Muster in Daten auf der Basis von sowohl räumlichen als auch nicht räumlichen Eigenschaften suchen. Sie können beispielsweise Muster in kriminologischen Daten nach Position und demografischen Attributen ermitteln. Anhand dieser Muster können Sie Regeln erstellen, die vorhersagen, wo bestimmte Arten von Verbrechen wahrscheinlich auftreten.
  • Vorhersagen mithilfe von Zeitreihen und Geodaten erstellen (räumlich-temporale Vorhersage)
    Die räumlich-temporale Vorhersage verwendet Daten, die Positionsdaten, Eingabefelder für die Vorhersage (Prädiktoren), mindestens ein Zeitfeld und ein Zielfeld enthalten. Jede Position enthält mehrere Zeilen in den Daten, die die Werte jedes Prädiktors und das Ziel in den einzelnen Zeitintervallen darstellen.

Author: Massimo Martusciello | Stand: 11.12.2015

Kommentare