Home

IBM SPSS Missing Values 20

image

Contents

1. 59 4595 Muster mit weniger als 1 F llen 10 oder weniger werden nicht angezeigt a Variablen sind nach Mustern fehlender Werte sortiert b Anzahl der vollst ndigen F lle wenn die in diesem Muster fehlenden Yariablen mit X gekennzeichnet nicht verwendet werden c Mittelwerte bei jedem eindeutigen Muster d H ufigkeitsverteilung bei jedem eindeutigen Muster Die Tabelle Muster in Tabellen zeigt an ob die Daten tendenziell f r mehrere Variablen in einzelnen F llen fehlen Sie k nnen damit also ermitteln ob die Daten gemeinsam fehlen Es gibt drei Muster f r gemeinsam fehlende Daten die in mehr als 1 der F lle vorkommen Die Variablen employ Years with current employer Jahre beim derzeitigen Arbeitgeber und retire Retired Ruhestand fehlen zusammen fter als die anderen Paare Dies berrascht nicht da retire Ruhestand und employ Jahre beim derzeitigen Arbeitgeber hnliche Informationen erfassen Wenn Sie nicht wissen ob ein Befragter sich im Ruhestand befindet wissen Sie vermutlich auch nicht wie viele Jahre die betreffende Person beim derzeitigen Arbeitgeber besch ftigt ist Der Mittelwert f r income Household income in thousands Einkommen scheint in Abh ngigkeit vom Muster fehlender Werte erheblich zu schwanken Insbesondere ist der Mittelwert f r Income Einkommen wesentlich h her f r die 6 60 von 1000 der F lle in denen marital Marital status
2. _ Zweifache Wechselwirkungseffekte bei kategorialen Einflussvariablen aufnehmen Modelltyp f r metrische Variablen Lineare Regression 7 Toleranz f r Pr fung auf Singularit t W hlen Sie Benutzerdefiniert und belassen Sie Vollst ndig konditionale Spezifikation als Imputationsmethode aktiviert Klicken Sie auf die Registerkarte Nebenbedingungen 64 Kapitel 5 Abbildung 5 20 Nebenbedingungen Registerkarte A Fehlende Datenwerte imputieren X rDatenscan f r Yariablenzusammenfassung Daten neu durchsuchen Anzahl der durchsuchten F lle beschr nken F lle soon Yariablenzusammenfassung Variablen im Modell Prozent Fehlend Beobachtetes Min Beobachtetes Max E Months WithService variablen im Modell 8 MorthswithServ imputieren variablen mit gro en Mengen fehlender Daten ausschlie en Maximaler Prozentsatz Fehlend Maximale Fallziehungen Maximale Parameterziehungen Tv Eine Erh hung der maximalen Parameterziehungen kann die Analysezeit erheblich verl ngern C intagen Zr sietzen Adorecnen rare Klicken Sie auf Daten durchsuchen gt Geben Sie im Raster Nebenbedingungen definieren 1 als Minimumwert f r Months with service tenure ein gt Geben Sie 18 als Minimumwert f r age Age in years ein gt Geben Sie 0 als Minimumwert f r address Years at current address ein
3. Fehlend Ein deutlicherer Unterschied ist f r retire Retired Ruhestandsstatus zu verzeichnen Personen die sich im Ruhestand befinden geben mit wesentlich geringerer Wahrscheinlichkeit ihr Einkommen an als Personen die noch nicht im Ruhestand sind Nur 46 3 der Kunden im Ruhestand gaben ihr Einkommensniveau Income an w hrend der Prozentsatz der Personen die sich nicht im Ruhestand befinden und ihr Einkommensniveau angaben bei 83 7 lag Abbildung 4 8 Kreuztabelle f r Gender Igender Geschlecht address Yorhanden Fehlend income vorhanden Fehlend vorhanden Fehlend marital vorhanden Fehlend retire WVorhanden Fehlend Anzah Prozent SysMis Anzah Prozent SysMis Anzah Prozent SysMis Anzah Prozent SysMis Anzah Prozent SysMis M nnlich Weiblich Eine weitere Diskrepanz ist f r gender Gender Geschlecht offensichtlich Die Angaben zur Adresse fehlen h ufiger bei M nnern als bei Frauen Diese Diskrepanzen k nnten zwar zufallsbedingt sein dies erscheint jedoch unwahrscheinlich Die Daten scheinen nicht v llig zuf llig zu fehlen Wir betrachten die Muster der fehlenden Daten um dies weiter zu untersuchen 44 Kapitel 4 Erneute Durchf hrung der Analyse zur Anzeige von Mustern Abbildung 4 9 Dialogfeld Analyse fehlender Werte H Analyse fehlender Werte X Quantitative Variablen 8 Einkommen Income E Monate beim Anbiete
4. W hlen Sie Benutzerdefiniert Schrittweise W hlen Sie aus der Dropdown Liste Terme f r schrittweisen Einschluss Terme konstruieren die Option Haupteffekte aus W hlen Sie ninc bis reside als schrittweise Terme aus Klicken Sie auf Weiter Klicken Sie im Dialogfeld Multinomiale logistische Regression auf OK 76 Kapitel 5 Zusammenfassung der Schritte Abbildung 5 33 Zusammenfassung der Schritte Imputations nummer Originaldaten a UNa OJU Ne O Aktion Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben ffektie Intercept ed employ marital Intercept ed employ reside address Intercept ed employ marital address Intercept ed employ marital address Kriterien f r die Modella npassung Likelihood Quadrat grade kanz 1353 555 1260 972 1237 664 1229 808 2762 531 2608 189 2563 671 2549 200 2541 050 2762 531 2603 940 2563 367 2545 743 2536 532 2762 531 2600 074 2558 560 2546 062 2536 348 92 583 23 308 154 342 44 518 14 470 162 457 41 514 12 499 Effektauswahltests 7 856 8 151 9 714 P en M 00 coolen OJA UNa O on O w N Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Eingegeben Intercept ed employ m
5. atter Age 8 Jahre wohnhaft an K Jahre beim gleichen K Personen im Hausha 8 Log of income Ininc W hlen Sie Customer category als abh ngige Variable aus W hlen Sie Marital status Level of education Retired und Gender als Faktoren W hlen Sie Age in Years Years at current address Years with current employer Number of people in household und Log of income als Kovariaten aus gt Sie m chten andere Kunden mit denen vergleichen die den Basisservice erhalten W hlen Sie daher Customer category und klicken Sie auf Referenzkategorie 74 Kapitel 5 Abbildung 5 31 Dialogfeld Referenzkategorie F Multinomiale logistische Regression Referenzkategorie F Referenzkategorie Erste Kategorie Letzte Kategorie Anpassen Wert Kategoriereihenfolge Aufsteigend O Absteigend W hlen Sie Erste Kategorie Klicken Sie auf Weiter gt Klicken Sie im Dialogfeld Multinomiale logistische Regression auf Modell 75 Multiple Imputation Abbildung 5 32 Dialogfeld Modell TF Muttinomiale logistische Regression Modell X Modell angeben Haupteffekte Ges ttigtes Modell Benutzerdefiniert Schrittweise Faktoren und Kovaristen Terme f r erzwungenen Einschluss Terme konstruieren Wecaunn m Terme f r schrittweisen Einschluss mie Schrittweise Methode T Konstanten Term in Modell einschlie en
6. gt Geben Sie 0 als Minimumwert f r employ Years with current employer ein gt Geben Sie 1 als Minimumwert und 1 als Rundungsstufe f r reside Number of people in household ein Beachten Sie dass zwar viele der anderen metrischen Variablen als ganzzahlige Werte ausgewertet werden es sich aber empfiehlt zu formulieren dass jemand f r 13 8 Jahre an seiner aktuellen Anschrift gewohnt hat aber nicht wirklich anzunehmen dass 2 2 Personen dort leben gt Geben Sie 0 als Minimumwert f r ninc Log of income ein Klicken Sie auf die Registerkarte Ausgabe 65 Multiple Imputation Abbildung 5 21 Registerkarte Ausgabe Anzeige Imputationsmodell Beschreibende Statistiken f r Variablen mit imputierten Werten kterstionsprotokoll kterationsprotokoll erstellen Neues Daten Set erstellen Daten Set Name telcoFCS In neue Datendatei schreiben W hlen Sie Iterationsprotokoll erstellen und geben Sie telcoFCS als Namen f r das neue Daten Set ein Klicken Sie auf OK 66 Kapitel 5 Imputationsnebenbedingungen Abbildung 5 22 Imputationsnebenbedingungen Rolle in der Imputation Imputierte Werte ee Tann mm mu Abh ngig le Minimum Maximum Runden Months with service ohne Age in years ohne Marital status Years at current address ohne Level of education Years with current ohne Retired Gender Number of people in ohne Ganzzahl Lninc ohne
7. Familienstand fehlt Dieser Wert ist auch h her wenn tenure Months with service Besch ftigung fehlt doch dieses Muster betrifft nur 1 7 der F lle Erinnern Sie sich dass die Personen mit einem h heren Bildungsniveau die Frage nach dem Ehestand weniger h ufig beantworteten Dieser Trend ist in den f r ed Level of education Bildungsniveau angezeigten H ufigkeiten zu sehen Wir k nnten den Anstieg bei income Einkommen m glicherweise erkl ren indem wir annehmen dass die Personen mit einem h heren Bildungsniveau mehr Geld verdienen und weniger h ufig ihren Familienstand angeben 47 Analyse fehlender Werte Wenn wir die deskriptiven Statistiken und die Muster fehlender Daten betrachten k nnen wir m glicherweise folgern dass die Daten nicht v llig zuf llig fehlen Wir k nnen diese Schlussfolgerung mit dem MCAR Test nach Little berpr fen der mit den EM Sch tzern abgedruckt ist Erneute Durchf hrung der Analyse f r den MCAR Test nach Little Abbildung 4 12 Dialogfeld Analyse fehlender Werte F Analyse fehlender Werte Quantitative Variablen 5 Q MANAG WOI MIG amp Imputstionsnummer Im 8 Atter Age E Jahre wohnhaft an 8 Einkommen Income K Jahre beim gleichen Personen im Haush rSch tzung Listenweise _ Paarweise Kategoriale Variablen 6 Familienstand MaritalS EM d Ausbildung Education Ruhestand Retirement Geschlecht Gender
8. IBM SPSS Missing Values 20 Hinweis Lesen Sie zun chst die allgemeinen Informationen unter Hinweise auf S 95 bevor Sie dieses Informationsmaterial sowie das zugeh rige Produkt verwenden Diese Ausgabe bezieht sich auf IBM SPSS Statistics 20 und alle nachfolgenden Versionen sowie Anpassungen sofern dies in neuen Ausgaben nicht anders angegeben ist Screenshots von Adobe Produkten werden mit Genehmigung von Adobe Systems Incorporated abgedruckt Screenshots von Microsoft Produkten werden mit Genehmigung der Microsoft Corporation abgedruckt Lizenziertes Material Eigentum von IBM Copyright IBM Corporation 1989 2011 Eingeschr nkte Rechte f r Benutzer der US Regierung Verwendung Vervielf ltigung und Ver ffentlichung eingeschr nkt durch GSA ADP Schedule Contract mit der IBM Corp Vorwort IBM SPSS Statistics ist ein umfassendes System zum Analysieren von Daten Das optionale Zusatzmodul Missing Values bietet die zus tzlichen Analyseverfahren die in diesem Handbuch beschrieben sind Die Prozeduren im Zusatzmodul Missing Values m ssen zusammen mit SPSS Statistics Core verwendet werden Sie sind vollst ndig in dieses System integriert Informationen zu IBM Business Analytics Die Software IBM Business Analytics liefert umfassende einheitliche und korrekte Informationen mit denen Entscheidungstr ger die Unternehmensleistung verbessern k nnen Ein umfassendes Portfolio aus Business Intelligence Vo
9. das nach dem Schlaganfall durchgef hrt wurde berlebten stroke_valid sav Diese hypothetische Datendatei enth lt den Zustand einer medizinischen Datenbank nachdem diese mithilfe der Prozedur Daten validieren berpr ft wurde Sie enth lt immer noch potenziell anomale F lle survey_sample sav Diese Datendatei enth lt Umfragedaten einschlie lich demografischer Daten und verschiedener Meinungskennzahlen Sie beruht auf einer Teilmenge der Variablen aus der NORC General Social Survey aus dem Jahr 1998 Allerdings wurden zu Demonstrationszwecken einige Daten abge ndert und weitere fiktive Variablen hinzugef gt telco sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Telekommunikationsunternehmens geht die Kundenabwanderung zu verringern Jeder Fall entspricht einem Kunden und enth lt verschiedene Informationen zum demografischen Hintergrund und zur Servicenutzung telco_extra sav Diese Datendatei hnelt der Datei telco sav allerdings wurden die Variablen tenure und die Log transformierten Variablen zu den Kundenausgaben entfernt und durch standardisierte Log transformierte Variablen ersetzt 93 Beispieldateien telco_missing sav Diese Datendatei ist eine Untermenge der Datendatei telco sav allerdings wurde ein Teil der demografischen Datenwerte durch fehlende Werte ersetzt testmarket sav Diese hypothetische Datendatei bezieht sich auf die Pl ne einer Fast F
10. Analyse fehlender Werte 7 Normale Variaten in Analyse fehlender Werte 11 Optionen Multiple Imputation 34 Paarweiser Ausschluss in Analyse fehlender Werte 2 Rechtliche Hinweise 95 Regression in Analyse fehlender Werte 11 Residuen in Analyse fehlender Werte 11 Sortieren von F llen in Analyse fehlender Werte 5 Standardabweichung in Analyse fehlender Werte 7 Student T Test in Analyse fehlender Werte 11 40 93 99 t Test in Analyse fehlender Werte 7 T Test in Analyse fehlender Werte 40 Tabellarische Darstellung von Kategorien in Analyse fehlender Werte 7 41 Univariate Statistiken in Analyse fehlender Werte 39 Unvollst ndige Daten siehe Analyse fehlender Werte 2 vollst ndig konditionale Spezifikation in Multiple Imputation 20 Index
11. Die folgenden Variablen retire gender age reside Inine werden nur f r die Definition der Teilgesamtheiten und nicht zur Konstruktion des Modells verwendet Die Hesse Matrix enth lt unerwartete Sinqularit ten Dies bedeutet da entweder einige Einflu yariablen weggelassen oder einige Kategorien zusammengef gt werden sollten Die Prozedur NOMREG wird trotz obiger Warnungen fortgesetzt Die nachfolgend angezeigten Ergebnisse basieren auf der letzte Iteration Die G ltigkeit der Modellanpassung ist ungewiss In diesem Beispiel verursacht das Original Daten Set jedoch einen Fehler der die gro en Parametersch tzer f r den konstanten Term Plus service und die nicht redundanten Stufen von ed Level of education in der Originaldatenspalte der Tabelle erkl rt Auswertung Unter Verwendung der Verfahren multipler Imputation haben Sie Muster fehlender Werte analysiert und festgestellt dass viele Informationen vermutlich verloren gehen w rden wenn ein einfach listenweiser Ausschluss verwendet werden w rde Nach einem ersten automatischen Durchlauf der multiplen Imputation haben Sie festgestellt dass Nebenbedingungen ben tigt werden um imputierte Werte in einem vern nftigen Rahmen zu halten Der Durchlauf mit Nebenbedingungen sorgte f r gute Ergebnisse und es gab keinen direkten Nachweis dass die FCS Methode nicht konvergiert hat Unter Verwendung des vollst ndigen Daten Sets mit mehrfach imputierten Werten haben Sie
12. E Regression Maximalzahl der Kategorien Y Fallbeschriftungen Rufen Sie das Dialogfeld Analyse fehlender Werte wieder auf Klicken Sie auf EM Klicken Sie auf OK 48 Kapitel 4 Abbildung 4 13 Tabelle Gesch tzte Randmittel e w ii 5 pes E kz wW Z z x T o gt gt Months WYithService PeoplelnHousehold wo az _ a let nach Little Chi Quadrat 179 836 DF 107 Sig Die Ergebnisse des MCAR Tests nach Little werden jeweils in den Fu noten der Tabellen f r EM gesch tzte Statistiken angezeigt Die Nullhypothese f r den MCAR Test nach Little lautet dass die Daten in v llig zuf lliger Weise fehlen missing completely at random MCAR Daten fehlen v llig zuf llig MCAR wenn das Muster der fehlenden Werte nicht von den Datenwerten abh ngt Da der Signifikanzwert in unserem Beispiel weniger als 0 05 betr gt k nnen wir folgern dass die Daten nicht v llig zuf llig fehlen Dies best tigt die Schlussfolgerung die wir aus den deskriptiven Statistiken und den Mustern in Tabellen gezogen haben Da die Daten nicht v llig zuf llig fehlen ist es an dieser Stelle nicht sicher F lle mit fehlenden Werten oder einzeln imputierten fehlenden Werten listenweise zu l schen Dennoch k nnen Sie Multiple Imputation verwenden um diese Datenmenge weiter zu analysieren Kapitel Multiple Imputation Verwendung von multipler Imputation f
13. Zufriedenheitsumfrage die von einem Einzelhandelsunternehmen in 4 Filialen durchgef hrt wurde Insgesamt wurden 582 Kunden befragt Jeder Fall gibt die Antworten eines einzelnen Kunden wieder screws sav Diese Datendatei enth lt Informationen zu den Eigenschaften von Schrauben Bolzen Muttern und Rei n geln shampoo_ph sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Fabrik f r Haarpflegeprodukte geht In regelm igen Zeitabst nden werden Messwerte von sechs separaten Ausgangschargen erhoben und ihr pH Wert erfasst Der Zielbereich ist 4 5 5 5 92 Anhang A ships sav Ein an anderer Stelle vorgestelltes und analysiertes Daten Set bezieht sich auf die durch Wellen verursachten Sch den an Frachtschiffen Die Vorfallsh ufigkeiten k nnen unter Angabe von Schiffstyp Konstruktionszeitraum und Betriebszeitraum gem einer Poisson Rate modelliert werden Das Aggregat der Betriebsmonate f r jede Zelle der durch die Kreuzklassifizierung der Faktoren gebildeten Tabelle gibt die Werte f r die Risikoanf lligkeit an site sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Unternehmens geht neue Standorte f r die betriebliche Expansion auszuw hlen Das Unternehmen beauftragte zwei Berater unabh ngig voneinander mit der Bewertung der Standorte Neben einem umfassenden Bericht gaben die Berater auch eine zusammenfassend
14. ndigungen oder anderen ffentlich verf gbaren Quellen bezogen IBM hat diese Produkte nicht getestet und kann die Genauigkeit bez glich Leistung Kompatibilit t oder anderen Behauptungen nicht best tigen die sich auf Drittanbieter Produkte beziehen Fragen bez glich der Funktionen von Drittanbieter Produkten sollten an die Anbieter der jeweiligen Produkte gerichtet werden Diese Informationen enthalten Beispiele zu Daten und Berichten die im t glichen Gesch ftsbetrieb Verwendung finden Um diese so vollst ndig wie m glich zu illustrieren umfassen die Beispiele Namen von Personen Unternehmen Marken und Produkten Alle diese Namen sind fiktiv und jegliche hnlichkeit mit Namen und Adressen realer Unternehmen ist rein zuf llig Unter Umst nden werden Fotografien und farbige Abbildungen nicht angezeigt wenn Sie diese Informationen nicht in gedruckter Form verwenden Marken IBM das IBM Logo ibm com und SPSS sind Marken der IBM Corporation und in vielen L ndern weltweit registriert Eine aktuelle Liste der IBM Marken finden Sie im Internet unter http fwww ibm com legal copytrade shtml Adobe das Adobe Logo PostScript und das PostScript Logo sind eingetragene Marken oder Marken von Adobe Systems Incorporated in den USA und oder anderen L ndern Intel das Intel Logo Intel Inside das Intel Inside Logo Intel Centrino das Intel Centrino Logo Celeron Intel Xeon Intel SpeedStep Itanium und Pentium sind Markten oder einget
15. Das angepasste Imputationsmodell resultiert in einer neuen Tabelle die die Nebenbedingungen f r das Imputationsmodell zusammenfasst Alles scheint Ihren Angaben zu entsprechen Deskriptive Statistik Abbildung 5 23 Deskriptive Statistik f r tenure Besch ftigungsdauer ion Mittelwert eichung Minimum Maximum Oela Imputierte Werte Daten nach Imputation vervollst ndigen 1 2 3 4 5 1 2 3 4 5 Die Tabelle Deskriptive Statistik f r tenure Months with service f r das angepasste Imputationsmodell mit Nebenbedingungen zeigt dass das Problem negativer imputierter Werte f r tenure gel st wurde 67 Multiple Imputation Abbildung 5 24 Deskriptive Statistik f r marital Familienstand Originaldaten 456 429 Imputierte Werte 46 69 60 55 45 vervollst ndigen Daten nach Imputation Die Tabelle f r marital Marital status hat jetzt eine Imputation 3 deren Verteilung mehr den Originaldaten entspricht die Mehrzahl zeigt aber im Vergleich zu den Originaldaten immer noch einen gro en Anteil von F llen die als verheiratet gesch tzt werden Das k nnte an der zuf lligen Variation liegen erfordert aber eventuell auch eine weitere Studie der Daten um festzustellen ob diese Werte nicht zuf llig fehlen missing at random MAR Dem gehen wir hier nicht weiter nach Abbildung 5 25 Deskriptive Statistik f r Ininc Log of income E Standardabw Daten mo
16. Die Prozedur ordnet Analysevariablen um ein monotones Muster preiszugeben bzw anzun hern Wenn kein nicht monotones Muster nach der Neuordnung existiert k nnen Sie daraus schlie en dass die Daten ein monotones Muster besitzen wenn die Analysevariablen als solche geordnet sind m Variablen mit der h chsten Frequenz fehlender Werte Zeigt eine Tabelle der Analysevariablen sortiert nach Prozent der fehlenden Werte in absteigender Reihenfolge an Die Tabelle enth lt deskriptive Statistiken Mittelwert und Standardabweichung f r metrische Variablen Sie k nnen die maximale Zahl an anzuzeigenden Variablen und den Mindestprozentsatz fehlender Werte f r eine Variable der dargestellt wird steuern Es wird die Menge von Variablen angezeigt die beiden Kriterien entspricht Zum Beispiel verlangt das Einstellen der Maximalzahl von Variablen auf 50 und des Mindestprozentsatzes fehlender Werte auf 25 dass die Tabelle bis zu 50 Variablen anzeigt die mindestens 25 fehlende Werte besitzen Wenn es 60 Analysevariablen gibt aber nur 15 25 oder mehr fehlende Werte haben enth lt die Ausgabe nur 15 Variablen Fehlende Datenwerte ersetzen Fehlende Datenwerte ersetzen wird verwendet um multiple Imputationen zu erzeugen Die vollst ndigen Daten Sets k nnen mit Prozeduren analysiert werden die Daten Sets mit multipler Imputation unterst tzen Informationen zur Analyse von Daten Sets der multiplen Imputation und eine Liste der Verfahren
17. Kreuztabelle Level of education ed YearsAtAddress Income YearsWithEmployer MaritalStatus RetirementStatus vorhanden Fehlend vorhanden Fehlend vorhanden Fehlend vorhanden Fehlend vorhanden Fehlend Anzahl Prozent SysMis Anzahl Prozent SysMis Anzahl Prozent SysMis Anzahl Prozent SysMis Anzahl Prozent SysMis Kein High School Abschluss High School Abschluss College Besuch College Abschluss Post Undergraduate Abschluss Betrachten wir nun die Kreuztabelle f r ed Level of education Bildungsniveau Wenn der Befragte als Bildungsniveau mindestens Some college Einige Semester am College studiert angab ist die Wahrscheinlichkeit dass Angaben f r den Familienstand MaritalStatus fehlen h her Mindestens 98 5 der Befragten ohne College Ausbildung machten Angaben zum Familienstand Dagegen gaben nur 81 1 der Personen mit College Abschluss College degree ihren Familienstand an Bei Personen die einige Semester studiert aber keinen Abschluss haben Some College liegt der Wert sogar noch niedriger 43 Abbildung 4 7 Kreuztabelle f r Retired retire Analyse fehlender Werte address Worhanden Fehlend income Vorhanden Fehlend employ vorhanden Fehlend marital vorhanden Fehlend Anzahl Prozent SysMis Anzahl Prozent SysMis Anzahl Prozent SysMis Anzahl Prozent SysMis
18. Modells mit einer Untermenge an Einflussvariablen Abbildung 5 34 Modell Dialogfeld A Multinomiale logistische Regression Modell rModell angeben Multiple Imputation Haupteffekte Ges ttigtes Modell Faktoren und Kovariaten Ea Ininc YearswithEmployer Ea Age L RetirementStatus U MaritalStatus r Terme konstruieren il EducstionalLevel L Gender Ei YearsAtAddress l2 PeoplelnHousehold Benutzerdefiniert Schrittweise Terme f r erzwungenen Einschluss YearsWithEmployer MaritalStatus EducationalLevel YearsAtAddress Terme f r schrittweisen Einschluss Fi Konstanten Term in Modell einschlie en Ce nn e Rufen Sie das Dialogfeld Multinomiale logistische Regression auf und klicken Sie auf Modell Deaktivieren Sie die Variablen aus der Liste Terme f r schrittweisen Einschluss W hlen Sie aus der Dropdown Liste Terme f r erzwungenen Einschluss Terme konstruieren die Option Haupteffekte aus W hlen Sie employ marital ed und address als Terme f r erzwungenen Einschluss Klicken Sie auf Weiter Klicken Sie im Dialogfeld Multinomiale logistische Regression auf OK 78 Kapitel 5 Gemeinsame Parametersch tzer Diese Tabelle ist relativ gro durch Pivotieren erhalten wir jedoch eine Reihe von unterschiedlichen n tzlichen Ansichten der Ausgabe Abbildung 5 35 Gemeinsame Parametersch tzer ri Pivot Tabelle Paramete
19. Retired Logistische Regression Years with current Lineare Regression employer Marital status Logistische Regression Years at current address Lineare Regression Household income in Lineare Regression thousands ed gender retire marital tenure reside employ address income ed gender retire marital age reside employ address income ed gender retire marital age tenure employ address income gender retire marital age tenure reside employ address income ed retire marital age tenure reside employ address income ed gender marital age tenure reside employ address income ed gender retire marital age tenure reside address income ed gender retire age tenure reside employ address income ed gender retire marital age tenure reside employ income ed gender retire marital age tenure reside employ address 58 Kapitel 5 Die Tabelle Imputationsmodelle gibt weitere Details an wie jede Variable imputiert wurde Beachten Sie insbesondere Folgendes m Die Variablen werden in der Reihenfolge der Imputationssequenz aufgef hrt m Metrische Variablen werden mit linearer Regression modelliert kategoriale Variablen mit logistischer Regression Jedes Modell verwendet alle anderen Variablen als Haupteffekte Die Anzahl der fehlenden Werte f r jede Variable wird zusammen mit der Gesamtzahl an imputierten Werten f r diese Variable Anzahl fehlend x Anzahl Imputationen gemeldet Deskriptive St
20. WithService YearsAtAddress Age EducationalLevel YearsAt ddress RetirementStatus YearsiWithEmployer Gender PeoplelnHousehold MaritalStatus EducstionalLevel RetirementStatus Gender Sie k nnen verschiedene Tabellen anzeigen lassen die die Muster und das Ausma der fehlenden Daten zeigen Mit diesen Tabellen k nnen Sie Antworten auf folgende Fragen finden m Wo befinden sich fehlende Daten m Tendieren Variablenpaare dazu fehlende Werte in einzelnen F llen aufzuweisen m Sind Datenwerte extrem Anzeigen F r die Anzeige von Mustern fehlender Daten stehen drei Tabellentypen zur Verf gung F lle in Tabellen Die Muster fehlender Daten in den Analysevariablen werden in Tabellenform dargestellt wobei f r jedes Muster auch die H ufigkeiten angegeben werden Mit Variable sortieren nach dem Muster fehlender Werte k nnen Sie angeben ob H ufigkeiten Anzahl und Variablen nach der hnlichkeit der Muster sortiert werden sollen Mit Muster weglassen bei weniger als n der F lle k nnen Sie Muster ausschlie en die nur selten vorkommen F lle mit fehlenden Werten F r die einzelnen Analysevariablen werden jeweils die einzelnen F lle mit einem fehlenden Wert oder einem Extremwert tabellarisch dargestellt Mit Variable sortieren nach dem Muster fehlender Werte k nnen Sie angeben ob H ufigkeiten Anzahl und Variablen nach der hnlichkeit der Muster sortiert werden sollen 6 Kapitel 2 All
21. current address Jahre an der aktuellen Adresse besitzen Muster 66 stellt F lle dar die fehlende Werte bei gender Gender Geschlecht marital Marital status Familienstand address Adresse und income Household income in thousands Einkommen besitzen Ein Daten Set kann potenziell 2Anzahl an Variablen Muster haben Bei 10 Analysevariablen ist das 210 1024 Es werden jedoch nur 66 Muster in den 1 000 F llen im Daten Set dargestellt Das Diagramm ordnet Analysevariablen und Muster um Monotonie falls vorhanden aufzuzeigen Speziell werden Variablen von links nach rechts in aufsteigender Reiehnfolge der fehlenden Werte geordnet Die Muster werden dann zuerst nach der letzten Variable nicht fehlende Werte zuerst dann fehlende Werte dann nach der zweiten bis zur letzten Variable usw sortiert Dabei wird von rechts nach links vorgegangen So wird aufgezeigt welche monotone Imputationsmethode f r Ihre Daten verwendet werden kann und in welchem Ma e Ihre Daten einem monotonen Muster entsprechen Wenn die Daten monoton sind sind alle fehlenden Zellen und nicht fehlenden Zellen im Diagramm fortlaufend Es gibt also keine Inseln nicht fehlender Zellen im unteren rechten Teil des Diagramms und keine Inseln fehlender Zellen im oberen linken Teil des Diagramms Dieses Daten Set ist monoton und es gibt viele Werte die imputiert werden m ssten um Monbotonie zu erreichen 53 Multiple Imputation Abbildung 5 5 Musterh u
22. der Verfahren die diese Daten unterst tzen finden Sie unter Analysieren von Daten multipler Imputation auf S 29 Muster analysieren Muster analysieren bietet deskriptive Messungen der Muster der fehlenden Werte in den Daten und eignet sich als Untersuchungsschritt vor der Imputation Beispiel Ein Telekommunikationsanbieter m chte einen besseren Einblick in die Servicenutzungsmuster in seiner Kundendatenbank gewinnen Er verf gt ber die vollst ndigen Daten der von seinen Kunden genutzten Services jedoch fehlen in den demographischen 16 Kapitel 3 Informationen die das Unternehmen gesammelt hat einige Werte Eine Analyse der Muster von fehlenden Werten kann helfen die n chsten Schritte f r die Imputation zu bestimmen F r weitere Informationen siehe Thema Verwendung von multipler Imputation f r die Vervollst ndigung und Analyse einer Daten Sets in Kapitel 5 auf S 49 So analysieren Sie Muster fehlender Daten W hlen Sie die folgenden Befehle aus den Men s aus Analysieren gt Multiple Imputation gt Muster analysieren Abbildung 3 1 Dialogfeld Muster analysieren E Muster analysieren variablen ber Variablen analysieren amp b Geschlecht Gender Monate beim Anbieter E Personen im Haushalt Pe E Alter Age Familienstand MaritalS 8 Jahre wohnhaft an gle E Einkommen Income N Ausbildung Education E Jahre beim gleichen 4 Analysegewichtung
23. df 114 9 3 Anzahl vorhanden 741 g Anzahl fehlend 80 Mittelwert Vorhanden 71 4953 Mittelwert Fehlend 67 9125 t f 8 af 121 2 Anzahl vorhanden 728 Anzahl fehlend 93 Mittelwert Vorhanden 70 3887 Mittelwert Fehlend 77 0753 t 3 df x 93 2 Anzahl vorhanden 751 Anzahl fehlend 70 Mittelwert Vorhanden 35 k F 71 3356 Mittelwert Fehlend b 69 1143 Mithilfe der Tabelle T Tests bei unterschiedlicher Varianz k nnen Sie Variablen ermitteln deren Muster fehlender Werte m glicherweise die quantitativen metrischen Variablen beeinflusst Der T Test wird mithilfe einer Indikatorvariablen berechnet die angibt ob eine Variable f r einen bestimmten Fall vorhanden ist oder fehlt Die Untergruppenmittelwerte f r die Indikatorvariable werden ebenfalls tabellarisch dargestellt Beachten Sie dass nur dann eine Indikatorvariable erstellt wird wenn eine Variable in mindestens 5 der F lle fehlende Werte aufweist Es hat den Anschein dass ltere Befragte weniger h ufig ihr Einkommensniveau angeben Wenn ncome Einkommen fehlt betr gt der Mittelwert f r Age Alter 49 73 im Vergleich zu 40 01 wenn Income Einkommen vorhanden ist In der Tat scheint das Fehlen von income Einkommen die Mittelwerte mehrerer quantitativer metrischer Variablen zu beeinflussen Dies ist ein Hinweis darauf dass die Daten m glicherweise nicht v llig zuf llig fehlen 41 Analyse fehlender We
24. die 60 Kapitel 5 Maximumwerte f r jede Imputation sind entscheidend niedriger als f r die Originaldaten Die Verteilung des Einkommens tendiert dazu rechtslastig zu sein Das k nnte also die Ursache des Problems sein Angepasstes Imputationsmodell Um zu verhindern dass imputierte Werte au erhalb eines angemessenen Wertebereichs f r jede Variable fallen geben wir ein angepasstes Imputationsmodell mit Nebenbedingungen f r die Variablen an Zudem ist Household income in thousands Haushaltseinkommen in Tausend stark rechtslastig und die weitere Analyse wird wahrscheinlich den Logarithmus von income nutzen Daher scheint die direkte Imputation von log income Sinn zu ergeben gt Stellen Sie sicher dass das Original Daten Set aktiv ist W hlen Sie zum Erstellen einer Variable log income die folgenden Men befehle aus Transformieren gt Variable berechnen Abbildung 5 15 Variable berechnen Dialogfeld Imputstionsnummer Im v Monate beim Anbieter Zielvariable Numerischer Ausdruck Ininc Inincome L Alter Age amp Familienstand MaritalSt 8 Jahre wohnhaft an glei 8 Einkommen Income 4 Ausbildung Educationa 2 Jahre beim gleichen Ar amp b Ruhestand Retirement amp Geschlecht Gender 8 Personen im Haushalt Eatsag ertionaie Fallauswahlbedingung gt Geben Sie ninc als Zielvariable ein Geben Sie I
25. die von der Imputation ausgeschlossen sind und die Imputationssequenz Wenn angegeben werden auch die Nebenbedingungen f r Analysevariablen angezeigt m Imputationsmodell Zeigt das Imputationsmodell f r abh ngige Variablen und Einflussvariablen an und enth lt den univariaten Modelltyp Modelleffekte und die Anzahl der imputierten Werte m Deskriptive Statistik Zeigt die deskriptive Statistik f r abh ngige Variablen an f r die Werte imputiert sind F r metrische Variablen enth lt die deskriptive Statistik Mittelwert Anzahl Standardabweichung Minimum und Maximum f r die Original Eingabedaten vor der Imputation imputierte Werte durch Imputation und vollst ndige Daten Original und imputierte Werte gemeinsam durch Imputation F r kategoriale Variablen enth lt die deskriptive Statistik Anzahl und Prozent nach Kategorie f r die Original Eingabedaten vor 25 Multiple Imputation der Imputation imputierte Werte durch Imputation und vollst ndige Daten Original und imputierte Werte gemeinsam durch Imputation Iterationsprotokoll Wenn die Methode vollst ndiger konditionaler Spezifikation verwendet wird k nnen Sie ein Daten Set anfordern das die Iterationsprotokolldaten f r die Imputation nach vollst ndiger konditionaler Spezifikation enth lt Das Daten Set enth lt Mittelwerte und Standardabweichungen nach Iteration und Imputation f r jede metrische abh ngige Variable f r die Werte imputiert sind Sie
26. eine multinomiale logistische Regression an die Daten angepasst und gemeinsame Regressionssch tzer erhalten Zudem haben Sie erkannt dass die abschlie ende Modellanpassung tats chlich mittels listenweisen Ausschlusses an den Originaldaten nicht m glich gewesen w re Anhang A Beispieldateien Die zusammen mit dem Produkt installierten Beispieldateien finden Sie im Unterverzeichnis Samples des Installationsverzeichnisses F r jeder der folgenden Sprachen gibt es einen eigenen Ordner innerhalb des Unterverzeichnisses Samples Englisch Franz sisch Deutsch Italienisch Japanisch Koreanisch Polnisch Russisch Vereinfachtes Chinesisch Spanisch und Traditionelles Chinesisch Nicht alle Beispieldateien stehen in allen Sprachen zur Verf gung Wenn eine Beispieldatei nicht in einer Sprache zur Verf gung steht enth lt der jeweilige Sprachordner eine englische Version der Beispieldatei Beschreibungen Im Folgenden finden Sie Kurzbeschreibungen der in den verschiedenen Beispielen in der Dokumentation verwendeten Beispieldateien m accidents sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die alters und geschlechtsabh ngige Risikofaktoren f r Autounf lle in einer bestimmten Region untersucht Jeder Fall entspricht einer Kreuzklassifikation von Alterskategorie und Geschlecht m adl sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es u
27. es sich um eine hypothetische Datendatei f r den zweiten Schritt eines Unternehmens das eine Datenbank mit Umfrageinformationen zusammenstellen m chte Jeder Fall entspricht einem anderen Stadtteil aus den im ersten Schritt ausgew hlten St dten Au erdem sind IDs f r Region Provinz Landkreis Stadt Stadtteil und Wohneinheit erfasst Die Informationen zur Stichprobenziehung aus den ersten beiden Stufen des Stichprobenplans sind ebenfalls enthalten 88 Anhang A demo_cs sav Hierbei handelt es sich um eine hypothetische Datendatei die Umfrageinformationen enth lt die mit einem komplexen Stichprobenplan erfasst wurden Jeder Fall entspricht einer anderen Wohneinheit Es sind verschiedene Informationen zum demografischen Hintergrund und zur Stichprobenziehung erfasst dmdata sav Dies ist eine hypothetische Datendatei die demografische und kaufbezogene Daten f r ein Direktmarketingunternehmen enth lt dmdata2 sav enth lt Informationen f r eine Teilmenge von Kontakten die ein Testmailing erhalten dmdata3 sav enth lt Informationen zu den verbleibenden Kontakten die kein Testmailing erhalten dietstudy sav Diese hypothetische Datendatei enth lt die Ergebnisse einer Studie der Stillman Di t Jeder Fall entspricht einem Teilnehmer und enth lt dessen Gewicht vor und nach der Di t in amerikanischen Pfund sowie mehrere Messungen des Triglyceridspiegels in mg 100 ml dvdplayer sav Hierbei handelt es sich um eine hypoth
28. hypothetische Datendatei enth lt Verkaufserl se nach Kontinent und Produkt Anhang Hinweise Diese Informationen wurden f r weltweit angebotene Produkte und Dienstleistungen erarbeitet IBM bietet die in diesem Dokument behandelten Produkte Dienstleistungen oder Merkmale m glicherweise nicht in anderen L ndern an Informationen zu den derzeit in Ihrem Land erh ltlichen Produkten und Dienstleistungen erhalten Sie bei Ihrem zust ndigen IBM Mitarbeiter vor Ort Mit etwaigen Verweisen auf Produkte Programme oder Dienste von IBM soll nicht behauptet oder impliziert werden dass nur das betreffende Produkt oder Programm bzw der betreffende Dienst von IBM verwendet werden kann Stattdessen k nnen alle funktional gleichwertigen Produkte Programme oder Dienste verwendet werden die keine geistigen Eigentumsrechte von IBM verletzen Es obliegt jedoch der Verantwortung des Benutzers die Funktionsweise von Produkten Programmen oder Diensten von Drittanbietern zu bewerten und zu berpr fen IBM verf gt m glicherweise ber Patente oder hat Patentantr ge gestellt die sich auf in diesem Dokument beschriebene Inhalte beziehen Durch die Bereitstellung dieses Dokuments werden Ihnen keinerlei Lizenzen an diesen Patenten gew hrt Lizenzanfragen k nnen schriftlich an folgende Adresse gesendet werden IBM Director of Licensing IBM Corporation North Castle Drive Armonk NY 10504 1785 U S A Bei Lizenzanfragen in Bezug auf DBCS Daten
29. imputierten Werte werden in das imputierte Daten Set gespeichert Zweistufige Interaktionen Wenn die Imputationsmethode automatisch gew hlt wird enth lt das Imputationsmodell f r jede Variable eine Konstante und Haupteffekte f r Einflussvariablen Wenn eine bestimmte Methode gew hlt wird k nnen Sie optional alle m glichen zweistufigen Interaktionen in die kategorialen Einflussvariablen aufnehmen Modellyp f r metrische Variablen Wenn die Imputationsmethode automatisch gew hlt wird wird lineare Regression als univariates Modell f r metrische Variablen verwendet Wenn eine bestimmte Methode gew hlt wird k nnen Sie alternativ Predictive Mean Matching PMM als Modell f r metrische Variablen w hlen PMM ist eine Variante der linearen Regression die imputierte Werte die durch das Regressionsmodell berechnet wurden mit dem n chsten beobachteten Wert abgleicht Logistische Regression wird immer als univariates Modell f r kategoriale Variablen verwendet Unabh ngig vom Modelltyp werden kategoriale Einflussvariablen mit Indikatorkodierung Dummy gehandhabt Toleranz f r Pr fung auf Singularit t Singul re bzw nichtinvertierbare Matrizen weisen linear abh ngige Spalten auf die zu ernsten Problemen f r den Sch tzalgorithmus f hren k nnen Auch ann hernd singul re Matrizen k nnen zu schlechten Ergebnissen f hren daher behandelt die Prozedur eine Matrix deren Determinante unter dem Toleranzwert liegt als singul r Ge
30. nicht v llig zuf llig Die Daten fehlen m glicherweise zuf llig missing at random MAR oder fehlen nicht zuf llig missing at random NMAR Sie k nnen nicht von einer der Eigenschaften ausgehen sondern m ssen die Daten analysieren um zu ermitteln in welcher Form sie fehlen Regressionsmethode Factor Analysis Diese Methode berechnet Sch tzer f r die mehrfach lineare Regression und verf gt ber Optionen zur Erweiterung der Sch tzer durch Zufallskomponenten Zu jedem vorhergesagten Wert kann das Verfahren ein Residuum aus einem zuf llig ausgew hlten vollst ndigen Fall eine normale Zufallsabweichung oder eine Zufallsabweichung anhand der Quadratwurzel der Residualvarianz residual mean square aus der 1 Verteilung hinzuf gen EM Sch tzung Optionen Abbildung 2 4 Dialogfeld Analyse fehlender Werte EM iil Analyse fehlender Werte EM r Verteilung Normal Gemischt normal Student T Maximalzahl der Iterationen v Wervollst ndigte Daten speichern Neues Datenblatt erstellen Deterbit Name Neue Datendatei schreiben Gi aa in Beim EM Verfahren werden unter Verwendung eines iterativen Prozesses die Mittelwerte die Kovarianzmatrix und die Korrelation der quantitativen metrischen Variablen mit fehlenden Werte gesch tzt 10 Kapitel 2 Verteilung EM erstellt Schlussfolgerungen Inferenzen anhand der f r die jeweilige Verteilung geltenden Likelihood S
31. r die Vervollst ndigung und Analyse einer Daten Sets Ein Telekommunikationsanbieter m chte einen besseren Einblick in die Servicenutzungsmustern in seiner Kundendatenbank gewinnen Er verf gt ber die vollst ndigen Daten der von seinen Kunden genutzten Services jedoch fehlen in den demographischen Informationen die das Unternehmen gesammelt hat einige Werte Zudem fehlen diese Werte nicht v llig zuf llig daher wird das Daten Set mithilfe multipler Imputation vervollst ndigt Eine Zufallsstichprobe aus der Kundendatenbank finden Sie in telco_missing sav F r weitere Informationen siehe Thema Beispieldateien in Anhang A in IBM SPSS Missing Values 20 Analyse der Muster fehlender Werte gt Sehen Sie sich als ersten Schritt die Muster fehlender Daten an W hlen Sie die folgenden Befehle aus den Men s aus Analysieren gt Multiple Imputation gt Muster analysieren Copyright IBM Corporation 1989 2011 49 50 Kapitel 5 Abbildung 5 1 Muster analysieren Dialogfeld ii Muster analysieren X Variablen ber Variablen analysieren amp Geschlecht Gender E Monate beim Anbieter a 8 Personen im Haushalt Pe 8 Alter Age 6 gt Familienstand MaritalS L Jahre wohnhaft an gle L Einkommen Income d Ausbildung Educstion amp Jahre beim gleichen A Analysegewichtung Tr r usgabe Fi Zusammenfassung der fehlenden Werte M Muster der fehlenden Werte Fi variablen mit d
32. 54 Kapitel 5 Abbildung 5 6 Dialogfeld Zufallszahlengenerator Zufallszahlengenerator X Aktiver Generator rInitialisierung des aktiven Generators Aktiven Generator festlegen Y Anfangswert festlegen Mit SPSS 12 kompatibel Zuf llig Mersenne Twister Fester Wert Wert 120070525 Derzeit aktiver Generator Mit SPSS 12 kompatibel Tv Die Einstellung f r den aktiven Generator wird sofort bernommen und gilt auch f r zuk nftige Sitzungen LE ei nen Ann e W hlen Sie Zufallszahlengenerator bestimmen W hlen Sie Mersenne Twister W hlen Sie Anfangswert festlegen W hlen Sie Fester Wert und geben Sie 20070525 als Wert ein Klicken Sie auf OK Um mehrfach fehlende Datenwerte zu ersetzen w hlen Sie aus dem Men Analysieren gt Multiple Imputation gt Fehlende Datenwerte ersetzen 55 Multiple Imputation Abbildung 5 7 Fehlende Datenwerte ersetzen Dialogfeld Fehlende Datenwerte imputieren X variablen im Modell variablen 8 Personen im Haushalt PeoplelnHous amp Jahre wohnhaft an gleicher Adre amp Einkommen Income N Ausbildung EducstionalLevei K Jahre beim gleichen Arbeitgeber Analysegewichtung amp Dea et Imputationen b Ort der imputierten Daten Neues Daten Set erstellen Daten Set Name In neue Datendatei schreiben Durchsuchen Generierung eines Daten Sets mit den imputierten WVerten k nne
33. Anzahl von F llen berechnet werden So zeigen Sie deskriptive Statistiken an W hlen Sie im Dialogfeld Analyse fehlender Werte die Variablen aus f r die deskriptive Statistiken fehlender Werte angezeigt werden sollen Klicken Sie auf Deskriptive Statistik W hlen Sie die anzuzeigende deskriptive Statistik aus Sch tzen von Statistiken und Imputieren fehlender Werte Sie k nnen Mittelwerte Standardabweichung Kovarianzen und Korrelationen unter Verwendung der listenweisen Methode nur vollst ndige F lle der paarweisen Methode der EM Methode Maximierung des Erwartungswerts bzw der Regressionsmethode sch tzen Au erdem k nnen Sie ausw hlen dass die fehlenden Werte imputiert vorgeschrieben werden sollen d h dass Ersatzwerte gesch tzt werden sollen Beachten Sie dass Multiple Imputation im Allgemeinen bei der L sung des Problems fehlender Werte der einfachen Imputation berlegen ist Der MCAR Test von Little ist nach wie vor hilfreich bei der Bestimmung ob eine Imputation erforderlich ist Listenweise Methode Bei dieser Methode werden nur vollst ndige F lle verwendet Wenn eine der Analysevariablen fehlende Werte aufweist wird der betreffende Fall aus den Berechnungen ausgeschlossen Paarweise Methode Bei dieser Methode werden Paare von Analysevariablen betrachtet und ein Fall wird nur verwendet wenn er f r beide Variablen nichtfehlende Werte aufweist H ufigkeiten Mittelwerte und Standardabweic
34. BM Corporation 1989 2011 95 96 Anhang B Jegliche Verweise auf Drittanbieter Websites in dieser Information werden nur der Vollst ndigkeit halber bereitgestellt und dienen nicht als Bef rwortung dieser Das Material auf diesen Websites ist kein Bestandteil des Materials zu diesem IBM Produkt und die Verwendung erfolgt auf eigene Gefahr IBM kann die von Ihnen angegebenen Informationen verwenden oder weitergeben wie dies angemessen erscheint ohne Ihnen gegen ber eine Verpflichtung einzugehen Lizenznehmer dieses Programms die Informationen dazu ben tigen wie 1 der Austausch von Informationen zwischen unabh ngig erstellten Programmen und anderen Programmen und ii die gegenseitige Verwendung dieser ausgetauschten Informationen erm glicht wird wenden sich an IBM Software Group Attention Licensing 233 S Wacker Dr Chicago IL 60606 USA Derartige Informationen stehen ggf in Abh ngigkeit von den jeweiligen Gesch ftsbedingungen sowie in einigen F llen der Zahlung einer Geb hr zur Verf gung Das in diesem Dokument beschriebene lizenzierte Programm und s mtliche daf r verf gbaren lizenzierten Materialien werden von IBM gem dem IBM Kundenvertrag den Internationalen Nutzungsbedingungen f r Programmpakete der IBM oder einer anderen zwischen uns getroffenen Vereinbarung bereitgestellt Informationen zu Produkten von Drittanbietern wurden von den Anbietern des jeweiligen Produkts aus deren ver ffentlichten Ank
35. Double Byte Character Set wenden Sie sich an die f r geistiges Eigentum zust ndige Abteilung von IBM in Ihrem Land Schriftliche Anfragen k nnen Sie auch an folgende Adresse senden Intellectual Property Licensing Legal and Intellectual Property Law IBM Japan Ltd 1623 14 Shimotsuruma Yamato shi Kanagawa 242 8502 Japan Der folgende Abschnitt findet in Gro britannien und anderen L ndern keine Anwendung in denen solche Bestimmungen nicht mit der rtlichen Gesetzgebung vereinbar sind INTERNATIONAL BUSINESS MACHINES STELLT DIESE VER FFENTLICHUNG IN DER VERF GBAREN FORM OHNE GARANTIEN BEREIT SEIEN ES AUSDR CKLICHE ODER STILLSCHWEIGENDE EINSCHLIESSLICH JEDOCH NICHT NUR DER GARANTIEN BEZ GLICH DER NICHT RECHTSVERLETZUNG DER G TE UND DER EIGNUNG F R EINEN BESTIMMTEN ZWECK Manche Rechtsprechungen lassen den Ausschluss ausdr cklicher oder implizierter Garantien bei bestimmten Transaktionen nicht zu sodass die oben genannte Ausschlussklausel m glicherweise nicht f r Sie relevant ist Diese Informationen k nnen technische Ungenauigkeiten oder typografische Fehler aufweisen An den hierin enthaltenen Informationen werden regelm ig nderungen vorgenommen Diese nderungen werden in neuen Ausgaben der Ver ffentlichung aufgenommen IBM kann jederzeit und ohne vorherige Ank ndigung Optimierungen und oder nderungen an den Produkten und oder Programmen vornehmen die in dieser Ver ffentlichung beschrieben werden Copyright I
36. Imputation und f r jedes der imputierten Daten Sets erzeugt Zus tzlich werden finale gemeinsame Ergebnisse f r die Verfahren erzeugt die das Pooling von imputierten Daten unterst tzen Bei univariatem Pooling wird auch die Pooling Diagnose angezeigt Sie k nnen die Ausgaben die Sie nicht sehen m chten jedoch unterdr cken 35 Multiple Imputation So stellen Sie die Optionen f r multiple Imputation ein W hlen Sie die folgenden Befehle aus den Men s aus Bearbeiten gt Optionen Klicken Sie auf die Registerkarte Multiple Imputation Teil II Beispiele Kapitel Analyse fehlender Werte Beschreiben des Musters fehlender Daten Ein Telekommunikationsanbieter m chte einen besseren Einblick in die Servicenutzungsmustern in seiner Kundendatenbank gewinnen Das Unternehmen m chte sicherstellen dass die Daten v llig zuf llig fehlen bevor weitere Analysen durchgef hrt werden Eine Zufallsstichprobe aus der Kundendatenbank finden Sie in telco_missing sav F r weitere Informationen siehe Thema Beispieldateien in Anhang A in IBM SPSS Missing Values 20 Durchf hren der Analyse zur Anzeige deskriptiver Statistiken gt Zum Ausf hren der Prozedur Analyse fehlender Werte w hlen Sie die folgenden Men befehle aus Analysieren gt Analyse fehlender Werte Abbildung 4 1 Dialogfeld Analyse fehlender Werte EH Analyse fehlender Werte Quantitative Variablen Muster E Monat
37. OO rAusgabe T Zusammenfassung der fehlenden Werte T Muster der fehlenden Werte T variablen mit der h chsten H ufigkeit an fehlenden Werten Maximale Anzahl an angezeigten Variablen Minimaler Prozentsatz Fehlend f r die Anzeige von Variablen _ amp _ent gen_ Zur ctetzen Abtrecten J __ nie W hlen Sie mindestens zwei Analysevariablen aus Die Prozedur analysiert Muster fehlender Daten f r diese Variablen Optionale Einstellungen Analysegewichtung Diese Variable enth lt Analysegewichtungen Regression oder Stichprobe Das Verfahren integriert Analysegewichtungen in Zusammenfassungen fehlender Werte F lle mit einer negativen oder nullwertigen Analysegewichtung werden ausgeschlossen Ausgabe Die folgende optionale Ausgabe ist verf gbar m Zusammenfassung der fehlenden Werte Zeigt ein unterteiltes Kreisdiagramm an das die Anzahl und die Prozentzahlen der Analysevariablen F lle oder einzelne Datenwerte enth lt die ber einen oder mehrere fehlende Werte verf gen 17 Multiple Imputation m Muster fehlender Werte Zeigt tabulierte Muster fehlender Werte an Jedes Muster entspricht einer Gruppe von F llen mit dem gleichen Muster unvollst ndiger und vollst ndiger Daten bei Analysevariablen Sie k nnen diese Ausgabe verwenden um zu bestimmen welche monotone Imputationsmethode f r Ihre Daten verwendet werden kann und in welchem Ma e Ihre Daten einem monotonen Muster entsprechen
38. Prozent nach Kategorie f r die Originaldaten imputierten Werte und vollst ndigen Daten Die Tabelle f r marital Familenstand hat ein interessantes Ergebnis da f r die imputierten Werte ein gr erer Anteil der F lle als in den Originaldaten als verheiratet gesch tzt wurde Hierbei k nnte es sich um eine zuf llige Variation handeln Alternativ k nnte die M glichkeit des Fehlens in Zusammenhang mit dem Wert dieser Variable stehen Abbildung 5 14 Deskriptive Statistik f r income Haushaltseinkommen in Tausend Daten ation N Mittelwert eichung Minimum Maximum Originaldaten Imputierte Werte 87 6574 91 13179 189 1959 373 2412 101 6724 94 20599 122 0010 346 4294 100 9445 95 00789 127 8572 342 5208 107 0787 90 23638 113 0959 369 9674 101 1043 90 40865 167 6978 314 2533 74 1017 84 81851 189 1959 944 0000 76 6104 85 98067 122 0010 944 0000 76 4801 86 10024 127 8572 944 0000 77 5781 85 52821 113 0959 944 0000 76 5087 85 22154 167 6978 944 0000 Daten nach Imputation vervollst ndigen 1 2 3 4 5 1 2 3 4 5 Wie tenure und alle anderen metrischen Variablen zeigt income Haushaltseinkommen in Tausend negative imputierte Werte daher m ssen wir ein angepasstes Modell mit Nebenbedingungen bei bestimmten Variablen einsetzen income zeigt jedoch weitere m gliche Probleme Die mittleren Werte f r jede Imputation sind entscheidend h her als bei den Originaldaten und
39. Sie jetzt wieder die Tabelle und w hlen Sie dann Pivot Leisten aus dem Kontextmen Verschieben Sie die Imputationsnummer von der Schicht in die Spalte Verschieben Sie Statistik von der Spalte in die Schicht W hlen Sie aus der Dropdown Liste Statistik B aus 82 Kapitel 5 Abbildung 5 39 Gemeinsame Parametersch tzer Imputationsnummer in Spalten und Statistik in Schicht E service Plus service Total service Konstanter Term employ marital 0 marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 address Konstanter Term employ marital 0 marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 address Konstanter Term employ marital 0 marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 address Imputationsnummer LOriginaidaten 2 3 4 17 768 054 542 09 17 479 17 262 17 680 17 734 09 022 2 3 Diese Ansicht der Tabelle empfiehlt sich f r den Vergleich von Werten zwischen Imputationen um eine schnelle optische Pr fung der Variation im Regressionskoeffizienten von Imputation zu Imputation und auch gegen ber den Originaldaten durchzuf hren Speziell durch das Umschalten der Statistik in der Schicht auf Standardfehler k nnen Sie sehen wie multiple Imputation die Variabilit t in den Koeffizientensch tzungen im Vergleich zum listenweisen Ausschluss Originaldaten verringert hat 83 Multiple Imputation Abbildung 5 40 Warnungen
40. W Statistics Analyseverfahren verwenden die mit dem Symbol Ko markiert sind um Ihre Daten zu analysieren Eine vollst ndige Liste der unterst tzten Analyseverfahren finden Sie in der Hilfe Rufen Sie das Dialogfeld Fehlende Datenwerte ersetzen wieder auf und klicken Sie auf die Registerkarte Variablen gt Deaktivieren Sie Household income in thousands income und w hlen Sie Log of income Ininc als Variablen im Modell Klicken Sie auf die Registerkarte Methode Abbildung 5 18 Warnung ber das Ersetzen eines bestehenden Daten Sets Der Name des neuen Datenbl tter wird bereits f r ein anderes ge ffnetes Datenblatt verwendet M chten Sie die Werte im Datenblatt durch die Werte ersetzen die von der Prozedur erzeugt werden a Ken Klicken Sie in der angezeigten Warnung auf Ja 63 Multiple Imputation Abbildung 5 19 Registerkarte Methode rImputationsmethode Automatisch Diese Option w hlt automatisch eine Imputationsmethode auf der Basis einer Untersuchung Ihrer Daten Benutzerdefiniert Yollst ndig konditionale Spezifikation MCMC Diese Methode eignet sich f r Daten mit einem willk rlichen Muster fehlender Werte Maximale tterationen Monoton Diese Methode eignet sich f r Daten mit einem monotonen Muster fehlender Werte Beachten Sie dass sich die in der Registerkarte Variablen angegebene Reihenfolge der Variablen auf das Ergebnis auswirkt
41. Zweck dieser Darstellung ist nach Mustern in den Linien zu suchen Es sollte keine geben Diese sehen geeignet zuf llig aus Sie k nnen hnliche Darstellungen f r andere metrische Variablen erstellen Beachten Sie dass diese Darstellungen auch keine erkennbaren Muster zeigen Analyse vollst ndiger Daten Jetzt scheinen Ihre imputierten Werte zufriedenstellend zu sein Sie sind bereit eine Analyse der vollst ndigen Daten durchzuf hren Das Daten Set enth lt eine Variable Customer category ceustcat die den Kundenstamm nach Dienstnutzungsmustern segmentiert und die Kunden in vier Gruppen einteilt Wenn Sie ein Modell mit demografischen Informationen anpassen k nnen um die Gruppenmitgliedschaft vorherzusagen k nnen Sie die Angebote f r die einzelnen potenziellen Kunden anpassen gt Aktivieren Sie das Daten Set telcolmputed Um ein multinomiales logistisches Regressionsmodell f r die vollst ndigen Daten zu erstellen w hlen Sie aus dem Men Analysieren gt Regression gt Multinomial logistisch 73 Multiple Imputation Abbildung 5 30 Multinomiale logistische Regression Dialogfeld A Multinomiale logistische Regression X Abh ngige Variable amp Imputationsnummer Imp e custcat Letzter Wert 8E Monate beim Anbieter Referenzietegore Faktor en Familienstand MarttalSt d Ausbildung Educstional Ruhestand Retirement gt Geschlecht Gender Koyariate n
42. ale Variaten Fehlerterme werden beliebig aus einer Verteilung mit dem Erwartungswert 0 und einer Standardabweichung gleich der Quadratwurzel der mittleren Quadratsumme des Regressionsfehlerterms gezogen m Student T Variaten Fehlerterme werden beliebig aus der t n Verteilung gezogen und anhand der Wurzel des mittleren Fehlerquadrats RMSE skaliert Maximale Anzahl der Einflussvariablen Legt eine Obergrenze f r die Anzahl der unabh ngigen Einflu variablen fest die bei der Sch tzung verwendet werden Vervollst ndigte Daten speichern Schreibt ein Daten Set in der aktuellen Sitzung oder eine externe Datendatei im IBM SPSS Statistics Format Dabei werden die fehlenden Werte durch die Werte ersetzt die bei der Regression gesch tzt wurden So legen Sie die Regressionsoptionen fest W hlen Sie im Dialogfeld Analyse fehlender Werte die Variablen aus f r die fehlende Werte mithilfe der Regressionsmethode gesch tzt werden sollen Aktivieren Sie im Gruppenfeld Sch tzung die Option Regression 12 Kapitel 2 gt Klicken Sie auf die Schaltfl che Variablen um die vorhergesagten Variablen und die Einflu variablen anzugeben F r weitere Informationen siehe Thema Vorhergesagte Variablen und Vorhersagevariablen Einflussvariablen auf S 12 Klicken Sie auf Regression W hlen Sie die gew nschten Regressionsoptionen aus Vorhergesagte Variablen und Vorhersagevariablen Einflussvariablen Abbildu
43. arital address Intercept ed employ marital Schrittweise Methode Yorw rtsselektion a Das Chi Quadrat f r die Aufnahme beruht auf dem Likelihood Quotienten Test 2762 531 2601 616 2558 463 2543 747 2533 341 2762 531 2604 773 2561 792 2549 096 160 915 43 153 14 716 10 406 Die multinomiale logistische Regression unterst tzt das Pooling von Regressionskoeffizienten Sie werden jedoch feststellen dass alle Tabellen in der Ausgabe die Ergebnisse f r jede Imputation und die Originaldaten zeigen Dies liegt an der Aufteilung der Datei bei mputation_ so dass alle Tabellen die die Aufteilungsvariable ber cksichtigen die Aufteilungsdateigruppen gemeinsam in einer einzigen Tabelle darstellen Sie werden ferner feststellen dass die Tabelle Parametersch tzer keine gemeinsamen Sch tzer zeigt Sehen Sie sich hierzu die Zusammenfassung der Stufen an Wir haben die schrittweise Auswahl von Modelleffekten angefordert und nicht f r alle Imputationen wurde das gleiche Set an Effekten gew hlt Daher ist ein Pooling nicht m glich Es werden dennoch hilfreiche Informationen bereitgestellt da wir schen dass ed Level of education employ Years with current employer marital Marital status und address Years at current address regelm ig durch die schrittweise Auswahl unter den Imputationen ausgew hlt werden Wir werden ein anderes Modell einsetzen das genau diese Einflussvariablen verwendet 77 Ausf hren des
44. arketvalues sav Diese Datendatei betrifft Hausverk ufe in einem Neubaugebiet in Algonquin Illinois in den Jahren 1999 2000 Diese Verk ufe sind in Grundbucheintr gen dokumentiert nhis2000_subset sav Die National Health Interview Survey NHIS ist eine gro e bev lkerungsbezogene Umfrage in unter der US amerikanischen Zivilbev lkerung Es werden pers nliche Interviews in einer landesweit repr sentativen Stichprobe von Haushalten durchgef hrt F r die Mitglieder jedes Haushalts werden demografische Informationen und Beobachtungen zum Gesundheitsverhalten und Gesundheitsstatus eingeholt Diese Datendatei 90 Anhang A enth lt eine Teilmenge der Informationen aus der Umfrage des Jahres 2000 National Center for Health Statistics National Health Interview Survey 2000 Datendatei und Dokumentation ffentlich zug nglich ftp fip cdc gov pub Health_Statistics NCHS Datasets NHIS 20007 Zugriff erfolgte 2003 ozone sav Die Daten enthalten 330 Beobachtungen zu sechs meteorologischen Variablen zur Vorhersage der Ozonkonzentration aus den brigen Variablen Bei fr heren Untersuchungen fanden Wissenschaftler einige Nichtlinearit ten unter diesen Variablen die die Standardverfahren bei der Regression behindern pain_medication sav Diese hypothetische Datendatei enth lt die Ergebnisse eines klinischen Tests f r ein entz ndungshemmendes Medikament zur Schmerzbehandlung bei chronischer Arthritis Von besonderem Interess
45. aten sowie Daten zum Kaufpreis von Fahrzeugen enth lt tree_textdata sav Eine einfache Datendatei mit nur zwei Variablen die vor allem den Standardzustand von Variablen vor der Zuweisung von Messniveau und Wertelabels zeigen soll tv survey sav Hierbei handelt es sich um eine hypothetische Datendatei zu einer Studie die von einem Fernsehstudio durchgef hrt wurde das berlegt ob die Laufzeit eines erfolgreichen Programms verl ngert werden soll 906 Personen wurden gefragt ob sie das Programm unter verschiedenen Bedingungen ansehen w rden Jede Zeile entspricht einem Befragten jede Spalte entspricht einer Bedingung ulcer_recurrence sav Diese Datei enth lt Teilinformationen aus einer Studie zum Vergleich der Wirksamkeit zweier Therapien zur Vermeidung des Wiederauftretens von Geschw ren Es stellt ein gutes Beispiel f r intervallzensierte Daten dar und wurde an anderer Stelle vorgestellt und analysiert ulcer_recurrence_recoded sav In dieser Datei sind die Daten aus ulcer_recurrence sav so umstrukturiert dass das Modell der Ereigniswahrscheinlichkeit f r jedes Intervall der Studie berechnet werden kann und nicht nur die Ereigniswahrscheinlichkeit am Ende der Studie Sie wurde an anderer Stelle vorgestellt und analysiert verd1985 sav Diese Datendatei enth lt eine Umfrage Die Antworten von 15 Subjekten auf 8 Variablen wurden aufgezeichnet Die relevanten Variablen sind in drei Sets unterteilt Set 1 umfasst alter und h
46. ation 72 Fehlende Datenwerte imputieren 17 Ausgabe 24 Imputationsmethode 20 Nebenbedingungen 22 Fehlende Werte Univariate Statistiken 7 39 fehlende Werte Muster 46 gemeinsame Ergebnisse bei multipler Imputation 72 gemeinsame Sch tzer bei multipler Imputation 78 H ufigkeiten extremer Werte in Analyse fehlender Werte 7 H ufigkeitstabellen in Analyse fehlender Werte 7 Indikatorvariablen in Analyse fehlender Werte 7 Indikatorvariablen f r fehlende Werte in Analyse fehlender Werte 7 Iterationsprotokoll in Multiple Imputation 24 Korrelationen in Analyse fehlender Werte 9 11 Kovarianz in Analyse fehlender Werte 9 11 Index Listenweiser Ausschlu in Analyse fehlender Werte 2 Marken 96 MCAR Test in Analyse fehlender Werte 2 47 MCAR Test nach Little 9 in Analyse fehlender Werte 2 47 Mittelwert in Analyse fehlender Werte 7 9 11 monotone Imputation in Multiple Imputation 20 Multiple Imputation 14 25 29 49 Deskriptive Statistik 58 66 FCS Konvergenzdiagramm 72 Fehlende Datenwerte ersetzen 17 fehlende Werte Muster 52 gemeinsame Ergebnisse 72 gemeinsame Sch tzer 78 Gesamtzusammenfassung der fehlenden Werte 50 Imputationsergebnisse 57 Imputationsspezifikationen 56 Modelle 57 Muster analysieren 15 Nebenbedingungen 66 Optionen 34 Variablenauswertung 51 Muster analysieren 15 Nicht bereinstimmung in
47. atistiken Abbildung 5 12 Deskriptive Statistik f r tenure Besch ftigungsdauer Daten Imputation N Mittelwert eichung Minimum Maximum Originaldaten 968 35 56 21 268 1 00 72 00 32 Imputierte Werte 32 32 32 32 Daten nach Imputation vervollst ndigen 1 2 3 4 5 1 2 3 4 5 Die Tabellen Deskriptive Statistik zeigen Zusammenfassungen f r Variablen mit imputierten Werten F r jede Variable wird eine separate Tabelle erstellt Die Typen der gezeigten Statistik h ngen davon ab ob die Variable metrisch oder kategorial ist Die Statistik f r metrische Variablen umfasst Anzahl Mittelwert Standardabweichung Minimum und Maximum die f r die Originaldaten jedes Set an imputierten Werten und jedes vollst ndige Daten Set die Kombination aus Originaldaten und imputierten Werten angezeigt werden Die Tabelle Deskriptive Statistik f r tenure Besch ftigungsdauer zeigt Mittelwerte und Standardabweichungen in jedem Set von imputierten Werten die ungef hr denen in den Originaldaten entsprechen Es stellt sich jedoch ein unmittelbares Problem wenn Sie sich das Minimum ansehen und sehen dass die negativen Werte f r fenure imputiert wurden 59 Multiple Imputation Abbildung 5 13 Deskriptive Statistik f r marital Familienstand Originaldaten Imputierte Werte Daten nach Imputation vervollst ndigen F r kategoriale Variablen umfasst die Statistik Anzahl und
48. atz von F llen angezeigt in denen eine Variable einen fehlenden Wert und die andere Variable einen nichtfehlenden Wert aufweist Jedes diagonale Element in der Tabelle enth lt den Prozentsatz von fehlenden Werten f r eine einzelne Variable T Test f r Gruppen die durch Indikatorvariablen gebildet werden F r jede quantitative Variable werden die Mittelwerte von zwei Gruppen mithilfe der Student 7 Statistik verglichen Die Gruppen geben an ob eine Variable vorhanden ist oder fehlt Es werden die 7 Statistik Freiheitsgrade H ufigkeiten von fehlenden und nichtfehlenden Werten sowie die Mittelwerte der beiden Gruppen angezeigt Au erdem k nnen Sie alle zweiseitigen Wahrscheinlichkeiten anzeigen die der 7 Statistik zugeordnet sind Wenn Ihre Analyse zu mehreren Tests f hrt d rfen 8 Kapitel 2 Sie diese Wahrscheinlichkeiten nicht f r Signifikanztests verwenden Die Wahrscheinlichkeiten sind nur geeignet wenn nur ein einziger Test berechnet wird Kreuztabellen kategorialer und Indikatorvariablen F r jede kategoriale Variable wird eine Tabelle angezeigt In der Tabelle werden f r jede Kategorie die H ufigkeit und der Prozentsatz von nichtfehlenden Werten f r die anderen Variablen angezeigt Au erdem werden die Prozents tze f r jeden Typ von fehlenden Werten angezeigt Variablen weglassen die in weniger als n der F lle fehlen Um die Tabellen zu verkleinern k nnen Sie die Statistiken weglassen die nur f r eine kleine
49. ben Sie einen positiven Wert ein 22 Kapitel 3 Nebenbedingungen Abbildung 3 5 Registerkarte Fehlende Datenwerte ersetzen Nebenbedingungen Daten neu durcnsuchen rDatenscan f r Variablenzusammenfassung Yariablenzusammenfassung E Anzahl der durchsuchten F lle beschr nken F lle 5000 Variablen im Modell Prozent Fehlend Beobachtetes Min Beobachtetes Max L MonthsAithService 3 20 Variablen im Modell L MonthswithServ Maximale Fallziehungen Daten f r Variablenzusammenfassung durchsuchen Wenn Sie auf Daten durchsuchen klicken zeigt die Liste Analysevariablen und jeweils den beobachteten Prozentwert f r fehlend Minimum und Maximum Die Zusammenfassungen k nnen auf allen F llen oder auf einem Durchlauf der ersten n F lle wie im Textfeld F lle angegeben beruhen Durch Klicken auf Erneut durchsuchen Maximale Parameterziehungen Maximaler Prozentsatz Fehlend Tv Eine Erh hung der maximalen Parameterziehungen kann die Analysezeit erheblich verl ngern C enten Zr sietzen Adorecnen __ Hate Mithilfe der Registerkarte Nebenbedingungen k nnen Sie die Rolle einer Variablen w hrend der Imputation beschr nken und den Bereich der imputierten Werte einer metrischen Variablen so einschr nken dass sie plausibel sind Zus tzlich k nnen Sie die Analyse auf Variablen mit weniger als einem maximalen Prozentsatz fehlend
50. berleben vvvvvvvvvvvvvvvvvvv Mehrfachantworten Analyse fehlender Werte Multiple Imputation Komplexe Stichproben gt Qualit tskontrolle gt A ROC Kurve Sowohl die Tabellenausgabe als auch Modell PMML unterst tzen Pooling Es gibt keine neue Prozedur f r die Anforderung gepoolter Ausgabe Stattdessen haben Sie ber eine neue Registerkarte im Dialogfeld Optionen die M glichkeit die Ausgabe multipler Imputation zu steuern 30 Kapitel 3 m Pooling der Tabellenausgabe Standardm ig werden die Ergebnisse wenn Sie eine unterst tzte Prozedur an einem Multiple Imputation MI Daten Set ausf hren automatisch f r jede Imputation die Originaldaten nicht imputiert und gepoolte final Ergebnisse erzeugt die die Variation ber die Imputationen ber cksichtigen Die gepoolten Statistiken unterscheiden sich je nach Prozedur m Pooling von PMML Sie k nnen auch gepoolte PMML von unterst tzten Prozeduren erhalten die PMML exportieren Gepooltes PMML wird auf die gleiche Weise angefordert und wird statt nicht gepoolter PMML gespeichert Nicht unterst tzte Prozeduren erzeugen entweder gepoolte Ausgabe oder gepoolte PMML Dateien Pooling Stufen Die Ausgabe wird mittels einer von zwei Stufen gepoolt m Naive Kombination Nur der gepoolte Parameter ist verf gbar m Univariate Kombination Der gepoolte Parameter sein Standardfehler die Teststatistik und die effektiven Freiheitsgrade der p Wert das K
51. d eine Liste der Verfahren die diese Daten unterst tzen finden Sie unter Analysieren von Daten multipler Imputation auf S 29 Copyright IBM Corporation 1989 2011 1 Kapitel Analyse fehlender Werte Die Prozedur Analyse fehlender Werte dient prim r drei Funktionen m Beschreiben des Musters fehlender Daten Wo befinden sich die fehlenden Daten Welches Ausma weisen sie auf Tendieren Variablenpaare dazu fehlenden Werte in mehreren F llen aufzuweisen Sind die Datenwerte extrem Fehlen wahllos Werte m Sch tzen der Mittelwerte Standardabweichung Kovarianzen und Korrelationen f r verschiedene Methoden f r fehlende Werte listenweise paarweise Regression oder EM Maximierung des Erwartungswerts Bei der paarweisen Methode werden auch die H ufigkeiten der paarweise vollst ndigen F lle angezeigt m F llt imputierte fehlende Werte mit gesch tzten Werten mithilfe von Regressions oder EM Methoden Multiple Imputation wird in der Regel jedoch als Methode betrachtet die die genaueren Ergebnisse liefert Die Analyse fehlender Werte unterst tzt Sie beim Umgang mit Problemen die durch unvollst ndige Daten verursacht werden Wenn F lle mit fehlenden Werten sich systematisch von F llen ohne fehlende Werte unterscheiden k nnen die Ergebnisse irref hrend sein Fehlende Daten k nnen au erdem die Genauigkeit der berechneten Statistiken beeintr chtigen da weniger Informationen vorliegen als urspr nglich geplan
52. daten amp Imputstionsnummer Im 8 Monate beim Anbieter E Alter Age amp b Familienstand MaritalS E Jahre wohnhaft an glei E Einkommen Income aii terationszahl terstio amp Statistische Kenngr E Ruhestand Retirement amp Geschlecht Gender 8E Personen im Haushalt L Log of income Ininc Mittelwert Kategorie1 Kategorie 2 Mehr W hlen Sie die Galerie Linien aus und w hlen Sie Mehrfachlinien W hlen Sie Months with service tenure als auf der Y Achse darzustellende Variable W hlen Sie teration Number Iteration_ als auf der X Achse darzustellende Variable aus W hlen Sie mputationszahl Imputationen_ als Variable um die Farben danach einzustellen 70 Kapitel 5 Abbildung 5 27 Diagrammerstellung Elementeigenschaften A Elementeigenschaften X Eigenschaften bearbeiten von Linie1 X Achse1 Linie1 Y Achse1 Linie GruppeFarbe Linie1 Statistiken Variable 9 Monate beim Anbieter Standardfehler Multiplikator Standardabweichung Multiplikator pnterpolation Im Lage Linksb ndig Durch fehlende Werte interpolieren Zumeisen asrechen _ rare W hlen Sie in den Elementeigenschaften Wert als anzuzeigende Statistik Klicken Sie auf Zuweisen Klicken Sie in der Diagrammerstellung auf die Registerkarte Gruppen Punkt ID 71 Multiple Imputation Abbild
53. de Werte behandelt Replikation von Ergebnissen Fehlende Datenwerte ersetzen Wenn Sie Ihre Imputation exakt reproduzieren m chten m ssen Sie nicht nur dieselben Einstellungen f r die Prozedur sondern auch denselben Initialisierungswert f r den Zufallszahlengenerator dieselbe Datenreihenfolge und dieselbe Variablenreihenfolge verwenden m Generierung von Zufallszahlen Die Prozedur verwendet Zufallszahlengenerierung bei der Berechnung der imputierten Werte Um zu einem sp teren Zeitpunkt dieselben randomisierten Ergebnisse zu reproduzieren m ssen Sie vor jeder Ausf hrung der Prozedur Fehlende Datenwerte ersetzen denselben Initialisierungswert f r den Zufallszahlengenerator verwenden m Fallreihenfolge Werte werden in der Fallreihenfolge imputiert m Reihenfolge der Variablen Die Imputationsmethode der vollst ndig konditionalen Spezifikation imputiert Werte in der Reihenfolge der Liste der Analysevariablen F r multiple Imputation stehen zwei spezielle Dialogfelder zur Verf gung m Muster analysieren bietet deskriptive Messungen der Muster von fehlenden Werten in den Daten und eignet sich als Untersuchungsschritt vor der Imputation m Fehlende Datenwerte ersetzen wird verwendet um multiple Imputationen zu erzeugen Die vollst ndigen Daten Sets k nnen mit Prozeduren analysiert werden die Daten Sets mit multipler Imputation unterst tzen Informationen zur Analyse von Daten Sets der multiplen Imputation und eine Liste
54. die diese Daten unterst tzen finden Sie unter Analysieren von Daten multipler Imputation auf S 29 Beispiel Ein Telekommunikationsanbieter m chte einen besseren Einblick in die Servicenutzungsmuster in seiner Kundendatenbank gewinnen Er verf gt ber die vollst ndigen Daten der von seinen Kunden genutzten Services jedoch fehlen in den demographischen Informationen die das Unternehmen gesammelt hat einige Werte Zudem fehlen diese Werte nicht v llig zuf llig daher wird das Daten Set mithilfe multipler Imputation vervollst ndigt F r weitere Informationen siehe Thema Verwendung von multipler Imputation f r die Vervollst ndigung und Analyse einer Daten Sets in Kapitel 5 auf S 49 So ersetzen Sie fehlende Datenwerte W hlen Sie die folgenden Befehle aus den Men s aus Analysieren gt Multiple Imputation gt Fehlende Datenwerte imputieren 18 Kapitel 3 Abbildung 3 2 Registerkarte Fehlende Datenwerte ersetzen Variablen A Fehlende Datenwerte imputieren variablen variablen im Modell E Personen im Haushalt PeoplelnHous E Monate beim Anbieter Months Alt E3 L Ater Age Familienstand MaritalStatus L Jahre wohnhaft an gleicher Adre 8 Einkommen Income di Ausbildung EducstionalLevei K Jahre beim gleichen Arbeitgeber La f Analysegewichtung S pe Imputationen Ort der imputierten Daten Neues Daten Set erstellen Daten Set Name In neue Datendatei schreib
55. dieses Attribut beschrieben werden Die sechs Marken 87 Beispieldateien werden als AA BB CC DD EE und FF bezeichnet um Vertraulichkeit zu gew hrleisten contacts sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Kontaktlisten einer Gruppe von Vertretern geht die Computer an Unternehmen verkaufen Die einzelnen Kontaktpersonen werden anhand der Abteilung in der sie in ihrem Unternehmen arbeiten und anhand ihrer Stellung in der Unternehmenshierarchie in Kategorien eingeteilt Au erdem werden der Betrag des letzten Verkaufs die Zeit seit dem letzten Verkauf und die Gr e des Unternehmens in dem die Kontaktperson arbeitet aufgezeichnet creditpromo sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Kaufhauses geht die Wirksamkeit einer k rzlich durchgef hrten Kreditkarten Werbeaktion einzusch tzen Dazu wurden 500 Karteninhaber nach dem Zufallsprinzip ausgew hlt Die H lfte erhielt eine Werbebeilage die einen reduzierten Zinssatz f r Eink ufe in den n chsten drei Monaten ank ndigte Die andere H lfte erhielt eine Standard Werbebeilage customer_dbase sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Unternehmens geht das die Informationen in seinem Data Warehouse nutzen m chte um spezielle Angebote f r Kunden zu erstellen die mit der gr ten Wahrschei
56. e die weitere Informationen f r die gemeinsame Ausgabe bereitstellen Bruchteil der fehlenden Informationen ist eine Sch tzung des Verh ltnisses fehlender Informationen zu vollst ndigen Informationen basierend auf dem relativen Anstieg der Varianz aufgrund von Nichtantworten das wiederum ein modifiziertes Verh ltnis der Zwischenimputation und der durchschnittlichen Innenimputationsvarianz des 81 Multiple Imputation Regressionskoeffizienten ist Die relative Effizienz ist ein Vergleich dieser Sch tzung mit einer theoretischen Sch tzung die mit einer infiniten Anzahl von Imputationen berechnet wurde Die relative Effizienz wird durch den Bruchteil der fehlenden Informationen und der Anzahl der Imputationen berechnet die f r das gemeinsame Ergebnis verwendet wurden Wenn der Bruchteil der fehlenden Informationen gro ist ist eine gr ere Anzahl von Imputationen erforderlich um die relative Effizienz n her an 1 und die gemeinsame Sch tzung n her an die idealisierte Sch tzung zu bringen Abbildung 5 38 Gemeinsame Parametersch tzer x Pivot Tabelle Parametersch tzer Datei Bearbeiten Ansicht Einf gen Pivot Format Hilfe Parametersch tzer Imputationsnummer ES Imputationsnummer SPALTE address Konstanter Term employ marital 0 marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 address Plus service SCHICHT n Customer catego 2 Parameter Aktivieren doppelklicken
57. e F lle Die einzelnen F lle werden tabellarisch dargestellt und fehlende Werte und Extremwerte werden f r jede Variable angegeben Die F lle werden in der Reihenfolge aufgef hrt in der sie in der Datendatei auftreten sofern unter Sortieren nach keine Variable angegeben wurde In den Tabellen die einzelne F lle anzeigen werden folgende Symbole verwendet Extrem hoher Wert Extrem niedriger Wert S Systemdefiniert fehlender Wert A Erster Typ des benutzderdefinierten fehlenden Werts B Zweiter Typ des benutzderdefinierten fehlenden Werts 6 Dritter Typ des benutzerdefinierten fehlenden Werts Variablen Sie k nnen weitere Informationen f r die in die Analyse aufgenommenen Variablen anzeigen Die Variablen die Sie unter Zus tzliche Informationen f r hinzuf gen werden einzeln in der Tabelle der fehlenden Muster angezeigt Bei quantitativen metrischen Variablen wird der Mittelwert und bei kategorialen Variablen wird die Anzahl der F lle aufgef hrt die das Muster in jeder Kategorie aufweisen m Sortieren nach Die F lle werden entsprechend der aufsteigenden oder absteigenden Reihenfolge der Werte der angegebenen Variablen aufgef hrt Diese Option ist nur f r Alle F lle verf gbar So geben Sie Muster fehlender Werte an W hlen Sie im Dialogfeld Analyse fehlender Werte die Variablen aus f r die Muster fehlender Werte angezeigt werden sollen Klicken Sie auf Muster W hlen Sie die anzuzeigenden Mu
58. e Wertung f r jeden Standort als good gut fair mittelm ig oder poor schlecht ab smokers sav Diese Datendatei wurde aus der Umfrage National Household Survey of Drug Abuse aus dem Jahr 1998 abstrahiert und stellt eine Wahrscheinlichkeitsstichprobe US amerikanischer Haushalte dar hrip dx doi org 10 3886 ICPSR02934 Daher sollte der erste Schritt bei der Analyse dieser Datendatei darin bestehen die Daten entsprechend den Bev lkerungstrends zu gewichten stocks sav Diese hypothetische Datendatei umfasst B rsenkurse und volumina f r ein Jahr stroke_clean sav Diese hypothetische Datendatei enth lt den Zustand einer medizinischen Datenbank nachdem diese mithilfe der Prozeduren in der Option Data Preparation bereinigt wurde stroke_invalid sav Diese hypothetische Datendatei enth lt den urspr nglichen Zustand einer medizinischen Datenbank der mehrere Dateneingabefehler aufweist stroke_survival In dieser hypothetischen Datendatei geht es um die berlebenszeiten von Patienten die nach einem Rehabilitationsprogramm wegen eines isch mischen Schlaganfalls mit einer Reihe von Problemen zu k mpfen haben Nach dem Schlaganfall werden das Auftreten von Herzinfarkt isch mischem Schlaganfall und h morrhagischem Schlaganfall sowie der Zeitpunkt des Ereignisses aufgezeichnet Die Stichprobe ist auf der linken Seite abgeschnitten da sie nur Patienten enth lt die bis zum Ende des Rehabilitationprogramms
59. e beim Anbieter L ater Age w Jahre wohnhaft an glei Sch tzung or E Jahre beim gleichen Ar E amp Personen im Haushalt L Listenweise E Einkommen Income Paarweise Kategoriale Variablen Je OM d Ausbildung Education F Regression amp Ruhestand Retirement amp Geschlecht Gender Maximalzahl der Kategorien Fallbeschriftungen mw aan me gt W hlen Sie Marital status marital Familienstand Level of education ed Bildungsniveau Retired retire Im Ruhestand und Gender gender Geschlecht als kategoriale Variablen aus W hlen Sie Months with service tenure Besch ftigungsdauer bis Number of people in household reside Haushaltsgr e als quantitative metrische Variable aus Copyright IBM Corporation 1989 2011 37 38 Kapitel 4 Nun k nnten Sie die Prozedur durchf hren und univariate Statistiken erstellen lassen wir m chten jedoch zus tzliche deskriptive Statistiken ausw hlen Klicken Sie auf Deskriptive Statistik Abbildung 4 2 Analyse fehlender Werte Dialogfeld Deskriptive Statistik FE Analyse fehlender Werte Deskriptive Statistik Y Univariate Statistiken r Statistik f r Indikatorvariablen E Prozent der nicht bereinstimmenden Variablen v T T Test f r Gruppen die durch Indikatorvariablen gebildet werden Wahrscheinlichkeiten in Tabelle einschlie en Fi Kreuztabellen katego
60. e gesch tzt werden sollen Aktivieren Sie im Gruppenfeld Sch tzung die Option EM Klicken Sie auf die Schaltfl che Variablen um die vorhergesagten Variablen und die Einflu variablen anzugeben F r weitere Informationen siehe Thema Vorhergesagte Variablen und Vorhersagevariablen Einflussvariablen auf S 12 Klicken Sie auf EM W hlen Sie die gew nschten EM Optionen aus 11 Analyse fehlender Werte Optionen f r die Regressionssch tzung Abbildung 2 5 Dialogfeld Analyse fehlender Werte Regression x ii Analyse fehlender Werte Regression Anpassung der Sch tzung Residuen Normale Yariaten Student T Variaten Freiheitsgrade b Keine e Maximale Anzahl der Einflussvariablen Fi WYervollst ndigte Daten speichern Neues Datenblatt erstellen Neue Datendatei schreiben Bei der Regressionsmethode werden fehlende Werte unter Verwendung der mehrfachen linearen Regression gesch tzt Es werden die Mittelwerte die Kovarianzmatrix und die Korrelationsmatrix der vorhergesagten Variablen angezeigt Anpassung der Sch tzung Bei der Regression kann den Regressionssch tzern eine Zufallskomponente hinzugef gt werden Sie k nnen Residuen normale Variaten Student 7 Variaten oder keine Anpassung ausw hlen m Residuen Es werden Fehlerterme zuf llig aus den beobachteten Residuen vollst ndiger F lle ausgew hlt und zu den Regressionssch tzungen addiert m Norm
61. e ist die Zeitdauer bis die Wirkung des Medikaments einsetzt und wie es im Vergleich mit bestehenden Medikamenten abschneidet patient_los sav Diese hypothetische Datendatei enth lt die Behandlungsaufzeichnungen zu Patienten die wegen des Verdachts auf Herzinfarkt in das Krankenhaus eingeliefert wurden Jeder Fall entspricht einem Patienten und enth lt diverse Variablen in Bezug auf den Krankenhausaufenthalt patlos_sample sav Diese hypothetische Datendatei enth lt die Behandlungsaufzeichnungen f r eine Stichprobe von Patienten denen w hrend der Behandlung eines Herzinfarkts Thrombolytika verabreicht wurden Jeder Fall entspricht einem Patienten und enth lt diverse Variablen in Bezug auf den Krankenhausaufenthalt poll_cs sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bem hungen geht die ffentliche Unterst tzung f r einen Gesetzentwurf zu ermitteln bevor er im Parlament eingebracht wird Die F lle entsprechen registrierten W hlern F r jeden Fall sind County Gemeinde und Wohnviertel des W hlers erfasst poll_cs_sample sav Diese hypothetische Datendatei enth lt eine Stichprobe der in poll_cs sav aufgef hrten W hler Die Stichprobe wurde gem dem in der Plandatei poll csplan angegebenen Stichprobenplan gezogen und in dieser Datendatei sind die Einschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst Beachten Sie jedoch Folgendes Da im Stichprobenplan die PPS Methode PPS probabili
62. e stellt eine Leistung dar die Kampfrichter bewerteten jeweils dieselben Leistungen kinship_dat sav Rosenberg und Kim haben 15 Bezeichnungen f r den Verwandtschaftsgrad untersucht Tante Bruder Cousin Tochter Vater Enkelin Gro vater Gro mutter Enkel Mutter Neffe Nichte Schwester Sohn Onkel Die beiden Analytiker baten vier Gruppen von College Studenten zwei weibliche und zwei m nnliche Gruppen diese Bezeichnungen auf der Grundlage der hnlichkeiten zu sortieren Zwei Gruppen eine weibliche und eine m nnliche Gruppe wurden gebeten die Bezeichnungen zweimal zu sortieren die zweite Sortierung sollte dabei nach einem anderen Kriterium erfolgen als die erste So wurden insgesamt sechs Quellen erzielt Jede Quelle entspricht einer hnlichkeitsmatrix mit 15 x 15 Elementen Die Anzahl der Zellen ist dabei gleich der Anzahl der Personen in einer Quelle minus der Anzahl der gemeinsamen Platzierungen der Objekte in dieser Quelle kinship_ini sav Diese Datendatei enth lt eine Ausgangskonfiguration f r eine dreidimensionale L sung f r kinship_dat sav kinship_var sav Diese Datendatei enth lt die unabh ngigen Variablen gender Geschlecht gener Generation und degree Verwandtschaftsgrad die zur Interpretation der Dimensionen einer L sung f r kinship_dat sav verwendet werden k nnen Insbesondere k nnen sie verwendet werden um den L sungsraum auf eine lineare Kombination dieser Variablen zu beschr nken m
63. ei und weist allen Feldern deren Messniveau zurzeit nicht bekannt ist das Standardmessniveau zu Bei gro en Datenbl ttern kann dieser Vorgang einige Zeit in Anspruch nehmen m Manuell zuweisen ffnet ein Dialogfeld in dem alle Felder mit unbekanntem Messniveau aufgef hrt werden Mit diesem Dialogfeld k nnen Sie diesen Feldern ein Messniveau zuweisen Au erdem k nnen Sie in der Variablenansicht des Daten Editors ein Messniveau zuweisen Da das Messniveau f r diese Prozedur bedeutsam ist k nnen Sie erst dann auf das Dialogfeld zur Ausf hrung dieser Prozedur zugreifen wenn f r alle Felder ein Messniveau definiert wurde 20 Kapitel 3 Methode Abbildung 3 4 Registerkarte Fehlende Datenwerte ersetzen Methode F Fehlende Datenwerte imputieren Variablen Methode Nebenkedingungen Ausgabe rImputationsmethode Automatisch Diese Option w hlt automatisch eine Imputationsmethode auf der Basis einer Untersuchung Ihrer Daten Benutzerdefiniert Wollst ndig konditionale Spezifikation MCMC Diese Methode eignet sich f r Daten mit einem willk rlichen Muster fehlender Verte Maximale tterationen w Monoton Diese Methode eignet sich f r Daten mit einem monotonen Muster fehlender Verte Beachten Sie dass sich die in der Registerkarte Variablen angegebene Reihenfolge der Yariablen auf das Ergebnis auswirkt E Zweifache Wechselwirkungseffekte bei kategorialen Einflussvariablen aufne
64. eirat Set 2 besteht aus pet und news und in Set 3 finden sich music und live Die Variable pet wird mehrfach nominal skaliert und die Variable Alter ordinal Alle anderen Variablen werden einzeln nominal skaliert 94 Anhang A virus sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Internet Dienstanbieters geht der die Auswirkungen eines Virus auf seine Netzwerke ermitteln m chte Dabei wurde vom Moment der Virusentdeckung bis zu dem Zeitpunkt zu dem die Virusinfektion unter Kontrolle war der ungef hre prozentuale Anteil infizierter E Mail in den Netzwerken erfasst wheeze_steubenville sav Hierbei handelt es sich um eine Teilmenge der Daten aus einer Langzeitstudie zu den gesundheitlichen Auswirkungen der Luftverschmutzung auf Kinder Die Daten enthalten wiederholte bin re Messungen des Keuchens von Kindern aus Steubenville Ohio im Alter von 7 8 9 und 10 Jahren sowie eine unver nderlichen Angabe ob die Mutter im ersten Jahr der Studie rauchte oder nicht workprog sav Hierbei handelt es sich um eine hypothetische Datendatei zu einem Arbeitsprogramm der Regierung das versucht benachteiligten Personen bessere Arbeitspl tze zu verschaffen Eine Stichprobe potenzieller Programmteilnehmer wurde beobachtet Von diesen Personen wurden nach dem Zufallsprinzip einige f r die Teilnahme an dem Programm ausgew hlt Jeder Fall entspricht einem Programmteilnehmer worldsales sav Diese
65. elltest zur Erkennung von HIV Infektionen zu entwickeln Die Ergebnisse des Tests sind acht kr ftiger werdende Rotschattierungen wobei kr ftigeren Schattierungen auf eine h here Infektionswahrscheinlichkeit hindeuten Bei 2 000 Blutproben von denen die H lfte mit HIV infiziert war wurde ein Labortest durchgef hrt hourlywagedata sav Hierbei handelt es sich um eine hypothetische Datendatei zum Stundenlohn von Pflegepersonal in Praxen und Krankenh usern mit unterschiedlich langer Berufserfahrung insurance_claims sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die ein Modell zur Kennzeichnung verd chtiger potenziell betr gerischer Anspr che erstellen m chte Jeder Fall entspricht einem Anspruch insure sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die die Risikofaktoren untersucht die darauf hinweisen ob ein Kunde die Leistungen einer mit einer Laufzeit von 10 Jahren abgeschlossenen Lebensversicherung in Anspruch nehmen wird Jeder Fall in der Datendatei entspricht einem Paar von Vertr gen je einer mit Leistungsforderung und der andere ohne wobei die beiden Versicherungsnehmer in Alter und Geschlecht bereinstimmen judges sav Hierbei handelt es sich um eine hypothetische Datendatei mit den Wertungen von ausgebildeten Kampfrichtern sowie eines Sportliebhabers zu 300 Kunstturnleistungen Jede Zeil
66. emeinerte lineare Modelle und verallgemeinerte Sch tzungsgleichungen Diese Prozeduren unterst tzen gepooltes PMML m Die Tabelle Informationen zu kategorialen Variablen unterst tzt N und Prozente bei naivem Pooling m Die Tabelle Informationen zu stetigen Variablen unterst tzt N und Mittelwert bei naivem Pooling m Die Tabelle Parametersch tzer unterst tzt den Koeffizienten B bei univariatem Pooling m Die Tabelle Gesch tzte Randmittel Sch tzkoeffizienten unterst tzt Mittelwert bei naivem Pooling m Die Tabelle Gesch tzte Randmittel Sch tzungen unterst tzt Mittelwert bei univariatem Pooling m Die Tabelle Gesch tzte Randmittel Paarweise Vergleiche unterst tzt mittlere Differenz bei univariatem Pooling 32 Kapitel 3 Bivariate Korrelationen m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei naivem Pooling m Die Tabelle Korrelationen unterst tzt Korrelationen und N bei univariatem Pooling Beachten Sie dass Korrelationen vor dem Pooling mit der z Transformation von Fisher transformiert und nach dem Pooling wieder r cktransformiert werden Partielle Korrelationen m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei naivem Pooling m Die Tabelle Korrelationen unterst tzt Korrelationen bei naivem Pooling Lineare Regression Diese Prozedur unterst tzt gepooltes PMML m Die Tabelle Deskriptive Statistik unte
67. en Dur n hs A Generierung eines Daten Sets mit den imputierten WVerten k nnen Sie herk mmliche PASYY Statistics Analyseverfahren verwenden die mit dem Symbol Ko markiert sind um Ihre Daten zu analysieren Eine vollst ndige Liste der unterst tzten Analyseverfahren finden Sie in der Hilfe C enten Zr sietzen Adorecnen Hate W hlen Sie mindestens zwei Variablen im Imputationsmodell aus Die Prozedur imputiert mehrere Werte f r fehlende Daten f r diese Variablen Die Anzahl der zu berechnenden Imputationen Standardm ig ist dieser Wert 5 Geben Sie ein Daten Set oder eine Datendatei im IBM SPSS Statistics Format an in das die imputierten Daten geschrieben werden sollen Das Ausgabe Daten Set besteht aus den Originaldaten mit fehlenden Daten plus einem Set von F llen mit imputierten Werten f r jede Imputation Wenn beispielsweise das urspr ngliche Daten Set 100 F lle enth lt und Sie haben f nf Imputationen umfasst das Ausgabe Daten Set 600 F lle Alle Variablen im Eingabe Daten Set sind im Ausgabe Daten Set enthalten W rterbucheigenschaften Namen Labels etc von bestehenden Variablen werden in das neue Daten Set kopiert Die Datei enth lt auch eine neue Variable mputation_ eine numerische Variable die die Imputation angibt 0 f r Originaldaten 1 n f r F lle mit imputierten Werten 19 Multiple Imputation Die Prozedur definiert automatisch die Variable mputation_ als auf
68. en K2R Glory und Bissell drei Preisstufen sowie je zwei Ebenen Nein oder Ja f r die letzten beiden Faktoren 10 Kunden stufen 22 Profile ein die durch diese Faktoren definiert sind Die Variable Preference enth lt den Rang der durchschnittlichen Einstufung f r die verschiedenen Profile Ein niedriger Rang bedeutet eine starke Bevorzugung Diese Variable gibt ein Gesamtma der Bevorzugung f r die Profile an carpet_prefs sav Diese Datendatei beruht auf denselben Beispielen wie f r carpet sav beschrieben enth lt jedoch die tats chlichen Einstufungen durch jeden der 10 Kunden Die Kunden wurden gebeten die 22 Produktprofile in der Reihenfolge ihrer Pr ferenzen einzustufen Die Variablen PREFI bis PREF22 enthalten die IDs der zugeordneten Profile wie in carpet_plan sav definiert catalog sav Diese Datendatei enth lt hypothetische monatliche Verkaufszahlen f r drei Produkte die von einem Versandhaus verkauft werden Daten f r f nf m gliche Einflussvariablen wurden ebenfalls aufgenommen catalog_seasfac sav Diese Datendatei ist mit catalog sav identisch au er dass ein Set von saisonalen Faktoren die mithilfe der Prozedur Saisonale Zerlegung berechnet wurden sowie die zugeh rigen Datumsvariablen hinzugef gt wurden cellular sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Mobiltelefonunternehmens geht die Kundenabwanderung zu verringern Scores f r die Abwanderungs
69. entlichungen Die Handb cher SPSS Statistics Guide to Data Analysis SPSS Statistics Statistical Procedures Companion und SPSS Statistics Advanced Statistical Procedures Companion die von Marija Noru is geschrieben und von Prentice Hall ver ffentlicht wurden werden als Quelle f r Zusatzinformationen empfohlen Diese Ver ffentlichungen enthalten statistische Verfahren in den Modulen Statistics Base Advanced Statistics und Regression von SPSS Diese B cher werden Sie dabei unterst tzen die Funktionen und M glichkeiten von IBM SPSS Statistics optimal zu nutzen Dabei ist es unerheblich ob Sie ein Neuling im Bereich der Datenanalyse sind oder bereits ber umfangreiche Vorkenntnisse verf gen und damit in der Lage sind auch die erweiterten Anwendungen zu nutzen Weitere Informationen zu den Inhalten der Ver ffentlichungen sowie Ausz ge aus den Kapiteln finden Sie auf der folgenden Autoren Website http www norusis com Inhalt Teil I Benutzerhandbuch 1 Missing Values Fehlende Werte Einleitung 1 2 Analyse fehlender Werte 2 Anzeige der Muster fehlender Werte cununeneeeeeeereeeee nennen 5 Anzeigen deskriptiver Statistiken f r fehlende Werte 22222 cerenener ern 7 Sch tzen von Statistiken und Imputieren fehlender Werte nannan nannan 8 EM Sch tzung Optionen 2 2c2nenenenenennenenneeenee rennen nenn 9 Optionen f r die Regressionssch tzung s s s sasa
70. er Werte einschr nken werden die Verteilungszusammenfassungen aktualisiert Nebenbedingungen definieren m Rolle Hier ber k nnen Sie die Menge der zu imputierenden und oder als Einflussvariablen zu behandelnden Variablen anpassen blicherweise wird jede Analysevariable im Imputationsmodell sowohl als abh ngige Variable als auch als Einflussvariable betrachtet Die Rolle kann verwendet werden um die Imputation von Variablen die Sie Nur als 23 Multiple Imputation Einflussvariable verwenden wollen auszuschalten oder um Variablen von der Verwendung als Einflussvariablen Nur imputieren auszuschlie en und so das Vorhersagemodell kompakter zu machen Dies ist die einzige Nebenbedingung die f r kategoriale Variablen oder f r Variablen die nur als Einflussvariablen verwendet werden angegeben werden kann m Min und Max In diesen Spalten k nnen Sie die minimal und maximal zul ssigen imputierten Werte f r metrische Variablen angeben Wenn ein imputierter Wert au erhalb dieses Bereichs liegt zieht das Verfahren einen anderen Wert bis es einen findet der im Bereich liegt oder bis die maximale Zahl an Ziehungen erreicht ist siehe Maximale Ziehungen unten Diese Spalten sind nur verf gbar wenn Lineare Regression als Modelltyp f r metrische Variablen auf der Registerkarte Methode ausgew hlt ist m Runden Einige Variablen k nnen als metrische Variablen verwendet werden haben aber Werte die weiter nat
71. er h chsten H ufigkeit an fehlenden Werten Maximale Anzahl an angezeigten variablen Minimaler Prozentsatz Fehlend f r die Anzeige von Variablen I ann Gason airean J e W hlen Sie Months with service tenure Besch ftigungsdauer bis Number of people in household reside Haushaltsgr e als Analysevariable aus Gesamtzusammenfassung Abbildung 5 2 Gesamtzusammenfassung der fehlenden Werte Gesamtzusammenfassung der fehlenden Werte B vollst ndige Daten Bunvollst ndige Daten Variablen F lle Werte Die Gesamtzusammenfassung der fehlenden Werte zeigt drei Kreisdiagramme an die unterschiedliche Aspekte fehlender Werte in den Daten darstellen 51 Multiple Imputation m Das Diagramm Variablen zeigt dass jede der 10 Analysevariablen mindestens einen fehlenden Wert in einem Fall besitzt m Das Diagramm F lle zeigt dass 525 der 1 000 F lle mindestens einen fehlenden Wert in einer Variable besitzen m Das Diagramm Werte zeigt dass 792 der 10 000 Werte F lle x Variablen fehlen Jeder Fall mit fehlenden Werten besitzt im Durchschnitt fehlende Werte bei ungef hr 1 5 der 10 Variablen Ein listenweiser Ausschluss w rde zu einem Verlust eines Gro teils der Informationen in dem Daten Set f hren Variablenauswertung Abbildung 5 3 Variablenauswertung Fehlend Standardabw N Prozent G ltige N Mittelwert eichung Household income in 179 17 9 821 71 1462 83 14424 Year
72. erationen oder Schritte an die die von der Methode der vollst ndig konditionalen Spezifikation verwendete Markov Kette durchl uft Wenn die Methode der vollst ndig konditionalen Spezifikation automatisch gew hlt wurde verwendet sie die Standardzahl von 10 Iterationen Wenn Sie die vollst ndig konditionale Spezifikation explizit w hlen k nnen Sie eine benutzerdefinierte Zahl an Iterationen angeben Sie m ssen ggf die Anzahl der Iterationen erh hen wenn die Markov Kette nicht konvergiert Auf der Registerkarte Ausgabe k nnen Sie die Iterationsprotokolldaten der vollst ndig konditionalen Spezifikation speichern und sie als Diagramm ausgeben um die Konvergenz zu beurteilen m Monoton Dies ist eine nicht iterative Methode die nur verwendet werden kann wenn die Daten ein monotones Muster fehlender Werte haben Ein monotones Muster existiert wenn Sie die Variablen so ordnen k nnen dass alle vorhergehenden Variablen auch nicht fehlende Werte haben wenn eine Variable einen nicht fehlenden Wert hat Wenn Sie dies als benutzerdefinierte Methode angeben stellen Sie sicher die Variablen in der Liste in einer Reihenfolge anzugeben die ein monotones Muster aufweist F r jede Variable in der monotonen Reihenfolge passt die monotone Methode ein univariates einzelne abh ngige Variable Modell mit allen vorhergehenden Variablen im Modell als Einflussvariablen an und imputiert dann die fehlenden Werte f r die anzupassende Variable Diese
73. erden um in Analysen als MI Daten Set behandelt zu werden Sie k nnen auch Aufteilungen bei anderen Variablen definieren W hlen Sie die folgenden Befehle aus den Men s aus Daten gt Datei aufteilen 26 Kapitel 3 Abbildung 3 7 Dialogfeld Datei aufteilen Datei aufteilen 4 Monate beim Anbieter M L Alter Age E Familienstand MaritalStat Gruppen vergleichen 2 Jahre wohnhaft an gleic E Einkommen Income A ausbildung Educstionall Gruppen basierend auf 8 Jahre beim gleichen Arbe Hm utetionsnummer Imputstion_ amp b Ruhestand RetirementSt amp Geschlecht Gender Alle F lle analysieren keine Gruppen bilden Ausgabe nach Gruppen aufteilen 8E Personen im Haushalt Pe Datei nach Gruppenvariablen sortieren Datei ist sortiert W hlen Sie die Option Gruppen vergleichen W hlen Sie mputationszahl Imputation_ als Variable um F lle danach zu gruppieren Alternativ wird die Datei wenn Sie Markierungen einschalten siehe unten bei mputationszahl Imputation_ geteilt Unterscheidung von imputierten Werten und beobachteten Werten Sie k nnen imputierte Werte von beobachteten Werten ber die Zellenhintergrundfarbe die Schriftart und den Fettdruck f r imputierte Werte unterscheiden Informationen zu den aktivierten Markierungen finden Sie unter Multiple Imputation Optionen auf S 34 Wenn Sie in der aktuellen Sitzung ein neues Daten Set
74. erson arbeitet Beispiele f r nominale Variablen sind Region Postleitzahl oder Religionszugeh rigkeit m Ordinal Eine Variable kann als ordinal behandelt werden wenn ihre Werte f r Kategorien stehen die eine nat rliche Reihenfolge aufweisen z B Grad der Zufriedenheit mit Kategorien von sehr unzufrieden bis sehr zufrieden Ordinale Variablen treten beispielsweise bei Einstellungsmessungen Zufriedenheit oder Vertrauen und bei Pr ferenzbeurteilungen auf m Metrisch Eine Variable kann als metrisch stetig behandelt werden wenn ihre Werte geordnete Kategorien mit einer sinnvollen Metrik darstellen sodass man sinnvolle Aussagen ber die Abst nde zwischen den Werten machen kann Metrische Variablen sind beispielsweise Alter in Jahren oder Einkommen in Geldeinheiten Bei der Prozedur wird davon ausgegangen dass allen Variablen das richtige Messniveau zugewiesen wurde Sie k nnen das Messniveau f r eine Variable jedoch vor bergehend ndern Klicken Sie hierzu mit der rechten Maustaste auf die Variable in der Liste der Quellvariablen und w hlen Sie das gew nschte Messniveau im Kontextmen aus Messniveau und Datentyp sind durch ein Symbol neben der jeweiligen Variablen in der Variablenliste gekennzeichnet Numerisch Zeichenfolge Datum Zeit Metrisch stetig E entf llt sa Ordinal ii de Nominal S de da a amp H ufigkeitsgewichtungen H ufigkei
75. erte von metrischen Variablen angegeben werden siehe Min und Max oben versucht die Prozedur Werte f r einen Fall zu ziehen bis ein Set an Werten gefunden ist das innerhalb des angegebenen Bereichs liegt Wenn mit der angegebenen Zahl an Ziehungen pro Fall kein Set an Werten gefunden wird zieht die Prozedur ein anderes Set an Modellparametern und wiederholt den Prozess der Fallziehung Ein Fehler tritt auf wenn ein Set von Werten im Bereich nicht in der angegebenen Zahl von Fall und Parameterziehungen gefunden wird Beachten Sie dass h here Werte eine l ngere Verarbeitungszeit bedeuten Wenn die Prozedur lange dauert oder keine geeigneten Ziehungen findet pr fen Sie die angegebenen Minimum und Maximumwerte um sicherzustellen dass sie angemessen sind 24 Kapitel 3 Ausgabe Abbildung 3 6 Registerkarte Fehlende Datenwerte ersetzen Ausgabe xi F Fehlende Datenwerte imputieren Veen Melde Nebenbecnaungen Ausgabe rAnzeige M Imputstionsmodell m Beschreibende Statistiken f r variablen mit imputierten Werten rtterationsprotokoll E tterstionsprotokoll erstellen Anzeigen Steuert die Anzeige der Ausgabe Eine Gesamtimputationszusammenfassung wird immer angezeigt Sie enth lt Tabellen in Bezug auf die Imputationsspezifikationen die Iterationen f r die Methode vollst ndiger konditionaler Spezifikation die abh ngigen imputierten Variablen die abh ngigen Variablen
76. etische Datendatei bei der es um die Entwicklung eines neuen DVD Spielers geht Mithilfe eines Prototyps hat das Marketing Team Zielgruppendaten erfasst Jeder Fall entspricht einem befragten Benutzer und enth lt demografische Daten zu dem Benutzer sowie dessen Antworten auf Fragen zum Prototyp german_credit sav Diese Daten sind aus dem Daten Set German credit im Repository of Machine Learning Databases an der Universit t von Kalifornien in Irvine entnommen grocery_1month sav Bei dieser hypothetischen Datendatei handelt es sich um die Datendatei grocery_coupons sav wobei die w chentlichen Eink ufe zusammengefasst sind sodass jeder Fall einem anderen Kunden entspricht Dadurch entfallen einige der Variablen die w chentlichen nderungen unterworfen waren und der verzeichnete ausgegebene Betrag ist nun die Summe der Betr ge die in den vier Wochen der Studie ausgegeben wurden grocery_coupons sav Hierbei handelt es sich um eine hypothetische Datendatei die Umfragedaten enth lt die von einer Lebensmittelkette erfasst wurden die sich f r die Kaufgewohnheiten ihrer Kunden interessiert Jeder Kunde wird ber vier Wochen beobachtet und jeder Fall entspricht einer Kundenwoche und enth lt Informationen zu den Gesch ften in denen der Kunde einkauft sowie zu anderen Merkmalen beispielsweise welcher Betrag in der betreffenden Woche f r Lebensmittel ausgegeben wurde guttman sav Bell legte eine Tabelle zur Darstellung m
77. figkeiten 60 00 50 00 40 00 Pct of Cases 30 20 14 9 3 60 56 7 Missing Value Pattern Wenn Muster angefordert werden zeigt ein begleitendes Balkendiagramm den Prozentsatz an F llen f r jedes Muster an Das zeigt dass ber die H lfte der F lle im Daten Set Muster 1 besitzen Das Diagramm fehlender Werte zeigt dass dies das Muster f r F lle ohne fehlende Werte ist Muster 43 stellt F lle mit einem fehlenden Wert bei income Muster 30 F lle mit einem fehlenden Wert bei address und Muster 20 F lle mit einem fehlenden Wert bei marital dar Die gro e Mehrheit der F lle ungef hr 4 von 5 werden durch diese vier Muster dargestellt Muster 14 60 und 56 sind die einzigen Muster unter den zehn am h ufigsten auftretenden Mustern um F lle mit fehlenden Werten bei mehr als einer Variable darzustellen Die Analyse fehlender Muster hat keine bestimmten Hindernisse f r die multiple Imputation gezeigt abgesehen davon dass die Verwendung der monotonen Methode nicht wirklich praktikabel ist Automatische Imputation fehlender Werte Jetzt sind Sie bereit die Imputation von Werten zu beginnen Wir beginnen mit einem Durchlauf mit automatischen Einstellungen bevor wir aber Imputationen anfordern legen wir den Startwert fest Durch die Festlegung des Startwerts k nnen sie die Analyse exakt reproduzieren Zur Festlegung des Startwerts w hlen Sie die folgenden Men befehle aus Transformieren gt Zufallszahlengeneratoren
78. geteilte Variable wenn das Ausgabe Daten Set erstellt wird Wenn bei Ausf hrung der Prozedur Aufteilungen wirksam sind enth lt das Ausgabe Daten Set ein Set an Imputationen f r jede Kombination von Werten von ausgeteilten Variablen Optionale Einstellungen Analysegewichtung Diese Variable enth lt Analysegewichtungen Regression oder Stichprobe Die Prozedur umfasst Analysegewichtungen in Regressions und Klassifizierungsmodellen die verwendet werden um fehlende Werte zu imputieren Analysegewichtungen werden auch in Zusammenfassungen imputierter Werte verwendet zum Beispiel Mittelwert Standardabweichung und Standardfehler F lle mit einer negativen oder nullwertigen Analysegewichtung werden ausgeschlossen Felder mit unbekanntem Messniveau Die Messniveau Warnmeldung wird angezeigt wenn das Messniveau f r mindestens eine Variable ein Feld im Datenblatt unbekannt ist Da sich das Messniveau auf die Berechnung der Ergebnisse f r diese Prozedur auswirkt m ssen alle Variablen ein definiertes Messniveau aufweisen Abbildung 3 3 Messniveau Warnmeldung Messniveau Q Das richtige Messniveau ist f r diese Prozedur wichtig Das Messniveau ist f r mindestens ein Feld im Datenblatt nicht bekannt Diese Felder k nnen manuell zugewiesen werden Alternativ k nnen sie automatisch ber das Durchsuchen der Daten zugewiesen werden Cmn J me m Daten durchsuchen Liest die Daten im aktiven Datenblatt Arbeitsdat
79. glicher sozialer Gruppen vor Guttman verwendete einen Teil dieser Tabelle bei der f nf Variablen die Aspekte beschreiben wie soziale Interaktion das Gef hl der Gruppenzugeh rigkeit die physische N he der Mitglieder und die Formalit t der Beziehung mit sieben theoretischen sozialen Gruppen gekreuzt wurden crowds Menschenmassen beispielsweise die Zuschauer eines Fu ballspiels audience Zuh rerschaften beispielsweise die Personen im Theater oder bei einer Vorlesung public ffentlichkeit beispielsweise Zeitungsleser oder Fernsehzuschauer mobs Mobs wie Menschenmassen jedoch mit wesentlich st rkerer Interaktion primary groups Prim rgruppen vertraulich secondary groups Sekund rgruppen freiwillig und modern community die moderne Gesellschaft ein lockerer Zusammenschluss der aus einer engen physischen N he und dem Bedarf an spezialisierten Dienstleistungen entsteht health_funding sav Hierbei handelt es sich um eine hypothetische Datei die Daten zur Finanzierung des Gesundheitswesens Betrag pro 100 Personen Krankheitsraten Rate pro 10 000 Personen der Bev lkerung und Besuche bei medizinischen Einrichtungen rzten Rate pro 10 000 Personen der Bev lkerung enth lt Jeder Fall entspricht einer anderen Stadt 89 Beispieldateien hivassay sav Hierbei handelt es sich um eine hypothetische Datendatei zu den Bem hungen eines pharmazeutischen Labors einen Schn
80. h oder stetig sein Die Berechnung von Statistiken und das Vorschreiben Imputieren fehlender Daten ist jedoch nur f r die quantitativen Variablen m glich Bei allen Variablen m ssen die fehlenden Werte die nicht als systemdefiniert fehlend kodiert sind als benutzerdefiniert fehlend definiert werden Wenn Copyright IBM Corporation 1989 2011 2 3 Analyse fehlender Werte beispielsweise f r eine Frage in einem Fragebogen die Antwort Ich wei nicht als 5 kodiert ist und Sie diese als fehlend behandeln m chten muss f r diese Frage 5 als benutzerdefinierter fehlender Wert kodiert werden H ufigkeitsgewichtungen H ufigkeitsgewichtungen Replikation werden von dieser Prozedur ber cksichtigt F lle mit einer negativen oder nullwertigen Replikationsgewichtung werden ignoriert Nicht ganzzahligen Gewichtungen werden gek rzt Annahmen Listenweisen paarweisen und Regressionssch tzungen liegt die Annahme zugrunde dass das Muster der fehlenden Werte nicht von den Datenwerten abh ngt Diese Bedingung ist als v llig zuf llig fehlend oder MCAR missing completely at random bekannt Daher ergeben alle Sch tzmethoden einschlie lich der EM Methode bei MCAR Daten konsistente und unverzerrte Sch tzer der Korrelationen und Kovarianzen Die Verletzung der MCAR Annahme kann dazu f hren dass von der listenweisen paarweisen bzw Regressionsmethode verzerrte Sch tzer generiert werden Wenn es sich nicht um MCAR Daten handel
81. havior_ini sav Diese Datendatei enth lt eine Ausgangskonfiguration f r eine zweidimensionale L sung f r behavior sav brakes sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Fabrik geht die Scheibenbremsen f r Hochleistungsautomobile herstellt Die Datendatei enth lt Messungen des Durchmessers von 16 Scheiben aus 8 Produktionsmaschinen Der Zieldurchmesser f r die Scheiben ist 322 Millimeter breakfast sav In einer klassischen Studie wurden 21 MBA Studenten der Wharton School mit ihren Lebensgef hrten darum gebeten 15 Fr hst cksartikel in der Vorzugsreihenfolge von l am meisten bevorzugt bis 15 am wenigsten bevorzugt zu ordnen Die Bevorzugungen wurden in sechs unterschiedlichen Szenarien erfasst von Overall preference Allgemein bevorzugt bis Snack with beverage only Imbiss nur mit Getr nk breakfast overall sav Diese Datei enth lt die Daten zu den bevorzugten Fr hst cksartikeln allerdings nur f r das erste Szenario Overall preference Allgemein bevorzugt broadband_1 sav Hierbei handelt es sich um eine hypothetische Datendatei die die Anzahl der Abonnenten eines Breitband Service nach Region geordnet enth lt Die Datendatei enth lt die monatlichen Abonnentenzahlen f r 85 Regionen ber einen Zeitraum von vier Jahren broadband_2 sav Diese Datendatei stimmt mit broadband _1 sav berein enth lt jedoch Daten f r we
82. hmen Modelltyp f r metrische Variablen Toleranz f r Pr fung auf Singularit t E02 Die Registerkarte Methode gibt an wie fehlende Werte einschlie lich der verwendeten Modelltypen imputiert werden Kategoriale Einflussvariablen sind als Indicator Dummy kodiert Imputationsmethode Die Methode Automatisch scannt die Daten und verwendet die monotone Methode wenn die Daten ein monotones Muster fehlender Werte zeigen Anderenfalls wird die vollst ndig konditionale Spezifikation verwendet Wenn Sie sich sicher sind welche Methode Sie verwenden wollen k nnen Sie sie als eine Methode unter Benutzerdefiniert angeben m Vollst ndig konditionale Spezifikation Dies ist eine iterative Markov Chain Monte Carlo MCMC Methode die verwendet werden kann wenn das Muster fehlender Daten willk rlich monoton oder nicht monoton ist F r jede Iteration und jede Variable in der in der Variablenliste angegebenen Reihenfolge passt die Methode der vollst ndig konditionalen Spezifikation ein univariates einzelne abh ngige Variable Modell mit allen anderen Variablen im Modell als Einflussvariablen an und imputiert dann die fehlenden Werte f r die anzupassende Variable Die Methode wir fortgesetzt bis die maximale Zahl an Iterationen erreicht ist und die imputierten Werte in der maximalen Iteration werden in das imputierte Daten Set gespeichert 21 Multiple Imputation Maximale Anzahl der Iterationen Gibt die Anzahl der It
83. hungen werden f r jedes Paar gesondert berechnet Da andere fehlende Werte im Fall ignoriert werden sind die f r zwei Variablen berechneten Korrelationen und Kovarianzen nicht von Werten abh ngig die in anderen Variablen fehlen EM Methode Bei dieser Methode wird von einer Verteilung f r die teilweise fehlenden Daten ausgegangen und die Schlussfolgerungen Inferenzen beruhen auf der Likelihood bei dieser Verteilung Jede Iteration besteht aus einem E Schritt und einem M Schritt Im E Schritt wird die bedingte Erwartung der fehlenden Daten ermittelt die auf den beobachteten Werten und den aktuellen 9 Analyse fehlender Werte Sch tzern der Parameter beruht Anschlie end werden die fehlenden Daten durch diese Erwartungen ersetzt Im M Schritt werden Maximum Likelihood Sch tzer der Parameter so berechnet wie wenn die fehlenden Daten erg nzt worden w ren Fehlend steht in Anf hrungszeichen da die fehlenden Werte nicht direkt erg nzt werden Stattdessen werden bei der Log Likelihood Funktionen dieser Werte verwendet Die Chi Quadrat Statistik nach Roderick J A Little die dazu dient zu testen ob Werte in v llig zuf lliger Weise fehlen missing completely at random MCAR ist als Fu note zu den EM Matrizen abgedruckt Bei diesem Test besagt die Nullhypothese dass die Daten v llig zuf llig fehlen und der p Wert ist auf dem Niveau 0 05 signifikant Wenn der Wert weniger als 0 05 betr gt fehlen die Werte
84. i enth lt das County die Gemeinde und das Wohnviertel in dem sich die Immobilie befindet die seit der letzten Bewertung verstrichene Zeit sowie zu diesem Zeitpunkt ermittelten Wert property_assess_cs_sample sav Diese hypothetische Datendatei enth lt eine Stichprobe der in property_assess_cs sav aufgef hrten Immobilien Die Stichprobe wurde gem dem in der Plandatei property_assess csplan angegebenen Stichprobenplan gezogen und in dieser Datendatei sind die Einschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst Die zus tzliche Variable Current value Aktueller Wert wurde nach der Ziehung der Stichprobe erfasst und zur Datendatei hinzugef gt recidivism sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Strafverfolgungsbeh rde geht einen Einblick in die R ckfallraten in ihrem Zust ndigkeitsbereich zu gewinnen Jeder Fall entspricht einem fr hren Straft ter und erfasst Daten zu dessen demografischen Hintergrund einige Details zu seinem ersten Verbrechen sowie die Zeit bis zu seiner zweiten Festnahme sofern diese innerhalb von zwei Jahren nach der ersten Festnahme erfolgte recidivism_cs_sample sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Strafverfolgungsbeh rde geht einen Einblick in die R ckfallraten in ihrem Zust ndigkeitsbereich zu gewinnen Jeder Fall entspricht einem fr heren Straft ter der im Juni 2003 erst
85. ing Cox Regression Diese Prozedur unterst tzt gepooltes PMML m Die Tabelle Variablen in der Gleichung unterst tzt B bei univariatem Pooling m Die Tabelle Kovariate Mittelwerte unterst tzt Mittelwert bei naivem Pooling 34 Kapitel 3 Multiple Imputation Optionen Abbildung 3 13 Dialogfeld Optionen Registerkarte Multiple Imputationen Optionen amp r Markierung der imputierten Daten Hintergrundfarbe f r Zellen 9 Schriftart rAnalyseausgabe Ergebnisse f r beobachtete und imputierte Daten Ergebnisse nur f r beobachtete Daten Ergebnisse nur f r imputierte Daten Y Kombinierte Ergebnisse Diagnosestatistik Die Registerkarte Multiple Imputationen steuert zwei Arten von Voreinstellungen f r multiple Imputationen Erscheinungsbild imputierter Daten Standardm ig werden Zellen mit imputierten Daten mit einer anderen Hintergrundfarbe als Zellen mit nicht imputierten Daten angezeigt Das Erscheinungsbild der imputierten Daten sollte es Ihnen erleichtern durch ein Daten Set zu bl ttern und diese Zellen zu finden Sie k nnen die Standard Hintergrundfarbe f r die Zellen und die Schriftfamilie ndern und imputierte Daten fett darstellen Analyseausgabe Diese Gruppe steuert die Art der Viewer Ausgabe die erzeugt wird wenn ein multiples imputiertes Daten Set analysiert wird Standardm ig wird die Ausgabe f r das Original Daten Set vor der
86. ion f r die Vervollst ndigung und Analyse einer Daten Sets 49 Analyse der Muster fehlender Werte 2cocenaneeeeenenenenen nennen 49 Automatische Imputation fehlender Werte coconnnenenenenen nennen 53 Angepasstes Imputationsmodell 2n2nenenereneenenenen een 60 Pr fen auf FCS Konvergenz 2222 naanakan 68 Analyse vollst ndiger Daten ccceeeeeeeeeeeneeneeeneeneeneenennnn 32 AUSWERTUNG us sur nn aa a a nei ee he 83 Anh nge A Beispieldateien 84 B Hinweise 95 Index 98 vi Teil I Benutzerhandbuch Kapitel Missing Values Fehlende Werte Einleitung F lle mit fehlenden Werten stellen eine Herausforderung dar da typische Modellverfahren diese F lle einfach von der Analyse ausschlie en Wenn es wenige fehlende Werte grob gesch tzt weniger als 5 der Gesamtzahl an F llen gibt und diese Werte als zuf llig fehlend betrachtet werden also das Fehlen eines Werts nicht von anderen Werten abh ngt dann ist die typische Methode des listenweisen L schens relativ sicher Die Option Missing Values kann Ihnen helfen zu bestimmen ob das listenweise L schen ausreichend ist und bietet anderenfalls Methoden zur Handhabung fehlender Werte Die Analyse fehlender Werte im Vergleich zu Verfahren multipler Imputation Die Option Missing Values bietet zwei Arten von Verfahren f r die Handhabung fehlender Werte m Die Verfahren der Multiplen Imputation bie
87. itere drei Monate car_insurance_claims sav Ein an anderer Stelle vorgestelltes und analysiertes Daten Set bezieht sich auf Schadensanspr che f r Autos Die durchschnittliche H he der Schadensanspr che l sst sich mit Gamma Verteilung modellieren Dazu wird eine inverse Verkn pfungsfunktion verwendet um den Mittelwert der abh ngigen Variablen mit einer linearen Kombination aus Alter des Versicherungsnehmers Fahrzeugtyp und Fahrzeugalter in Bezug zu setzen Die Anzahl der eingereichten Schadensanspr che kann als Skalierungsgewicht verwendet werden car_sales sav Diese Datendatei enth lt hypothetische Verkaufssch tzer Listenpreise und physische Spezifikationen f r verschiedene Fahrzeugfabrikate und modelle Die Listenpreise und physischen Spezifikationen wurden von edmunds com und Hersteller Websites entnommen 86 Anhang A car_sales_uprepared sav Hierbei handelt es sich um eine modifizierte Version der Datei car_sales sav die keinerlei transformierte Versionen der Felder enth lt carpet sav In einem beliebten Beispiel m chte einen neuen Teppichreiniger vermarkten und dazu den Einfluss von f nf Faktoren auf die Bevorzugung durch den Verbraucher untersuchen Verpackungsgestaltung Markenname Preis G tesiegel Good Housekeeping und Geld zur ck Garantie Die Verpackungsgestaltung setzt sich aus drei Faktorenebenen zusammen die sich durch die Position der Auftrageb rste unterscheiden Au erdem gibt es drei Markennam
88. k nnen die Daten als Diagramm darstellen um die Beurteilung der Modellkonvergenz zu erleichtern F r weitere Informationen siehe Thema Pr fen auf FCS Konvergenz in Kapitel 5 auf S 68 Zus tzliche Funktionen beim Befehl MULTIPLE IMPUTATION Mit der Befehlssyntax k nnen Sie auch Folgendes m Geben Sie eine Untermenge von Variablen an f r die deskriptive Statistik angezeigt wird Unterbefehl IMPUTATIONSUMMARIES m Geben Sie eine Analyse fehlender Muster und Imputation in einem einzigen Lauf der Prozedur an m Geben Sie die maximale Anzahl an Modellparametern an die zul ssig sind wenn eine Variable imputiert wird Schl sselwort MAXMODELPARAM Siehe Befehlssyntaxreferenz f r die vollst ndigen Syntaxinformationen Arbeiten mit Daten aus multipler Imputation Wenn ein Daten Set multipler Imputation MI erstellt wird wird eine Variable mit dem Namen Imputation_ und dem Variablenlabel mputationszahl hinzugef gt und das Daten Set wird danach in aufsteigender Reihenfolge sortiert F lle aus dem Original Daten Set haben einen Wert von 0 F lle imputierter Werte sind von 1 bis M nummeriert wobei M die Zahl der Imputationen ist Wenn Sie ein Daten Set ffnen identifiziert das Vorhandensein der mputation_ das Daten Set als m gliches MI Daten Set Aktivieren eines Multiple Imputation Daten Sets f r die Analyse Das Daten Set muss mit der Option Gruppen vergleichen mit Imputation_ als Gruppierungsvariable aufgeteilt w
89. ksichtigen Bei der mehrfachen Regression kann die Verwendung einer gro en Untergruppe unabh ngiger Variablen zu schlechteren vorhergesagten Werten f hren als eine kleinere Untergruppe Daher 13 Analyse fehlender Werte muss eine Variable mindestens ein F f r die Aufnahme von 4 0 erreichen um verwendet zu werden Dieser Grenzwert kann ber die Syntax ge ndert werden So geben Sie vorhergesagte Variablen und Vorhersagevariablen Einflussvariahlen an W hlen Sie im Dialogfeld Analyse fehlender Werte die Variablen aus f r die fehlende Werte mithilfe der Regressionsmethode gesch tzt werden sollen Aktivieren Sie im Gruppenfeld Sch tzung die Option EM oder Regression Klicken Sie auf Variablen gt Wenn Sie nur bestimmte und nicht alle Variablen als vorhergesagte Variablen und Einflussvariablen verwenden m chten aktivieren Sie Variablen ausw hlen und verschieben Sie die Variablen in die entsprechende n Liste n Zus tzliche Funktionen beim Befehl MVA Mit der Befehlssyntax k nnen Sie auch Folgendes m Mit dem Schl sselwort DESCRIBE in den Unterbefehlen MPATTERN DPATTERN und TPATTERN k nnen Sie separate deskriptive Variablen f r Muster fehlender Werte Datenmuster und Muster in Tabellen festlegen m Mit dem Unterbefehl DPATTERN k nnen Sie mehrere Sortiervariablen f r die Tabelle der Datenmuster festlegen m Mit dem Unterbefehl DPATTERN k nne
90. llen ausw hlen Wir zeigen Muster in Tabellen gruppiert nach dem Muster fehlender Werte an Da die Muster fehlender Werte in ed Level of education Bildungsniveau retire Retired Ruhestandsstatus und gender Gender Geschlecht Einfluss auf die Daten zu haben schienen lassen wir weitere Informationen f r diese Variablen anzeigen Au erdem nehmen wir weitere Informationen f r income Household income in thousands Einkommen auf da diese Variable eine so gro e Anzahl fehlender Werte aufweist Aktivieren Sie die Option F lle in Tabellen gruppiert nach dem Muster fehlender Werte W hlen Sie income Einkommen ed Bildungsniveau retire Ruhestandsstatus und gender Geschlecht aus und f gen Sie sie zur Liste Zus tzliche Informationen f r hinzu Klicken Sie auf Weiter Klicken Sie im Hauptdialogfeld Analyse fehlender Werte auf die Schaltfl che OK 46 Kapitel 4 Evaluieren der Mustertabelle Abbildung 4 11 Tabelle Muster in Tabellen Retiremen Muster fehlender Werte EducationalLeveld tStatus Genderd PeoplelnHousehold MonthsWithService EducationalLevel RetirementStatus YearsWithErnployer MaritalStatus YearsAtAddress vollst ndig wenn E Kein High School Abschluss High School Abschluss College Besuch College Abschluss N N S o Q lt d F z T 8 2 5 E E g T g a z amp T c gt to n 76 5853 54 4368 56 0000 77 2167 47 8125 76 2353 54 1111
91. lwert bei univariatem Pooling und N bei naivem Pooling m Die Tabelle Test unterst tzt mittlere Differenz bei univariatem Pooling T Test bei unabh ngigen Stichproben m Die Tabelle Gruppenstatistik unterst tzt Mittelwert bei univariatem Pooling und N bei naivem Pooling m Die Tabelle Test unterst tzt mittlere Differenz bei univariatem Pooling T Test bei gepaarten Stichproben m Die Tabelle Statistik unterst tzt Mittelwerte bei univariatem Pooling und N bei naivem Pooling m Die Tabelle Korrelationen unterst tzt Korrelationen und N bei naivem Pooling m Die Tabelle Test unterst tzt Mittelwert bei univariatem Pooling Einfaktorielle ANOVA m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert bei univariatem Pooling und N bei naivem Pooling m Die Tabelle Kontrasttests unterst tzt Kontrastwert bei univariatem Pooling Lineare gemischte Modelle m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei naivem Pooling m Die Tabelle Sch tzungen fester Effekte unterst tzt Sch tzer bei univariatem Pooling m Die Tabelle Sch tzungen von Kovarianzparametern unterst tzt Sch tzer bei univariatem Pooling m Die Tabelle Gesch tzte Randmittel Sch tzungen unterst tzt Mittelwert bei univariatem Pooling m Die Tabelle Gesch tzte Randmittel Paarweise Vergleiche unterst tzt mittlere Differenz bei univariatem Pooling Verallg
92. m Bem hungen geht die Vorteile einer vorgeschlagenen Therapieform f r Schlaganfallpatienten zu ermitteln rzte teilten weibliche Schlaganfallpatienten nach dem Zufallsprinzip jeweils einer von zwei Gruppen zu Die erste Gruppe erhielt die physische Standardtherapie die zweite erhielt eine zus tzliche Emotionaltherapie Drei Monate nach den Behandlungen wurden die F higkeiten der einzelnen Patienten bliche Alltagsaktivit ten auszuf hren als ordinale Variablen bewertet m advert sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Einzelh ndlers geht die Beziehungen zwischen den in Werbung investierten Betr gen und den daraus resultierenden Ums tzen zu untersuchen Zu diesem Zweck hat er die Ums tze vergangener Jahre und die zugeh rigen Werbeausgaben zusammengestellt m aflatoxin sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Tests von Maisernten auf Aflatoxin geht ein Gift dessen Konzentration stark zwischen und innerhalb von Ernteertr gen schwankt Ein Kornverarbeitungsbetrieb hat aus 8 Ernteertr gen je 16 Proben erhalten und das Aflatoxinniveau in Teilen pro Milliarde parts per billion PPB gemessen m anorectic sav Bei der Ausarbeitung einer standardisierten Symptomatologie anorektischen bulimischen Verhaltens f hrten Forscher eine Studie mit 55 Jugendlichen mit bekannten Ess St rungen durch Jeder Patient wurde vier Mal ber einen Zeitraum vo
93. mals aus der Haft entlassen wurde und erfasst Daten zu dessen demografischen Hintergrund einige Details zu seinem ersten Verbrechen sowie die Daten zu seiner zweiten Festnahme sofern diese bis Ende Juni 2006 erfolgte Die Straft ter wurden aus per Stichprobenziehung ermittelten Polizeidirektionen ausgew hlt gem dem in recidivism_cs csplan angegebenen Stichprobenplan Da hierbei eine PPS Methode PPS probability proportional to size Wahrscheinlichkeit proportional zur Gr e verwendet wird gibt es au erdem eine Datei mit den gemeinsamen Auswahlwahrscheinlichkeiten recidivism_cs_jointprob sav rfm_transactions sav Eine hypothetische Datendatei mit Kauftransaktionsdaten wie Kaufdatum gekauften Artikeln und Geldbetrag f r jede Transaktion salesperformance sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bewertung von zwei neuen Verkaufsschulungen geht 60 Mitarbeiter die in drei Gruppen unterteilt sind erhalten jeweils eine Standardschulung Zus tzlich erh lt Gruppe 2 eine technische Schulung und Gruppe 3 eine Praxisschulung Die einzelnen Mitarbeiter wurden am Ende der Schulung einem Test unterzogen und die erzielten Punkte wurden erfasst Jeder Fall in der Datendatei stellt einen Lehrgangsteilnehmer dar und enth lt die Gruppe der der Lehrgangsteilnehmer zugeteilt wurde sowie die von ihm in der Pr fung erreichte Punktzahl satisf sav Hierbei handelt es sich um eine hypothetische Datendatei zu einer
94. mit Fehlende Werte ersetzen erstellen werden Markierungen standardm ig eingeschaltet Wenn Sie eine gespeicherte Datendatei ffnen die Imputationen enth lt werden Markierungen ausgeschaltet 27 Multiple Imputation Abbildung 3 8 Daten Editor mit Imputationsmarkierungen AUS Datei Bearbeiten Ansicht Daten Transformieren Analysieren Diagramme Extras Fenster Hilfe Sichtbar 32 von 32 Variablen Originaldaten B Yariablenansicht Prozessor ist bereit Aufteilen nach Imputstion_ Um die Markierungen einzuschalten w hlen Sie aus den Men s im Daten Editor Ansicht gt Imputierte Daten markieren Abbildung 3 9 Daten Editor mit Imputationsmarkierungen EIN Transformieren Analysieren Diagramme Extras Fenster Hilfe Ser 22 vonzevarten E ee Variablenansicht Prozessor ist bereit Aufteilen nach Imputstion_ Alternativ k nnen Sie Markierungen einschalten indem Sie in der Datenansicht des Daten Editors auf die Schaltfl che zur Imputationsmarkierung rechts in der Bearbeitungsleiste klicken Wechseln zwischen Imputationen W hlen Sie die folgenden Befehle aus den Men s aus Bearbeiten gt Gehe zu Imputation gt W hlen Sie die Imputation oder die Originaldaten aus der Dropdown Liste 28 Kapitel 3 Abbildung 3 10 Dialogfeld Gehe zu Alternativ k nnen Sie in der Datenansicht des Daten Editors die Impu
95. n Sie herk mmliche PASYY Statistics Analyseverfahren verwenden die mit dem Symbol markiert sind um Ihre Daten zu analysieren Eine vollst ndige Liste der unterst tzten Analyseverfahren finden Sie in der Hilfe W hlen Sie Months with service tenure Besch ftigungsdauer bis Number of people in household reside Haushaltsgr e als Variablen im Imputationsmodell aus gt Geben Sie telcolmputed als Daten Set an in das die imputierten Daten gespeichert werden sollen Klicken Sie auf die Registerkarte Ausgabe 56 Kapitel 5 Abbildung 5 8 Registerkarte Ausgabe FF Fehlende Datenwerte imputieren X rAnzeige V Imputstionsmodell Fi Beschreibende Statistiken f r Variablen mit imputierten Werten riterationsprotokoll kterationsprotokoll erstellen amp Neues Daten Set erstellen Daten Set Name In neue Datendatei schreiben W hlen Sie Deskriptive Statistik f r Variablen mit imputierten Werten Klicken Sie auf OK Imputationsspezifikationen Abbildung 5 9 Imputationsspezifikationen Imputationsmethode Automatisch Anzahl an Imputationen Modell f r metrische Lineare Regression In Modellen enthaltene ohne Maximaler Prozentsatz Die Tabelle Imputationsspezifikationen gibt eine n tzliche bersicht mit der Sie sicherstellen k nnen dass die Angaben richtig waren 57 Imputationsergebnisse Abbildu
96. n Sie mehrere Sortiervariablen f r die Datenmuster festlegen Mit dem Unterbefehl EM k nnen Sie die Toleranz und Konvergenz festlegen Mit dem Unterbefehl REGRESSION k nnen Sie die Toleranz und den F Wert f r die Aufnahme festlegen m Mit den Unterbefehlen EM und REGRESSION k nnen Sie verschiedene Variablenlisten f r das EM Verfahren und die Regression festlegen m F r TTESTS TABULATE und MISMATCH k nnen Sie unterschiedliche Prozents tze f r das Unterdr cken von angezeigten F llen festlegen Siehe Befehlssyntaxreferenz f r die vollst ndigen Syntaxinformationen Kapitel 3 Multiple Imputation Der Zweck der multiplen Imputation ist die Erzeugung m glicher Werte f r fehlende Werte um so verschiedene vollst ndige Sets an Daten zu erzeugen Analyseverfahren die mit Datensets aus multipler Imputation arbeiten erzeugen Ausgaben f r jedes vollst ndige Daten Set sowie eine gemeinsame Ausgabe die sch tzt welche Ergebnisse entstanden w ren wenn das Original Daten Set keine fehlenden Werte besitzen w rde Diese gemeinsamen Ergebnisse sind in der Regel genauer als die die durch einfache Imputationsmethoden entstehen Analysevariablen Die Analysevariablen k nnen wie folgt gestaltet sein m Nominal Eine Variable kann als nominal behandelt werden wenn ihre Kategorien sich nicht in eine nat rliche Reihenfolge bringen lassen z B die Firmenabteilung in der eine P
97. n income als numerischen Ausdruck ein Funktionsguppe Alle Arithmetisch Yerteilungsfunktionen Umwandlung Aktuelles Datumsaktuelle Uhr Funktionen und Sondervariablen US L ent gen _ Zur etetzen _Abtrechen ime 61 Multiple Imputation gt Klicken Sie auf Typ amp Label Abbildung 5 16 Typ und Label Dialogfeld A Variable berechnen Typ und Label X Ausdruck als Label verwenden Yariablenlabel Typ Numerisch String Breite g gt Geben Sie Log of income als Label an Klicken Sie auf Weiter Klicken Sie im Dialogfeld Variable berechnen auf OK 62 Kapitel 5 Abbildung 5 17 Registerkarte Variablen mit Log of income als Ersatz f r Household income in thousands im Imputationsmodell Fehlende Datenwerte imputieren Variablen Variablen im Modell RETTET TREE F 3 wort amp Imputationsnummer Imputstion_ L Jahre wohnhaft an gleicher Adre L Einkommen income JM Ausbildung Educationallevel 8 Jahre beim gleichen Arbeitgeber b Ruhestand RetirementStatus amp Geschlecht Gender E Personen im Haushalt PeoplelnHo Log of income inc Analysegewichtung amp TE o Imputationen u Ort der imputierten Daten Neues Daten Set erstellen Daten Set Name telcolmputed In neue Datendatei schreiben Durchsuchen i Generierung eines Daten Sets mit den imputierten Werten k nnen Sie herk mmliche PAS
98. n vier Jahren untersucht es fanden also insgesamt 220 Beobachtungen statt Bei jeder Beobachtung erhielten die Patienten Scores f r jedes von 16 Symptomen Die Symptomwerte fehlen f r Copyright IBM Corporation 1989 2011 84 85 Beispieldateien Patient 71 zum Zeitpunkt 2 Patient 76 zum Zeitpunkt 2 und Patient 47 zum Zeitpunkt 3 wodurch 217 g ltige Beobachtungen verbleiben bankloan sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Bank geht den Anteil der nicht zur ckgezahlten Kredite zu reduzieren Die Datei enth lt Informationen zum Finanzstatus und demografischen Hintergrund von 850 fr heren und potenziellen Kunden Bei den ersten 700 F llen handelt es sich um Kunden denen bereits ein Kredit gew hrt wurde Bei den letzten 150 F llen handelt es sich um potenzielle Kunden deren Kreditrisiko die Bank als gering oder hoch einstufen m chte bankloan_binning sav Hierbei handelt es sich um eine hypothetische Datendatei die Informationen zum Finanzstatus und demografischen Hintergrund von 5 000 fr heren Kunden enth lt behavior sav In einem klassischen Beispiel wurden 52 Sch ler Studenten gebeten die Kombinationen aus 15 Situationen und 15 Verhaltensweisen auf einer 10 Punkte Skala von 0 ausgesprochen angemessen bis 9 ausgesprochen unangemessen zu bewerten Die Werte werden ber die einzelnen Personen gemittelt und als Un hnlichkeiten verwendet be
99. na nanan 11 Vorhergesagte Variablen und Vorhersagevariablen Einflussvariablen 12 Zus tzliche Funktionen beim BefehlMVA 2 2 uneneneeereeen nennen 13 3 Multiple Imputation 14 Muster analysieren 2 2 c2consneeneneneneneneeneneeeee nennen 15 Fehlende Datenwerte ersetzen n n nannan 17 Methode siai aa nen en an a aR a E A ne E ee 20 Nebenbedingungen acre acesi tarendenrias nri drida tardi dri trirt itirdi aah 22 A sgabe ceiro norost nenieca a aE en a eh ee R Ei a E 24 Zus tzliche Funktionen beim Befehl MULTIPLE IMPUTATION 2 222222 nenaran 25 Arbeiten mit Daten aus multipler Imputation 2 22 ceseeereeer nennen nenn 25 Analysieren von Daten multipler Imputation 22oeseeeeeeer een renen nn 29 Multiple Imputation Optionen 2 22 2nsnenenenenneneneeeeeen nennen en 34 Teil Il Beispiele 4 Analyse fehlender Werte 37 Beschreiben des Musters fehlender Daten nananana 37 Durchf hren der Analyse zur Anzeige deskriptiver Statistiken naana 37 Evaluieren der deskriptiven Statistiken 2 2 oc aae 38 Erneute Durchf hrung der Analyse zur Anzeige von Mustern 22cceeeeeeeeen 44 Evaluieren der Mustertabelle c2coneneneneneenenereenen nennen en 46 Erneute Durchf hrung der Analyse f r den MCAR Test nach Little c220 47 5 Multiple Imputation 49 Verwendung von multipler Imputat
100. neigung von 0 bis 100 werden auf die Kunden angewendet Kunden mit einem Score von 50 oder h her streben vermutlich einen Anbieterwechsel an ceramics sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Herstellers geht der ermitteln m chte ob ein neue hochwertige Keramiklegierung eine gr ere Hitzebest ndigkeit aufweist als eine Standardlegierung Jeder Fall entspricht einem Test einer der Legierungen die Temperatur bei der das Keramikw lzlager versagte wurde erfasst cereal sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Umfrage geht bei der 880 Personen nach ihren Fr hst ckgewohnheiten befragt wurden Au erdem wurden Alter Geschlecht Familienstand und Vorliegen bzw Nichtvorliegen eines aktiven Lebensstils auf der Grundlage von mindestens zwei Trainingseinheiten pro Woche erfasst Jeder Fall entspricht einem Teilnehmer clothing_defects sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Bekleidungsfabrik geht Aus jeder in der Fabrik produzierten Charge entnehmen die Kontrolleure eine Stichprobe an Bekleidungsartikeln und z hlen die Anzahl der Bekleidungsartikel die inakzeptabel sind coffee sav Diese Datendatei enth lt Daten zum wahrgenommenen Image von sechs Eiskaffeemarken Bei den 23 Attributen des Eiskaffee Image sollten die Teilnehmer jeweils alle Marken ausw hlen die durch
101. ng 2 6 Dialogfeld Analyse fehlender Werte Variablen f r EM und Regression EH Analyse fehlender Werte Variablen f r EM und Regression r variablen Alle quantitativen Variablen verwenden variablen ausw hlen Quantitative Variablen Months WithService Age YearsAt Address YearsWithEmployer PeoplelnHousehold vVorhergesagte Variablen Beide Einflussvariablen m Standardm ig werden alle quantitativen Variablen f r EM und Regressionssch tzung verwendet Falls erforderlich k nnen Sie bestimmte Variablen als vorhergesagte Variablen bzw Einflussvariablen in den Sch tzungen ausw hlen Eine Variable kann prinzipiell in beiden Listen enthalten sein es gibt jedoch Situationen in denen es sinnvoll ist die Verwendung einer Variablen einzuschr nken So vermeiden es einige Analytiker die Werte von Ergebnisvariablen zu sch tzen Au erdem kann es sinnvoll sein f r verschiedene Sch tzungen auch unterschiedliche Variablen zu verwenden und die Prozedur mehrmals auszuf hren Wenn Ihnen beispielsweise ein Set von Items vorliegt bei denen es sich um die Bewertungen des Pflegepersonals handelt und ein weiteres Set mit den Bewertungen der rzteschaft kann es sinnvoll sein eine Ausf hrung zur Sch tzung der fehlenden Items f r das Pflegepersonal und eine weitere Ausf hrung f r die Sch tzer der Items der rzteschaft durchzuf hren Bei Verwendung der Regressionsmethode ist noch ein weiterer Faktor zu ber c
102. ng 5 10 Imputationsergebnisse Imputationsmethode Iterationen der vollst ndig konditionalen Spezifikationsmethode Abh ngige Variablen Imputiert Nicht imputiert zu viele fehlende Werte Nicht imputiert keine fehlenden Werte Imputationssequenz Multiple Imputation Vollst ndig konditionale Spezifikation Months YyithService Age MaritalStatus YearsAtAddress Income EducationalLevel YearsWithEmployer RetirementStatus Gender PeoplelnHousehold Age MonthsWithService PeoplelnHousehold Educationallevel Gender RetirementStatus YearswWithEmployer MaritalStatus YearsAtAddress Income Die Imputationsergebnisse geben einen berblick dessen was w hrend des Imputationsvorgangs tats chlich geschieht Beachten Sie insb esondere Folgendes m Die Imputationsmethode in der Spezifikationentabelle war Automatisch und die von der automatischen Methodenauswahl gew hlten Methode war Vollst ndig konditionale Spezifikation Alle angeforderten Variablen wurden imputiert Die Imputationssequenz ist die Reihenfolge in der die Variablen auf der x Achse im Diagramm Muster fehlender Werte Imputationsmodelle Abbildung 5 11 Imputationsmodelle erscheinen EEE Be en se S Fehlende wert Imputert Werte Age in years Lineare Regression Months with service Lineare Regression Number of people in Lineare Regression household Level of education Logistische Regression Gender Logistische Regression
103. nischen Support wenden wenn sie Hilfe bei der Arbeit mit den Produkten von IBM Corp oder bei der Installation in einer der unterst tzten Hardware Umgebungen ben tigen Zur Kontaktaufnahme mit dem technischen Support besuchen Sie die Website von IBM Corp unter hitp www ibm com support Wenn Sie Hilfe anfordern halten Sie bitte Informationen bereit um sich Ihre Organisation und Ihren Supportvertrag zu identifizieren Technischer Support f r Studenten Wenn Sie in der Ausbildung eine Studenten Bildungs oder Grad Pack Version eines IBM SPSS Softwareprodukts verwenden informieren Sie sich auf unseren speziellen Online Seiten f r Studenten zu L sungen f r den Bildungsbereich Attp www ibm com spss rd students Wenn Sie in der Ausbildung eine von der Bildungsst tte gestellte Version der IBM SPSS Software verwenden wenden Sie sich an den IBM SPSS Produktkoordinator an Ihrer Bildungsst tte Copyright IBM Corporation 1989 2011 iii Kundendienst Bei Fragen bez glich der Lieferung oder Ihres Kundenkontos wenden Sie sich bitte an Ihre lokale Niederlassung Halten Sie bitte stets Ihre Seriennummer bereit Ausbildungsseminare Weitere IBM Corp bietet ffentliche und unternehmensinterne Seminare an Alle Seminare beinhalten auch praktische bungen Seminare finden in gr eren St dten regelm ig statt Weitere Informationen zu diesen Seminaren finden Sie unter http www ibm com software analytics spss training Ver ff
104. nlichkeit darauf ansprechen Nach dem Zufallsprinzip wurde eine Untergruppe des Kundenstamms ausgew hlt Diese Gruppe erhielt die speziellen Angebote und die Reaktionen wurden aufgezeichnet customer_information sav Eine hypothetische Datendatei mit Kundenmailingdaten wie Name und Adresse customer_subset sav Eine Teilmenge von 80 F llen aus der Datei customer_dbase sav debate sav Hierbei handelt es sich um eine hypothetische Datendatei die gepaarte Antworten auf eine Umfrage unter den Zuh rern einer politischen Debatte enth lt Antworten vor und nach der Debatte Jeder Fall entspricht einem Befragten debate_aggregate sav Hierbei handelt es sich um eine hypothetische Datendatei in der die Antworten aus debate sav aggregiert wurden Jeder Fall entspricht einer Kreuzklassifikation der bevorzugten Politiker vor und nach der Debatte demo sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Kundendatenbank geht die zum Zwecke der Zusendung monatlicher Angebote erworben wurde Neben verschiedenen demografischen Informationen ist erfasst ob der Kunde auf das Angebot geantwortet hat demo_cs_1 sav Hierbei handelt es sich um eine hypothetische Datendatei f r den ersten Schritt eines Unternehmens das eine Datenbank mit Umfrageinformationen zusammenstellen m chte Jeder Fall entspricht einer anderen Stadt Au erdem sind IDs f r Region Provinz Landkreis und Stadt erfasst demo_cs_2 sav Hierbei handelt
105. onfidenzintervall und die Pooling Diagnose Bruchteil der fehlenden Informationen relative Effizienz relativer Anstieg der Varianz werden wenn verf gbar angezeigt Koeffizienten Regression und Korrelation Mittelwerte und mittlere Differenzen und H ufigkeiten werden typischerweise in Pools zusammengefasst Wenn der Standardfehler der Statistik verf gbar ist wird das univariate Pooling verwendet andernfalls das naive Pooling Prozeduren die Pooling unterst tzen Die folgenden Prozeduren unterst tzen MI Daten Sets mit den f r jeden Ausgabeteil angegebenen Poolingstufen H ufigkeiten m Die Statistik Tabelle unterst tzt Mittelwerte bei univariatem Pooling wenn auch der Standardfehler des Mittelwerts angefordert wird und G ltiges N und Fehlendes N bei naivem Pooling m Die Tabelle H ufigkeiten unterst tzt H ufigkeit bei naivem Pooling Deskriptive Statistik m Die Tabelle Deskriptive Statistiken unterst tzt Mittelwerte bei univariatem Pooling wenn auch der Standardfehler des Mittelwerts angefordert wird und N bei naivem Pooling Kreuztabellen m Die Tabelle Kreuztabelle unterst tzt Anzahl bei naivem Pooling Mittelwerte m Die Tabelle Bericht unterst tzt Mittelwerte bei univariatem Pooling wenn auch der Standardfehler des Mittelwerts angefordert wird und N bei naivem Pooling T Test bei einer Stichprobe 31 Multiple Imputation m Die Tabelle Statistik unterst tzt Mitte
106. ood Kette einen neuen Artikel in ihr Men aufzunehmen Es gibt drei m gliche Kampagnen zur Verkaufsf rderung f r das neue Produkt Daher wird der neue Artikel in Filialen in mehreren zuf llig ausgew hlten M rkten eingef hrt An jedem Standort wird eine andere Form der Verkaufsf rderung verwendet und die w chentlichen Verkaufszahlen f r das neue Produkt werden f r die ersten vier Wochen aufgezeichnet Jeder Fall entspricht einer Standort Woche testmarket_1month sav Bei dieser hypothetischen Datendatei handelt es sich um die Datendatei testmarket sav wobei die w chentlichen Verkaufszahlen zusammengefasst sind sodass jeder Fall einem Standort entspricht Dadurch entfallen einige der Variablen die w chentlichen nderungen unterworfen waren und die verzeichneten Verkaufszahlen sind nun die Summe der Verkaufszahlen w hrend der vier Wochen der Studie tree_car sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zum Kaufpreis von Fahrzeugen enth lt tree_credit sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zu fr heren Bankkrediten enth lt tree_missing_data sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zu fr heren Bankkrediten enth lt und eine gro e Anzahl fehlender Werte aufweist tree_score_car sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische D
107. r 9 Ater Age E Jahre wohnhaft an glei Sch tzung 8 Jahre beim gleichen Ar Personen im Haushalt H Listenweise E Paarweise Kategoriale variablen 6 Familienstand MaritalS Em ll Ausbildung Education 7 Regression amp 5 Ruhestand Retirement Geschlecht Gender Maximalzahl der Kategorien Fallbeschriftungen Rufen Sie das Dialogfeld Analyse fehlender Werte wieder auf Das Dialogfeld bernimmt die in der vorherigen Analyse verwendeten Variablen ndern Sie dies nicht Klicken Sie auf Muster 45 Analyse fehlender Werte Abbildung 4 10 Dialogfeld Analyse fehlender Werte Muster i Analyse fehlender Werte Muster r nzeige F F lle in Tabellen gruppiert nach dem Muster fehlender Werte Muster weglassen die bei weniger als der F lle auftreten Fi variablen sortieren nach dem Muster fehlender Werte _ F lle mit fehlenden Werten sortiert nach dem Muster fehlender Werte Alle F lle wahlweise sortiert nach der ausgew hlten Variablen r Variablen Muster fehlender Werte f r Zus tzliche Informationen f r Months WithService YearsAt ddress Age e EducationalLevel YearsAtAddress RetirementStatus YearsWithEmployer Gender PeoplelnHousehold Ba WE EducstionalLevel ES RetirementStatus Sortierreihenfolge Gender Im Dialogfeld Muster k nnen Sie verschiedene Mustertabe
108. r mit den Originaldaten berechnet wurde unterscheidet Wenn Sie einen imputierten Wert in einer Zelle des Daten Editors bearbeiten wird die Zelle immer noch als imputiert behandelt Es wird nicht empfohlen imputierte Werte auf diese Weise zu bearbeiten Analysieren von Daten multipler Imputation Viele Prozeduren unterst tzen das Pooling von Ergebnissen aus Analysen multipler imputierter Daten Sets Wenn Imputationsmarkierungen eingeschaltet sind wird ein Spezialsymbol neben den Prozeduren angezeigt die Pooling unterst tzen Im Untermen Deskriptive Statistik des Men s Analysieren zum Beispiel unterst tzen H ufigkeiten Deskriptive Statistik Explorative Datenanalyse und Kreuztabellen Pooling w hrend Verh ltnisskala P P Diagramme und Q Q Diagramme kein Pooling unterst tzen Abbildung 3 12 Men Analysieren mit Imputationsmarkierungen EIN Analysieren Diagramme Extras Fenster Hilfe Berichte Deskriptive Statistiken Tabellen Fo H ufigkeiten Fo Deskriptive Statistik K Explorative Datenanalyse K Kreuztabellen Verh ltnis P P Diagramme 9 Q G Diagramme RFM Analyse Mittelwerte vergleichen Allgemeines lineares Modell Yerallgemeinerte lineare Modelle Gemischte Modelle Korrelation Regression Loglinear Neuronale Netze Klassifizieren Dimensionsreduzierung Skalierung Nichtparametrische Tests Zeitreihen
109. ragene Marken der Intel Corporation oder der Tochtergesellschaften des Unternehmens in den USA und anderen L ndern Java und alle Java basierten Marken sowie Logos sind Marken von Sun Microsystems Inc in den USA anderen L ndern oder beidem 97 Hinweise Linux ist eine eingetragene Marke von Linus Torvalds in den USA anderen L ndern oder beidem Microsoft Windows Windows NT und das Windows Logo sind Marken der Microsoft Corporation in den USA anderen L ndern oder beidem UNIX ist eine eingetragene Marke der The Open Group in den USA und anderen L ndern In diesem Produkt wird WinWrap Basic verwendet Copyright 1993 2007 Polar Engineering and Consulting http www winwrap com Andere Produkt und Servicenamen k nnen Marken von IBM oder anderen Unternehmen sein Screenshots von Adobe Produkten werden mit Genehmigung von Adobe Systems Incorporated abgedruckt Screenshots von Microsoft Produkten werden mit Genehmigung der Microsoft Corporation abgedruckt Dwwane t Analyse fehlender Werte 2 37 Deskriptive Statistik 37 Deskriptive Statistiken 7 EM 9 Erwartungs Maximierung 12 Imputieren fehlender Werte 8 MCAR Test 9 Methoden 8 Muster 5 44 Regression 11 Sch tzen von Statistiken 8 zus tzliche Funktionen beim Befehl 13 Beispieldateien Speicherort 84 EM in Analyse fehlender Werte 9 F lle in Tabellen in Analyse fehlender Werte 5 FCS Konvergenzdiagramm bei multipler Imput
110. rhersageanalyse Finanz und Strategiemanagement sowie Analyseanwendungen bietet Ihnen sofort klare und umsetzbare Einblicke in die aktuelle Leistung und gibt Ihnen die M glichkeit zuk nftige Ergebnisse vorherzusagen Durch umfassende Branchenl sungen bew hrte Vorgehensweisen und professionellen Service k nnen Unternehmen jeder Gr e die Produktivit t maximieren Entscheidungen automatisieren und bessere Ergebnisse erzielen Als Teil dieses Portfolios unterst tzt IBM SPSS Predictive Analytics Software Unternehmen dabei zuk nftige Ereignisse vorherzusagen und proaktiv Ma nahmen zu ergreifen um bessere Gesch ftsergebnisse zu erzielen Kunden aus Wirtschaft ffentlichem Dienst und dem Bildungsbereich weltweit nutzen IBM SPSS Technologie als Wettbewerbsvorteil f r Kundengewinnung Kundenbindung und Erh hung der Kundenums tze bei gleichzeitiger Eind mmung der Betrugsm glichkeiten und Minderung von Risiken Durch die Einbindung von IBM SPSS Software in ihre t glichen Operationen wandeln sich Organisationen zu Predictive Enterprises die Entscheidungen auf Gesch ftsziele ausrichten und automatisieren und einen messbaren Wettbewerbsvorteil erzielen k nnen Wenn Sie weitere Informationen w nschen oder Kontakt zu einem Mitarbeiter aufnehmen m chten besuchen Sie die Seite http fwww ibm com spss Technischer Support Kunden mit Wartungsvertrag k nnen den technischen Support in Anspruch nehmen Kunden k nnen sich an den Tech
111. rialer und Indikatorvariablen variablen weglassen die in weniger als der F lle fehlen Ce anne im Im Dialogfeld Deskriptive Statistik k nnen Sie verschiedene deskriptive Statistiken angeben die in der Ausgabe angezeigt werden sollen Mit den standardm ig aktivierten univariaten Statistiken k nnen Sie das allgemeine Ausma der fehlenden Daten ermitteln die Statistiken mit Indikatorvariablen bieten jedoch mehr Informationen dar ber wie das Muster der fehlenden Daten in einer Variablen die Werte einer anderen Variablen beeinflussen kann Aktivieren Sie die Option T Test f r Gruppen die durch Indikatorvariablen gebildet werden gt Aktivieren Sie die Option Kreuztabellen kategorialer und Indikatorvariablen Klicken Sie auf Weiter gt Klicken Sie im Hauptdialogfeld Analyse fehlender Werte auf die Schaltfl che OK Evaluieren der deskriptiven Statistiken In diesem Beispiel beinhalten die Ausgabe folgende Elemente m Univariate Statistiken m Tabelle der 7 Tests bei unterschiedlicher Varianz einschlie lich der Untergruppenmittelwerte wenn eine weitere Variable vorliegt oder fehlt m Tabellen f r jede kategoriale Variable die die H ufigkeiten der fehlenden Daten f r die einzelnen Kategorien in Abh ngigkeit von den einzelnen quantitativen metrischen Variablen anzeigt 39 Analyse fehlender Werte Abbildung 4 3 Tabelle f r univariate Statistiken Fehlend Anzahl der Extremwe
112. rlich beschr nkt sein k nnen z B muss die Anzahl der Personen in einem Haushalt eine Ganzzahl sein und der in einem Gesch ft ausgegebene Betrag kann keine Bruchteile von Cents umfassen In dieser Spalte kann die kleinste zul ssige St ckelung festgelegt werden Beispiel Um ganzzahlige Werte zu erhalten geben Sie 1 als Rundungswert an um Werte auf den n chsten Cent zu runden geben Sie 0 01 an Im Allgemeinen werden Werte auf das n chste ganzzahlige Vielfache des angegebenen Rundungswerts gerundet Die folgende Tabelle zeigt wie sich unterschiedliche Rundungswerte auf den imputierten Wert 6 64823 vor der Rundung auswirken Rundungswert Wert auf den 6 64832 gerundet wird 10 10 1 7 0 25 6 75 0 1 6 6 0 01 6 65 Variablen mit gro en Mengen an fehlenden Daten ausschlie en Normalerweise werden Analysevariablen imputiert und als Einflussvariablen verwendet unabh ngig davon wie viele fehlende Werte sie besitzen vorausgesetzt sie haben ausreichend Daten um ein Imputationsmodell zu sch tzen Sie k nnen Variablen ausschlie en die einen hohen Prozentsatz an fehlenden Werten haben Wenn Sie zum Beispiel 50 als Maximaler Prozentsatz fehlend angeben werden Analysevariablen bei denen mehr als 50 der Werte fehlen nicht imputiert und sie werden auch nicht als Einflussvariablen bei Imputationsmodellen verwendet Maximale Ziehungen Wenn Minimum oder Maximumwerte f r imputierte W
113. rsch tzer Imputationsn Originaldaten Datei Bearbeiten E senice en Plus service Ansicht Einf gen Pivot Format Hilfe Direkthilfe Kons empl maril marif Ausschneiden Kopieren Einf gen L schen ed 1 ed 2 Beschriftung f r Dimension ausblenden Diagramm erstellen ed d ed 5 Kons empl marit marit Tabelleneigenschaften Zelleneigenschaften Tabellenvorlagen Fu note einf gen Fu noten l schen Fu noten ausblenden ed 1 ed 2 ed 3 ed 4 ed 5 address Pivot Leisten Symbolleiste Parametersch a 2 2 20 oo gt 2 20 b Aktivieren doppelklicken Sie die Tabelle und w hlen Sie dann Pivot Leisten aus dem Kontextmen 79 Multiple Imputation Abbildung 5 36 Gemeinsame Parametersch tzer Datei Bearbeiten Ansicht Einf gen Pivot Format Hilfe Parametersch tzer Imputationsnummer Originaldaten rs Pivot Leisten Imputationsnummer Statistik marital 0 marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 adress SCHICHT Plus service Konstanter Term employ marital 0 marital 1 ed 1 SPALTE H Customer catego r Parameter Verschieben Sie die I mputationsnummer von der Zeile in die Schicht W hlen Sie aus der Dropdown Liste f r Imputationsnummer Gemeinsam aus 80 Kapitel 5 Abbildung 5 37 Gemeinsame Parametersch tzer mpu
114. rst tzt Mittelwert und N bei naivem Pooling m Die Tabelle Korrelationen unterst tzt Korrelationen und N bei naivem Pooling m Die Tabelle Koeffizienten unterst tzt B bei univariatem Pooling und Korrelationen bei naivem Pooling m Die Tabelle Korrelationskoeffizienten unterst tzt Korrelationen bei naivem Pooling m Die Tabelle Residuenstatistik unterst tzt Mittelwert und N bei naivem Pooling Bin re logistische Regression Diese Prozedur unterst tzt gepooltes PMML m Die Tabelle Variablen in der Gleichung unterst tzt B bei univariatem Pooling Multinomiale logistische Regression Diese Prozedur unterst tzt gepooltes PMML m Die Tabelle Parametersch tzer unterst tzt den Koeffizienten B bei univariatem Pooling Ordinale Regression m Die Tabelle Parametersch tzer unterst tzt den Koeffizienten B bei univariatem Pooling Diskriminanzanalyse Diese Prozedur unterst tzt gepooltes Modell XML m Die Tabelle Gruppenstatistik unterst tzt Mittelwert und G ltiges N bei naivem Pooling m Die Tabelle Gepoolt innerhalb von Gruppenmatrizen unterst tzt Korrelationen bei naivem Pooling m Die Tabelle Kanonische Diskriminanzfunktionskoeffizienten unterst tzt nicht standardisierte Koeffizienten bei naivem Pooling m Die Tabelle Funktionen bei Gruppen Mittelpunkten unterst tzt nicht standardisierte Koeffizienten bei naivem Pooling m Die Tabelle Klassifizierungsfunk
115. rte Abbildung 4 5 Kreuztabelle f r Marital status marital Fehlend Unyerheiratet verheiratet address Vorhanden Anzahl Prozent Fehlend SysMis income Yorhanden Anzahl Prozent Fehlend SysMis vorhanden Anzahl Prozent Fehlend SysMis retire vorhanden Anzahl Prozent Fehlend SvsMis Die Kreuztabelle kategorialer Variablen gegen ber Indikatorvariablen zeigt hnliche Informationen an wie die Tabelle 7 Tests bei unterschiedlicher Varianz Es werden erneut Indikatorvariablen erstellt allerdings werden sie diesmal zur Berechnung der H ufigkeiten in jeder Kategorie f r jede einzelne kategoriale Variable verwendet Anhand dieser Werte k nnen Sie bestimmen ob zwischen den verschiedenen Kategorien Unterschiede bei den fehlenden Werten vorliegen Wenn wir die Tabelle marital Marital status Familienstand betrachten scheint die Anzahl der fehlenden Werte in den Indikatorvariablen nicht sonderlich stark zwischen den Kategorien von marital zu schwanken Ob eine Person verheiratet ist oder nicht scheint keine Auswirkungen darauf zu haben ob Daten f r irgendwelche quantitativen metrischen Variablen fehlen So machten beispielsweise unverheiratete Personen in 85 5 der F lle Angaben zu address Years at current a ddress Wohnhaft an gleicher Adresse in Jahren und verheiratete Personen in 83 4 der F lle Die Differenz ist minimal und wahrscheinlich zufallsbedingt 42 Kapitel 4 Abbildung 4 6
116. rte N Mittelwert eichung Anzahl Prozent Niedrig Hoch tenure 35 56 21 268 age 41 75 12 573 address 11 47 9 965 income 71 1462 83 14424 employ 11 00 10 113 reside 2 32 1 431 marital ed retire gender a Anzahl der F lle au erhalb des Bereichs Q1 1 5 IQR 93 1 5 IQR Die univariaten Statistiken bieten einen ersten Einblick f r jede Variable gesondert in das Ausma der fehlenden Daten Die Anzahl der nichtfehlenden Werte f r die einzelnen Variablen wird in der Spalte N und die Anzahl der fehlenden Werte wird in der Spalte Fehlend Anzahl angezeigt In der Spalte Fehlend Prozent wird der Prozentsatz der F lle mit fehlenden Werten angezeigt Dieser Wert stellt ein gutes Ma f r den Vergleich des Ausma es der fehlenden Daten zwischen den verschiedenen Variablen dar income Household income in thousands Einkommen weist die h chste Anzahl von F llen mit fehlenden Werten 17 9 auf age Age in years Alter die geringste 2 5 Income Einkommen weist auch die h chste Anzahl an Extremwerten auf 40 Kapitel 4 Abbildung 4 4 T Tests bei unterschiedlicher Varianz MonthsWithService YearsAtAddress YearsWithEmployer PeoplelnHousehold t k 5 g 35 5 df 313 6 Anzahl vorhanden 693 3 Anzahl fehlend 128 Mittelwert Vorhanden 74 0779 Mittelwert Fehlend 55 2734 t df A Anzahl vorhanden 82 Anzahl fehlend 0 Mittelwert Vorhanden 71 1462 Mittelwert Fehlend t 1 gt 3 5
117. s at current address 150 15 0 850 11 47 9 965 Marital status 115 11 5 885 Die Variablenzusammenfassung wird f r Variablen mit mindestens 10 fehlenden Werte angezeigt und zeigt die Anzahl und den Prozentsatz fehlender Werte f r jede Variable in der Tabelle Sie zeigt zudem die mittlere und Standardabweichung f r die g ltigen Werte der metrischen Variablen und die Anzahl an g ltigen Werten f r alle Variablen an Household income in thousands Haushaltseinkommen in Tausend Years at current address Jahre an der aktuellen Adresse und Marital status Familienstand haben die meisten fehlenden Werte in dieser Reihenfolge 52 Kapitel 5 Muster Abbildung 5 4 Muster fehlender Werte Missing Value Patterns Type Brehlend ONicht fehlend Pattern gt z D m O Po lt z lt a Q o o a D D o D 2 9 a S 5 a 4 a a Q E D 2 fi 7 D 5 3 u p Ed S 3 Z D gt 3 a D Fi T 3 3 u 2 D 7 m g 2a 77 ec cc 3 k d o D 7 p3 sg 5 n z 2 5 E 5 7 O d D zZ Variable Das Diagramm Muster zeigt Muster fehlender Werte f r die Analysevariablen an Jedes Muster entspricht einer Gruppe von F llen mit dem gleichen Muster unvollst ndiger und vollst ndiger Daten Zum Beispiel stellt Muster 1 F lle dar die keine fehlenden Werte besitzen w hrend Muster 33 F lle darstellt die fehlende Werte bei reside Number of people in household Haushaltsgr e und address Years at
118. stertabellen aus 7 Analyse fehlender Werte Anzeigen deskriptiver Statistiken f r fehlende Werte Abbildung 2 3 Dialogfeld Analyse fehlender Werte Deskriptive Statistik E Analyse fehlender Werte Deskriptive Statistik Y Univariate Statistiken r Statistik f r Indikatorvariablen E Prozent der nicht bereinstimmenden Variablen Ei Fi T Test f r Gruppen die durch Indikatorvariablen gebildet werden Wahrscheinlichkeiten in Tabelle einschlie en 4 Kreuztabellen kategorialer und Indikator variablen Variablen weglassen die in weniger als der F lle fehlen GE an Ce Univariate Statistiken Univariate Statistiken k nnen zur Ermittlung des allgemeinen Ausma es der fehlenden Daten beitragen F r jede Variable werden folgende Daten angezeigt m Anzahl nichtfehlender Werte m Anzahl und Prozentsatz fehlender Werte F r quantitative metrische Variablen werden au erdem folgende Daten angezeigt m Mittelwert m Standardabweichung m Anzahl extrem hoher und niedriger Werte Statistik f r Indikatorvariablen F r jede Variable wird eine Indikatorvariable erstellt Diese kategoriale Variable gibt an ob die Variable f r einen einzelnen Fall vorhanden ist oder fehlt Die Indikatorvariablen werden verwendet um die Tabellen mit Nicht bereinstimmungen T Tests und H ufigkeiten zu erstellen Prozent der nicht bereinstimmenden Variablen F r jedes Variablenpaar wird der Prozents
119. t Ein weiteres Problem ist die Annahme hinter vielen statistischen Prozeduren dass alle F lle vollst ndig sind Fehlende Werte k nnen den erforderlichen theoretischen Ansatz verkomplizieren Beispiel Bei der Auswertung einer Leuk miebehandlung werden verschiedene Variablen gemessen Es sind jedoch nicht alle Messwerte f r alle Patienten verf gbar Die Muster der fehlenden Daten werden angezeigt tabellarisch dargestellt und f r zuf llig befunden Eine EM Analyse wird f r die Sch tzung der Mittelwerte Korrelationen und Kovarianzen verwendet Sie dient au erdem dazu um festzustellen ob die Daten in v llig zuf lliger Weise fehlen Die fehlenden Werte werden dann durch abgeleitete imputierte Werte ersetzt und zur weiteren Analyse in einer neuen Datendatei gespeichert Statistiken Univariate Statistiken einschlie lich der Anzahl nichtfehlender Werte dem Mittelwert der Standardabweichung der Anzahl fehlender Werte und der Anzahl von Extremwerten Gesch tzte Mittelwerte Kovarianz und Korrelationsmatrix unter Verwendung der listenweisen paarweisen EM oder Regressionsmethode MCAR Test nach Little mit EM Ergebnissen Auswertung der Mittelwerte nach verschiedenen Methoden F r Gruppen die durch fehlende gegen ber nichtfehlende Werte definiert sind 7 Tests F r alle Variablen Muster der fehlenden Werte angezeigt nach F llen und Variablen Erl uterung der Daten Daten Die Daten k nnen kategorial oder quantitativ metrisc
120. t muss die EM Sch tzung verwendet werden Der EM Sch tzung liegt die Annahme zugrunde dass das Muster der fehlenden Daten nur mit den beobachteten Daten zusammenh ngt Diese Bedingung wird zuf llig fehlend oder MCAR missing at random genannt Aufgrund dieser Annahme k nnen die Sch tzungen unter Verwendung der verf gbaren Information korrigiert werden So kann es beispielsweise in einer Studie ber Bildung und Einkommen vorkommen dass bei Personen mit niedrigerer Bildung eine h here Anzahl fehlende Einkommenswerte vorliegt In diesem Fall handelt es sich um MAR Daten nicht um MCAR Daten Anders ausgedr ckt Bei MAR h ngt die Wahrscheinlichkeit dass ein Einkommen angegeben wird vom Bildungsniveau der betreffenden Person ab Die Wahrscheinlichkeit kann abh ngig von der Bildung nicht jedoch abh ngig vom Einkommen innerhalb des betreffenden Bildungsniveaus schwanken Wenn die Wahrscheinlichkeit dass ein Einkommen angegeben wird auch in Abh ngigkeit vom Einkommen innerhalb der einzelnen Bildungsniveaus schwankt wenn beispielsweise Personen mit hohem Einkommen ihr Einkommen nicht angeben handelt es sich weder um MCAR Daten noch um MAR Daten Dies ist eine ungew hnliche Situation bei deren Eintreten keine der Methoden angemessen ist Verwandte Prozeduren Listenweise und paarweise Sch tzungen k nnen in vielen Prozeduren verwendet werden Mit der linearen Regression und der Faktorenanalyse k nne fehlende Werte durch die Mi
121. tandardm ig wird eine Normalverteilung angenommen Wenn Sie wissen dass die Flanken der Verteilung l nger sind als die einer Normalverteilung k nnen Sie anfordern dass die Prozedur die Likelihood Funktion aus einer Student 7 Verteilung mit n Freiheitsgraden erstellt Die gemischte Normalverteilung f hrt ebenfalls zu einer Verteilung mit l ngeren Flanken Geben Sie die Quotienten der Standardabweichungen der gemischten Normalverteilung und das Mischungsverh ltnis der beiden Verteilungen an Bei der gemischten Normalverteilung wird davon ausgegangen dass nur die Standardabweichungen der Verteilungen unterschiedlich sind Die Mittelwerte m ssen bereinstimmen Maximale Anzahl der Iterationen Legt die maximale Anzahl der Iterationen zur Sch tzung der wahren Kovarianz fest Die Prozedur wird beendet wenn diese Anzahl der Iterationen erreicht wurde auch wenn die Sch tzer nicht konvergiert haben Vervollst ndigte Daten speichern Sie k nnen ein Daten Set mit den imputierten Werten anstelle der fehlenden Werte speichern Beachten Sie jedoch dass kovarianzbasierte Statistiken die die imputierten Werte verwenden zu einer zu niedrige Sch tzung der zugeh rigen Parameterwerte f hren Der Grad der Untersch tzung ist proportional zu der Anzahl der F lle die gemeinsam unbeobachtet sind So legen Sie EN Optionen fest W hlen Sie im Dialogfeld Analyse fehlender Werte die Variablen aus f r die fehlende Werte mithilfe der EM Method
122. tation aus der Dropdown Liste in der Bearbeitenleiste ausw hlen Abbildung 3 11 Daten Editor mit Imputationsmarkierungen EIN H Unbenannt3 telcolmputed Daten Editor Datei Bearbeiten Ansicht Daten Transformieren Analysieren Diagramme Extras Fenster 1001 Imputstion_ 10 Imputation_ BELLE MaritalStatus Service 11 60 1 0 1 0 1 1 Variablenansicht Prozessor ist bereit Aufteilen nach Imputation_ Die relative Fallposition wird bei der Auswahl der Imputationen beibehalten Wenn es im Original Daten Set 1 000 F lle gibt wird Fall 1 034 der 34 Fall in der ersten Imputation oben im Raster angezeigt Wenn Sie Imputation 2 in der Dropdown Liste ausw hlen w rde Fall 2 034 der 34 Fall in Imputation 2 oben im Raster angezeigt werden Wenn Sie Originaldaten in der Dropdown Liste w hlen w rde Fall 34 oben im Raster angezeigt werden Auch die Spaltenposition wird beibehalten wenn zwischen Imputationen gewechselt wird sodass der Vergleich von Werten zwischen Imputationen erleichtert wird Transformieren und Bearbeiten imputierter Werte Manchmal m ssen Sie Transformationen an imputierten Daten durchf hren Zum Beispiel k nnten Sie das Protokoll aller Werte einer Gehaltsvariablen nehmen und das Ergebnis in einer neuen Variablen speichern Ein Wert der ber imputierte Daten berechnet wurde wird als 29 Multiple Imputation imputiert behandelt wenn er sich von dem Wert de
123. tationsnummer Kombiniert 95 Kortfidenzinteryall f r Exp Anteil Standard fehlende fehler igni Info Relative Zunahme yarianz Relative Effizienz Konstanter Term employ marital 0 marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 address Konstanter Term employ marital 0 marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 address Konstanter Term employ marital 0 marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 address E service Plus service Total service Diese Ansicht zeigt alle Statistikwerte f r die gemeinsamen Ergebnisse Sie k nnen diese Koeffizienten auf die gleiche Art verwenden und interpretieren wie Sie diese Tabelle f r ein Daten Set ohne fehlende Werte verwenden w rden Die Tabelle der Parametersch tzer fasst den Effekt der einzelnen Einflussvariablen zusammen Der Quotient des Koeffizienten zu seinem Standardfehler ergibt quadriert die Wald Statistik Wenn das Signifikanzniveau der Wald Statistik gering ausf llt kleiner als 0 05 ist der Parameter von 0 verschieden m Parameter mit signifikanten negativen Koeffizienten verringern die Likelihood dieser Antwortkategorie in Bezug auf die Referenzkategorie m Parameter mit positiven Koeffizienten erh hen die Likelihood dieser Antwortkategorie Die mit der letzten Kategorie jedes Faktors verbundenen Parameter sind mit konstantem Term redundant Es gibt drei zus tzliche Spalten in der Tabell
124. ten die Analyse von Mustern fehlender Daten und zielen auf eine eventuelle multiple Imputation der fehlenden Werte ab Es werden mehrere Versionen des Daten Sets erzeugt von denen jede ein eigenes Set an imputierten Werten enth lt Wenn statistische Analysen durchgef hrt werden werden die Parametersch tzungen f r alle imputierten Daten Sets gesammelt Sie bieten Sch tzungen die im Allgemeinen genauer als die einzelner Imputationen sind m Die Analyse fehlender Werte bietet ein geringf gig anderes Set an beschreibenden Tools f r die Analyse fehlender Daten im Besonderen den MCAR Test von Little und umfasst eine Vielzahl einfacher Imputationsmethoden Beachten Sie dass die multiple Imputation im Allgemeinen als der einzelnen Imputation berlegen betrachtet wird Aufgaben fehlender Werte Sie k nnen mit der Analyse fehlender Wert anhand der folgenden grundlegenden Schritte beginnen gt Untersuchen Sie das Fehlen Verwenden Sie die Analyse fehlender Werte und die Analyse von Mustern um die Muster der fehlenden Werte in Ihren Daten zu untersuchen und zu bestimmen ob eine multiple Imputation erforderlich ist gt Fehlende Werte vorschreiben Verwenden Sie Fehlende Datenwerte ersetzen um imputierte fehlende Werte zu multiplizieren Analysieren Sie die vollst ndigen Daten Verwenden Sie ein Verfahren das Daten der multiplen Imputation unterst tzt Informationen zur Analyse von Datensets der multiplen Imputation un
125. tionskoeffizienten unterst tzt Koeffizienten bei naivem Pooling Chi Quadrat Test m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei naivem Pooling m Die Tabelle H ufigkeiten unterst tzt Beobachtetes N bei naivem Pooling Test auf Binomialverteilung 33 Multiple Imputation m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei naivem Pooling m Die Tabelle Test unterst tzt N beobachteter Anteil und Testanteil bei naivem Pooling Sequenzentest m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei naivem Pooling Kolmogorov Smirnov Test bei einer Stichprobe m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei naivem Pooling Tests bei zwei unabh ngigen Stichproben m Die Tabelle R nge unterst tzt mittlerer Rang und N bei naivem Pooling m Die Tabelle H ufigkeiten unterst tzt N bei naivem Pooling Tests bei mehreren unabh ngigen Stichproben m Die Tabelle R nge unterst tzt mittlerer Rang und N bei naivem Pooling m Die Tabelle H ufigkeiten unterst tzt Anzahlen bei naivem Pooling Tests bei zwei verbundenen Stichproben m Die Tabelle R nge unterst tzt mittlerer Rang und N bei naivem Pooling m Die Tabelle H ufigkeiten unterst tzt N bei naivem Pooling Tests bei mehreren verbundenen Stichproben m Die Tabelle R nge unterst tzt mittlerer Rang bei naivem Pool
126. tsgewichtungen Replikation werden von dieser Prozedur ber cksichtigt F lle mit einer negativen oder nullwertigen Replikationsgewichtung werden ignoriert Nicht ganzzahlige Gewichtungen werden auf die n chste Ganzzahl gerundet Copyright IBM Corporation 1989 2011 14 15 Multiple Imputation Analysegewichtung Analysegewichtungen Regression oder Stichprobe werden in Zusammenfassungen von fehlenden Werten und in passende Imputationsmodelle integriert F lle mit einer negativen oder nullwertigen Analysegewichtung werden ausgeschlossen Komplexe Stichproben Das Verfahren der multiplen Imputation ist nicht explizit f r Schichten Cluster oder andere komplexe Stichprobenstrukturen gedacht es kann jedoch endg ltige Stichprobengewichtungen in Form der Analysegewichtungsvariablen akzeptieren Beachten Sie auch dass Prozeduren f r komplexe Stichproben nicht automatisch mehrere imputierte Daten Sets analysieren Eine komplette Liste der Prozeduren die Pooling unterst tzen finden Sie unter Analysieren von Daten multipler Imputation auf S 29 Fehlende Werte Sowohl benutzer als auch systemdefiniert fehlende Werte werden als ung ltige Werte behandelt Beide Arten von fehlenden Werten werden ersetzt wenn Werte imputiert werden und beide Arten werden als ung ltige Werte von als Einflussfaktoren in Imputationsmodellen verwendeten Variablen behandelt Benutzer und systemdefiniert fehlende Werte werden auch bei Fehlanalysen als fehlen
127. ttelwerte ersetzt werden Im Erweiterungsmodul Forecasting sind verschiedene Methoden verf gbar um fehlende Werte in Zeitreihen zu ersetzen So berechnen Sie eine Analyse fehlender Werte W hlen Sie die folgenden Befehle aus den Men s aus Analysieren gt Analyse fehlender Werte 4 Kapitel 2 Abbildung 2 1 Dialogfeld Analyse fehlender Werte l Analyse fehlender Werte Quantitative Variablen Muster E Einkommen Income E Monate beim Anbieter L atter Age E Jahre wohnhaft an glei Sch tzung E Jahre beim gleichen Ar Personen im Haushalt Hstenweise Paarweise Kategoriale Variablen amp Femilenstand Mertais I EM ll Ausbildung Education F Regression amp 5 Ruhestand Retirement 00 Geschlecht Gender Maximalzahl der Kategorien Fallbeschriftungen WOO W hlen Sie mindestens eine quantitative metrische Variable zur Sch tzung der Statistiken und der optionalen Imputation fehlender Werte aus Die folgenden Optionen sind verf gbar m W hlen Sie kategoriale Variablen numerisch oder String aus und geben Sie f r die Anzahl der Kategorien eine Grenze Maximalzahl der Kategorien ein m Klicken Sie auf Muster zur tabellarischen Darstellung der Muster fehlender Daten F r weitere Informationen siehe Thema Anzeige der Muster fehlender Werte auf S 5 m Klicken Sie auf Deskripti
128. ty proportional to size Wahrscheinlichkeit proportional zur Gr e verwendet wird gibt es au erdem eine Datei mit den gemeinsamen Auswahlwahrscheinlichkeiten poll_jointprob sav Die zus tzlichen Variablen zum demografischen Hintergrund der W hler und ihrer Meinung zum vorgeschlagenen Gesetzentwurf wurden nach der Ziehung der Stichprobe erfasst und zur Datendatei hinzugef gt property_assess sav Hierbei handelt es sich um eine hypothetische Datendatei in der es um die Bem hungen eines f r einen Bezirk County zust ndigen Immobilienbewerters geht trotz eingeschr nkter Ressourcen die Einsch tzungen des Werts von Immobilien auf dem aktuellsten Stand zu halten Die F lle entsprechen den Immobilien die im vergangenen Jahr in dem betreffenden County verkauft wurden Jeder Fall in der Datendatei enth lt die Gemeinde in der sich die Immobilie befindet den Bewerter der die Immobilie besichtigt hat die seit dieser Bewertung verstrichene Zeit den zu diesem Zeitpunkt ermittelten Wert sowie den Verkaufswert der Immobilie property_assess_cs sav Hierbei handelt es sich um eine hypothetische Datendatei in der es um die Bem hungen eines f r einen US Bundesstaat zust ndigen Immobilienbewerters geht trotz eingeschr nkter Ressourcen die Einsch tzungen des Werts von Immobilien auf dem aktuellsten Stand zu halten Die F lle entsprechen den Immobilien in dem betreffenden 91 Beispieldateien Bundesstaat Jeder Fall in der Datendate
129. u tation N Mittelwert eichung Minimum Maximum an 30281 75305 Imputierte Werte 94574 98346 1 01487 82705 96403 9638 80842 81107 77228 s0064 Daten nach Imputation vervollst ndigen 1 2 3 4 5 1 2 3 4 5 Wie tenure und alle anderen metrischen Variablen zeigt Ininc Log of income keine negativen imputierten Werte Ferner liegen die Mittelwerte f r die Imputationen n her am Mittelwert f r die Originaldaten als im automatischen Imputationslauf f r income betr gt der Mittelwert f r die Originaldaten f r Ininc ungef hr e3 9291 50 86 w hrend der typische Mittelwert unter 68 Kapitel 5 den Imputationen ungef hr e4 2 66 69 betr gt Zus tzlich liegen die Maximumwerte f r jede Imputation n her am Maximumwert f r die Originaldaten Pr fen auf FCS Konvergenz Wenn Sie die Methode der vollst ndig konditionalen Spezifikation verwenden empfiehlt es sich Darstellungen der Mittelwerte und Standardabweichungen je Iteration und Imputation f r jede abh ngige metrische Variable zu pr fen f r die Werte imputiert werden um bei der Bewertung der Modellkonvergenz zu helfen gt Um diese Art von Diagramm zu erstellen aktivieren Sie das Daten Set telcoFCS und w hlen Sie dann aus den Men befehlen Grafiken gt Diagrammerstellung 69 Multiple Imputation Abbildung 5 26 Diagrammerstellung Mehrere Linien Diagramm Variablen Diagrammvorschau verwendet Beispiel
130. ung 5 28 Diagrammerstellung Registerkarte Gruppen Punkt ID Yariablen Diagrammvorschau verwendet Beispieldaten amp Imputationsnummer Im Monate beim Anbieter L Alter Age gt Familienstand MarttalS E Jahre wohnhaft an glei E Einkommen Income kterstionszahl Iteratio Far E amp b Ruhestand Retiremert Geschlecht Gender E Personen im Haushalt 8 Log of income Ininc Kategorie1 Kategorie 2 Mehr Iterationszahl 2 Statistische Kenng Markierte Elemente f gen Ablagebereiche zur Zeichenfl che hinzu denen Variablen zugewiesen werden k nnen m Clustervariable auf X A Clustervariable auf Z Gruppierungs Stapelvariable Zeilenfeldvariable Spaltenfeldvariable ja Punkt ID Beschriftung W hlen Sie Zeilenfeldvariable W hlen Sie Auswertungsstatistik SummaryStatistic_ als Feldvariable Klicken Sie auf OK 72 Kapitel 5 FCS Konvergenzdiagramme Abbildung 5 29 FCS Konvergenzdiagramm Impuissonsnummer u oO 2 3 4 5 g HIMNIN Months with service u yoBuu y Syas ysyejs N Months with service Bunysi mqepiepuezs Iterationszahl Sie haben ein Paar von Mehrfachliniendiagrammen erstellt die die mittlere und die Standardabweichung der imputierten Werte von Months with service tenure bei jeder literation der FCS Imputationmethode f r jede der 5 angeforderten Imputationen anzeigen
131. ve Statistik zur Anzeige deskriptiver Statistiken fehlender Werte F r weitere Informationen siehe Thema Anzeigen deskriptiver Statistiken f r fehlende Werte auf S 7 m W hlen Sie eine Methode zur Sch tzung der Statistiken Mittelwerte Kovarianzen und Korrelationen und optionalen Imputation fehlender Werte aus F r weitere Informationen siehe Thema Sch tzen von Statistiken und Imputieren fehlender Werte auf S 8 m Wenn Sie EM oder Regression ausw hlen klicken Sie auf Variablen um die Untergruppe anzugeben die f r die Sch tzung verwendet wird F r weitere Informationen siehe Thema Vorhergesagte Variablen und Vorhersagevariablen Einflussvariablen auf S 12 m W hlen Sie eine Variable f r die Fallbeschriftung aus Diese Variable dient zur Beschriftung von F llen in Mustertabellen die einzelne F lle anzeigen 5 Analyse fehlender Werte Anzeige der Muster fehlender Werte Abbildung 2 2 Dialogfeld Analyse fehlender Werte Muster EH Analyse fehlender Werte Muster r nzeige EA F lle in Tabellen gruppiert nach dem Muster fehlender Werte Muster weglassen die bei weniger als der F lle auftreten variablen sortieren nach dem Muster fehlender Werte 7 F lle mit fehlenden Werten sortiert nach dem Muster fehlender Werte Fj j Mm Alle F lle wahlweise sortiert nach der ausgew hlten variablen r Variablen Muster fehlender Werte f r Zus tzliche Informationen f r Months

Download Pdf Manuals

image

Related Search

Related Contents

Flymo 350/400 Lawn Mower User Manual  ° Jouez directement sur la TV  D-2380-EPS MCT-234, MCT-234 NB User Guide  

Copyright © All rights reserved.
Failed to retrieve file