Home

SPSS Data Preparation (Aufbereitung von Daten)™ 16.0

image

Contents

1. 1 2 3 8 3 8 18 4 ERR Gesamt Jede Klasse wird wie folgt berechnet Minimum lt Years with current employer Maximum a Unbegrenzt Die Zusammenfassung f r Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber zeigt ein Muster abnehmender Anteile der zahlungsunf higen Personen bei steigender Klassenzahl Klasse Anteil der zahlungsunf higen Personen 1 0 432 2 0 302 3 0 154 4 0 078 78 Kapitel 8 Abbildung 8 10 Klassierungs Zusammenfassung f r Years at current address Wohnhaft an gleicher Adresse in Jahren Anzahl der F lle nach Nivau von Endpunkt Previously defaulted Klasse Minimum Maximum No 1 a 2 7 3 14 Gesamt Jede Klasse wird wie folgt berechnet Minimum lt Years at current address lt Maximum a Unbegrenzt Die Zusammenfassung f r Years at current address Wohnhaft an gleicher Adresse in Jahren zeigt ein hnliches Muster Wie aus der Statistik f r die Modellentropie zu erwarten sind die Unterschiede zwischen den Klassen beim Anteil der zahlungsunf higen Personen bei Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber deutlicher als bei Years at current address Wohnhaft an gleicher Adresse in Jahren Klasse Anteil der zahlungsunf higen Personen 1 0 334 2 0 209 0 112 Abbildung 8 11 Klassierungs Zusammentassung fur Credit card debt in tho
2. 44 Kapitel 6 Fallbericht Abbildung 6 15 Fallbericht Verletzungen von Identifizierung Fall Eine Variable hospid patid physid Oto 1 Dichotomy 1 0333204686 883285 Oto 1 Dichotomy 1 1038840465 103254 Nonnegative integer 1 2090290204 883285 Oto 1 Dichotomy 1 2349729006 723384 Nonnegative integer 1 4993307441 828754 1 to 4 Categorical 1 8737661990 185787 a The number of variables that violated the rule follows each rule In der Tabelle Fallbericht werden alle Falle sowohl nach Fallnummer als auch nach Fallbezeichner die mindestens eine Validierungsregel verletzt haben die verletzten Regeln und die Anzahl der Regelverletzungen nach Fall aufgef hrt Die ung ltigen Werte werden nun im Daten Editor angezeigt Abbildung 6 16 Daten Editor mit gespeicherten Indikatorvariablen fur Regelverletzungen recbart3 OtoSCategoric Oto3Categ Otol Dichot 0to1Dichot to1 Dic en al_clotsolv_ orical_rehab_ omy_obesity omy_dhosp_ hotomy_ti oto E GA P HS E E 1 OO OO OO 5 5 OH fe te m Yariablenansicht F r jede Anwendung einer Validierungsregel wird eine separate Indikatorvariable erstellt So entstpricht 0to3Categorical_clotsolv_ der Anwendung der Validierungsregel 0 to 3 Categorical auf die Variable Clot dissolving drugs Wenn Sie bei einem Fall feststellen m chten welche Variable einen ung ltigen Wert aufweist betrachten Sie am beste
3. F lle mit gleicher Identifizierung 10 11 14 15 21 22 28 29 30 31 64 65 83 84 86 87 96 97 100 101 102 104 105 106 1406462 419 2191527 525 7237535 360 4592215 163 7628592 330 0300750 006 4590625 286 6272818 258 1959349 605 5856145 337 1543897 849 Attending physician ID 365184 365184 616528 942982 371884 371884 215041 817329 215041 817329 817329 Ein Fall muss eindeutig durch eine Kombination der Werte der Fallbezeichnervariablen identifiziert werden k nnen Hier werden die ersten 11 Eintr ge in der Tabelle der F lle mit gleicher Identifizierung gezeigt Bei diesen Duplikaten handelt es sich um Patienten bei denen mehrere Ereignisse aufgezeichnet wurden die f r jedes Ereignis als separater Fall erfasst wurden Da diese Informationen jeweils in einer Zeile zusammengefasst werden k nnen sollten diese F lle bereinigt werden 36 Kapitel 6 Kopieren und Verwenden von Regeln aus einer anderen Datei Der Analytikerin fallt auf dass die Variablen in der vorliegenden Datendatei den Variablen aus einem anderen Projekt hneln Die Validierungsregeln dieses Projekts wurden als Eigenschaften der entsprechenden Datendatei gespeichert und k nnen auf die vorliegende Datendatei angewendet werden indem die Dateneigenschaften der Datei kopiert werden gt Um die Regeln aus einer anderen Datei zu kopieren w hlen Sie die folgenden Befehle aus den Men s au
4. Household income in thousands H 2461 70 Debt to income ratio x100 d 44 62 Credit card debt in thousands d 139 58 Other debt in thousands J 416 52 Die Tabelle Deskriptive Statistiken enth lt zusammenfassende Informationen zu den Klassierungs Eingabevariablen Die ersten vier Spalten betreffen die vorklassierten Werte N ist die Anzahl der in der Analyse verwendeten F lle Wenn listenweises L schen fehlender Werte verwendet wird sollte dieser Wert f r alle Variablen konstant sein Wenn paarweises L schen fehlender Werte verwendet wird ist dieser Wert m glicherweise nicht konstant Da das vorliegende Daten Set keine fehlenden Werte aufweist handelt es sich bei diesem Wert einfach um die Anzahl der F lle Die Spalten Minimum und Maximum zeigen die Mindest und H chstwerte f r Vorklassierung im Daten Set f r die einzelnen Klassierungs Eingabevariablen Durch diese Spalten erhalten Sie nicht nur einen Eindruck von dem beobachteten Wertebereich f r die einzelnen Variablen sondern sie k nnen auch hilfreich beim Aufsp ren von Werten sein die au erhalb des erwarteten Bereichs liegen In der Spalte Anzahl der verschiedenen Werte erfahren Sie welche Variablen mithilfe des Algorithmus f r gleiche H ufigkeiten vorverarbeitet wurden Standardm ig werden Variablen mit mehr als 1000 verschiedenen Werten Household income in thousands Haushaltseinkommen in Tausend bis Other debt in thousands Andere Schulden in Tausend du
5. Scores f r die Abwanderungsneigung von 0 bis 100 werden auf die Kunden angewendet Kunden mit einem Score von 50 oder h her streben vermutlich einen Anbieterwechsel an ceramics sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Herstellers geht der ermitteln m chte ob ein neue hochwertige Keramiklegierung eine gr ere Hitzebest ndigkeit aufweist als eine Standardlegierung Jeder Fall entspricht einem Test einer der Legierungen die Temperatur bei der das Keramikw lzlager versagte wurde erfasst cereal sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Umfrage geht bei der 880 Personen nach ihren Fr hst ckgewohnheiten befragt wurden Au erdem wurden Alter Geschlecht Familienstand und Vorliegen bzw Nichtvorliegen eines aktiven Lebensstils auf der Grundlage von mindestens zwei Trainingseinheiten pro Woche erfasst Jeder Fall entspricht einem Teilnehmer 87 Beispieldateien clothing_defects sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Bekleidungsfabrik geht Aus jeder in der Fabrik produzierten Charge entnehmen die Kontrolleure eine Stichprobe an Bekleidungsartikeln und z hlen die Anzahl der Bekleidungsartikel die inakzeptabel sind coffee sav Diese Datendatei enth lt Daten zum wahrgenommenen Image von sechs Eiskaffeemarken Kennedy Riquier als auch Sharp 1996 Bei den 23
6. Daten Ungew hnliche F lle identifizieren Abbildung 7 1 Dialogfeld Ungew hnliche F lle identifizieren Registerkarte Variablen W Ungew hnliche F lle identifizieren Variablen Ausgabe Speichern Fehlende Werte Optionen Variablen Analysevariablen daHospital ID hospid dage category agecat di Hospital size hospsize Gender gender ii ici i BPhysically active active obesity obesity History of diabetes diabetes Blood pressure bp Atrial fibrillation af amp Smoker smoker Cholesterol choles History of angina angina History of myocardial infarction n Prescribed nitroglycerin nitro m ee 8 sso Lei ia tea lt Eallbezeichnervariable daPatient ID patid Klicken Sie in der Liste Variablen mit der rechten Maustaste auf eine Yariable um deren Messniveau zu ndern W hlen Sie die Variablen von Age category bis Stroke between 3 and 6 months als Analysevariablen aus W hlen Sie Patient ID als Fallbezeichnervariable aus Klicken Sie auf die Registerkarte Ausgabe 56 Kapitel 7 Abbildung 7 2 Dialogfeld Ungew hnliche F lle identifizieren Registerkarte Ausgabe W Ungew hnliche F lle identifizieren Variablen Ausgabe Speichern Fehlende Werte Optionen Liste ungew hnlicher F lle und Gr nde f r die Ungewdhnlichkeit Auswertung Normwerte der Gruppen Hierbei handelt es s
7. Daten sowie Daten zum Kaufpreis von Fahrzeugen enth lt tree_credit sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zu fr heren Bankkrediten enth lt tree_missing_data sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zu fr heren Bankkrediten enth lt und eine gro e Anzahl fehlender Werte aufweist tree_score_car sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zum Kaufpreis von Fahrzeugen enth lt tree_textdata sav Eine einfache Datendatei mit nur zwei Variablen die vor allem den Standardzustand von Variablen vor der Zuweisung von Messniveau und Wertelabels zeigen soll tv survey sav Hierbei handelt es sich um eine hypothetische Datendatei zu einer Studie die von einem Fernsehstudio durchgef hrt wurde das berlegt ob die Laufzeit eines erfolgreichen Programms verl ngert werden soll 906 Personen wurden gefragt ob sie das Programm unter verschiedenen Bedingungen ansehen w rden Jede Zeile entspricht einem Befragten jede Spalte entspricht einer Bedingung ulcer_recurrence sav Diese Datei enth lt Teilinformationen aus einer Studie zum Vergleich der Wirksamkeit zweier Therapien zur Vermeidung des Wiederauftretens von Geschw ren Es stellt ein gutes Beispiel f r intervallzensierte Daten dar und wurde an anderer Stelle Collett 2003 vorgestellt und analysiert 95 Beisp
8. Der Analyse wird eine zus tzliche metrische Variable hinzugef gt mit der der Anteil der fehlenden Werte pro Fall aufgezeichnet wird gt Klicken Sie auf die Registerkarte Optionen 59 Abbildung 7 5 Ungew hnliche F lle identifizieren Dialogfeld Ungew hnliche F lle identifizieren Registerkarte Optionen W Ungew hnliche F lle identifizieren Variablen Ausgabe Speichern Fehlende Werte Optionen Kriterien zum Identifizieren ungew hnlicher F lle Anzahl von Gruppen Prozentsatz der F lle mit den h chsten Er 1 Pr a l Anomalie Indexwerten inimum Prozentsatz 4 Maximum Feste Anzahl von F llen mit den h chsten Anomalie Indexwerten o Nur F lle identifizieren deren Anomalie Index gr er oder gleich einem Minimalwert ist E Maximale Anzahl von Gr nden 3 Geben Sie an wie viele Gr nde ausgegeben und Falls Grundvariablen gespeichert werden der Arbeitsdatei hinzugef gt werden Der Wert wird nach unten korrigiert wenn er die Anzahl der Analysevariablen bersteigt Geben Sie als Prozentsatz der F lle die als anomal betrachtet werden sollen den Wert 2 ein gt Deaktivieren Sie Nur F lle identifizieren deren Anomalie Index gr er oder gleich einem Minimalwert ist Geben Sie als maximale Anzahl von Gr nden den Wert 3 ein Klicken Sie auf OK Zusammenfassung der Fallverarbeitung Abbildung 7 6 Zusammenfassung der Fallverarbeitun
9. Kundendatenbank geht die zum Zwecke der Zusendung monatlicher Angebote erworben wurde Neben verschiedenen demografischen Informationen ist erfasst ob der Kunde auf das Angebot geantwortet hat 88 Anhang A demo_cs_1 sav Hierbei handelt es sich um eine hypothetische Datendatei f r den ersten Schritt eines Unternehmens das eine Datenbank mit Umfrageinformationen zusammenstellen m chte Jeder Fall entspricht einer anderen Stadt Au erdem sind IDs f r Region Provinz Landkreis und Stadt erfasst demo_cs_2 sav Hierbei handelt es sich um eine hypothetische Datendatei f r den zweiten Schritt eines Unternehmens das eine Datenbank mit Umfrageinformationen zusammenstellen m chte Jeder Fall entspricht einem anderen Stadtteil aus den im ersten Schritt ausgew hlten St dten Au erdem sind IDs f r Region Provinz Landkreis Stadt Stadtteil und Wohneinheit erfasst Die Informationen zur Stichprobenziehung aus den ersten beiden Stufen des Stichprobenplans sind ebenfalls enthalten demo_cs sav Hierbei handelt es sich um eine hypothetische Datendatei die Umfrageinformationen enth lt die mit einem komplexen Stichprobenplan erfasst wurden Jeder Fall entspricht einer anderen Wohneinheit Es sind verschiedene Informationen zum demografischen Hintergrund und zur Stichprobenziehung erfasst dietstudy sav Diese hypothetische Datendatei enth lt die Ergebnisse einer Studie der Stillman Di t Rickman Mitchell Dingman als auch Dalen
10. Maximale Anzahl von Gr nden 3 Geben Sie an wie viele Gr nde ausgegeben und falls Grundvariablen gespeichert werden der Arbeitsdatei hinzugef gt werden Der Wert wird nach unten korrigiert wenn er die Anzahl der Analysevariablen bersteigt Zur cksetzen Abbrechen Hilfe Kriterien zum identifizieren ungew hnlicher F lle Diese Optionen bestimmen wie viele F lle in die Liste der Anomalien aufgenommen werden Prozentsatz der F lle mit den h chsten Anomalie Indexwerten Geben Sie eine positive Zahl kleiner oder gleich 100 ein Feste Anzahl von F llen mit den h chsten Anomalie Indexwerten Geben Sie eine positive Ganzzahl an die kleiner oder gleich der Gesamtzahl der in der Analyse verwendeten F lle in der Arbeitsdatei ist Nur F lle identifizieren deren Anomalie Index gr er oder gleich einem Minimalwert ist Geben Sie eine nichtnegative Zahl an Ein Fall wird als Anomalie betrachtet wenn sein Anomalie Index gr er oder gleich dem angegebenen Trennwert ist Diese Option wird zusammen mit den Optionen Prozentsatz der F lle und Feste Anzahl von F llen verwendet Wenn Sie beispielsweise eine feste Anzahl von 50 F llen und einen Trennwert von 2 23 Ungew hnliche F lle identifizieren angeben besteht die Anomalie Liste h chstens aus 50 F llen von denen jeder einen Anomalie Indexwert gr er oder gleich 2 aufweist Anzahl von Gruppen Die Prozedur sucht nach der besten Anzahl von Gruppen zwischen dem a
11. Optionen Wahlen Sie die Galerie Streu Punktdiagramm aus und ziehen Sie das Symbol f r gruppierte Streudiagramme auf die Zeichenfl che gt W hlen Sie Anomalie Index als y Variable und Einflussma f r Grundvariable 1 als x Variable aus W hlen Sie Gruppen ID als Variable aus nach der die Farben gesetzt werden sollen 68 Kapitel 7 Klicken Sie auf OK Nun wird das Streudiagramm erstellt Abbildung 7 17 Streudiagramm f r den Anomalie Index und das Einflussma der ersten Grundvariablen Gruppen ID O1 O2 1 50 3 D 1 25 v U e 5 c 1 00 oO i 0 75 0 10 0 15 0 20 0 25 Einflussma f r Grundvariable 1 Das Diagramm ergibt Folgendes m Der Fall in der oberen rechten Ecke geh rt zu Gruppe 3 Er ist der ungew hnlichste Fall und zudem der Fall bei dem eine einzelne Variable den gr ten Einfluss aufweist m Entlang der y Achse ist ersichtlich dass Gruppe 3 drei F lle enth lt deren Werte f r den Anomalie Index knapp ber 2 00 liegen Diese F lle sind potenziell anomal und sollten n her untersucht werden m Entlang der x Achse ist ersichtlich dass Gruppe 1 vier F lle enth lt deren Variablen Einflussma e im Bereich von 0 23 bis 0 33 liegen Diese F lle sollten n her untersucht werden weil diese Werte dazu f hren dass sich die entsprechenden F lle von den anderen F llen absetzen m Gruppe 2 scheint homogen zu sein Ihr Anomalie Index und ihre Variabl
12. Oto2 Categorical l 0 to 3 Categorical Hospital size hospsize C 1 to 4 Categorical m m Nonnegative integer Nonnegative number Patient ID patid I 99969 Attending physician ID p hilh 001448 995409 Age in years age 86 v Age category agecat 4 0 Anzeigen Alle Variablen v Durchsuchte F lle 1183 Regeln definieren Yariablenverteilungen Durchsuchte Anzahl der u Begrenzen der durchsuchten F lle hat keinen Einflu F lle SEH Erneut durchsuchen auf die Anzahl der validierten F lle F lle begrenzen Auf der Registerkarte Regeln f r eine Variable werden verf gbare Validierungsregeln f r eine Variable angezeigt die Sie auf die Analysevariablen anwenden k nnen Um weitere Regeln f r einzelne Variablen zu definieren klicken Sie auf Regeln definieren F r weitere Informationen siehe Definieren von Regeln f r eine Variable in Kapitel 2 auf S 4 Analysevariablen In der Liste werden Analysevariablen aufgef hrt ihre Verteilungen zusammengefasst und die Anzahl der Regeln angezeigt die auf jede Variable angewendet werden Beachten Sie dass benutzerdefinierte und systemdefinierte fehlende Werte nicht in den Zusammenfassungen enthalten sind Durch die Dropdown Liste Anzeige wird gesteuert welche Variablen angezeigt werden Zur Auswahl stehen Alle Variablen Numerische Variablen String Variablen und Datumsvariablen Regeln Um Regeln auf Analysevariablen anzuwenden w h
13. Speichern ES Optimales Klassieren Variablen Ausgabe Speichern Fehlende Werte definieren Optionen Variablen in Arbeitsdatei speichern EI Yariablen erstellen de Klassenwerte enthalten Suffix f r Ausgabevariablen Klasse F r jede Variable f r die die Klassierung erfolgt wird genau eine Variable erstellt Die Namen der Ausgabevariablen werden durch Anf gen eines Unterstrichs und des Suffixes an den Namen der urspr nglichen Yariablen erstellt Beispiel Alter_Klasse _ Yorhandene Variablen mit demselben Namen ersetzen Klassierungsregeln als SPSS Syntax speichern Datei kanikloan_kinning rules sps Durchsuchen Um Klassierungsregeln zu speichern geben Sie eine Datei an Sie k nnen die gespeicherte Syntax f r die Klassierung von F llen verwenden die zum Zeitpunkt der Klassenerstellung noch nicht verf gbar sind Einf gen Zur cksetzen Abbrechen Hilfe W hlen Sie Variablen erstellen die Werte der Daten in Klassen enthalten gt Geben Sie einen Pfad und einen Dateinamen f r die Syntaxdatei ein die die generierten Klassierungsregeln enthalten soll In diesem Beispiel haben wir bankloan_binning rules sps verwendet Klicken Sie auf OK Diese Auswahl f hrt zu folgender Befehlssyntax Optimales Klassieren OPTIMAL BINNING VARIABLES GUIDE default BIN age employ address income debtinc creddebt othdebt SAVE YES INTO age_Klasse employ_Klas
14. bei denen die F lle in einer unterschiedlichen zuf llig ausgew hlten Reihenfolgen sortiert sind In Situationen mit extrem umfangreichen Dateien k nnen mehrere Durchg nge mit jeweils einer Stichprobe von F llen durchgef hrt werden die in unterschiedlicher zuf llig ausgew hlter Reihenfolge sortiert ist Annahmen Der Algorithmus setzt voraus dass alle Variablen nichtkonstant und unabh ngig sind Es wird au erdem angenommen dass kein Fall bei einer Eingabevariablen fehlende Werte aufweist F r alle stetigen Variablen wird eine Normalverteilung Gau Verteilung und f r alle kategorialen Variablen eine multinomiale Verteilung vorausgesetzt Empirische interne Tests zeigen dass die Prozedur wenig anf llig gegen ber Verletzungen hinsichtlich der Unabh ngigkeitsannahme und der Verteilungsannahme ist Dennoch sollten Sie darauf achten wie genau diese Voraussetzungen erf llt sind So identifizieren Sie ungew hnliche F lle W hlen Sie die folgenden Befehle aus den Men s aus Daten Ungew hnliche F lle identifizieren Abbildung 4 1 Dialogfeld Ungew hnliche F lle identifizieren Registerkarte Variablen W Ungew hnliche F lle identifizieren Variablen Ausgabe Speichern Fehlende Werte Optionen Variablen nalysevariablen PaHospital ID hospid oll Age category agecat ij Hospital size hospsize Gender gender daAttending physician ID physid BPhysically active active ia obe
15. erdem gibt es drei Markennamen K2R Glory und Bissell drei Preisstufen sowie je zwei Stufen Nein oder Ja f r die letzten beiden Faktoren 10 Kunden stufen 22 Profile ein die durch diese Faktoren definiert sind Die Variable Preference enth lt den Rang der durchschnittlichen Einstufung f r die verschiedenen Profile Ein niedriger Rang bedeutet eine starke Bevorzugung Diese Variable gibt ein Gesamtma der Bevorzugung f r die Profile an carpet_prefs sav Diese Datendatei beruht auf denselben Beispielen wie f r carpet sav beschrieben enth lt jedoch die tats chlichen Einstufungen durch jeden der 10 Kunden Die Kunden wurden gebeten die 22 Produktprofile in der Reihenfolge ihrer Pr ferenzen einzustufen Die Variablen PREF bis PREF22 enthalten die IDs der zugeordneten Profile wie in carpet_plan sav definiert catalog sav Diese Datendatei enth lt hypothetische monatliche Verkaufszahlen f r drei Produkte die von einem Versandhaus verkauft werden Daten f r f nf m gliche Einflussvariablen wurden ebenfalls aufgenommen catalog_seasfac sav Diese Datendatei ist mit catalog sav identisch au er dass ein Set von saisonalen Faktoren die mithilfe der Prozedur Saisonale Zerlegung berechnet wurden sowie die zugeh rigen Datumsvariablen hinzugef gt wurden cellular sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Mobiltelefonunternehmens geht die Kundenabwanderung zu verringern
16. 1974 Jeder Fall entspricht einem Teilnehmer und enth lt dessen Gewicht vor und nach der Di t in amerikanischen Pfund sowie mehrere Messungen des Triglyceridspiegels in mg 100 ml dischargedata sav Hierbei handelt es sich um eine Datendatei zum Thema Seasonal Patterns of Winnipeg Hospital Use Menec Roos Nowicki MacWilliam Finlayson als auch Black 1999 Saisonale Muster der Belegung im Krankenhaus von Winnipeg vom Manitoba Centre for Health Policy dvdplayer sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Entwicklung eines neuen DVD Spielers geht Mithilfe eines Prototyps hat das Marketing Team Zielgruppendaten erfasst Jeder Fall entspricht einem befragten Benutzer und enth lt demografische Daten zu dem Benutzer sowie dessen Antworten auf Fragen zum Prototyp flying sav Diese Datendatei enth lt die Flugmeilen zwischen zehn St dten in den USA german_credit sav Diese Daten sind aus dem Daten Set German credit im Repository of Machine Learning Databases Blake als auch Merz 1998 an der Universit t von Kalifornien in Irvine entnommen grocery_1month sav Bei dieser hypothetischen Datendatei handelt es sich um die Datendatei grocery_coupons sav wobei die w chentlichen Eink ufe zusammengefasst sind sodass jeder Fall einem anderen Kunden entspricht Dadurch entfallen einige der Variablen die w chentlichen nderungen unterworfen waren und der verzeichnete ausgegebene Betrag ist n
17. Aufwand wert wenn Sie regelm ig Datendateien mit hnlichen Attributen validieren m ssen Datenvalidierung F hren Sie grundlegende Pr fungen und Pr fungen mit definierten Validierungsregeln durch um ung ltige F lle Variablen und Datenwerte zu identifizieren Wenn sie ung ltige Daten gefunden haben untersuchen und beseitigen Sie die Ursache Dies macht m glicherweise einen weiteren Durchlauf durch die Vorbereitung der Metadaten erforderlich m Vorbereitung des Modells Identifizieren Sie potenzielle statistische Ausrei er die in vielen Vorhersagemodellen Probleme verursachen k nnen Einige Ausrei er sind das Ergebnis von ung ltigen Variablenwerte die noch nicht identifiziert wurden Dies macht m glicherweise einen weiteren Durchlauf durch die Vorbereitung der Metadaten erforderlich Wenn f r das von Ihnen ausgew hlte Vorhersagemodell kategoriale Variablen erforderlich sind m ssen Sie alle metrischen Variablen diskretisieren Sobald die Datendatei sauber ist k nnen Sie Modelle in anderen Erweiterungsmodulen erstellen Kapitel Val dierungsregeln Eine Regel wird verwendet um zu entscheiden ob ein Fall g ltig ist Es gibt zwei Typen von Validierungsregeln m Regeln f r eine Variable Regeln f r eine Variable bestehen aus einer festen Gruppe von Tests die auf eine einzige Variable angwendet werden z B Tests auf Werte au erhalb des Bereichs Bei den Regeln f r eine Variable k nnen die g ltigen W
18. Dialogfeld Optimales Klassieren Registerkarte Variablen E Optimales Binning Variablen Ausgabe Speichern Fehlende Werte Optionen Variablen L Variablen f r Binning eve of education ed E Age in years age E Years with current employer E Years at current address ad E Household income in thousan E Debt to income ratio x100 E Credit card debt in thousands E Other debt in thousands oth Binning in Klassen optimieren in Hinblick auf 4 Previously defaulted default nominale Optimierungsvariable Die ausgew hlten Klassen maximieren die Q Eine oder mehrere metrische Variablen f r das Binning ausw hlen sowie eine Zuordnung zwischen der Binning Variablen und der Optimierungsvariablen Auf der Registerkarte Speichern k nnen Sie Variablen die Werte der Daten in Klassen und oder Binning Regeln enthalten speichern W hlen Sie mindestens eine Binning Eingabevariable aus W hlen Sie eine F hrungsvariable aus Variablen die die klassierten Datenwerte enthalten werden nicht standardm ig erstellt Auf der Registerkarte Speichern k nnen Sie diese Variablen speichern 26 Kapitel 5 Optimales Klassieren Ausgabe Abbildung 5 2 Dialogfeld Optimales Klassieren Registerkarte Ausgabe E Optimales Binning EE Yariablen Ausgabe Speichern Fehlende Werte Optionen Anzeigen C Beschreibende Statistiken f r Binning
19. Editor ersichtlich Diese klassierten Variablen sind n tzlich wenn Sie benutzerdefinierte Zusammenfassungen der Klassierungsergebnisse mithilfe von deskriptiven Prozeduren oder Berichtsprozeduren erstellen m chten Es ist jedoch nicht ratsam dieses Daten Set zur Erstellung eines Vorhersagemodells zu verwenden da die Klassierungsregeln mithilfe dieser F lle erstellt wurden Es ist sinnvoller die Klassierungsregeln auf ein anderes Daten Set anzuwenden das Informationen zu anderen Kunden enth lt Anwenden von Syntax Klassierungsregeln Bei der Ausf hrung der Prozedur Optimales Klassieren haben Sie angegeben dass die von der Prozedur erstellten Klassierungsregeln als Befehlssyntax gespeichert werden sollten ffnen Sie die Datei bankloan_binning rules sps 81 Optimales Klassieren Abbildung 8 14 Syntaxregeldatei td bankloan_binning rules sps SPSS Syntax Editor DER Datei Bearbeiten Ansicht Daten Transformieren Analysieren Grafiken Extras Ausf hren Fenster Hilfe 204 bo o Es P A gt C OPTIMAL BINNING Rules RECODE age MISSING SYSMIS 32 THRU HI 2 LOW THRU 32 1 INTO age_bin VARIABLE LABELS age_bin Binned input variable age based on guide variable default FORMATS age_bin F8 0 VARIABLE LEVEL age_bin NOMINAL VALUE LABELS age_bin 1 age lt 32 232 lt age RECODE employ MISSING 2 SMIc SPSS Prozessor ist bereit F r jede Klassierungs Eingabevariable gibt
20. F lle identifizieren 17 54 Ausgabe 19 Auswertung der Gr nde 66 Auswertung des Anomalie Index 66 Fehlende Werte 21 Liste der Gr nde anomaler F lle 62 Liste der Gruppen IDs anomaler F lle 61 Liste der Indexwerte anomaler F lle 60 Modell 54 Modelldatei exportieren 20 Normwerte der kategorialen Variablen 64 Normwerte der metrischen Variablen 63 Optionen 22 Variablen speichern 20 verwandte Prozeduren 69 Zusammenfassung der Fallverarbeitung 59 Un berwachtes Binning im Vergleich mit berwachtem Binning 24 99 Unvollst ndige Fallbezeichner in Daten validieren 15 35 Validierungsregeln 2 Validierungsregeln definieren 3 Regeln f r eine Variable 4 Regeln f r mehrere Variablen 6 Validierungsregeln f r eine Variable definieren 45 in Daten validieren 12 in Validierungsregeln definieren 4 Validierungsregeln f r mehrere Variablen definieren 45 in Daten validieren 13 52 in Validierungsregeln definieren 6 Validierungsregelverletzungen in Daten validieren 15 Variablenauswertung in Daten validieren 43 Verletzungen von Validierungsregeln in Daten validieren 15 Warnungen in Daten validieren 34 Zusammenfassung der Fallverarbeitung in Ungew hnliche F lle identifizieren 59 Index
21. GruppelD stellt die Gruppen ID des Falls dar GruppeGr e die Gruppengr e und GruppePrztGr e die Gruppengr e als Prozentsatz m Gr nde Speichert Sets von Grundvariablen mit dem angegebenen Stammnamen Ein Set von Grundvariablen besteht aus dem Namen einer Variablen die einen Grund darstellt dem Einflussma der Variablen dem Variablenwert und dem Normwert Die Anzahl der Sets h ngt von der Anzahl der angeforderten Gr nde ab angegeben auf der Registerkarte Optionen Wenn als Stammname zum Beispiel Grund angegeben wurde werden die Variablen GrundVar_k GrundMa _k GrundWert_k und GrundNormwert_k erzeugt wobei k den k ten Grund darstellt Diese Option steht nicht zur Verf gung wenn die Anzahl der Gr nde auf 0 festgelegt wurde Modelldatei exportieren Hiermit k nnen Sie das Modell im XML Format speichern Ungew hnliche F lle identifizieren Fehlende Werte Abbildung 4 4 Dialogfeld Ungew hnliche F lle identifizieren Registerkarte Fehlende Werte W Ungew hnliche F lle identifizieren variablen Ausgabe Speichern Fehlende Werte Optionen Fehlende Werte aus der Analyse ausschlie en Benutzer und systemdefinierte fehlende Werte werden ausgeschlossen Bei metrischen Yariablen werden benutzer und systemdefinierte fehlende Werte durch den Gesamtmittelwert der Yariablen ersetzt Bei kategorialen Yariablen werden benutzer und systemdefinierte fehlende Werte zusammengefasst und als Kategorie in
22. Neu 49 vveovv y Abbildung 6 22 Daten validieren Dialogfeld Validierungsregeln definieren Registerkarte Regeln f r eine Variable Definition von O to 100 by 5 L Validierungsregeln definieren Regeln Regeln f r eine Variable Regeln f r mehrere Variablen Regeldefinition Name 0 1 dichotomy 0 to 2 Categorical 0 to 3 Categorical 1 to 4 Categorical Nonnegative integer Nonnegative number 1 to 3 Categorical Oto 5 Categorical Oto 100 by 5 Typ Numerisch Numerisch Numerisch Numerisch Numerisch Numerisch Numerisch Numerisch Numerisch Name Oto 100 by 5 Typ Numerisch menjtty iii G ltige Werte In einer Liste v Gro Kleinschreibung bei der Wertepr fung ignorieren Benutzerdefinierte Fehlende Werte zulassen C Systemdefinierte fehlende Werte zulassen eere Werte zulasser Duplizieren L schen Geben Sie als Name der Regel 0 to 100 by 5 ein W hlen Sie im Feld G ltige Werte den Eintrag In einer Liste aus Geben Sie die Werte 0 5 bis 100 ein Deaktivieren Sie Systemdefinierte fehlende Werte zulassen Klicken Sie auf Weiter 50 Kapitel 6 Abbildung 6 23 Dialogfeld Daten validieren Registerkarte Regeln f r eine Variable Definition von O to 100 by 5 Daten validieren BEE S Variablen Grundlegende Pr fungen Regeln f r eine Variable Regeln f r mehrere V
23. Regeln zum Erkennen unm glicher Kombinationen f r mehrere Variablen definieren Die Prozedur liefert einen Bericht der Problemf lle und variablen Dar ber hinaus weisen die Daten in jedem Monat die gleichen Datenelemente auf sodass die Analytikerin in der Lage ist die Regeln im folgenden Monat auf die neue Datendatei anzuwenden Statistiken Die Prozedur erzeugt Listen von Variablen F llen und Datenwerten die verschiedene Pr fungen nicht bestehen H ufigkeiten der Verletzung von Regeln f r einzelne oder mehrere Variablen sowie einfache deskriptive Auswertungen der Analysevariablen Gewichtungen Die Prozedur ignoriert Angaben zur Gewichtungsvariablen und behandelt diese stattdessen wie jede andere Analysevariable So validieren Sie Daten W hlen Sie die folgenden Befehle aus den Men s aus Daten Validierung Daten validieren 9 Daten validieren Abbildung 3 1 Dialogfeld Daten validieren Registerkarte Variablen Daten validieren EE Variablen Grundlegende Pr fungen Regeln f r eine Variable Regeln f r mehrere Variablen Ausgabe Speichern Variablen Analysevariablen 8 Length of stay for rehabil E Total treatment and reha Rankin score at 1 month Rankin score at 3 months Rankin score at 6 months Barthel index at 1 month Barthel index at 3 months Barthel index at 6 months oi Recoded Barthel index at d Recoded Barthel index at ofiRecoded Barthel in
24. Unterlagen die mit Ihrem System geliefert werden Seriennummern Die Seriennummer des Programms dient gleichzeitig als Identifikationsnummer bei SPSS Sie ben tigen diese Seriennummer wenn Sie sich an SPSS wenden um Informationen ber Kundendienst zu Zahlungen oder Aktualisierungen des Systems zu erhalten Die Seriennummer wird mit dem Base System ausgeliefert Kundendienst Wenden Sie sich mit Fragen bez glich der Lieferung oder Ihres Kundenkontos an Ihr regionales SPSS B ro das Sie auf der SPSS Website unter http www spss com worldwide finden Halten Sie bitte stets Ihre Seriennummer bereit Ausbildungsseminare SPSS bietet ffentliche und unternehmensinterne Seminare an Alle Seminare beinhalten auch praktische bungen Seminare finden in gr eren St dten regelm ig statt Wenn Sie weitere Informationen zu diesen Schulungen w nschen wenden Sie sich an Ihr regionales SPSS B ro das Sie auf der SPSS Website unter http www spss com worldwide finden Technischer Support Kunden von SPSS mit Wartungsvertrag k nnen den Technischen Support in Anspruch nehmen Kunden k nnen sich an den Technischen Support wenden wenn sie Hilfe bei der Arbeit mit SPSS oder bei der Installation in einer der unterst tzten Hardware Umgebungen ben tigen Informationen ber den Technischen Support finden Sie auf der Website von SPSS unter http www spss com oder wenden Sie sich an Ihr regionales SPSS B ro das Sie auf der SPSS Website un
25. Yariablen C Modellentropie f r Binning Variablen Die Registerkarte Ausgabe steuert die Anzeige der Ergebnisse m Endpunkte f r Klassen Zeigt das Set an Endpunkten f r die einzelnen Klassierungs Eingabevariablen an m Beschreibende Statistiken f r Binning Variablen Diese Option zeigt f r die einzelnen Binning Eingabevariablen die Anzahl der F lle mit g ltigen Werten die Anzahl der F lle mit fehlenden Werten die Anzahl der verschiedenen g ltigen Werte sowie die Minimal und Maximalwerte an F r die F hrungsvariable zeigt diese Option die Klassenverteilung f r alle zugeh rigen Binning Eingabevariaben an m Modellentropie f r Binning Variable F r jede Binning Eingabevariable zeigt diese Option ein Ma f r die Vorhersagegenauigkeit der Variablen hinsichtlich der F hrungsvariablen an 27 Optimales Klassieren Optimales Klassieren Speichern Abbildung 5 3 Dialogfeld Optimales Klassieren Registerkarte Speichern E Optimales Binning Variablen Ausgabe Speichern Fehlende Werte Optionen Yariablen in Arbeitsdatei speichern Suffix f r Ausgabevariablen Klasse F r jede Variable f r die das Binning erfolgt wird genau eine Variable erstellt Die Namen der Ausgabevariablen werden durch Anf gen eines Unterstrichs und des Suffixes an den Namen der urspr nglichen Variablen erstellt Beispiel Age_bin C vorhandene variablen mit demselben Namen ersetzen Binning Regeln als SP5
26. category agecat 4 oo Mi m Durchsuchte F lle 1183 Regeln definieren Durchsuchte Anzahl der SNE soe Begrenzen der durchsuchten F lle hat keinen Einflu E le S000 Erneut durchsuchen auf die Anzahl der validierten F lle F lle begrenzen Anzeigen Alle variablen Yariablenverteilungen gt Um die Daten in stroke_invalid sav auf der Grundlage der kopierten Regeln zu validieren klicken Sie auf der Symbolleiste auf die Schaltfl che Zuletzt verwendete Dialogfelder und w hlen Sie Daten validieren aus gt Klicken Sie auf die Registerkarte Regeln f r eine Variable In der Liste Analysevariablen werden die Variablen die Sie auf der Registerkarte Variablen ausgew hlt haben zusammenfassende Informationen zu deren Verteilungen und die Anzahl der Regeln angezeigt die ihnen jeweils zugeordnet sind Variablen deren Eigenschaften aus der Datei patient_los sav kopiert wurden besitzen zugeordnete Regeln In der Liste Regeln werden die Validierungsregeln f r eine Variable angezeigt die in der Datendatei verf gbar sind Diese Regeln wurden aus der Datei patient_los sav kopiert Beachten Sie dass einige dieser Regeln auch auf Variablen zutreffen f r die in der anderen Datendatei keine exakten Entsprechungen vorliegen 41 vy v v y Daten validieren Abbildung 6 11 Dialogfeld Daten validieren Registerkarte Regeln f r eine Variable Daten val
27. chen angezeigt m Neu F gt einen neuen Eintrag am Ende der Liste Regeln hinzu Die Regel wird ausgew hlt und erh lt den Namen MehrVarRegel n Hierbei ist n eine Ganzzahl sodass der Name der Regel unter den Regeln f r eine oder mehrere Variablen eindeutig ist 7 Validierungsregeln m Duplizieren F gt eine Kopie der ausgew hlten Regel am Ende der Liste Regeln hinzu Der Name der Regel wird so angepasst dass er unter den Regeln f r eine oder mehrere Variablen eindeutig ist Wenn Sie beispielsweise MehrVarRegel 1 duplizieren erh lt die erste duplizierte Regel den Namen Kopie von MehrVarRegel 1 die zweite den Namen Kopie 2 von MehrVarRegel 1 usw m L schen L scht die ausgew hlte Regel Regeldefinition Mit diesen Steuerelementen k nnen Sie die Eigenschaften f r eine ausgew hlte Regel anzeigen lassen und festlegen m Name Der Name der Regel muss unter den Regeln f r eine oder mehrere Variablen eindeutig sein m Logischer Ausdruck Im Wesentlichen ist dies die Regeldefinition Die Auswertung des Ausdrucks f r einen ung ltigen Fall muss 1 entsprechen Erstellen von Ausdr cken gt Um einen Ausdruck zu erstellen f gen Sie die Komponenten in das Feld Ausdruck ein oder geben den Ausdruck direkt in dieses Feld ein m Sie k nnen Funktionen oder h ufig verwendete Systemvariablen einf gen indem Sie eine Gruppe aus der Liste Funktion ausw hlen und in der
28. diskretisierter Variablen erh hen m Ermittlung vollst ndiger oder quasi vollst ndiger Datentrennung Optimales Klassieren im Vergleich zum visuellen Klassieren In den Dialogfeldern von Visuelles Klassieren stehen Ihnen mehrere automatische Methoden zur Erstellung von Klassen ohne die Verwendung einer F hrungsvariablen zur Verf gung Diese Regeln f r un berwachtes Klassieren sind n tzlich f r die Erstellung deskriptiver Statistiken wie beispielsweise H ufigkeitstabellen Optimales Klassieren ist am besten wenn das Endziel in der Erstellung eines Vorhersagemodells besteht Ausgabe Mit dieser Prozedur werden Tabellen mit Trennwerten f r die Klassen und deskriptive Statistiken f r jede Klassierungs Eingabevariable erstellt Zus tzlich k nnen Sie neue Variablen im aktiven Daten Set speichern die die klassierten Werte der Klassierungs Eingabevariablen enthalten und die Klassierungsregeln als Befehlssyntax zur Verwendung bei der Diskretisierung neuer Daten speichern Daten Bei dieser Prozedur wird davon ausgegangen dass es sich bei den Binning Eingabevariablen um metrische numerische Variablen handelt Die F hrungsvariable sollte kategorial sein Es kann sich dabei um eine String Variable oder eine numerische Variable handeln 24 25 Optimales Klassieren So erhalten Sie ein optimales Klassieren Wahlen Sie die folgenden Befehle aus den Meniis aus Transformieren Optimales Klassieren Abbildung 5 1
29. es einen Block mit Befehlssyntax die die Klassierung durchf hrt Variablenlabel Format und Stufe und die Variablenlabels f r die Klassen festlegt Diese Befehle k nnen auf ein Daten Set angewendet werden das dieselben Variablen enth lt wie bankloan_binning sav ffnen Sie die Datei bankloan sav F r weitere Informationen siehe Beispieldateien in Anhang A auf S 84 Kehren Sie zur Syntax Editor Ansicht von bankloan_binning rules sps zur ck 82 Kapitel 8 gt Um die Klassierungsregeln anzuwenden w hlen Sie im Syntax Editor folgende Befehle aus Ausf hren Alles Abbildung 8 15 Klassierte Variablen f r bankloan sav im Daten Editor preddef3 age_bin employ_bin address_bin income_bin debtinc_bin creddebt_bin othdebt_bin GA N N N gt n w nn n w w n n nj n ninj n md n w w v w n w m He RO Pi M I e e N w se n w w w GO RO n S S EIN w N w 2 1 2 2 1 2 2 2 1 2 1 1 2 2 2 Yariablenansicht Die Variablen inbankloan sav wurden klassiert Hierf r wurden die Regeln verwendet die bei der Ausf hrung der Prozedur Optimales Klassieren f r die Datei bankloan_binning sav erstellt wurden Dieses Daten Set kann nun zur Erstellung von Vorhersagemodellen verwendet werden bei denen kategoriale Variablen erforderlich oder vorzuziehen sind Zusammenfassung Mithilfe der Prozedu
30. f r 85 Regionen ber einen Zeitraum von vier Jahren broadband_2 sav Diese Datendatei stimmt mit broadband_1 sav berein enth lt jedoch Daten f r weitere drei Monate 86 Anhang A car_insurance_claims sav Ein an anderer Stelle McCullagh als auch Nelder 1989 vorgestelltes und analysiertes Daten Set bezieht sich auf Schadensanspr che f r Autos Die durchschnittliche H he der Schadensanspr che l sst sich mit Gamma Verteilung modellieren Dazu wird eine inverse Link Funktion verwendet um den Mittelwert der abh ngigen Variablen mit einer linearen Kombination aus Alter des Versicherungsnehmers Fahrzeugtyp und Fahrzeugalter in Bezug zu setzen Die Anzahl der eingereichten Schadensanspr che kann als Skalierungsgewicht verwendet werden car_sales sav Diese Datendatei enth lt hypothetische Verkaufssch tzer Listenpreise und physische Spezifikationen f r verschiedene Fahrzeugfabrikate und modelle Die Listenpreise und physischen Spezifikationen wurden von edmunds com und Hersteller Websites entnommen carpet sav In einem beliebten Beispiel m chte Green als auch Wind 1973 einen neuen Teppichreiniger vermarkten und dazu den Einfluss von f nf Faktoren auf die Bevorzugung durch den Verbraucher untersuchen Verpackungsgestaltung Markenname Preis G tesiegel Good Housekeeping und Geld zur ck Garantie Die Verpackungsgestaltung liegt in drei Faktorstufen vor die sich durch die Position der Auftrageb rste unterscheiden Au
31. f r die Risikoanf lligkeit an site sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Unternehmens geht neue Standorte f r die betriebliche Expansion auszuw hlen Das Unternehmen beauftragte zwei Berater unabh ngig voneinander mit der Bewertung der Standorte Neben einem umfassenden Bericht gaben die Berater auch eine zusammenfassende Wertung f r jeden Standort als good gut fair mittelm ig oder poor schlecht ab 93 Beispieldateien siteratings sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Betatests der neuen Website eines E Commerce Unternehmens geht Jeder Fall entspricht einem Beta Tester der die Brauchbarkeit der Website auf einer Skala von 0 bis 20 bewertete smokers sav Diese Datendatei wurde aus der Umfrage National Household Survey of Drug Abuse aus dem Jahr 1998 abstrahiert und stellt eine Wahrscheinlichkeitsstichprobe US amerikanischer Haushalte dar Daher sollte der erste Schritt bei der Analyse dieser Datendatei darin bestehen die Daten entsprechend den Bev lkerungstrends zu gewichten smoking sav Hierbei handelt es sich um eine von Greenacre Greenacre 1984 vorgestellte hypothetische Tabelle Die relevante Tabelle wird durch eine Kreuztabelle der Rauchgewohnheiten und der Berufskategorie gebildet Die Variable Berufsgruppe enth lt die Berufskategorien Senior Manager Junior Manager Angestellter mit
32. gt SPSS Data Preparation Aufbereitung von Daten 16 0 Weitere Informationen zu SPSS Software Produkten finden Sie auf unserer Website unter der Adresse http www spss com oder wenden Sie sich an SPSS Inc 233 South Wacker Drive 11th Floor Chicago IL 60606 6412 USA Tel 312 651 3000 Fax 312 651 3668 SPSS ist eine eingetragene Marke und weitere Produktnamen sind Marken der SPSS Inc fiir Computerprogramme von SPSS Inc Die Herstellung oder Verbreitung von Materialien die diese Programme beschreiben ist ohne die schriftliche Erlaubnis des Eigent mers der Marke und der Lizenzrechte der Software und der Copyrights der ver ffentlichten Materialien verboten Die SOFTWARE und die Dokumentation werden mit BESCHR NKTEN RECHTEN zur Verf gung gestellt Verwendung Vervielf ltigung und Ver ffentlichung durch die Regierung unterliegen den Beschr nkungen in Unterabschnitt c 1 ii von The Rights in Technical Data and Computer Software unter 52 227 7013 Vertragspartner Hersteller ist SPSS Inc 233 South Wacker Drive 11th Floor Chicago IL 60606 6412 Patentnr 7 023 453 Allgemeiner Hinweis Andere in diesem Dokument verwendete Produktnamen werden nur zu Identifikationszwecken genannt und k nnen Marken der entsprechenden Unternehmen sein Windows ist eine eingetragene Marke der Microsoft Corporation Apple Mac und das Mac Logo sind Marken von Apple Computer Inc die in den USA und in anderen L ndern eingetra
33. r kategoriale Variablen Minimaler Yariationskoeffizient 0 001 Gilt nur f r metrische Yariablen Minimale Standardabweichung 0 Gilt nur f r metrische Variablen Fallbezeichner Unvallstandige IDs markieren V Doppelte IDs markieren MV Leere F lle markieren F lle definieren nach Alle Yariablen im Daten Set ohne ID Variabler v Ein Fall gilt als leer wenn alle relevanten Yariablen fehlen oder leer sind Auf der Registerkarte Grundlegende Pr fungen k nnen Sie grundlegende Pr fverfahren f r Analysevariablen Fallbezeichner und ganze F lle ausw hlen Analysevariablen Wenn Sie auf der Registerkarte Variablen Analysevariablen ausgew hlt haben k nnen Sie die folgenden G ltigkeitspr fungen ausw hlen Mit den Kontrollk stchen k nnen Sie die einzelnen Pr fungen aktivieren oder deaktivieren Maximaler Prozentsatz fehlender Werte Gibt Analysevariablen aus bei denen der prozentuale Anteil fehlender Werte den angegebenen Wert bersteigt Der angegebene Wert muss eine positive Zahl kleiner oder gleich 100 sein Maximaler Prozentsatz der F lle in einer einzelnen Kategorie Wenn kategoriale Analysevariablen vorhanden sind werden bei dieser Option kategoriale Analysevariablen ausgegeben bei denen der prozentuale Anteil der F lle die eine einzelne nichtfehlende Kategorie darstellen den angegebenen Wert bersteigt Der angegebene Wert muss eine positive Zahl kleiner oder gleich 100 sein De
34. ufe sind in Grundbucheintr gen dokumentiert mutualfund sav Diese Datendatei betrifft Aktienmarktdaten f r verschiedene Technologieaktien die in im Index S amp P 500 verzeichnet sind Jeder Fall entspricht einem Unternehmen nhis2000_subset sav Die National Health Interview Survey NHIS ist eine gro e bev lkerungsbezogene Umfrage in unter der US amerikanischen Zivilbev lkerung Es werden pers nliche Interviews in einer landesweit repr sentativen Stichprobe von Haushalten durchgef hrt F r die Mitglieder jedes Haushalts werden demografische Informationen und Beobachtungen zum Gesundheitsverhalten und Gesundheitsstatus eingeholt Diese Datendatei enth lt eine Teilmenge der Informationen aus der Umfrage des Jahres 2000 National Center for Health Statistics National Health Interview Survey 2000 Datendatei und Dokumentation ffentlich zug nglich ftp ftp cdc gov pub Health_Statistics NCHS Datasets NHIS 2000 Zugriff erfolgte 2003 ozone sav Die Daten enthalten 330 Beobachtungen zu sechs meteorologischen Variablen zur Vorhersage der Ozonkonzentration aus den brigen Variablen Bei fr heren Untersuchungen Breiman als auch Friedman 1985 Hastie als auch Tibshirani 1990 fanden Wissenschaftler einige Nichtlinearit ten unter diesen Variablen die die Standardverfahren bei der Regression behindern pain_medication sav Diese hypothetische Datendatei enth lt die Ergebnisse eines klinischen Tests f r ein entztindungshem
35. und erfasst Daten zu dessen demografischen Hintergrund einige Details zu seinem ersten Verbrechen sowie die Zeit bis zu seiner zweiten Festnahme sofern diese innerhalb von zwei Jahren nach der ersten Festnahme erfolgte recidivism_cs_sample sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Strafverfolgungsbeh rde geht einen Einblick in die R ckfallraten in ihrem Zust ndigkeitsbereich zu gewinnen Jeder Fall entspricht einem fr heren Straft ter der im Juni 2003 erstmals aus der Haft entlassen wurde und erfasst Daten zu dessen demografischen Hintergrund einige Details zu seinem ersten Verbrechen sowie die Daten zu seiner zweiten Festnahme sofern diese bis Ende Juni 2006 erfolgte Die Straft ter wurden aus per Stichprobenziehung ermittelten Polizeidirektionen ausgew hlt gem dem in recidivism_cs csplan angegebenen Stichprobenplan Da hierbei eine PPS Methode PPS probability proportional to size Wahrscheinlichkeit proportional zur Gr e verwendet wird gibt es au erdem eine Datei mit den gemeinsamen Auswahlwahrscheinlichkeiten recidivism_cs_jointprob sav salesperformance sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bewertung von zwei neuen Verkaufsschulungen geht 60 Mitarbeiter die in drei Gruppen unterteilt sind erhalten jeweils eine Standardschulung Zus tzlich erh lt Gruppe 2 eine technische Schulung und Gruppe 3 eine Praxisschulung Die ein
36. 5 Syntax speichern un Um Binning Regeln zu speichern geben Sie eine Datei an Sie k nnen die gespeicherte Syntax f r das Binning von F llen verwenden die zum Zeitpunkt der Klassenerstellung noch nicht verfiiabar sind Variablen in Arbeitsdatei speichern In der weiteren Analyse k nnen anstelle der urspr nglichen Variablen Variablen verwendet werden die die gebinnten Datenwerte enthalten Klassierungsregeln als SPSS Syntax speichern Generiert Befehlssyntax die f r die Klassierung von anderen Daten Sets verwendet werden kann Die Umkodierungsregeln beruhen auf den vom Klassierungsalgorithmus bestimmten Trennwerten 28 Kapitel 5 Optimales Klassieren Fehlende Werte Abbildung 5 4 Dialogfeld Optimales Klassieren Registerkarte Fehlende Werte E Optimales Binning Yariablen Ausgabe Speichern Fehlende Werte Optionen F lle mit fehlenden Werten ausschlie en OR Nutzt beim Binning mehrerer Yariablen so viele F lle wie m glich Listenweise Gew hrleistet dass beim Binning mehrerer Yariablen eine konsistente Fallbasis verwendet wird Benutzerdefiniert fehlende Werte werden immer als ung ltig behandelt Auf der Registerkarte Fehlende Werte wird angegeben ob der Umgang mit fehlenden Werten anhand eines listenweisen oder paarweisen Ausschlusses erfolgt Benutzerdefinierte fehlende Werte werden stets als ung ltig behandelt Bei der Umkodierung der urspr nglichen Variablenw
37. 63642766 001448 Zweimal Gestorben 0418125590 877354 Zweimal Gestorben 8744721380 539412 Nonnegative integer 1 Oto 1 Dichotomy 3 4993307441 828754 Zweimal Gestorben 9714672452 237547 Zweimal Gestorben 6613279456 574275 Zweimal Gestorben 2575793702 501318 Zweimal Gestorben 2507437472 680253 Zweimal Gestorben 5284009939 657638 Zweimal Gestorben 8021997463 185703 Zweimal Gestorben 0950897644 267830 1 to 4 Categorical 1 8737661990 185787 a The number of variables that violated the rule follows each rule Der Fallbericht enth lt jetzt neben den bereits vorher erkannten F llen die die Regeln f r eine Variable verletzen auch die F lle die die Regeln f r mehrere Variablen verletzen Diese F lle m ssen den f r die Datenerfassung zust ndigen Personen gemeldet werden damit sie korrigiert werden k nnen 53 Daten validieren Zusammenfassung Die Analytikerin verf gt jetzt ber die Informationen f r einen vorl ufigen Bericht an den Leiter der Datenerfassung Verwandte Prozeduren Die Prozedur Daten validieren ist n tzlich f r die Qualit tskontrolle der Daten m Mit der Prozedur Ungew hnliche F lle identifizieren k nnen Sie Muster in den Daten analysieren und F lle identifizieren bei denen einige signifikante Werte abweichen Kapitel 7 Ungew hnliche F lle identifizieren Mit der Prozedur Anomalieerkennung wird anhand von Abweichungen von den Normen der jeweiligen Cluster
38. 72 2 und 81 4 Abbildung 7 13 Normwerte der kategorialen Variablen ausgew hlte Variablen Gruppen ID Kombiniert 0 1 0 Dead on arrival H ufigste Kategorie 0 H ufigkeit 90 248 958 Prozent 100 0 100 0 91 4 Initial Rankin Haufigste Kategorie Missing 5 score Haufigkeit Value Prozent a Ve 100 0 18 4 CAT scan result H ufigste Kategorie Missing 0 Haufigkeit Valua Prozent a0 791 100 0 75 5 Clot dissolving H ufigste Kategorie Missing 2 drugs H ufigkeit Value Prozent Gen 100 0 37 6 Died in hospital Haufigste Kategorie Missing 0 H ufigkeit Value Prozent rar 100 0 751 Treatment result H ufigste Kategorie Missing 4 H ufigkeit vakis Prozent a 100 0 59 2 Post event Haufigste Kategorie Missing Missing 0 preventative H ufigkeit Value Value surgery Prozent 90 171 369 100 0 69 0 35 2 Post event H ufigste Kategorie 0 Missing Missing 0 rehabilitation Haufigkeit Value Value Prozent 278 90 171 314 39 2 100 0 69 0 30 0 Die durch die Normwerte der metrischen Variablen nahe gelegte Vermutung best tigt sich im unteren Teil der Tabelle mit den Normwerten der kategorialen Variablen Gruppe 2 besteht vollst ndig aus Patienten die bereits bei der Ankunft verstorben waren Deshalb fehlen alle Werte der Behandlungs und Rehabilitationsvariablen Die meisten Patienten in Gruppe 3 69 0 starben w hrend der Behandlung Daher ist die h ufigste Kategorie f r die Rehabilitations
39. 8330 6461046805 6461046805 6461046805 1077125669 1077125669 1077125669 2260043998 2260043998 2260043998 4030164769 4030164769 4030164769 cost surgery barthel1 barthel1 rehab rankin1 cost barthel1 rehab cost barthel1 rehab barthel1 rankint rechart1 19 83 Missing Value Missing Value Missing Value Missing Value Missing Value 19 83 Missing Value Missing Value 19 83 Missing Yalue Missing Yalue Missing Yalue Missing Yalue Missing Yalue Ungew hnliche F lle identifizieren Bei dieser Einstellung ist es einfach die relativen Beitr ge der ersten drei Gr nde f r jeden Fall zu vergleichen Wie vermutet wird Fall 843 als anomal betrachtet weil cost f r diesen Fall einen ungew hnlich hohen Wert aufweist Im Gegensatz dazu tr gt kein einzelner Grund mehr als 0 10 zur Ungew hnlichkeit von Fall 501 bei Normwerte der metrischen Variablen Abbildung 7 11 Normwerte der metrischen Variablen Length of stay for rehabilitation Total treatment and rehabilitation costs in thousands Missing Proportion Mean Std Deviation Mean Std Deviation Mean Std Deviation Gruppen ID 1 16 55 16 39 15 91 3 5089 19 8273 50997 20 17309 2 9E 016 12 596 000 6 834 541 006 16 39 10 887 33 7641 27 31266 Die Liste mit den Normwerten der metrischen Variablen enth lt den Mittelwert und die Standardabweichung jeder Variablen pro Gruppe und insgesamt Bei
40. Angebote f r Kunden zu erstellen die mit der gr ten Wahrscheinlichkeit darauf ansprechen Nach dem Zufallsprinzip wurde eine Untergruppe des Kundenstamms ausgew hlt Diese Gruppe erhielt die speziellen Angebote und die Reaktionen wurden aufgezeichnet customers_model sav Diese Datei enth lt hypothetische Daten zu Einzelpersonen auf die sich eine Marketingkampagne richtete Zu diesen Daten geh ren demografische Informationen eine bersicht ber die bisherigen Eink ufe und die Angabe ob die einzelnen Personen auf die Kampagne ansprachen oder nicht Jeder Fall entspricht einer Einzelperson customers_new sav Diese Datei enth lt hypothetische Daten zu Einzelpersonen die potenzielle Kandidaten f r Marketingkampagnen sind Zu diesen Daten geh ren demografische Informationen und eine bersicht ber die bisherigen Eink ufe f r jede Person Jeder Fall entspricht einer Einzelperson debate sav Hierbei handelt es sich um eine hypothetische Datendatei die gepaarte Antworten auf eine Umfrage unter den Zuh rern einer politischen Debatte enth lt Antworten vor und nach der Debatte Jeder Fall entspricht einem Befragten debate_aggregate sav Hierbei handelt es sich um eine hypothetische Datendatei in der die Antworten aus debate sav aggregiert wurden Jeder Fall entspricht einer Kreuzklassifikation der bevorzugten Politiker vor und nach der Debatte demo sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine
41. Attributen des Eiskaffee Image sollten die Teilnehmer jeweils alle Marken ausw hlen die durch dieses Attribut beschrieben werden Die sechs Marken werden als AA BB CC DD EE und FF bezeichnet um Vertraulichkeit zu gew hrleisten contacts sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Kontaktlisten einer Gruppe von Vertretern geht die Computer an Unternehmen verkaufen Die einzelnen Kontaktpersonen werden anhand der Abteilung in der sie in ihrem Unternehmen arbeiten und anhand ihrer Stellung in der Unternehmenshierarchie in Kategorien eingeteilt Au erdem werden der Betrag des letzten Verkaufs die Zeit seit dem letzten Verkauf und die Gr e des Unternehmens in dem die Kontaktperson arbeitet aufgezeichnet creditpromo sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Kaufhauses geht die Wirksamkeit einer k rzlich durchgef hrten Kreditkarten Werbeaktion einzusch tzen Dazu wurden 500 Karteninhaber nach dem Zufallsprinzip ausgew hlt Die H lfte erhielt eine Werbebeilage die einen reduzierten Zinssatz f r Eink ufe in den n chsten drei Monaten ank ndigte Die andere H lfte erhielt eine Standard Werbebeilage customer_dbase sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Unternehmens geht das die Informationen in seinem Data Warehouse nutzen m chte um spezielle
42. Betr gen und den daraus resultierenden Ums tzen zu untersuchen Zu diesem Zweck hat er die Ums tze vergangener Jahre und die zugeh rigen Werbeausgaben zusammengestellt aflatoxin sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Tests von Maisernten auf Aflatoxin geht ein Gift dessen Konzentration stark zwischen und innerhalb von Ernteertr gen schwankt Ein Kornverarbeitungsbetrieb hat aus 8 Ernteertr gen je 16 Proben erhalten und das Aflatoxinniveau in Teilen pro Milliarde parts per billion PPB gemessen aflatoxin20 sav Diese Datendatei enth lt die Aflatoxinmessungen aus jeder der 16 Stichproben aus den Ertr gen 4 und 8 der Datendatei aflatoxin sav anorectic sav Bei der Ausarbeitung einer standardisierten Symptomatologie anorektischen bulimischen Verhaltens f hrten Forscher Van der Ham Meulman Van Strien als auch Van Engeland 1997 eine Studie mit 55 Jugendlichen mit bekannten Ess St rungen durch Jeder Patient wurde vier Mal ber einen Zeitraum von vier Jahren untersucht es fanden also insgesamt 220 Beobachtungen statt Bei jeder Beobachtung erhielten die Patienten Scores f r jedes von 16 Symptomen Die Symptomwerte fehlen f r Patient 71 84 85 Beispieldateien zum Zeitpunkt 2 Patient 76 zum Zeitpunkt 2 und Patient 47 zum Zeitpunkt 3 wodurch 217 gultige Beobachtungen verbleiben autoaccidents sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hun
43. Breiman L als auch J H Friedman 1985 Estimating optimal transformations for multiple regression and correlation Journal of the American Statistical Association 80 580 598 Collett D 2003 Modelling survival data in medical research 2 Hg Boca Raton Chapman amp Hall CRC Green P E als auch V Rao 1972 Applied multidimensional scaling Hinsdale Ill Dryden Press Green P E als auch Y Wind 1973 Multiattribute decisions in marketing A measurement approach Hinsdale Ill Dryden Press Greenacre M J 1984 Theory and applications of correspondence analysis London Academic Press Guttman L 1968 A general nonmetric technique for finding the smallest coordinate space for configurations of points Psychometrika 33 469 506 Hartigan J A 1975 Clustering algorithms New York John Wiley and Sons Hastie T als auch R Tibshirani 1990 Generalized additive models London Chapman and Hall Kennedy R C Riquier als auch B Sharp 1996 Practical applications of correspondence analysis to categorical data in market research Journal of Targeting Measurement and Analysis for Marketing 5 56 70 McCullagh P als auch J A Nelder 1989 Generalized Linear Models 2nd Hg London Chapman amp Hall Menec V N Roos D Nowicki L MacWilliam G Finlayson als auch C Black 1999 Seasonal Patterns of Winnipeg Hospital Use Manitoba Centre for Health Policy Price R H als auc
44. Die Prozedur Optimales Klassieren diskretisiert eine oder mehrere metrische Variablen im Folgenden als Klassierungs Eingabevariablen Binning Eingabevariablen bezeichnet indem die Werte der einzelnen Variablen auf verschiedene Klassen verteilt werden Die Klassenbildung ist in Bezug auf eine kategoriale F hrungsvariable optimal die den Klassierungsvorgang berwacht Anstatt der urspr nglichen Datenwerte k nnen dann die Klassen zur weiteren Analyse verwendet werden Beispiele F r die Verringerung der unterschiedlichen Werte die eine Variable annehmen kann gibt es verschiedenen Anwendungsm glichkeiten Hier einige Beispiele m Anforderungen anderer Prozeduren an die Daten Diskretisierte Variablen k nnen f r die Verwendung in Prozeduren bei denen kategoriale Variablen erforderlich sind als kategorial behandelt werden Beispielsweise m ssen f r die Prozedur Kreuztabellen alle Variablen kategorial sein m Datenschutz Die Angabe von gebinnten Werten anstelle der tats chlichen Werte in Berichten kann zur Gew hrleistung des Datenschutzes bei Ihren Datenquellen beitragen Die Prozedur Optimales Klassieren kann eine Orientierung f r die Auswahl der Klassen bieten m Schnellere Durchf hrung Einige Prozeduren sind effizienter wenn sie mit einer reduzierten Anzahl an unterschiedlichen Werten arbeiten So l sst sich beispielsweise die Geschwindigkeit der multinomialen logistischen Regression durch die Verwendung
45. Die Prozedur erzeugt Gruppen Normwerte f r Gruppen bei stetigen und kategorialen Variablen Anomalie Indizes auf der Grundlage von Abweichungen von den Normwerten der Gruppen sowie Variablen Einflusswerte f r Variablen die am meisten dazu beitragen dass ein Falls als ungew hnlich klassifiziert wird Erl uterung der Daten Daten Mit dieser Prozedur k nnen sowohl stetige als auch kategoriale Variablen analysiert werden Jede Zeile stellt eine eindeutige Beobachtung und jede Zeile eine eindeutige Variable als Grundlage f r die Gruppen dar In der Datendatei kann eine Fallidentifizierungsvariable zum Markieren der Ausgabe verf gbar sein Diese Variable wird jedoch nicht in der Analyse verwendet Fehlende Werte sind zul ssig Wenn die Gewichtungsvariable angegeben wurde wird diese ignoriert Das Erkennungsmodell kann auf eine neue Test Datendatei angewendet werden Die Elemente der Testdaten m ssen dieselben wie die Elemente der Lerndaten sein Abh ngig von den Einstellungen des Algorithmus kann die Verarbeitung fehlender Werte die beim Erstellen des Modells verwendet wird vor der Bewertung auf die Testdaten angewendet werden 17 18 Kapitel 4 Fallreihenfolge Beachten Sie dass die L sung von der Fallreihenfolge abh ngen kann Um die Auswirkungen der Reihenfolge zu minimieren mischen Sie die F lle in zuf lliger Reihenfolge Pr fen Sie daher die Stabilit t einer bestimmten L sung indem Sie verschiedene L sungen abrufen
46. Erfahrung Angestellter ohne Erfahrung und Sekretariat sowie die Kategorie National Average die als Erg nzung der Analyse dienen kann Die Variable Rauchen enth lt die Rauchgewohnheiten Nichtraucher Leicht Mittel und Stark sowie die Kategorien No Alcohol und Alcohol die als Erg nzung der Analyse dienen k nnen storebrand sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Verkaufsleiterin in einem Lebensmittelmarkt geht die die Verkaufszahlen des Waschmittels der Eigenmarke gegen ber den anderen Marken steigern m chte Sie erarbeitet eine Werbeaktion im Gesch ft und spricht an der Kasse mit Kunden Jeder Fall entspricht einem Kunden stores sav Diese Datendatei enth lt hypothetische monatliche Marktanteilsdaten f r zwei konkurrierende Lebensmittelgesch fte Jeder Fall entspricht den Marktanteilsdaten f r einen bestimmten Monat stroke_clean sav Diese hypothetische Datendatei enth lt den Zustand einer medizinischen Datenbank nachdem diese mithilfe der Prozeduren in der Option Data Preparation bereinigt wurde stroke_invalid sav Diese hypothetische Datendatei enth lt den urspr nglichen Zustand einer medizinischen Datenbank der mehrere Dateneingabefehler aufweist stroke_survival In dieser hypothetischen Datendatei geht es um die berlebenszeiten von Patienten die nach einem Rehabilitationsprogramm wegen eines isch mischen Schlaganfalls mit einer Reihe von Problemen zu
47. Liste Funktionen und Sodervariablen auf die Funktion bzw Variable doppelklicken oder die Funktion bzw Variable ausw hlen und auf Einf gen klicken Geben Sie alle durch Fragezeichen gekennzeichneten Parameter an gilt nur f r Funktionen Die Funktionsgruppe mit der Beschriftung Alle bietet eine Liste aller verf gbaren Funktionen und Systemvariablen Eine kurze Beschreibung der aktuell ausgew hlten Funktion oder Variablen wird in einem speziellen Bereich des Dialogfelds angezeigt String Konstanten m ssen in Anf hrungszeichen oder Apostrophe eingeschlossen werden Wenn die Werte Dezimalstellen enthalten muss ein Punkt als Dezimaltrennzeichen verwendet werden Kapitel 3 Daten validieren Im Dialogfeld Daten validieren k nnen Sie verd chtige oder ung ltige F lle Variablen und Datenwerte in der Arbeitsdatei identifizieren Beispiel Eine Datenanalytikerin muss f r ihren Auftraggeber einen monatlichen Bericht ber die Kundenzufriedenheit zusammenstellen Die monatlich erhaltenen Daten m ssen einer Qualit tspr fung unterzogen werden Dabei muss nach ung ltigen Kunden IDs Variablenwerten au erhalb des Bereichs sowie Kombinationen von Variablenwerten gesucht werden die h ufig fehlerhaft eingegeben werden Im Dialogfeld Daten validieren kann die Analytikerin die Variablen angeben durch die Kunden eindeutig identifiziert werden Regeln f r g ltigen Wertebereiche einzelner Variablen definieren und
48. Regeln f r mehrere Variablen zu definieren klicken Sie auf Regeln definieren F r weitere Informationen siehe Definieren von Regeln f r mehrere Variablen in Kapitel 2 auf S 6 14 Kapitel 3 Daten validieren Ausgabe Abbildung 3 5 Dialogfeld Daten validieren Registerkarte Ausgabe Daten validieren Variablen Grundlegende Pr fungen Regeln f r eine Variable Regeln f r mehrere Variablen Ausgabe Speichern Fallweiser Bericht Mindestanzahl der Verletzungen damit ein Fall enthalten ist Hachstanzahl der F lle im Bericht Yalidierungsregeln f r eine Variable _ Deskriptive Statistik f r Analysevariablen anzeigen C F lle die Yalidierungsregeln verletzen an den Anfang der Arbeitsdatei verschieben Fallweiser Bericht Wenn Sie Validierungsregeln f r eine oder mehrere Variablen ausgew hlt haben k nnen Sie einen Bericht anfordern der die Verletzungen der Validierungsregeln f r einzelne F lle enth lt Mindestanzahl der Verletzungen damit ein Fall enthalten ist Mit dieser Option wird die Mindestanzahl der Verletzungen angegeben die erforderlich sind damit ein Fall in den Bericht aufgenommen wird Geben Sie eine positive Ganzzahl ein m H chstanzahl der F lle im Bericht Mit dieser Option wird die H chstanzahl der F lle angegeben die im Fallbericht enthalten sein soll Geben Sie eine positive ganze Zahl kleiner oder gleich 1000 ein Validierungsregeln f r eine Variable Wenn
49. Sie Validierungsregeln f r einzelne Variablen angewendet haben k nnen Sie ausw hlen ob und wie die Ergebnisse angezeigt werden sollen m Verletzungen nach Analysevariable zusammenfassen Bei dieser Option werden f r jede Analysevariable alle Validierungsregeln f r eine Variable aufgef hrt die verletzt wurden und die Anzahl der Werte angegeben die eine Verletzung der einzelnen Regeln darstellen 15 Daten validieren AuBerdem wird fiir jede Variable die Gesamtanzahl der Verletzungen von Regeln fiir eine Variable ausgegeben m Verletzungen nach Regel zusammenfassen Bei dieser Option werden f r jede Validierungsregel f r eine Variable die Variablen ausgegeben die die Regeln verletzen und die Anzahl der ung ltigen Werte pro Variable angegeben Au erdem wird variablen bergreifend die Gesamtanzahl der Werte ausgegeben die eine Verletzung der einzelnen Regeln darstellen Deskriptive Statistik f r Analysevariablen anzeigen Mit dieser Option k nnen Sie deskriptive Statistiken f r Analysevariablen anfordern F r jede kategoriale Variable wird eine H ufigkeitstabelle erzeugt F r metrische Variablen wird eine Tabelle mit Auswertungsstatistiken erzeugt darunter der Mittelwert die Standardabweichung das Minimum und das Maximum F lle die Validierungsregeln verletzen an den Anfang der Arbeitsdatei verschieben Bei dieser Option werden F lle mit Verletzungen von Regeln f r eine oder mehrere Variablen an den Anfang der ARbe
50. Tod im Krankenhaus aufgezeichnet wurde Klicken Sie auf Weiter Die neue Regel auf der Registerkarte Regeln fiir mehrere Variablen wird automatisch ausgew hlt Klicken Sie auf OK 52 Kapitel 6 Regeln fiir mehrere Variablen Abbildung 6 25 Regeln fur mehrere Variablen Anzahl der Verletzungen Zweimal Gestorben doa 1 amp dhosp 1 Die Liste der Regeln fiir mehrere Variablen enthalt Regeln die mindestens einmal verletzt wurden die Anzahl der Verletzungen und eine Beschreibung jeder verletzten Regel Fallbericht Abbildung 6 26 Fallbericht Validation Rule Violations Identifizierung Single Yariable Cross Variable patid Zweimal Gestorben 1192970826 355184 Zweimal Gestorben 8717862852 237418 Zweimal Gestorben 6901932085 215041 Zweimal Gestorben 1205005069 695521 Zweimal Gestorben 5546809538 125304 Oto 1 Dichotomy 1 0333204686 883285 Oto 1 Dichotomy 1 1038840465 103254 Nonnegative integer 1 2090290204 883285 Zweimal Gestorben 3351107142 462020 Oto 1 Dichotomy 1 2349729006 723384 Zweimal Gestorben 7163481282 519548 Zweimal Gestorben 9159094175 652070 Zweimal Gestorben 2137520354 723384 Zweimal Gestorben 5246122506 928076 Zweimal Gestorben 1605957462 506108 Zweimal Gestorben 8141858966 828754 Zweimal Gestorben 3397891610 539412 Zweimal Gestorben 3397891610 539412 Zweimal Gestorben 3962622031 327422 Zweimal Gestorben 4271782383 749432 Zweimal Gestorben 0950686750 618069 Zweimal Gestorben 06
51. Ungewohnliche F lle wdentftzieren 20 c cece eee 54 Identifizieren ungew hnlicher F lle in einer medizinischen Datenbank 54 Durchf hrung der Analyse 0 000 e cece een 55 Zusammenfassung der Fallverarbeitung 000 cee cece eee nennen 59 Liste der Indexwerte anomaler F lle 60 Liste der Gruppen IDs anomaler F lle 0 0 0 00 ccc cece eee eee 61 Liste der Gr nde anomaler Falle 62 Normwerte der metrischen Variablen 63 Normwerte der kategorialen Variablen 64 Auswertung des Anomalie Index 2 0 cece cece nennen 66 Auswertung der Gr nde 66 Streudiagramm f r den Anomalie Index und den Variableneinfluss 67 Zusammenfassung 69 Verwandte Prozeduren 69 vi 8 Optimales Klassieren 70 Der Algorithmus f r optimales Klassieren 000 ccc eee ee 70 Verwenden der optimalen Klassierung zur Diskretisierung der Daten zu Kreditantragstellern 70 Durchf hrung der Analyse 1 0 0 ccc cee nen n tenes 71 Deskriptive Statistiken 0 0 0 0 ccc tte eee eee 74 Modellentropie 75 Klassierungs Zusammenfassungen 0000 c eee ee 76 Klassierte Variablen 80 Anwenden von Syntax Klassierungsregeln 00 00 eee nennen 80 ZUSAMMENTASSUNG eesi eae bed beet ee hile ee a ed gee quebec a a 82 Anhang A Beispieldateien 84 Bibliografie 96 Index 98 vii Teil I Benutzerhandbuch Kapitel Einf hrung in Data Preparation Aufberei
52. al treatment and reha Rankin score at 1 month Rankin score at 3 months Rankin score at 6 months Barthel index at 1 month Barthel index at 3 months Barthel index at 6 months Recoded Barthel index at ofiRecoded Barthel index at of Recoded Barthel index at Fallbezeichnervariablen Pa Patient ID patid Sa Hospital 1D hospid daAttending physician ID physid Daten validieren W hlen Sie Hospital size sowie die Variablen von Age in years bis Recoded Barthel index at 6 months als Analysevariablen aus W hlen Sie Hospital ID Patient ID und Attending physician ID als Fallbezeichnervariablen aus gt Klicken Sie auf die Registerkarte Grundlegende Pr fungen 34 Kapitel 6 Abbildung 6 2 Dialogfeld Daten validieren Registerkarte Grundlegende Pr fungen Daten validieren pennen Variablen Grundlegende Pr fungen Regeln f r eine Variable Regeln f r mehrere Variablen Ausgabe Speichern Analysevariablen Maximaler Prozentsatz fehlender Werte Gilt f r alle Variablen Maximaler Prozentsatz der F lle in einer einzelnen Gilt nur f r kategoriale Variablen Kategorie Maximaler Prozentsatz der Kategorien mit Anzahl 1 Gilt nur f r kategoriale Yariablen Minimaler Yariationskoeffizient Gilt nur f r metrische Variablen Minimale Standardabweichung Gilt nur f r metrische Variablen Fallbezeichner Unvollst ndige IDs ma
53. alues Numerisch Sex 1 char String Sex Full String Day of week 3 char String Day of week full String Month 3 char String Month Full String U S states 2 char String U S states Full String Canadian provinces 2 c String Canadian provinces full String UK post codes String UK social class designation String Benutzerdefinierte Fehlende Werte zulassen Systemdefinierte fehlende Werte zulassen er In der Liste Regeln werden die aktuell definierten Regeln angezeigt Die Regel 0 to 1 Dichotomy ist ausgew hlt und ihre Eigenschaften werden im Gruppenfeld Regeldefinition angezeigt gt Um eine Regel zu definieren klicken Sie auf Neu 47 vy v vy vy y Abbildung 6 20 Daten validieren Dialogfeld Validierungsregeln definieren Registerkarte Regeln f r eine Variable Definition von 1 to 3 Categorical L Validierungsregeln definieren Regeln f r eine Variable Regeln f r mehrere Variablen Regeln Name 0 1 dichotomy 0 to 2 Categorical 0 to 3 Categorical 1 to 4 Categorical Nonnegative integer Nonnegative number 1 to 3 Categorical Typ Numerisch Numerisch Numerisch Numerisch Numerisch Numerisch Numerisch Regeldefinition Name 1 to 3 Categorical Typ Numerisch mmjktijjjj G ltige Werte In einer Liste Werte i A 2 3 nschreibung bei de Werteprufung ignoriere Ben
54. ariablen Ausgabe Speichern Um Regeln einer Variablen zuzuweisen w hlen Sie die Variable aus und aktivieren eine oder mehrere Regeln Die Liste Analysevariablen zeigt Yerteilungen nichtfehlender Werte auf Grund des Durchsuchens der Daten Die Liste Regeln zeigt alle Regeln die den ausgew hlten Yariablen zugewiesen werden k nnen Analysevariablen Regeln Variable Verteilung Minimum Maxim Re A Zuwei Name Oto 1 Dichotomy Rankin score at 1 month 5 0 Oto 2 Categorical Oto 3 Categorical Rankin score at 3 months TT Nonnegstive integer Rankin score at 6 months Nonnegative number _ 1 to 3 Categorical Barthel index at 1 month 100 Oto 5 Categorical Tel Toto 100 by 5 Barthel index at 3 months 100 Barthel index at 6 months 100 1 Anzeigen Alle variablen Durchsuchte F lle 1183 Regeln definieren Yariablenverteilungen Durchsuchte Anzahl der EIER m Begrenzen der durchsuchten F lle hat keinen Einflu Ele Erneut durchsuchen auf die Anzahl der validierten F lle F lle begrenzen Jetzt m ssen Sie die definierten Regeln Variablen zuordnen gt Wenden Sie 1 to 3 Categorical auf Hospital size an gt Wenden Sie 0 to 5 Categorical auf Initial Rankin score sowie die Variablen von Rankin score at 1 month bis Rankin score at 6 months an gt Wenden Sie 0 to 100 by 5 auf die Variablen von Barthel index at 1 month bis Barthel
55. ategoriale Variable umfasst angezeigt Die Tabelle f r die Normwerte der stetigen Variablen enth lt den Mittelwert und die Standabweichung jeder stetigen Variablen f r jede Gruppe Die Tabelle f r die Normwerte der kategorialen Variablen enh lt den Modalwert die h ufigste Kategorie die H ufigkeit und 20 Kapitel 4 die H ufigkeit in Prozent jeder kategorialen Variablen f r jede Gruppe Der Mittelwert einer stetigen Variablen und der Modalwert einer kategorialen Variablen werden in der Analyse als Normwerte verwendet m Anomalie Indizes Die Auswertung des Anomalie Index enth lt deskriptive Statistiken f r die Anomalie Indizes der F lle die als am ungew hnlichsten identifiziert wurden m Vorkommen des Grunds nach Analysevariablen Die Tabelle zeigt pro Grund die H ufigkeit und die H ufigkeit in Prozent des Vorkommens jeder Variable als Grund an Die Tabelle f hrt auch deskriptive Statistiken ber den Einfluss jeder Variablen auf Wenn die maximale Anzahl von Gr nden auf der Registerkarte Optionen auf 0 festgelegt wurde steht diese Option nicht zur Verf gung m Verarbeitete F lle Die Zusammenfassung der Fallverarbeitung enth lt H ufigkeiten und H ufigkeiten in Prozent f r alle F lle in der Arbeitsdatei die in die Analyse aufgenommenen und ausgeschlossenen F lle und die F lle in jeder Gruppe Ungew hnliche F lle identifizieren Speichern Abbildung 4 3 Dialogfeld Ungew hnliche F lle identifizi
56. b min sizeof b _ sizeof b 1 Dabei ist sizeof b die Anzahl der F lle in der Klasse 30 Kapitel 5 gt Wenn dieser Wert kleiner ist als der angegebene Zusammenf hrungsschwellenwert dann wird b als d nn besetzt betrachtet und mit b _ oder b zusammengef hrt je nachdem welche Klasse die niedrigere Klasseninformationsentropie aufweist Bei dieser Prozedur wird ein einzelner Durchlauf durch die Klassen vorgenommen Binning von Endpunkten Bei dieser Option wird angegeben wie die Untergrenze eines Intervalls festgelegt wird Da die Prozedur die Trennwerte automatisch ermittelt ist dies weitgehend eine Frage der Vorlieben Erste niedrigste Klasse Letzte h chste Klasse Diese Optionen geben an wie die minimalen und maximalen Trennwerte f r die einzelnen Klassierungs Eingabevariablen festgelegt werden Im Allgemeinen geht die Prozedur davon aus dass die Binning Eingabevariablen einen beliebigen Wert der reellen Zahlen annehmen k nnen aber wenn es theoretische oder praktische Gr nde f r die Begrenzung des Bereichs gibt k nnen Sie den gew nschten niedrigsten und oder h chsten Wert angeben Zus tzliche Funktionen beim Befehl OPTIMAL BINNING Mit der Befehlssyntax Sprache verf gen Sie au erdem ber folgende M glichkeiten m Sie k nnen mithilfe der Methode der gleichen H ufigkeiten un berwachtes Binning durchf hren mit dem Unterbefehl CRITERIA Vollst ndige Informationen zur Syntax finden Si
57. come ratio x100 E Credit card debt in thousands E Other debt in thousands oth amp Binning in Klassen optimieren in Hinblick auf 4 Previously defaulted default Eine oder mehrere metrische Variablen f r das Binning ausw hlen sowie eine Q nominale Optimierungsvariable Die ausgew hlten Klassen maximieren die Zuordnung zwischen der Binning Variablen und der Optimierungsvariablen Auf der Registerkarte Speichern k nnen Sie Variablen die Werte der Daten in Klassen und oder Binning Regeln enthalten speichern W hlen Sie Age in years Alter in Jahren und Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber bis Other debt in thousands Andere Schulden in Tausend als Variablen f r die Klassierung aus gt W hlen Sie Previously defaulted Vorherige Nichtzahlung als F hrungsvariable aus gt Klicken Sie auf die Registerkarte Ausgabe 72 Kapitel 8 Abbildung 8 2 Dialogfeld Optimales Klassieren Registerkarte Ausgabe E Optimales Binning Variablen Ausgabe Speichern Fehlende Werte Optionen Anzeigen Endpunkte f r Klassen Beschreibende Statistiken f r Binning Yariablen W hlen Sie Beschreibende Statistiken und Modellentropie f r die zu klassierenden Variablen aus Klicken Sie auf die Registerkarte Speichern 73 Optimales Klassieren Abbildung 8 3 Dialogfeld Optimales Klassieren Registerkarte
58. dex at Hospital size hospsize E Age in years age Eallbezeichnervariablen daPstient ID patid Sa Hospital 1D hospid daAttending physician ID physid W hlen Sie eine oder mehrere Analysevariablen aus die durch grundlegende Variablenpr fungen oder Validierungsregeln f r eine Variable validiert werden sollen Sie haben au erdem folgende M glichkeiten Klicken Sie auf die Registerkarte Regeln f r mehrere Variablen und wenden Sie eine oder mehrere Regeln f r mehrere Variablen an Die folgenden Optionen sind verf gbar m W hlen Sie eine oder mehrere Fallbezeichnervariablen aus um nach doppelten oder unvollst ndigen IDs zu suchen Fallbezeichnervariablen werden auch zum Beschriften der fallweisen Ausgabe verwendet Wenn mehr als eine Fallbezeichnervariable angegeben wurde wird die Kombination der Werte als Fallbezeichner behandelt 10 Kapitel 3 Daten validieren Grundlegende Priifungen Abbildung 3 2 Dialogfeld Daten validieren Registerkarte Grundlegende Pr fungen Daten validieren Variablen Grundlegende Pr fungen Regeln f r eine Variable Regeln f r mehrere Variablen Ausgabe Speichern Analysevariablen Maximaler Prozentsatz fehlender Werte Gilt f r alle Variablen Maximaler Prozentsatz der F lle in einer einzelnen 95 Gilt nur f r kategoriale Variablen Kategorie Maximaler Prozentsatz der Kategorien mit Anzahl 1 90 Gilt nur f
59. die Analyse aufgenommen Anteil fehlender Werte pro Fall als Analysevariable verwenden Auf der Registerkarte Fehlende Werte kann die Behandlung benutzerdefinierter und systemdefinierter fehlender Werte festgelegt werden 22 Kapitel 4 Fehlende Werte aus der Analyse ausschlie en F lle mit fehlenden Werten werden aus der Analyse ausgeschlossen Fehlende Werte in die Analyse aufnehmen Fehlende Werte von stetigen Variablen werden durch deren entsprechenden Gesamtmittelwert ersetzt Fehlende Kategorien von kategorialen Variablen werden gruppiert und als g ltige Kategorie behandelt Die verarbeiteten Variablen werden anschlie end in der Analyse verwendet Sie k nnen die Erzeugung einer zus tzlichen Variable anfordern die den Anteil der fehlenden Variablen in jedem Fall darstellt und diese Variable in der Analyse verwenden Ungew hnliche F lle identifizieren Optionen Abbildung 4 5 Dialogfeld Ungewohnliche F lle identifizieren Registerkarte Optionen E Ungew hnliche F lle identifizieren variablen Ausgabe Speichern Fehlende Werte Optionen Kriterien zum Identifizieren ungew hnlicher F lle Anzahl von Gruppen Prozentsatz der F lle mit den h chsten ini gi Of Mi H Anomalie Indexwerten omoun Prozentsatz 2 A EEE Maximum Feste Anzahl von F llen mit den h chsten Anomalie Indexwerten o Nur F lle identifizieren deren Anomalie Index gr er oder gleich einem Minimalwert ist
60. e in der Command Syntax Reference Teil II Beispiele Kapitel Daten validieren Mit der Prozedur Daten validieren k nnen verd chtige und ung ltige F lle Variablen und Datenwerte identifiziert werden Validieren einer medizinischen Datenbank Eine bei einem Unternehmen in der Pharmabranche angestellte Analytikerin hat die Aufgabe die Qualit t der Informationen in einem System zu berwachen Dabei muss sie die Werte und Variablen pr fen und einen Bericht f r den Leiter des Datenerfassungsteams erstellen Den aktuellen Zustand der Datenbank finden Sie in der Datei stroke_invalid sav F r weitere Informationen siehe Beispieldateien in Anhang A auf S 84 Verwenden Sie die Prozedur Daten validieren um die f r den Bericht ben tigten Informationen zusammenzustellen Syntax mit denen Sie diese Analysen nachvollziehen k nnen befindet sich in der Datei validatedata_stroke sps Durchf hren von grundlegenden Pr fungen gt Um die Daten zu validieren w hlen Sie die folgenden Befehle aus den Men s aus Daten Validierung Daten validieren 32 33 Abbildung 6 1 Dialogfeld Daten validieren Registerkarte Variablen Daten validieren Variablen Grundlegende Pr fungen Regeln f r eine Variable Regeln f r mehrere Variablen Ausgabe Speichern Variablen Analysevariablen ofl Hospital size hospsize E Age in years age 8 Length of stay For rehabil E Tot
61. edur Anomalieerkennung wird anhand von Abweichungen von den Normen der jeweiligen Clustergruppen nach ungew hnlichen F llen gesucht Die Prozedur wurde f r Data Audit Zwecke in der explorativen Datenanalyse konzipiert Zweck der Prozedur ist das schnelle Erkennen von ungew hnlichen F llen bevor mit anderen Analysen Schl sse aus den Daten gezogen werden Dieser Algorithmus dient der Erkennung von allgemeinen Anomalien Dies bedeutet dass sich die Definition eines anomalen Falls nicht auf eine bestimmte Anwendung beschr nkt bei der Anomalien sehr treffend definiert werden k nnen z B beim Erkennen von ungew hnlichen Zahlungsmustern im Gesundheitswesen oder beim Aufdecken von Geldw sche im Finanzwesen Beispiel Ein Analytiker der mit der Erstellung von Prognosemodellen f r die Ergebnisse von Schlaganfallbehandlungen betraut wurde ist ber die Qualit t der Daten besorgt weil solche Modelle bei ungew hnlichen Beobachtungen anf llig sein k nnen Einige dieser Randbeobachtungen stellen wirklich einzigartige F lle dar und eignen sich deswegen nicht f r eine Vorhersage Andere Beobachtungen stellen Dateneingabefehler dar wobei die Werte technisch gesehen richtig sind und deswegen nicht mit Datenvalidierungsprozeduren abgefangen werden k nnen Die Prozedur Ungew hnliche F lle identifizieren sucht Ausrei er und meldet diese sodass der Analytiker entscheiden kann wie mit diesen F llen verfahren wird Statistiken
62. egorical auf Post event preventative surgery an Wenden Sie Nonnegative integer auf Length of stay for rehabilitation an Wenden Sie 1 to 4 Categorical auf die Variablen von Recoded Barthel index at 1 month bis Recoded Barthel index at 6 months an Klicken Sie auf die Registerkarte Speichern 42 Kapitel 6 Abbildung 6 12 Dialogfeld Daten validieren Registerkarte Speichern Daten validieren Variablen I Grundlegende Pr fungen Regeln f r eine Variable Regeln f r mehrere Yariablen I Ausgabe Speichern Auswertungsvariablen Beschreibung Speichern Indikator f r leere F lle LeererFall Gruppe mit doppelten IDs GruppeDoppelteriDs Unvollst ndiger ID Indikator Unvollst ndigelD Verletzungen von Yalidierungsregeln Gesamt ValidierungsRegelVerletzungen C vorhandene Auswertungsvariablen ersetzen Indikatorvariablen speichern die alle Verletzungen von Yalidierungsregeln aufzeichnen Die Variablen geben an ob ein bestimmter Datenwert oder eine Wertekombination eine Yalidierungsregel verletzt hat Diese Variablen k nnen das Bereinigen und Untersuchen Ihrer Daten vereinfachen Je nach Anzahl der angewendeten Regeln werden der Arbeitsdatei bei dieser Option jedoch m glicherweise viele Variablen hinzugef gt Gesamtanzahl der gespeicherten Variablen 0 W hlen Sie Indikatorvariablen speichern die alle Verletzungen von Validierungsregeln aufzeichnen aus Dies vereinfacht es eine Verbind
63. einem Vergleich der Gruppen finden Sie Hinweise darauf welche Variablen zum Bilden der Gruppen beitragen So weist der Mittelwert von Length of stay for rehabilitation beispielsweise in allen drei Gruppen hnliche Werte auf Dies bedeutet dass die Variable nicht zum Bilden der Gruppen beitr gt Sie k nnen jedoch die Variablen Total treatment and rehabilitation costs in thousands und Missing Proportion nutzen um N heres ber die Gruppenmitgliedschaften zu erfahren 64 Kapitel 7 Gruppe 1 weist die h chste mittleren Kosten und die wenigsten fehlenden Werte auf Gruppe 2 zeichnet sich durch sehr niedrige Kosten und viele fehlende Werte aus In Gruppe 3 finden sich mittlere Kosten und m ig viele fehlende Werte Dies deutet darauf hin dass Gruppe 2 aus Patienten besteht die bereits bei der Ankunft verstorben waren Daher fielen niedrige Kosten an und alle Behandlungs und Rehabilitationsvariablen weisen fehlende Werte auf Gruppe 3 enth lt wahrscheinlich viele Patienten die bei der Behandlung starben Daher fielen Behandlungskosten an aber keine Rehabilitationskosten und die Rehabilitationsvariablen weisen fehlende Werte auf Gruppe 1 besteht wahrscheinlich fast ausschlie lich aus Patienten die die Behandlung und die Rehabilitation berlebt haben Dadurch fielen die h chsten Kosten an Normwerte der kategorialen Variablen Abbildung 7 12 Normwerte der kategorialen Variablen die ersten 10 Variablen Gruppen ID 1 Kombinier
64. en Einflussma e weichen nicht sehr stark von der zentrale Tendenz ab 69 Ungew hnliche F lle identifizieren Zusammenfassung Mit der Prozedur Ungew hnliche F lle identifizieren haben Sie verschiedene F lle ausgesondert die n her untersucht werden sollten Diese F lle k nnen mit keinem anderen Validierungsverfahren erkannt werden weil die Einstufung als anomal nicht nur auf der Grundlage der Variablenwerte sondern anhand der Beziehungen zwischen den Variablen erfolgt Es ist ein wenig entt uschend dass die Gruppen weitestgehend auf der Grundlage von zwei Variablen gebildet werden Dead on arrival und Died in hospital In einer weiterf hrenden Analyse k nnten Sie untersuchen welche Auswirkungen es hat wenn Sie eine gr ere Anzahl von Gruppen erzwingen oder Sie k nnten eine Analyse durchf hren die nur auf den berlebenden Patienten beruht Verwandte Prozeduren Die Prozedur Ungew hnliche F lle identifizieren ist n tzlich um anomale F lle in einer Datendatei aufzudecken m Mit der Prozedur Daten validieren k nnen verd chtige und ung ltige F lle Variablen und Datenwerte in der Arbeitsdatei identifiziert werden Kapitel Optimales Klassieren Die Prozedur Optimales Klassieren diskretisiert eine oder mehrere metrische Variablen als Klassierungs Eingabevariablen bezeichnet indem die Werte der einzelnen Variablen auf verschiedene Klassen verteilt werden Die Klassenbildung ist in Bezu
65. en Fall sowie der Normwert der Gruppe angezeigt Wenn bei einer kategorialen Variablen als Normwert f r die Gruppe Fehlender Wert angegeben ist weist die Mehrzahl der F lle in der Gruppe einen fehlenden Wert f r diese Variable auf Das Einflussma der Variable ist der proportionale Beitrag der Grundvariable zur Abweichung des Falls von seiner Gruppe Es liegen 38 Analysevariablen vor einschlie lich der Variablen f r den fehlenden Anteil Das erwartete Einflussma einer Variablen betr gt daher 1 38 0 026 Das Einflussma der Variable cost f r Fall 843 betr gt 0 411 was relativ gesehen gro ist Der Wert von cost f r Fall 843 ist 200 51 der Durchschnitt f r die F lle in Gruppe 3 ist 19 83 Im Dialogfeld wurde festgelegt dass Ergebnisse f r die ersten drei Gr nde ausgegeben werden sollen gt Um die Ergebnisse f r die anderen Gr nde anzuzeigen doppelklicken Sie auf die Tabelle Verschieben Sie Grund aus der Schichtendimension in die Zeilendimension 63 Abbildung 7 10 Liste der Gr nde anomaler F lle die ersten 8 F lle patid Grund Variablen Yariablen Yariablen Pinflussung wert Normwert der Yariablen 7840326167 7840326167 7840326167 0714726620 0714726620 0714726620 cost 200 51 barthel1 rankint cost barthel1 rehab 19 83 Missing Value Missing Value 19 83 Missing Value Missing Value ON lo n lo zo NY zo nm Il m on 6553808330 6553808330 655380
66. er Bewertung verstrichene Zeit den zu diesem Zeitpunkt ermittelten Wert sowie den Verkaufswert der Immobilie property_assess_cs sav Hierbei handelt es sich um eine hypothetische Datendatei in der es um die Bem hungen eines f r einen US Bundesstaat zust ndigen Immobilienbewerters geht trotz eingeschr nkter Ressourcen die Einsch tzungen des Werts von Immobilien auf dem aktuellsten Stand zu halten Die F lle entsprechen den Immobilien in dem betreffenden Bundesstaat Jeder Fall in der Datendatei enth lt das County die Gemeinde und das Wohnviertel in dem sich die Immobilie befindet die seit der letzten Bewertung verstrichene Zeit sowie zu diesem Zeitpunkt ermittelten Wert property_assess_cs_sample sav Diese hypothetische Datendatei enth lt eine Stichprobe der in property_assess_cs sav aufgef hrten Immobilien Die Stichprobe wurde gem dem in der Plandatei property_assess csplan angegebenen Stichprobenplan gezogen und in dieser Datendatei sind die Einschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst Die zus tzliche Variable Current value Aktueller Wert wurde nach der Ziehung der Stichprobe erfasst und zur Datendatei hinzugef gt 92 Anhang A recidivism sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Strafverfolgungsbeh rde geht einen Einblick in die R ckfallraten in ihrem Zust ndigkeitsbereich zu gewinnen Jeder Fall entspricht einem fr hren Straft ter
67. er Numerisch Nonnegative integer Numerisch Oto 100 number Numerisch In einer Liste Flag system missing val Numerisch Flag user missing values Numerisch Flag missing values Numerisch Flag noninteger values Numerisch Flag unlabeled values Numerisch Sex 1 char String Sex full String Day of week 3 char String Day of week full String Month 3 char String Month Full String U S states 2 char String U S states full String Canadian provinces 2 c String Canadian provinces Full String UK post codes String UK social class designation String Name 0 1 dichotomy Typ Numerisch G ltige Werte Benutzerdefinierte Fehlende Werte zulassen Systemdefinierte fehlende Werte zulassen Auf der Registerkarte Regeln f r eine Variable k nnen Sie Validierungsregeln f r eine Variable erstellen anzeigen lassen und ndern Regeln Die Liste zeigt die Validierungsregeln f r eine Variable nach Namen und Variablentyp auf den die jeweilige Regel angewendet werden kann Wenn Sie das Dialogfeld ffnen werden die im Datenlexikon definierten Regeln angezeigt Falls gegenw rtig keine Regel definiert ist wird eine Platzhalter Regel mit dem Namen EinVarRegel 1 angezeigt Unter der Liste Regeln werden folgende Schaltfl chen angezeigt m Neu F gt einen neuen Eintrag am Ende der Liste Regeln hinzu Die Regel wird ausgew hlt und erh lt den Namen EinVarRegel n Hierbei
68. eren Registerkarte Speichern E Ungew hnliche F lle identifizieren Variablen Ausgabe Speichern Fehlende Werte Optionen Yariablen speichern Anomalie Index Name Anomalie Index Misst die Ungew hnlichkeit eines Falls in Bezug auf die Angeh rigen seiner Gruppe Gruppen Stammname Gruppe F r jede Gruppe werden drei Yariablen gespeichert ID Fallanzahl und Gr e als Prozentsatz der F lle in der Analyse Stammname Grund F r jeden Grund werden vier Variablen gespeichert Name der Grundvariablen Wert der Grundvariablen Normwert der Gruppe und Einflussma f r die Grundvariable C vorhandene Variablen mit demselben Namen oder Stammnamen ersetzen Modelldatei exportieren Datei Durchsuchen Variablen speichern Mithilfe der Steuerelemente in diesem Gruppenfeld k nnen Sie Modellvariablen in der Arbeitsdatei speichern Sie k nnen auch festlegen dass vorhandene Variablen ersetzt werden deren Namen mit den zu speichernden Variablen kollidieren m Anomalie Index Speichert f r jeden Fall den Wert des Anomalie Index in einer Variablen mit dem angegebenen Namen 21 Ungew hnliche F lle identifizieren Gruppen Speichert die Gruppen ID die Fallanzahl und die Gr e als Prozentsatz f r jeden Fall in Variablen mit dem angegebenen Stammnamen Wenn f r den Stammnamen zum Beispiel Gruppe angegeben wurde werden die Variablen GruppeID GruppeGr e und GruppePrztGr e erzeugt
69. erte als Wertebereich oder als eine Liste zul ssiger Werte ausgedr ckt werden m Regeln f r mehrere Variablen Regeln f r mehrere Variablen stellen benutzerdefinierte Regeln dar die auf eine einzige Variable oder eine Kombination von Variablen angewendet werden k nnen Regeln f r mehrere Variablen bestehen aus einem logischen Ausdruck der ung ltige Werte kennzeichnet Die Validierungsregeln werden im Datenlexikon Ihrer Datendatei gespeichert Dies erm glicht es die Regeln einmal zu definieren und sp ter wiederzuverwenden Vordefinierte Validierungsregeln laden Sie k nnen schnell auf eine Gruppe gebrauchsfertiger Validierungsregeln zugreifen indem Sie vordefinierte Validierungsregeln aus einer externen Datendatei laden die in der Installation enthalten ist So laden Sie vordefinierte Validierungsregeln W hlen Sie die folgenden Befehle aus den Men s aus Daten Validierung Vordefinierte Regeln laden Abbildung 2 1 Vordefinierte Validierungsregeln laden Vordefinierte Validierungsregeln laden Validierungsregeln werden aus dem SPSS Installationsverzeichnis geladen Datei Predefined Validation Rules SPSS 14 0 sav Sie k nnen die Regeln den Daten mit Hilfe des Dialogfelds Daten validieren zuweisen oder als Ausgangspunkt f r die Definition eigener Regeln verwenden Alle vorhandenen Regeln f r eine Variable in der Arbeitsdatei werden ersetzt OK Einf gen Abbrechen 3 Validierungsrege
70. erte in eine neue Variable werden benutzerdefiniert fehlende Werte in systemdefiniert fehlende Werte umgewandelt m Paarweise Diese Option operiert auf der Basis der einzelnen Paare aus F hrungsvariabler und Binning Eingabevariabler Die Prozedur verwendet alle F lle mit nichtfehlenden Werten bei der F hrungs und Binning Eingabevariablen m Listenweise Diese Option wird auf alle auf der Registerkarte Variablen angegebenen Variablen angewendet Wenn bei einem Fall eine Variable fehlt wird der gesamte Fall ausgeschlossen 29 Optimales Klassieren Optimales Klassieren Optionen Abbildung 5 5 Dialogfeld Optimales Klassieren Registerkarte Optionen E Optimales Binning Variablen Ausgabe Speichern Fehlende Werte Optionen Yorverarbeitung Pre Binning von Variablen durchf hren um die Leistung bei gro en Daten Sets zu verbessern Geben Sie die maximale Anzahl an Klassen an die f r jede Variable nach der Yorverarbeitung bestehen sollen Maximale Anzahl an Klassen 1000 D nn besetzte Klassen klassen mit relativ kleinen Fallzahlen mit einem gr eren Nachbarn zusammenf hren Eine Klasse wird zusammengef hrt wenn das Verh ltnis ihrer Gr e Anzahl der F lle zu dem einer benachbarten Klasse kleiner als der angegebene Schwellenwert ist H here Schwellenwerte f hren in der Regel zu einem gr eren Zusammenf hrungsumfang Binning von Endpunkten Der untere Endpunkt wird eingeschlo
71. ertragen keine Auswahl von Variablen StringString L nge bereinstimmen In den folgenden Dialogfeldern geben Sie an welche Eigenschaften im einzelnen bertragen werden sollen Q Eine Variable entspricht einer anderen wenn Name und grundlegender Typ Inumerisch oder w hlen Sie die Yariablen in der Liste der Quellvariablen aus deren Eigenschaften auf die entsprechenden Variablen in der Arbeitsdatei bertragen werden sollen Klicken Sie bei gedr ckter STRG T aste um die Auswahl zu ndern Variablen im Quell Daten Set Entsprechende Variablen in E Alter in Jahren alter A L Alter in Jahren alter A E Verheiratet heirat E Verheiratet heirat L Jahre unter der aktuel E Jahre unter der aktuel 8E Haushaltseinkommen L Haushaltseinkommen Einkommensklassen i A Einkommensklassen i E Preis des haupts chli E Preis des haupts chli al Preisklassen des hau dd Preisklassen des hau E Schulabschluss schu E Schulabschluss schu E Jahre beim aktuellen E Jahre beim aktuellen w Ausgewahlte Variablen 18 Entsprechende Variablen 18 Zu erstellende Variablen 0 Dies sind die Variablen aus patient_los sav deren Eigenschaften Sie in die entsprechenden Variablen in stroke_invalid sav kopieren m chten Klicken Sie auf Weiter 38 Kapitel 6 Abbildung 6 8 Kopieren von Dateneigenschaften Schritt 3 Variableneigenschaften ausw hlen Dateneigenschafte
72. euen interessanten Anwendungsgebieten von SPSS Data Preparation Aufbereitung von Daten Erweiterungsmodul Senden Sie uns eine E Mail an suggest spss com oder schreiben Sie an SPSS Inc Attn Director of Product Planning 233 South Wacker Drive 11th Floor Chicago IL 60606 6412 ber dieses Handbuch In diesem Handbuch wird die grafische Benutzeroberfl che f r die in SPSS Data Preparation Aufbereitung von Daten Erweiterungsmodul enthaltenen Prozeduren erl utert Die Abbildungen der Dialogfelder stammen aus SPSS Detaillierte Informationen zur Befehlssyntax f r die Funktionen in SPSS Data Preparation Aufbereitung von Daten Erweiterungsmodul sind auf zwei Arten verf gbar als Bestandteil des umfassenden Hilfesystems und als separates Dokument im PDF Format im Handbuch SPSS 16 0 Command Syntax Reference das auch ber das Men Hilfe verf gbar ist Kontakt zu SPSS Wenn Sie in unseren Verteiler aufgenommen werden m chten wenden Sie sich an eines unserer B ros die Sie auf unserer Website unter http www spss com worldwide finden iv Inhalt Teil I Benutzerhandbuch 1 Einf hrung in Data Preparation Aufbereitung von Daten 1 Verwendung der Prozeduren von Data Preparation 2 Validierungsregeln 2 Vordefinierte Validierungsregeln laden 1 0 teen eee nes 2 Validierungsregeln definieren 00 cette tte nnn 3 Definieren von Regeln f r eine Variable 2 cee eee ene 4 Definieren von Regeln f r meh
73. g vonkombiniert von gesamt Gruppen ID 1 2 3 Kombiniert Gesamt Jeder Fall wird in eine Gruppe hnlicher F lle aufgenommen Die Zusammenfassung der Fallverarbeitung zeigt wie viele Gruppen erstellt wurden sowie die Anzahl und den Prozentsatz von F llen in jeder Gruppe 60 Kapitel 7 Liste der Indexwerte anomaler Falle Abbildung 7 7 Liste der Indexwerte anomaler F lle Fall Anomaly Index 843 7840326167 510 0714726620 623 6553808330 501 6461046805 607 1077125669 884 2260043998 614 4030164769 241 1038840465 13 2191527525 172 4458028382 705 1336411777 651 4103977868 384 2247641363 839 0437454972 861 9746101913 19 7237535360 806 4391632997 871 6961938294 239 7315965190 887 6044244232 245 0816869249 Der Anomalie Index ist ein Ma das die Ungew hnlichkeit eines Falls in Bezug auf die Angeh rigen seiner Gruppe widerspiegelt Dabei werden die 2 der F lle mit den h chsten Werten des Anomalie Index sowie deren Fallnummern und Bezeichner angezeigt Es werden 21 F lle mit Werten von 1 736 bis 2 837 ausgegeben Es liegt ein relativ gro er Unterschied zwischen dem Wert des Anomalie Index des ersten und des zweiten Falls in der Liste vor Dies legt nahe dass Fall 843 wahrscheinlich anomal ist Die anderen F lle m ssen einzeln beurteilt werden 61 Ungew hnliche F lle identifizieren Liste der Gruppen IDs anomaler F lle Abbildung 7 8 Liste der Gruppen IDs anomaler F lle Fal
74. g auf eine kategoriale F hrungsvariable optimal die den Klassierungsvorgang berwacht Bei Prozeduren bei denen kategoriale Variablen erforderlich oder vorzuziehen sind k nnen dann anstatt der urspr nglichen Datenwerte die Klassen zur weiteren Analyse verwendet werden Der Algorithmus f r optimales Klassieren Die Grundschritte f r den Algorithmus f r optimales Klassieren lassen sich wie folgt charakterisieren Vorverarbeitung optional Die Klassierungs Eingabevariable wird in n Klassen unterteilt den Wert f r n geben Sie selbst an wobei jede Klasse gleich viele F lle enth lt bzw ann hernd gleich viele F lle wenn sich die Anzahl der F lle nicht restlos durch n teilen l sst Ermitteln potenzieller Trennwerte Jeder unterschiedliche Wert der Klassierungs Eingabe der nicht zur selben Kategorie der F hrungsvariablen geh rt wie der n chstgr ere Wert der Klassierungs Eingabevariablen ist ein potenzieller Trennwert Ausw hlen von Trennwerten Der potenzielle Trennwert der zum gr ten Informationsgewinn f hrt wird durch das MDLP Akzeptanzkriterium ausgewertet Wiederholen Sie den Vorgang bis keine weiteren potenziellen Trennwerte akzeptiert werden Die akzeptierten Trennwerte legen die Klassengrenzen fest Verwenden der optimalen Klassierung zur Diskretisierung der Daten zu Kreditantragstellern Im Rahmen der Bem hungen einer Bank den Anteil der nicht zur ckgezahlten Kredite zu reduzieren hat ein Kredi
75. gen eines Versicherungsanalysten geht ein Modell zur Anzahl der Autounf lle pro Fahrer unter Beriicksichtigung von Alter und Geschlecht zu erstellen Jeder Fall stellt einen Fahrer dar und erfasst das Geschlecht des Fahrers sein Alter in Jahren und die Anzahl der Autounf lle in den letzten f nf Jahren band sav Diese Datendatei enth lt die hypothetischen w chentlichen Verkaufszahlen von CDs f r eine Musikgruppe Daten f r drei m gliche Einflussvariablen wurden ebenfalls aufgenommen bankloan sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Bank geht den Anteil der nicht zur ckgezahlten Kredite zu reduzieren Die Datei enth lt Informationen zum Finanzstatus und demografischen Hintergrund von 850 fr heren und potenziellen Kunden Bei den ersten 700 F llen handelt es sich um Kunden denen bereits ein Kredit gew hrt wurde Bei den letzten 150 F llen handelt es sich um potenzielle Kunden deren Kreditrisiko die Bank als gering oder hoch einstufen m chte bankloan_binning sav Hierbei handelt es sich um eine hypothetische Datendatei die Informationen zum Finanzstatus und demografischen Hintergrund von 5 000 fr heren Kunden enth lt behavior sav In einem klassischen Beispiel Price als auch Bouffard 1974 wurden 52 Sch ler Studenten gebeten die Kombinationen aus 15 Situationen und 15 Verhaltensweisen auf einer 10 Punkte Skala von 0 ausgesprochen angemessen bis 9 ausgesp
76. gen sind Dieses Produkt verwendet WinWrap Basic Copyright 1993 2007 Polar Engineering and Consulting http www winwrap com SPSS Data Preparation 16 0 Copyright 2007 SPSS Inc Alle Rechte vorbehalten Ohne schriftliche Erlaubnis der SPSS GmbH Software darf kein Teil dieses Handbuchs fiir irgendwelche Zwecke oder in irgendeiner Form mit irgendwelchen Mitteln elektronisch oder mechanisch mittels Fotokopie durch Aufzeichnung oder durch andere Informationsspeicherungssysteme reproduziert werden 1234567890 1009 08 07 Vorwort SPSS 16 0 ist ein umfassendes System zum Analysieren von Daten Das optionale Erweiterungsmodul SPSS Data Preparation Aufbereitung von Daten bietet die zus tzlichen Analyseverfahren die in diesem Handbuch beschrieben sind Die Prozeduren im Erweiterungsmodul Data Preparation Aufbereitung von Daten m ssen zusammen mit SPSS 16 0 Base verwendet werden Sie sind vollst ndig in dieses System integriert Installation Zur Installation von SPSS Data Preparation Aufbereitung von Daten Erweiterungsmodul f hren Sie den Lizenzautorisierungsassistenten mit dem Autorisierungscode aus den Sie von SPSS erhalten haben Weitere Informationen finden Sie in den Installationsanweisungen im Lieferumfang von SPSS Data Preparation Aufbereitung von Daten Erweiterungsmodul Kompatibilit t SPSS kann auf vielen Computersystemen ausgef hrt werden Mindestanforderungen an das System und Empfehlungen finden Sie in den
77. gruppen nach ungew hnlichen F llen gesucht Die Prozedur wurde f r Data Audit Zwecke in der explorativen Datenanalyse konzipiert Zweck der Prozedur ist das schnelle Erkennen von ungew hnlichen F llen bevor mit anderen Analysen Schl sse aus den Daten gezogen werden Dieser Algorithmus dient der Erkennung von allgemeinen Anomalien Dies bedeutet dass sich die Definition eines anomalen Falls nicht auf eine bestimmte Anwendung beschr nkt bei der Anomalien sehr treffend definiert werden k nnen z B beim Erkennen von ungew hnlichen Zahlungsmustern im Gesundheitswesen oder beim Aufdecken von Geldw sche im Finanzwesen Algorithmus f r Ungew hnliche F lle identifizieren Dieser Algorithmus gliedert sich in drei Phasen Modellierung Die Prozedur erstellt ein Clustermodell zum Ermitteln von nat rlichen Gruppierungen Clustern innerhalb eines Daten Sets die andernfalls nicht erkennbar w ren Die Cluster beruhen auf einem Satz von Eingabevariablen Das resultierende Clustermodell und ausreichende Statistiken zum Berechnen der Normwerte der Clustergruppen werden f r die sp tere Verwendung gespeichert Bewertung Das Modell wird auf jeden Fall angewendet um die Clustergruppe des Falls zu ermitteln Dabei werden Indikatorvariablen f r jeden Fall erstellt um die Ungew hnlichkeit jedes Falls in Bezug auf die entsprechende Clustergruppe zu messen Die F lle werden nach den Werten des Anomalie Index sortiert Der oberste Anteil der Fall
78. h D L Bouffard 1974 Behavioral appropriateness and situational constraints as dimensions of social behavior Journal of Personality and Social Psychology 30 579 586 Rickman R N Mitchell J Dingman als auch J E Dalen 1974 Changes in serum cholesterol during the Stillman Diet Journal of the American Medical Association 228 54 58 Rosenberg S als auch M P Kim 1975 The method of sorting as a data gathering procedure in multivariate research Multivariate Behavioral Research 10 489 502 Van der Ham T J J Meulman D C Van Strien als auch H Van Engeland 1997 Empirically based subgrouping of eating disorders in adolescents A longitudinal perspective British Journal of Psychiatry 170 363 368 Verdegaal R 1985 Meer sets analyse voor kwalitatieve gegevens in niederl ndischer Sprache Leiden Department of Data Theory Universitat Leiden 96 97 Bibliografie Ware J H D W Dockery A Spiro II F E Speizer als auch B G Ferris Jr 1984 Passive smoking gas cooking and respiratory health of children living in six cities American Review of Respiratory Diseases 129 366 374 Anomalie Indizes in Ungew hnliche F lle identifizieren 19 20 60 Beispieldateien Speicherort 84 Binning Regeln in Optimales Klassieren 27 Daten validieren 8 32 Ausgabe 14 Fallbericht 44 52 Gleiche Fallbezeichner 35 grundlegende Pr fungen 10 Regelbeschreibung 43 Regeln f r ei
79. ich um Gruppen von F llen mit hnlichen Werten f r die Analysevariablen Bei dieser Option werden die Yerteilungen der Analysevariablen nach Gruppen angezeigt Anomalie Indizes Der Anomalie Index ist ein Ma das die Ungew hnlichkeit eines Falls in Bezug auf die Angeh rigen seiner Gruppe widerspiegelt Bei dieser Option wird die Verteilung der Anomalie Indexwerte von ungew hnlichen F llen angezeigt Vorkommen des Grunds nach Analysevariablen Hierbei wird gezeigt wie oft jede Analysevariable der Grund f r die Ungewdhnlichkeit eines Falls war Bei dieser Option wird die Yerteilung der F lle zusammengefasst die in die Analyse aufgenommen bzw aus ihr ausgeschlossen wurden TT openen m Hilfe W hlen Sie Normwerte der Gruppen Anomalie Indizes Vorkommen des Grunds nach Analysevariablen und Verarbeitete Falle aus gt Klicken Sie auf die Registerkarte Speichern 57 Ungew hnliche F lle identifizieren Abbildung 7 3 Dialogfeld Ungewohnliche F lle identifizieren Registerkarte Speichern W Ungew hnliche F lle identifizieren variablen Ausgabe Speichern Fehlende Werte Optionen Yariablen speichern Anomalie Index Name Anomalie Index Misst die Ungew hnlichkeit eines Falls in Bezug auf die Angeh rigen seiner Gruppe Gruppen Stammname Gruppe F r jede Gruppe werden drei Yariablen gespeichert ID Fallanzahl und Gr e als Prozentsatz der F lle in der Analy
80. ichnungen zweimal zu sortieren die zweite Sortierung sollte dabei nach einem anderen Kriterium erfolgen als die erste So wurden insgesamt sechs Quellen erzielt Jede Quelle entspricht einer hnlichkeitsmatrix mit 15 x 15 Elementen Die Anzahl der Zellen ist dabei gleich der 90 Anhang A Anzahl der Personen in einer Quelle minus der Anzahl der gemeinsamen Platzierungen der Objekte in dieser Quelle kinship_ini sav Diese Datendatei enth lt eine Ausgangskonfiguration f r eine dreidimensionale L sung fiir kinship_dat sav kinship_var sav Diese Datendatei enth lt die unabh ngigen Variablen gender Geschlecht gener Generation und degree Verwandtschaftsgrad die zur Interpretation der Dimensionen einer L sung f r kinship_dat sav verwendet werden k nnen Insbesondere k nnen sie verwendet werden um den L sungsraum auf eine lineare Kombination dieser Variablen zu beschr nken mailresponse sav Hierbei handelt es sich um eine hypothetische Datendatei in der es um die Bem hungen eines Bekleidungsherstellers geht der ermitteln m chte ob die Verwendung von Briefsendungen f r das Direktmarketing zu schnelleren Antworten f hrt als Postwurfsendungen Die Mitarbeiter in der Bestellannahme erfassen wie vielen Wochen nach der Postsendung die einzelnen Bestellungen aufgegeben wurden marketvalues sav Diese Datendatei betrifft Hausverk ufe in einem Neubaugebiet in Algonquin Illinois in den Jahren 1999 2000 Diese Verk
81. idieren EE Variablen Grundlegende Pr fungen Regeln f r eine Variable Regeln f r mehrere Variablen Ausgabe Speichern Um Regeln einer Yariablen zuzuweisen w hlen Sie die Yariable aus und aktivieren eine oder mehrere Regeln Die Liste Analysevariablen zeigt Yerteilungen nichtfehlender Werte auf Grund des Durchsuchens der Daten Die Liste Regeln zeigt alle Regeln die den ausgew hlten Yariablen zugewiesen werden k nnen Analysevariablen Regeln Variable Verteilung Minimum Maxim Re Oto 1 Dichotomy Initial Rankin score rankin0 Tl 0 5 Oto 2 Categorical Oto 3 Categorical CAT scan result catscan CT 1to4 Categorical IT _Nonnegative integer TT Nonnegative number e O to 3 Categorical Clot dissolving drugs clot IT Oto 5 Categorical C Oto 100 by 5 Died in hospital dhosp Treatment result result 1 Post event preventative s 0 2 Anzeigen Alle Variablen v Durchsuchte F lle 1048 Regeln definieren Yariablenverteilungen Durchsuchte Anzahl der nan Begrenzen der durchsuchten F lle hat keinen Einflu Ele SH Erneut durchsuchen auf die Anzahl der validierten F lle F lle begrenzen Wahlen Sie Atrial fibrillation History of transient ischemic attack CAT scan result und Died in hospital aus und wenden Sie die Regel 0 to 1 Dichotomy an Wenden Sie 0 to 3 Categorical auf Post event rehabilitation an Wenden Sie 0 to 2 Cat
82. ie einzelnen Klassen anhand der Werte der F hrungsvariablen wieder F r jede Klassierungs Eingabevariable wird eine gesonderte Tabelle mit der Klassierungs Zusammenfassung erstellt Abbildung 8 6 Klassierungs Zusammenfassung f r Age in Years Alter in Jahren Anzahl der F lle nach Nivau von Endpunkt rem defaulted Klasse Minimum Maximum Yes Gesamt 1129 1768 2615 3232 Gesamt 3744 1256 5000 Jede Klasse wird wie folgt berechnet Minimum lt Age in years lt Maximum a Unbegrenzt Die Zusammenfassung f r Age in years Alter in Jahren zeigt dass 1768 Kunden alle im Alter von 32 Jahren oder darunter in Klasse 1 eingeteilt wurden w hrend die brigen 3232 Kunden deren Alter jeweils mehr als 32 Jahre betr gt alle in Klasse 2 eingeteilt wurden Der Anteil der Kunden die schon einmal einen Kredit nicht zur ckgezahlt haben Previously defaulted ist in Klasse 1 wesentlich h her 639 1768 0 361 als in Klasse 2 617 3232 0 191 Abbildung 8 7 Klassierungs Zusammenfassung f r Household income in thousands Haushaltseinkommen in Tausend Anzahl der F lle nach Nivau von Endpunkt ene ETA a Mnmum Maximum No Yes Gesamt 26 70 1054 513 1567 26 70 2690 3433 Gesamt 3744 1256 5000 Jede Klasse wird wie folgt berechnet Minimum lt Household income in thousands Maximum a Unbegrenzt Die Zusammenfassung f r Household income in thousands Haushaltseinkommen in Tausend zeigt ei
83. ieldateien ulcer_recurrence_recoded sav In dieser Datei sind die Daten aus ulcer_recurrence sav so umstrukturiert dass das Modell der Ereigniswahrscheinlichkeit ftir jedes Intervall der Studie berechnet werden kann und nicht nur die Ereigniswahrscheinlichkeit am Ende der Studie Sie wurde an anderer Stelle Collett et al 2003 vorgestellt und analysiert verd1985 sav Diese Datendatei enth lt eine Umfrage Verdegaal 1985 Die Antworten von 15 Subjekten auf 8 Variablen wurden aufgezeichnet Die relevanten Variablen sind in drei Sets unterteilt Set 1 umfasst alter und heirat Set 2 besteht aus pet und news und in Set 3 finden sich music und live Die Variable pet wird mehrfach nominal skaliert und die Variable Alter ordinal Alle anderen Variablen werden einzeln nominal skaliert virus sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Internet Dienstanbieters geht der die Auswirkungen eines Virus auf seine Netzwerke ermitteln m chte Dabei wurde vom Moment der Virusentdeckung bis zu dem Zeitpunkt zu dem die Virusinfektion unter Kontrolle war der ungef hre prozentuale Anteil infizierter E Mail in den Netzwerken erfasst waittimes sav Hierbei handelt es sich um eine hypothetische Datendatei zu den Wartezeiten f r Kunden bei drei verschiedenen Filialen einer Bank Jeder Fall entspricht einem Kunden und zeichnet die Wartezeit und die Filiale webusability sav Hierbei handelt es sich um ei
84. index at 6 months an gt Klicken Sie auf die Registerkarte Regeln f r mehrere Variablen Gegenw rtig sind keine Regeln definiert Klicken Sie auf Regeln definieren 51 Abbildung 6 24 Daten validieren Dialogfeld Validierungsregeln definieren Registerkarte Regeln f r mehrere Variablen L Validierungsregeln definieren nen Regeln f r eine Variable Regeln f r mehrere Variablen Regeln Name Zweimal estorben Regeldefinition Name ZweimalGestorben Logischer Ausdruck muss bei einem ung ltigen Fall 1 entsprechen doa 1 amp dhosp 1 less Variablen Taking anti clottin Biistory of transien Time to hospital ti dead on arrival d initial Rankin scor CAT scan result c u Clot dissolving dru Bodied in hospital d A Treatment result u Post event preve db Post event rehabil E Length of stay for E Total treatment a 4 Funktionen und Sondervariablen Eunktion Abs Arsin Artan Cos Exp Lg10 Anzeigen Aktuelles Datum x Beschreibung Se Soom Bi Wenn keine Regeln vorliegen wird automatisch eine neue Platzhalterrregel erstellt Geben Sie als Name der Regel ZweimalGestorben ein Geben Sie als logischen Ausdruck doa 1 amp dhosp 1 ein Dieser Ausdruck ergibt den Wert 1 wenn f r den Patienten sowohl der Tod vor der Ankunft als auch der
85. ist n eine Ganzzahl sodass der Name der Regel unter den Regeln f r eine oder mehrere Variablen eindeutig ist Duplizieren F gt eine Kopie der ausgew hlten Regel am Ende der Liste Regeln hinzu Der Name der Regel wird so angepasst dass er unter den Regeln f r eine oder mehrere Variablen eindeutig ist Wenn Sie beispielsweise EinVarRegel 1 duplizieren erh lt die erste duplizierte Regel den Namen Kopie von EinVarRegel 1 die zweite den Namen Kopie 2 von EinVarRegel 1 usw m L schen L scht die ausgew hlte Regel 5 Validierungsregeln Regeldefinition Mit diesen Steuerelementen k nnen Sie die Eigenschaften f r eine ausgew hlte Regel anzeigen lassen und festlegen m Name Der Name der Regel muss unter den Regeln f r eine oder mehrere Variablen eindeutig sein m Typ Dies ist der Variablentyp auf den die Regel angewendet werden kann W hlen Sie Numerisch String oder Datum aus m Format Hiermit k nnen Sie das Datumsformat f r die Regeln ausw hlen die auf Datumsvariablen angewendet werden k nnen m G ltige Werte Sie k nnen die g ltigen Werte als Bereich oder als Werteliste angeben Mit den Steuerelementen zum Festlegen eines Bereichs k nnen Sie einen Bereich g ltiger Werte angeben Werte die sich au erhalb dieses Bereichs befinden werden als ung ltig gekennzeichnet Abbildung 2 3 Regeln f r eine Variable Bereichsdefinition G ltige Werte nt Innerhalb des Bereichs v Mi
86. itsdatei verschoben damit sie einfacher aufgefunden werden k nnen Daten validieren Speichern Abbildung 3 6 Dialogfeld Daten validieren Registerkarte Speichern Daten validieren variablen Grundlegende Pr fungen Regeln f r eine Variable Regeln f r mehrere Variablen Ausgabe Speichern Auswertungsvariablen Beschreibung Speichern Name Indikator f r leere F lle LeererFall Gruppe mit doppelten IDs GruppeDoppelterlDs Unvollst ndiger ID Indikator Unvollst ndigelD Verletzungen von Yalidierungsregeln Gesamt i ValidierungsRegel erletzungen C vorhandene Auswertungsvariablen ersetzen Indikatorvariablen speichern die alle Verletzungen von Yalidierungsregeln aufzeichnen Die Variablen geben an ob ein bestimmter Datenwert oder eine Wertekombination eine Yalidierungsregel verletzt hat Diese Variablen k nnen das Bereinigen und Untersuchen Ihrer Daten vereinfachen Je nach Anzahl der angewendeten Regeln werden der Arbeitsdatei bei dieser Option jedoch m glicherweise viele Yariablen hinzugef gt Gesamtanzahl der gespeicherten Variablen 0 Mithilfe der Registerkarte Speichern k nnen Sie Variablen bei denen Regelverletzungen verzeichnet wurden in der Arbeitsdatei speichern 16 Kapitel 3 Auswertungsvariablen Hierbei handelt es sich um einzelne Variablen die gespeichert werden k nnen Aktivieren Sie die Kontrollk stchen der zu speichernden Variablen F r die Variablen sind Standa
87. k mpfen haben Nach dem Schlaganfall werden das Auftreten von Herzinfarkt isch mischem Schlaganfall und h morrhagischem Schlaganfall sowie der Zeitpunkt des Ereignisses aufgezeichnet Die Stichprobe ist auf der linken Seite abgeschnitten da sie nur Patienten enth lt die bis zum Ende des Rehabilitationprogramms das nach dem Schlaganfall durchgef hrt wurde berlebten stroke_valid sav Diese hypothetische Datendatei enth lt den Zustand einer medizinischen Datenbank nachdem diese mithilfe der Prozedur Daten validieren berpr ft wurde Sie enth lt immer noch potenziell anomale F lle tastetest sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bewertung der Auswirkungen der Mulchfarbe auf den Geschmack von Pflanzenprodukten geht Der Geschmack von Erdbeeren die in rotem blauem und schwarzem Rindenmulch gezogen wurden wurde von Testpersonen auf einer ordinalen Skala weit unter bis weit ber dem Durchschnitt bewertet Jeder Fall entspricht einem Geschmackstester 94 Anhang A telco sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Telekommunikationsunternehmens geht die Kundenabwanderung zu verringern Jeder Fall entspricht einem Kunden und enth lt verschiedene Informationen zum demografischen Hintergrund und zur Servicenutzung telco_extra sav Diese Datendatei hnelt der Datei telco sav allerdings wurden die Variablen tenure und die L
88. l patid Gruppen ID r e e in Prozent 7840326167 0714726620 6553808330 6461046805 1077125669 2260043998 4030164769 1038840465 2191527525 4458028382 1336411777 4103977865 2247641363 0437454972 9746101913 7237535360 4391632997 6961933294 7315965190 6044244232 0816369249 oF oF Fe M Go Go zz zz Go DD Go Go GO DW ww Die potenziell anomalen F lle werden zusammen mit Informationen zu deren Gruppenmitgliedschaft angezeigt Die ersten 10 F lle und insgesamt 15 F lle geh ren zu Gruppe 3 alle weiteren zu Gruppe 1 62 Kapitel 7 Liste der Griinde anomaler Falle Abbildung 7 9 Liste der Gr nde anomaler F lle Grund 1 d ae Variablenbe Normwert der Fall Grundvariable einflussung Variablenwert Variablen 7516953 hysid 176466 828754 949 7469179 281 8879591 858 6395130 127 9064917 517 9741176 885 9353251 878 8918339 607 1368252 467 0621567 299 9355732 120 2554580 988 4971530 904 6240985 380 7311392 948 3548308 139 physid d 237547 828754 physid d 037350 828754 rankin3 rankini physid 995409 828754 physid i 185703 828754 barthel1 barthel2 physid i 680253 828754 rankin2 rankin2 physid P 249058 828754 rankini bartheli physid 993921 828754 Die Grundvariablen sind die Variablen die am meisten dazu beitragen dass ein Fall als ungew hnlich eingestuft wird F r jeden anomalen Fall werden die prim re Grundvariable deren Einflussma und deren Wert f r d
89. len Sie eine oder mehrere Variablen aus und aktivieren Sie in der Liste Regeln alle anzuwendenden Regeln In der Liste Regeln werden nur Regeln aufgef hrt die f r die ausgew hlten Analysevariablen geeignet sind Wenn beispielsweise numerische Variablen ausgew hlt wurden werden nur numerische Regeln angezeigt Wurde eine String Variable ausgew hlt werden nur String Regeln angezeigt Wenn keine Analysevariablen ausgew hlt wurden oder die ausgew hlten Variablen unterschiedliche Datentypen aufweisen werden keine Regeln angezeigt 13 Daten validieren Variablenverteilungen Die in der Liste Analysevariablen angezeigten Verteilungszusammenfassungen k nnen auf allen F llen beruhen oder auf einer Durchsuchung der ersten n F lle Dies wird im Textfeld F lle festgelegt Durch Klicken auf Erneut durchsuchen werden die Verteilungszusammenfassungen aktualisiert Daten validieren Regeln f r mehrere Variablen Abbildung 3 4 Dialogfeld Daten validieren Registerkarte Regeln f r mehrere Variablen Daten validieren en Variablen Grundlegende Pr fungen Regeln f r eine Variable Regeln f r mehrere Variablen Ausgabe Speichern Regeln Zuweisen Name Ausdruck DiedTwice doa 1 amp dhosp 1 Regeln definieren Auf der Registerkarte Regeln f r mehrere Variablen werden verf gbare Regeln f r mehrere Variablen angezeigt die Sie auf die Daten anwenden k nnen Um weitere
90. liste stellt die Anomalien dar Argumentation F r jeden anomalen Fall werden die Variablen nach den entsprechenden Variablenabweichungs Indizes sortiert Die obersten Variablen deren Werte und die entsprechenden Normwerte werden als Gr nde ausgegeben warum ein Fall als Anomalie identifiziert wurde Identifizieren ungew hnlicher F lle in einer medizinischen Datenbank Ein Analytiker der mit der Erstellung von Prognosemodellen f r die Ergebnisse von Schlaganfallbehandlungen betraut wurde ist ber die Qualit t der Daten besorgt weil solche Modelle bei ungew hnlichen Beobachtungen anf llig sein k nnen Einige dieser Randbeobachtungen stellen wirklich einzigartige F lle dar und eignen sich deswegen nicht f r eine Vorhersage Andere Beobachtungen stellen Dateneingabefehler dar wobei die Werte technisch 54 55 Ungew hnliche F lle identifizieren gesehen richtig sind und deswegen nicht mit Datenvalidierungsprozeduren abgefangen werden k nnen Diese Informationen finden Sie in der Datei stroke_valid sav F r weitere Informationen siehe Beispieldateien in Anhang A auf S 84 Verwenden Sie die Prozedur Ungew hnliche F lle identifizieren um die Datendatei zu bereinigen Syntax mit denen Sie diese Analysen nachvollziehen k nnen befindet sich in der Datei detectanomaly_stroke sps Durchf hrung der Analyse gt Um ungew hnliche F lle zu identifizieren w hlen Sie die folgenden Befehle aus den Men s aus
91. ln Beachten Sie dass hierbei alle vorhandenen Validierungsregeln fiir eine Variable in der Arbeitsdatei gel scht werden Sie k nnen auch den Assistenten zum Kopieren von Dateneigenschaften verwenden um Regeln aus einer beliebigen Datendatei zu laden Validierungsregeln definieren Im Dialogfeld Validierungsregeln definieren k nnen Sie Validierungsregeln f r eine oder mehrere Variablen erstellen und anzeigen So erstellen Sie Validierungsregeln und lassen diese anzeigen W hlen Sie die folgenden Befehle aus den Men s aus Daten Validierung Regeln definieren Das Dialogfeld wird mit Validierungsregeln f r eine oder mehrere Variablen ausgef llt die aus dem Datenlexikon ausgelesen werden Wenn keine Regeln vorliegen wird automatisch eine neue Regel als Platzhalter erzeugt die Sie nach Bedarf anpassen k nnen W hlen Sie einzelne Regeln auf den Registerkarten Regeln f r eine Variable und Regeln f r mehrere Variablen aus um sich die Eigenschaften anzeigen zu lassen und diese zu ndern 4 Kapitel 2 Definieren von Regeln f r eine Variable Abbildung 2 2 Dialogfeld Validierungsregeln definieren Registerkarte Regeln f r eine Variable L Validierungsregeln definieren Regeln f r eine Variable Regeln f r mehrere variablen _ Regeln ng p Regeldefinition Name Numerisch 1 2 dichotomy Numerisch 1 to 5 integer Numerisch 1 to 10 integer Numerisch Nonnegative numb
92. lywagedata sav Hierbei handelt es sich um eine hypothetische Datendatei zum Stundenlohn von Pflegepersonal in Praxen und Krankenh usern mit unterschiedlich langer Berufserfahrung insure sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die die Risikofaktoren untersucht die darauf hinweisen ob ein Kunde die Leistungen einer mit einer Laufzeit von 10 Jahren abgeschlossenen Lebensversicherung in Anspruch nehmen wird Jeder Fall in der Datendatei entspricht einem Paar von Vertr gen je einer mit Leistungsforderung und der andere ohne wobei die beiden Versicherungsnehmer in Alter und Geschlecht bereinstimmen judges sav Hierbei handelt es sich um eine hypothetische Datendatei mit den Wertungen von ausgebildeten Kampfrichtern sowie eines Sportliebhabers zu 300 Kunstturnleistungen Jede Zeile stellt eine Leistung dar die Kampfrichter bewerteten jeweils dieselben Leistungen kinship_dat sav Rosenberg und Kim Rosenberg als auch Kim 1975 haben 15 Bezeichnungen f r den Verwandtschaftsgrad untersucht Tante Bruder Cousin Tochter Vater Enkelin Gro vater Gro mutter Enkel Mutter Neffe Nichte Schwester Sohn Onkel Die beiden Analytiker baten vier Gruppen von College Studenten zwei weibliche und zwei m nnliche Gruppen diese Bezeichnungen auf der Grundlage der hnlichkeiten zu sortieren Zwei Gruppen eine weibliche und eine m nnliche Gruppe wurden gebeten die Beze
93. mendes Medikament zur Schmerzbehandlung bei chronischer Arthritis Von besonderem Interesse ist die Zeitdauer bis die Wirkung des Medikaments einsetzt und wie es im Vergleich mit bestehenden Medikamenten abschneidet patient_los sav Diese hypothetische Datendatei enth lt die Behandlungsaufzeichnungen zu Patienten die wegen des Verdachts auf Herzinfarkt in das Krankenhaus eingeliefert wurden Jeder Fall entspricht einem Patienten und enth lt diverse Variablen in Bezug auf den Krankenhausaufenthalt 91 Beispieldateien patlos_sample sav Diese hypothetische Datendatei enth lt die Behandlungsaufzeichnungen f r eine Stichprobe von Patienten denen w hrend der Behandlung eines Herzinfarkts Thrombolytika verabreicht wurden Jeder Fall entspricht einem Patienten und enth lt diverse Variablen in Bezug auf den Krankenhausaufenthalt polishing sav Hierbei handelt es sich um die Datendatei Nambeware Polishing Times aus der Data and Story Library Sie bezieht sich auf die Bem hungen eines Herstellers von Metallgeschirr Nambe Mills Santa Fe New Mexico zur zeitlichen Planung seiner Produktion Jeder Fall entspricht einem anderen Artikel in der Produktpalette F r jeden Artikel sind Durchmesser Polierzeit Preis und Produkttyp erfasst poll_cs sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bem hungen geht die ffentliche Unterst tzung f r einen Gesetzentwurf zu ermitteln bevor er im Parlament eingeb
94. modern community die moderne Gesellschaft ein lockerer Zusammenschluss der aus einer engen physischen N he und dem Bedarf an spezialisierten Dienstleistungen entsteht healthplans sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Versicherungsgruppe geht vier verschiedene Pl ne zur Gesundheitsvorsorge f r Kleinbetriebe zu evaluieren Zw lf Inhaber von Kleinbetrieben Arbeitgeber wurden gebeten die Pl ne danach in eine Rangfolge zu bringen wie gern sie sie ihren Mitarbeitern anbieten w rden Jeder Fall entspricht einem Arbeitgeber und enth lt die Reaktionen auf die einzelnen Pl ne health_funding sav Hierbei handelt es sich um eine hypothetische Datei die Daten zur Finanzierung des Gesundheitswesens Betrag pro 100 Personen Krankheitsraten Rate pro 10 000 Personen der Bev lkerung und Besuche bei medizinischen Einrichtungen rzten Rate pro 10 000 Personen der Bev lkerung enth lt Jeder Fall entspricht einer anderen Stadt hivassay sav Hierbei handelt es sich um eine hypothetische Datendatei zu den Bem hungen eines pharmazeutischen Labors einen Schnelltest zur Erkennung von HIV Infektionen zu entwickeln Die Ergebnisse des Tests sind acht kr ftiger werdende Rotschattierungen wobei kr ftigeren Schattierungen auf eine h here Infektionswahrscheinlichkeit hindeuten Bei 2 000 Blutproben von denen die H lfte mit HIV infiziert war wurde ein Labortest durchgef hrt hour
95. n hnliches Muster mit einem einzigen Trennwert bei 26 70 und einem h heren Anteil an Kunden mit fr heren Zahlungsschwierigkeiten Previously defaulted in Klasse 1 513 1567 0 327 als in Klasse 2 743 3433 0 216 Wie aus der Statistik f r die Modellentropie zu erwarten ist der Unterschied in diesen Anteilen nicht so gro wie bei Age in years Alter in Jahren 77 Optimales Klassieren Abbildung 8 8 Klassierungs Zusammenfassung f r Other debt in thousands Andere Schulden in Tausend Anzahl der Falle nach Nivau von Endpunkt a E a Kasse Samim Maximum Gesamt 2 19 Ce 2700 1583 17 2300 Gesamt 3744 1256 5000 Jede Klasse wird wie folgt berechnet Minimum lt Other debt in thousands Maximum a Unbegrenzt Die Zusammenfassung ftir Other debt in thousands Andere Schulden in Tausend zeigt ein umgekehrtes Muster mit einem einzigen Trennwert bei 2 19 und einem geringeren Anteil an Kunden mit fr heren Zahlungsschwierigkeiten Previously defaulted in Klasse 1 539 2700 0 200 als in Klasse 2 717 2300 0 312 Auch hier ist wie aus der Statistik f r die Modellentropie zu erwarten der Unterschied in diesen Anteilen nicht so gro wie bei Age in years Alter in Jahren Abbildung 8 9 Klassierungs Zusammenfassung f r Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber Anzahl der F lle nach Nivau von Endpunkt ae TEA Klasse Minimum Maximum u Gesamt
96. n die Werte der Indikatorvariablen Der Wert 1 bedeutet dass der Wert der zugeordneten Variablen ung ltig ist 45 Daten validieren Abbildung 6 17 Daten Editor mit Indikatorvariable f r Regelverletzung in Fall 175 recbart3 Oto1Dichot eo Dichoto 0to1Dichoto 1to4Categori Nonnegative omy_doa my_gender_ my angina cal agecat eger_time 4 al W W Fk D Pe NW P E VYariablenansicht Wechseln Sie zu Fall 175 dem ersten Fall bei dem eine Regelverletzung auftritt Um die Suche zu beschleunigen betrachten Sie die Indikatorvariablen die den Variablen in der Tabelle Variablenauswertung zugeordnet sind Es ist offensichtlich dass History of angina einen ung ltigen Wert aufweist Abbildung 6 18 Daten Editor mit ung ltigem Wert f r History of angina af smoker choles angina mi nitro anticlot tia oo 0 0 2 i 1 D 1 D D D 3 E 0 1 0 1 D D 2 0 o 0 a d 176 D D 0 D D d 0 D o 0 0 1 o o o D 1 0 D D o 0 0 0 0 0 D 1 180 0 0 0 0 0 0 0 m LI n n g LI LI Datenansicht Yariablenansicht History of angina weist den Wert 1 auf Dieser Wert ist zwar ein g ltiger fehlender Wert f r die Behandlungs und Ergebnisvariablen in der Datendatei an der vorliegenden Stelle ist er jedoch ung ltig weil f r die Anamnesevariablen keine benutzerdefiniert fehlenden Werte festgelegt wurden Definieren von eigenen Regeln Die aus der Datei
97. n kopieren Schritt 3 von 5 gt Heben Sie die Auswahl aller Eigenschaften mit Ausnahme von Benutzerdefinierte Attribute auf Klicken Sie auf Weiter 39 Daten validieren Abbildung 6 9 Kopieren von Dateneigenschaften Schritt 4 Daten Set Eigenschaften ausw hlen Dateneigenschaften kopieren Schritt 4 von 5 u Di LI gt Wahlen Sie Benutzerdefinierte Attribute aus gt Klicken Sie auf Fertig stellen Nun k nnen Sie die Validierungsregeln verwenden 40 Kapitel 6 Abbildung 6 10 Dialogfeld Daten validieren Registerkarte Regeln f r eine Variable Daten validieren Variablen Grundlegende Pr fungen Regeln f r eine Variable Regeln f r mehrere Variablen Ausgabe Speichern L I U Um Regeln einer Variablen zuzuweisen w hlen Sie die Variable aus und aktivieren eine oder mehrere Regeln Die Liste Analysevariablen zeigt Yerteilungen nichtfehlender Werte auf Grund des Durchsuchens der Daten Die Liste Regeln zeigt alle Regeln die den ausgew hlten Yariablen zugewiesen werden k nnen Analysevariablen Regeln Variable Verteilung Minimum Maxim F Zuwei Name i _ Oto 1 Dichotomy Hospital ID hospid YYH i Oto 2 Categorical jo to 3 Categorical Hospital s 1 to 4 Categorical Nonnegative integer Patient ID patid ant 99969 CI _ Nonnegative number Attending physician ID p dote 001448 995409 Age in years age 86 v Age
98. ne Variable 12 Regeln f r mehrere Variablen 13 52 Unvollst ndige Fallbezeichner 35 Variablen speichern 15 Variablenauswertung 43 verwandte Prozeduren 53 Warnungen 34 Datenvalidierung in Daten validieren 8 Deskriptive Statistiken in Optimales Klassieren 74 Endpunkte f r Klassen in Optimales Klassieren 26 Fallbericht in Daten validieren 44 52 Fehlende Werte in Ungew hnliche F lle identifizieren 21 Gleiche Fallbezeichner in Daten validieren 15 35 Gr nde in Ungew hnliche F lle identifizieren 19 20 62 66 Gruppen in Ungew hnliche F lle identifizieren 19 20 59 61 Klassierte Variablen in Optimales Klassieren 80 Klassierungs Zusammenfassungen in Optimales Klassieren 76 Leere F lle in Daten validieren 15 Index MDLP in Optimales Klassieren 24 Modellentropie in Optimales Klassieren 75 Normwerte der Gruppen in Ungew hnliche F lle identifizieren 63 64 Optimales Klassieren 24 70 Ausgabe 26 Deskriptive Statistiken 74 Fehlende Werte 28 Klassierte Variablen 80 Klassierungs Zusammenfassungen 76 Modell 70 Modellentropie 75 Optionen 29 speichern 27 Syntax Klassierungsregeln 80 Pre Binning in Optimales Klassieren 29 Regelbeschreibung in Daten validieren 43 berwachtes Binning im Vergleich mit un berwachtem Binning 24 in Optimales Klassieren 24 Ungew hnliche
99. ne hypothetische Datendatei bei der es um Tests zur Benutzerfreundlichkeit eines neuen Internetgesch fts geht Jeder Fall entspricht einer von f nf Testpersonen die die Benutzerfreundlichkeit bewerten und gibt f r sechs separate Aufgaben an ob die Testperson sie erfolgreich ausf hren k nnte wheeze_steubenville sav Hierbei handelt es sich um eine Teilmenge der Daten aus einer Langzeitstudie zu den gesundheitlichen Auswirkungen der Luftverschmutzung auf Kinder Ware Dockery Spiro III Speizer als auch Ferris Jr 1984 Die Daten enthalten wiederholte bin re Messungen des Keuchens von Kindern aus Steubenville Ohio im Alter von 7 8 9 und 10 Jahren sowie eine unver nderlichen Angabe ob die Mutter im ersten Jahr der Studie rauchte oder nicht workprog sav Hierbei handelt es sich um eine hypothetische Datendatei zu einem Arbeitsprogramm der Regierung das versucht benachteiligten Personen bessere Arbeitspl tze zu verschaffen Eine Stichprobe potenzieller Programmteilnehmer wurde beobachtet Von diesen Personen wurden nach dem Zufallsprinzip einige f r die Teilnahme an dem Programm ausgew hlt Jeder Fall entspricht einem Programmteilnehmer Bibliografie Bell E H 1961 Social foundations of human behavior Introduction to the study of sociology New York Harper amp Row Blake C L als auch C J Merz 1998 UCI Repository of machine learning databases Available at http www ics uci edu mlearn MLRepository html
100. ngegebenen Minimal und Maximalwert Die Werte m ssen positive Ganzzahlen sein und das Minimum darf das Maximum nicht berschreiten Wenn die angegebenen Werte gleich sind setzt die Prozedur eine feste Anzahl von Gruppen voraus Anmerkung Abh ngig von der Variation in den Daten k nnen Situationen auftreten in denen die Daten weniger Gruppen unterst tzen k nnen als als Minimum angegeben In einer solchen Situation erzeugt die Prozedur eine kleinere Anzahl von Gruppen Maximale Anzahl von Gr nden Ein Grund besteht aus dem Variablen Einflussma dem Variablennamen f r diesen Grund dem Wert der Variablen und dem Wert der entsprechenden Gruppe Geben Sie eine nichtnegative Ganzzahl an Wenn dieser Wert gr er oder gleich der Anzahl der verarbeiteten Variablen ist die in der Analyse verwendet werden werden alle Variablen angezeigt Zus tzliche Funktionen beim Befehl DETECTANOMALY Mit der Befehlssyntax Sprache verf gen Sie au erdem ber folgende M glichkeiten m Sie k nnen einige Variablen in der Arbeitsdatei aus der Analyse ausschlie en ohne dass ausdr cklich alle Analysevariablen angegebenen werden m ssen mit dem Unterbefehl EXCEPT m Sie k nnen eine Korrektur angeben um den Einfluss von stetigen und kategorialen Variablen auszutarieren mit dem Schl sselwort MLWEIGHT im Unterbefehl CRITERIA Vollst ndige Informationen zur Syntax finden Sie in der Command Syntax Reference Kapitel Optimales Klassieren
101. nimum mn Geben Sie einen Minimalwert einen Maximalwert oder beides an Wenn keiner dieser Werte angegeben ARH RE wird gelten alle Werte als innerhalb amum des Bereichs Werte ohne Label im Bereich zulassen Da lange Stringvariablen keine Wertelabels besitzen sollte diese Option f r solche Variablen immer aktiviert sein Chid Um einen Bereich anzugeben geben Sie den Minimum oder Maximumwert oder beide Werte ein Mit dem Kontrollk stchen k nnen Sie festlegen dass Werte ohne Label und nichtganzzahlige Werte im Bereich gekennzeichnet werden Mit den Steuerelementen zum Festlegen einer Liste k nnen Sie eine Liste g ltiger Werte angeben Werte die nicht in der Liste befinden werden als ung ltig gekennzeichnet Abbildung 2 4 Regeln f r eine Variable Listendefinition G ltige Werte In einer Liste vj Werte Io 1 Geben Sie im Gitter die Listenwerte ein Mit dem Kontrollk stchen legen Sie fest ob die Gro Kleinschreibung ber cksichtigt wird wenn String Datenwerte gegen die Liste der zul ssigen Werte gepr ft werden 6 Kapitel 2 Benutzerdefinierte fehlende Werte zulassen Hiermit wird festgelegt ob benutzerdefinierte fehlende Werte als ung ltig gekennzeichnet werden m Systemdefinierte fehlende Werte zulassen Hiermit wird festgelegt ob systemdefinierte fehlende Werte als ung ltig gekennzeichnet werden Dies gilt nicht f r Regeln f r Strings m Leere Werte zulassen Hiermit wird fe
102. og transformierten Variablen zu den Kundenausgaben entfernt und durch standardisierte Log transformierte Variablen ersetzt telco_missing sav Diese Datendatei entspricht der Datei telco_mva_complete sav allerdings wurde ein Teil der Daten durch fehlende Werte ersetzt telco_mva_complete sav Bei dieser Datendatei handelt es sich um eine Teilmenge der Datendatei telco sav allerdings mit anderen Variablennamen testmarket sav Diese hypothetische Datendatei bezieht sich auf die Pl ne einer Fast Food Kette einen neuen Artikel in ihr Men aufzunehmen Es gibt drei m gliche Kampagnen zur Verkaufsf rderung f r das neue Produkt Daher wird der neue Artikel in Filialen in mehreren zuf llig ausgew hlten M rkten eingef hrt An jedem Standort wird eine andere Form der Verkaufsf rderung verwendet und die w chentlichen Verkaufszahlen f r das neue Produkt werden f r die ersten vier Wochen aufgezeichnet Jeder Fall entspricht einer Standort Woche testmarket_1month sav Bei dieser hypothetischen Datendatei handelt es sich um die Datendatei testmarket sav wobei die w chentlichen Verkaufszahlen zusammengefasst sind sodass jeder Fall einem Standort entspricht Dadurch entfallen einige der Variablen die w chentlichen nderungen unterworfen waren und die verzeichneten Verkaufszahlen sind nun die Summe der Verkaufszahlen w hrend der vier Wochen der Studie tree_car sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische
103. orkommen des Grunds nach Analysevariablen Hierbei wird gezeigt wie oft jede Analysevariable der Grund f r die Ungew hnlichkeit eines Falls war Bei dieser Option wird die Verteilung der F lle zusammengefasst die in die Analyse aufgenommen bzw aus ihr ausgeschlossen wurden Einf gen Zur cksetzen Abbrechen Hilfe Liste ungew hnlicher F lle und Gr nde f r die Ungew hnlichkeit Bei dieser Option werden drei Tabellen erstellt m Die Liste der Indizes anomaler F lle zeigt die als ungew hnlich identifizierten F lle und deren entsprechende Anomalie Indexwerte an m Die Liste der Gruppen IDs anomaler F lle zeigt ungew hnliche F lle und die Informationen ber deren entsprechende Gruppen an m Die Liste der Gr nde anomaler F lle zeigt die Fallanzahl die Grundvariable den Einflusswert der Variablen den Wert der Variablen und den Normwert der Variablen f r jeden Grund an Alle Tabellen werden nach Anomalie Index in absteigender Reihenfolge sortiert Dar ber hinaus werden die IDs der F lle angezeigt wenn auf der Registerkarte Variablen eine Fallbezeichnervariable angegeben wurde Auswertung Mit den Steuerlementen in diesem Gruppenfeld werden Auswertungen der Verteilungen erstellt m Normwerte der Gruppen Bei dieser Option wird die Tabelle f r die Normwerte der stetigen Variablen wenn die Analyse stetige Variablen umfasst und die Tabelle f r die Normwerte der kategorialen Variablen wenn die Analyse k
104. patient_los sav kopierten Validierungsregeln sind zweifellos n tzlich reichen jedoch nicht aus Es gibt Situationen in denen Patienten die bereits vor der Ankunft verstorben waren versehentlich als im Krankenhaus verstorben erfasst werden Eine Situation dieser Art kann nicht mit einer Regel f r eine Variable erkannt werden Sie ben tigen eine Regel f r mehrere Variablen 46 Kapitel 6 gt Klicken Sie auf der Symbolleiste auf das Symbol Zuletzt verwendete Dialogfelder und w hlen Sie Daten validieren aus Klicken Sie auf die Registerkarte Regeln f r eine Variable Sie m ssen Regeln f r Hospital size die Variablen f r die Rankin Scores und die Variablen der nicht umkodierten Barthel Indizes erstellen Klicken Sie auf Regeln definieren Abbildung 6 19 Dialogfeld Validierungsregeln definieren Registerkarte Regeln f r eine Variable L Validierungsregeln definieren p Regeln f r eine Variable Regeln f r mehrere Variablen Regeln Regeldefinition Name Typ Numerisch 1 2 dichotomy Numerisch 1 to 5 integer Numerisch 1 to 10 integer Numerisch Nonnegative number Numerisch Nonnegative integer Numerisch Oto 100 number Numerisch Flag system missing val Numerisch Flag user missing values Numerisch Werte Flag missing values Numerisch 0 1 Name 0 1 dichotomy Typ Numerisch G ltige Werte In einer Liste Flag noninteger values Numerisch Flag unlabeled v
105. r Optimales Klassieren haben wir Klassierungsregeln f r metrische Variablen generiert die potenzielle Einflussvariablen f r die Wahrscheinlichkeit der Zahlungsunf higkeit sind und haben diese Regeln auf ein separates Daten Set angewendet W hrend des Klassierungsvorgangs haben wir festgestellt dass die klassierten Variablen Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber und Years at current address Wohnhaft an gleicher Adresse in Jahren besser zur Ermittlung von Personen geeignet sind die mit gro er Wahrscheinlichkeit nicht in Zahlungsschwierigkeiten geraten w hrend Credit card debt in thousands Schulden auf Kreditkarte in Tausend besser f r die Ermittlung von Personen geeignet ist die mit gro er Wahrscheinlichkeit den Kredit nicht zur ckzahlen k nnen Diese interessante Beobachtung ist sehr wertvoll wenn es darum geht Vorhersagemodelle f r die Wahrscheinlichkeit der Zahlungsunf higkeit zu erstellen Wenn die Vermeidung uneinbringlicher Forderungen das Hauptanliegen ist ist die Variable Credit card debt in thousands Schulden auf Kreditkarte in Tausend wichtiger als Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber und Years at current address Wohnhaft an gleicher Adresse in Jahren Wenn die Erweiterung des Kundenstamms oberste Priorit t hat sind die Variablen Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber und Year
106. r Prozentsatz entspricht dem Anteil der F lle mit nichtfehlenden Werten der Variablen Maximaler Prozentsatz der Kategorien mit Anzahl 1 Wenn kategoriale Analysevariablen vorhanden sind werden bei dieser Option kategoriale Analysevariablen ausgegeben bei denen der prozentuale Anteil der Kategorien der Variablen die nur einen Fall enthalten 11 Daten validieren den angegebenen Wert tibersteigt Der angegebene Wert muss eine positive Zahl kleiner oder gleich 100 sein Minimaler Variationskoeffizient Wenn metrische Analysevariablen vorhanden sind werden bei dieser Option metrische Analysevariablen ausgegeben bei denen der absolute Wert des Variationskoeffizienten kleiner als der angegebene Wert ist Diese Option betrifft nur Variablen mit einem von 0 abweichenden Mittelwert Der angegebene Wert muss eine nichtnegative Zahl sein Durch Angabe von 0 wird die Priifung des Variationskoeffizienten deaktiviert Minimale Standardabweichung Wenn metrische Analysevariablen vorhanden sind werden bei dieser Option metrische Analysevariablen ausgegeben deren Standardabweichung kleiner als der angegebene Wert ist Der angegebene Wert muss eine nichtnegative Zahl sein Durch Angabe von 0 wird die Priifung der Standardabweichung deaktiviert Fallbezeichner Wenn Sie auf der Registerkarte Variablen Fallbezeichnervariablen ausgew hlt haben k nnen Sie die folgenden G ltigkeitspr fungen ausw hlen Unvollst ndige IDs markieren Bei die
107. r die F lle in der Anomalie Liste Barthel index at 1 month ist der h ufigste Grund Total treatment and rehabilitation costs in thousands der zweith ufigste Es werden die Einflussstatistiken der Variablen ausgewertet Dabei werden f r jede Variable der kleinste 67 Ungew hnliche F lle identifizieren gr te und mittlere Einfluss sowie bei Variablen die bei mehr als einem Fall die Grundvariablen sind die Standardabweichung ausgegeben Streudiagramm f r den Anomalie Index und den Variableneinfluss Die Tabellen enthalten viele n tzliche Informationen Es kann jedoch schwierig sein die wechselseitigen Beziehungen zu erfassen Mit den gespeicherten Variablen k nnen Sie eine Grafik erstellen die Ihnen diese Aufgabe erleichtert Um dieses Streudiagramm zu erstellen w hlen Sie die folgenden Befehle aus den Men s aus Grafiken Diagrammerstellung Abbildung 7 16 Dialogfeld Diagrammerstellung E Diagrammerstellung Variablen all Barthel in diRecoded Se MRecoded os Recoded D Stroke be Stroke be di Stroke be E Anomaly E Peer Gro Kategorien Einflussma f r BE Kategorie Grundvariable BE Vatannvia 3 Diagrammyorschau verwendet Beispieldaten Galerie Ausw hlen aus Favoriten Grundelemente Balken geg Linie Gruppen Punkt ID Fl che Kreis Polar Titel Fu noten Streu Punktdiagr nr Histogramm Hoch Tief Elementeigenschaft Boxplot Doppelachsen
108. racht wird Die F lle entsprechen registrierten W hlern F r jeden Fall sind County Gemeinde und Wohnviertel des W hlers erfasst poll_cs_sample sav Diese hypothetische Datendatei enth lt eine Stichprobe der in poll_cs sav aufgef hrten W hler Die Stichprobe wurde gem dem in der Plandatei poll csplan angegebenen Stichprobenplan gezogen und in dieser Datendatei sind die Einschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst Beachten Sie jedoch Folgendes Da im Stichprobenplan die PPS Methode PPS probability proportional to size Wahrscheinlichkeit proportional zur Gr e verwendet wird gibt es au erdem eine Datei mit den gemeinsamen Auswahlwahrscheinlichkeiten poll_jointprob sav Die zus tzlichen Variablen zum demografischen Hintergrund der W hler und ihrer Meinung zum vorgeschlagenen Gesetzentwurf wurden nach der Ziehung der Stichprobe erfasst und zur Datendatei hinzugef gt property_assess sav Hierbei handelt es sich um eine hypothetische Datendatei in der es um die Bem hungen eines f r einen Bezirk County zust ndigen Immobilienbewerters geht trotz eingeschr nkter Ressourcen die Einsch tzungen des Werts von Immobilien auf dem aktuellsten Stand zu halten Die F lle entsprechen den Immobilien die im vergangenen Jahr in dem betreffenden County verkauft wurden Jeder Fall in der Datendatei enth lt die Gemeinde in der sich die Immobilie befindet den Bewerter der die Immobilie besichtigt hat die seit dies
109. ratio 6100 lt Maximum a Unbegrenzt Die Zusammenfassung f r Debt to income ratio x100 Relation Schulden zu Einkommen in weist ein hnliches Muster auf wie Credit card debt in thousands Schulden auf Kreditkarte in Tausend Diese Variable weist den niedrigsten Wert f r die Modellentropie auf und ist somit der beste Kandidat als Einflussvariable f r die Wahrscheinlichkeit der Zahlungsunf higkeit Sie bietet eine bessere Klassifizierung von Personen die mit gro er Wahrscheinlichkeit zahlungsunf hig werden als Credit card debt in thousands Schulden auf Kreditkarte in Tausend und eine fast ebenso gute Klassifizierung von Personen die mit geringer Wahrscheinlichkeit zahlungsunf hig werden wie Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber Klasse Anteil der zahlungsunf higen Personen 1 0 088 2 0 179 3 0 382 4 0 605 5 0 933 80 Kapitel 8 Klassierte Variablen Abbildung 8 13 Klassierte Variablen f r bankloan_binning sav im Daten Editor default 1 0 2 3 2 2 2 1 2 2 0 1 3 2 2 3 2 2 a 0 2 3 3 2 2 3 2 4 0 2 3 3 2 4 3 2 5 0 2 2 3 1 3 2 2 6 0 2 1 2 2 1 1 1 K 1 2 1 1 1 3 2 1 8 0 2 4 2 2 3 2 2 9 0 2 3 2 2 2 2 2 10 0 2 2 2 2 2 2 2 11 0 1 1 1 1 2 1 1 12 1 2 3 2 2 4 4 2 13 0 2 a 3 2 2 3 2 4 ER D 7 _Datenansicht Variablenansicht Die Ergebnisse des Klassierungsprozesses fiir dieses Daten Set werden aus dem Daten
110. rch die Vorklassierung in 1000 verschiedene Klassen eingeteilt Diese 75 Optimales Klassieren vorverarbeiteten Klassen werden anschlieBend unter Verwendung von MDLP anhand der F hrungsvariablen klassiert Auf der Registerkarte Optionen k nnen Sie Einfluss auf die Vorverarbeitungsfunktion nehmen m Die Spalte Anzahl der Klassen enth lt die endg ltige Anzahl an Klassen die von der Prozedur erstellt werden Diese ist erheblich kleiner als die Anzahl der verschiedenen Werte Modellentropie Abbildung 8 5 Modellentropie Modellentropie Age in years 788 Years with current employer 754 Years at current address 781 Household income in thousands 803 Debt to income ratio x100 711 Credit card debt in thousands 776 Other debt in thousands 601 Smaller model entropy indicates higher predictive accuracy of the binned variable on guide variable Previously defaulted Anhand der Tabelle Modellentropie erhalten Sie eine Vorstellung davon wie n tzlich die einzelnen Variablen in einem Vorhersagemodell f r die Wahrscheinlichkeit der Nichtzur ckzahlung sein k nnten m Die bestm gliche Einflussvariable ist eine die f r jede generierte Klasse F lle mit denselben Werten enth lt wie die F hrungsvariable sodass die F hrungsvariable perfekt vorhergesagt werden kann F r eine solche Einflussvariable ist die Modellentropie nicht definiert Dieser Fall kommt im realen Leben nicht vor und kann auf Probleme mit der Q
111. rdnamen vorgegeben die Sie bearbeiten k nnen m Indikator f r leere F lle Leeren F llen wird der Wert 1 zugeordnet Alle anderen F lle werden als 0 codiert Die Werte der Variablen entsprechen dem Umfang der auf der Registerkarte Grundlegende Pr fungen angegeben wurde Gruppe mit doppelten IDs F lle die denselben Fallbezeichner aufweisen mit Ausnahme von F llen mit unvollst ndigen Bezeichnern erhalten dieselbe Gruppennummer F lle mit eindeutigen oder unvollst ndigen Bezeichnern werden als 0 codiert Unvollst ndiger ID Indikator F lle mit leeren oder unvollst ndigen Fallbezeichnern erhalten den Wert 1 Alle anderen F lle werden als 0 codiert m Verletzungen von Validierungsregeln Dies ist die Gesamtanzahl der Verletzungen von Validierungsregeln f r eine oder mehrere Variablen pro Fall Vorhandene Auswertungsvariablen ersetzen In der Datendatei gespeicherte Variablen m ssen eindeutige Namen aufweisen Wenn dies nicht der Fall ist werden Variablen mit demselben Namen ersetzt Indikatorvariablen speichern die alle Verletzungen von Validierungsregeln aufzeichnen Bei dieser Option wird ein vollst ndiger Bericht ber die Verletzungen der Validierungsregeln gespeichert Jede Variable entspricht der Anwendung einer Validierungsregel und weist den Wert 1 auf wenn der Fall die Regel verletzt oder den Wert 0 wenn die Regel nicht verletzt wird Kapitel Ungewohnliche Falle identifizieren Mit der Proz
112. rere Variablen 000 e cece eee eee 6 3 Daten validieren 8 Daten validieren Grundlegende Pr fungen 10 Daten validieren Regeln f r eine Variable 12 Daten validieren Regeln f r mehrere Variablen 000000 cece eee eee 13 Daten validieren Ausgabe 14 Daten validieren Speichern 2 2 0 0 cece tte 15 d Ungew hnliche F lle identifizieren 17 Ungew hnliche F lle identifizieren Ausgabe 19 Ungew hnliche F lle identifizieren Speichern 000000 e eee eee eee 20 Ungew hnliche F lle identifizieren Fehlende Werte 0 0 0c e cece eee eeaee 21 Ungew hnliche F lle identifizieren Optionen 0 00 c eee eee ee 22 Zus tzliche Funktionen beim Befehl DETECTANOMALY 0000 cece eee eee 23 5 Optimales Klassieren 24 Optimales Klassieren Ausgabe 26 Optimales Klassieren Speichern 27 Optimales Klassieren Fehlende Wert 28 Optimales Klassieren Optionen 29 Zus tzliche Funktionen beim Befehl OPTIMAL BINNING 00 cee eee 30 Teil Il Beispiele 6 Daten validieren 32 Validieren einer medizinischen Datenbank 32 Durchf hren von grundlegenden Pr fungen 32 Kopieren und Verwenden von Regeln aus einer anderen Date 36 Definieren von eigenen Regeln 45 Regeln f r mehrere Variablen 000 c cece cette nenne 52 Fallbericht uge SST AE Eet RENE rahmen 52 Zusammenfassung 53 Verwandte Prozeduren 53 7 Ungewohniiche F lle identifizieren 54 Algorithmus f r
113. rkieren Doppelte IDs markieren Leere F lle markieren F lle definieren nach Alle Variablen im Daten Set ohne ID Variabler ze Ein Fall gilt als leer wenn alle relevanten Yariablen fehlen oder leer sind Sie k nnen mit den Standardeinstellungen fortfahren Klicken Sie auf OK Warnungen Abbildung 6 3 Warnungen Einige oder alle der angeforderten Ausgaben werden nicht gezeigt weil alle F lle Variablen oder Datenwerte die angeforderten Pr fungen bestanden haben Die Analysevariablen haben die grundlegenden Pr fungen bestanden und es liegen keine leeren F lle vor Deshalb wird eine Warnung ausgegeben die erl utert warum f r die grundlegenden Pr fungen keine Ausgabe vorhanden ist 35 Unvollstandige Identifizierung Abbildung 6 4 Unvollst ndige Fallbezeichner Identifizierung Attending Hospital ID PatientID physician ID OZN 6137798 782 2322241 867 125304 790697 176466 Daten validieren Wenn in den Fallbezeichnervariablen fehlende Werte vorliegen k nnen die entsprechenden F lle nicht ordnungsgem identifiziert werden In der vorliegenden Datendatei fehlt der Wert von Patient ID in Fall 288 und in den F llen 573 und 774 sind keine Werte f r Hospital ID vorhanden Gleiche Identifizierung Abbildung 6 5 Gleiche Fallbezeichner gezeigt werden die ersten 11 Identifizierung Hospital ID Patient ID Gruppe mit gleicher Anzahl Identifizierung Duplikate
114. rochen unangemessen zu bewerten Die Werte werden ber die einzelnen Personen gemittelt und als Un hnlichkeiten verwendet behavior_ini sav Diese Datendatei enth lt eine Ausgangskonfiguration f r eine zweidimensionale L sung f r behavior sav brakes sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Fabrik geht die Scheibenbremsen f r Hochleistungsautomobile herstellt Die Datendatei enth lt Messungen des Durchmessers von 16 Scheiben aus 8 Produktionsmaschinen Der Zieldurchmesser f r die Scheiben ist 322 Millimeter breakfast sav In einer klassischen Studie Green als auch Rao 1972 wurden 21 MBA Studenten der Wharton School mit ihren Lebensgef hrten darum gebeten 15 Fr hst cksartikel in der Vorzugsreihenfolge von 1 am meisten bevorzugt bis 15 am wenigsten bevorzugt zu ordnen Die Bevorzugungen wurden in sechs unterschiedlichen Szenarien erfasst von Overall preference Allgemein bevorzugt bis Snack with beverage only Imbiss nur mit Getr nk breakfast overall sav Diese Datei enth lt die Daten zu den bevorzugten Fr hst cksartikeln allerdings nur f r das erste Szenario Overall preference Allgemein bevorzugt broadband_1 sav Hierbei handelt es sich um eine hypothetische Datendatei die die Anzahl der Abonnenten eines Breitband Service nach Region geordnet enth lt Die Datendatei enth lt die monatlichen Abonnentenzahlen
115. s Daten Dateneigenschaften kopieren Abbildung 6 6 Kopieren von Dateneigenschaften Schritt 1 Begr ung Dateneigenschaften kopieren Schritt 1 von 5 Willkommen beim Assistenten zum Kopieren von Dateneigenschaften Mit Dateneigenschaften kopieren konnen ausgew hlte Variablen und Daten Set Eigenschaften aus einem ge ffneten Daten Set oder einer externen SPSS Datendatei in die Arbeitsdatei kopiert werden Sie k nnen auch Eigenschaften einer Variablen in eine andere innerhalb der Arbeitsdatei Quelle der Eigenschaften ausw hlen O Ein offenes Daten Set Eine externe SPSS Datendatei C ProgrammesS PSS Tutorial sample_files patient_los sav rbeitsdatei stroke_invalid say DatenSet7 W hlen Sie aus dass die Eigenschaften aus einer externen SPSS Datendatei patient_los sav kopiert werden sollen F r weitere Informationen siehe Beispieldateien in Anhang A auf S 84 Klicken Sie auf Weiter 37 Daten validieren Abbildung 6 7 Kopieren von Dateneigenschaften Schritt 2 Variablen ausw hlen Dateneigenschaften kopieren Schritt 2 von 5 Dateneigenschaften kopieren W hlen Sie de Quell und Zielvariablen aus OF C Entsprechende Variablen in der Arbeitsdatei erstellen wenn nicht bereits vorhanden Eigenschaften einer einzelnen Quellvariablen auf ausgew hlte Variablen in der Arbeitsdatei desselben Typs bertragen O Nur Eigenschaften des Daten Sets b
116. s at current address Wohnhaft an gleicher Adresse in Jahren von gr erer Bedeutung Anhang A Beispieldateien Die zusammen mit dem Produkt installierten Beispieldateien finden Sie im Unterverzeichnis Samples des Installationsverzeichnisses Beschreibungen Im Folgenden finden Sie Kurzbeschreibungen der in den verschiedenen Beispielen in der Dokumentation verwendeten Beispieldateien accidents sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die alters und geschlechtsabh ngige Risikofaktoren f r Autounf lle in einer bestimmten Region untersucht Jeder Fall entspricht einer Kreuzklassifikation von Alterskategorie und Geschlecht adl sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bem hungen geht die Vorteile einer vorgeschlagenen Therapieform f r Schlaganfallpatienten zu ermitteln rzte teilten weibliche Schlaganfallpatienten nach dem Zufallsprinzip jeweils einer von zwei Gruppen zu Die erste Gruppe erhielt die physische Standardtherapie die zweite erhielt eine zus tzliche Emotionaltherapie Drei Monate nach den Behandlungen wurden die F higkeiten der einzelnen Patienten bliche Alltagsaktivit ten auszuf hren als ordinale Variablen bewertet advert sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Einzelh ndlers geht die Beziehungen zwischen den in Werbung investierten
117. se fe Stammname Grund F r jeden Grund werden vier Variablen gespeichert Name der Grundvariablen Wert der Grundyariablen Normwert der Gruppe und Einflussma f r die Grundvariable C vorhandene Variablen mit demselben Namen oder Stammnamen ersetzen Modelldatei exportieren Datei gt Wahlen Sie Anomalie Index Gruppen und Gr nde aus Wenn Sie diese Ergebnisse speichern k nnen Sie ein sinnvolles Streudiagramm erstellen mit dem die Ergebnisse zusammengefasst werden gt Klicken Sie auf die Registerkarte Fehlende Werte 58 Kapitel 7 Abbildung 7 4 Dialogfeld Ungewohnliche F lle identifizieren Registerkarte Fehlende Werte W Ungew hnliche F lle identifizieren Variablen Ausgabe Speichern Fehlende Werte Optionen Fehlende Werte aus der Analyse ausschlie en Benutzer und systemdefinierte fehlende Werte werden ausgeschlossen Bei metrischen Variablen werden benutzer und systemdefinierte fehlende Werte durch den Gesamtmittelwert der Variablen ersetzt Bei kategorialen Variablen werden benutzer und systemdefinierte Fehlende Werte zusammengefasst und als Kategorie in die Analyse aufgenommen Anteil fehlender Werte pro Fall als Analysevariable verwenden W hlen Sie Fehlende Werte in die Analyse aufnehmen aus Dies ist notwendig weil viele benutzerdefinierte fehlende Werte f r Patienten vorliegen die vor oder w hrend der Behandlung gestorben sind
118. se address_Klasse income_Klasse debtinc_Klasse creddebt_Klasse othdebt_Klasse CRITERIA METHOD MDLP PREPROCESS EQUALFREQ BINS 1000 FORCEMERGE 0 LOWERLIMIT INCLUSIVE LOWEREND UNBOUNDED UPPEREND UNBOUNDED MISSING SCOPE PAIRWISE OUTFILE RULES bankloan_binning rules sps PRINT ENDPOINTS DESCRIPTIVES ENTROPY 74 Kapitel 8 Durch die Prozedur werden die Klassierungs Eingabevariablen age employ address income debtinc creddebt und othdebt mithilfe der MDLP Klassierung mit der F hrungsvariablen default diskretisiert Die diskretisierten Werte fiir diese Variablen werden in den neuen Variablen age_Klasse employ_Klasse address Klasse income_Klasse debtinc_Klasse creddebt_Klasse und othdebt_Klasse gespeichert Wenn eine Binning Eingabevariable mehr als 1000 verschiedene Werte aufweist wird die Anzahl vor der Durchf hrung der MDLP KLassierung mithilfe der Methode der gleichen H ufigkeiten auf 1000 reduziert Die Befehlssyntax f r die Klassierungsregeln wird in der Datei c bankloan_binning rules sps gespeichert F r die Klassierungs Eingabevariablen werden die Klassengrenzen und die Modellentropiewerte angefordert F r die anderen Klassierungskriterien werden die Standardwerte verwendet Deskriptive Statistiken Abbildung 8 4 Deskriptive Statistiken Anzahl der verschiede Anzahl der Minimum Maximum nen Were Klassen Age in years Years with current employer Years at current address 37
119. ser Option werden F lle mit unvollst ndigen Fallbezeichnern ausgegeben Ein Bezeichner wird bei einem gegebenen Fall als unvollst ndig betrachtet wenn der Wert einer ID Variable leer ist oder fehlt Doppelte IDs markieren Bei dieser Option werden F lle mit doppelten Fallbezeichnern ausgegeben Unvollst ndige Fallbezeichner werden aus der Menge der m glichen doppelten Werte ausgeschlossen Leere F lle markieren Bei dieser werden F lle ausgegeben bei denen alle Variablen leer sind oder fehlen Sie k nnen festlegen ob zum Identifizieren leerer F lle alle Variablen in der Datei mit Ausnahme von ID Variablen oder nur die auf der Registerkarte Variablen ausgew hlten Analysevariablen herangezogen werden sollen 12 Kapitel 3 Daten validieren Regeln f r eine Variable Abbildung 3 3 Dialogfeld Daten validieren Registerkarte Regeln f r eine Variable Daten validieren EE Variablen Grundlegende Pr fungen Regeln f r eine Variable Regeln f r mehrere Variablen Ausgabe Speichern Um Regeln einer Yariablen zuzuweisen w hlen Sie die Yariable aus und aktivieren eine oder mehrere Regeln Die Liste Analysevariablen zeigt Yerteilungen nichtfehlender Werte auf Grund des Durchsuchens der Daten Die Liste Regeln zeigt alle Regeln die den ausgew hlten Yariablen zugewiesen werden k nnen A Analysevariablen Variable Verteilung Minimum Maxim z Oto 1 Dichotomy Hospital ID hospid l h YYH 3 C
120. sity obesity History of diabetes diabetes Blood pressure bp Atrial fibrillation af Smoker smoker AH Cholesterol choles History of angina angina History of myocardial infarction n Prescribed nitroglycerin nitro mo ee sso D lt v Eallbezeichnervariable Patient ID patid Klicken Sie in der Liste Variablen mit der rechten Maustaste auf eine Variable um deren Messniveau zu ndern W hlen Sie mindestens eine Analysevariable aus gt Wahlweise k nnen Sie eine Fallbezeichnervariable zum Beschriften der Ausgabe ausw hlen 19 Ungew hnliche F lle identifizieren Ungew hnliche F lle identifizieren Ausgabe Abbildung 4 2 Dialogfeld Ungew hnliche F lle identifizieren Registerkarte Ausgabe E Ungew hnliche F lle identifizieren variablen Ausgabe Speichern Fehlende Werte Optionen Liste ungew hnlicher F lle und Gr nde f r die Ungew hhnlichkeit Auswertung Normwerte der Gruppen Hierbei handelt es sich um Gruppen von F llen mit hnlichen Werten f r die Analysevariablen Bei dieser Option werden die Yerteilungen der Analysevariablen nach Gruppen angezeigt Anomalie Indizes Der Anomalie Index ist ein Ma das die Ungew hnlichkeit eines Falls in Bezug auf die Angeh rigen seiner Gruppe widerspiegelt Bei dieser Option wird die Verteilung der Anomalie Indexwerte von ungew hnlichen F llen angezeigt V
121. ssen der obere ausgeschlossen Minimum lt x lt Maximum Der untere Endpunkt wird ausgeschlossen der obere eingeschlossen Minimum lt x lt Maximum Erste niedrigste Klasse Letzte h chste Klasse Unbegrenzt dehnt sich bis negativ unendlich aus Unbegrenzt dehnt sich bis positiv unendlich aus Begrenzt durch niedrigsten Datenwert O Begrenzt durch h chsten Datenwert Vorverarbeitung Das Pre Binning von Binning Eingabevariablen mit vielen verschiedenen Werten kann die Verarbeitung ohne gr ere Qualit tseinbu en bei den endg ltigen Klassen beschleunigen Der Wert f r die maximale Anzahl an Klassen stellt lediglich die Obergrenze f r die Anzahl der erstellten Klassen dar Wenn Sie also 1000 als Maximalwert angeben eine Binning Eingabevariable jedoch weniger als 1000 verschiedene Werte aufweist werden so viele vorverarbeitete Klasen f r die Binning Eingabevariable erstellt wie verschiedene Klassen in der Binning Eingabevariablen enthalten sind D nn besetzte Klassen Gelegentlich kann die Prozedur zu Klassen mit sehr wenigen F llen f hren Mit der folgenden Strategie k nnen diese Pseudotrennwerte gel scht werden gt Angenommen der Algorithmus hat f r eine Variable endg ltig Trennwerte und daher nendg ltigt 1 Klassen gefunden F r die Klassen i 2 Nendgiiltig von der Klasse mit dem zweitniedrigsten Wert bis zur Klasse mit dem zweith chsten Wert wird Folgendes berechnet sizeof
122. stgelegt ob leere String Werte als ung ltig gekennzeichnet werden Dies gilt nur f r Regeln f r Strings Definieren von Regeln f r mehrere Variablen Abbildung 2 5 Dialogfeld Validierungsregeln definieren Registerkarte Regeln f r mehrere Variablen L Validierungsregeln definieren Regeln f r eine Variable Regeln f r mehrere Variablen Regeln a _ rRegeldefinition Name Zweimal estorben Name ZweimalGestorben Logischer Ausdruck muss bei einem ung ltigen Fall 1 entsprechen doa 1 amp dhosp 1 SEITE ei ODER Variablen Funktionen und Sondervariablen Taking anti clottin Eunktion Sb History of transien IN Time to hospital ti Artan Dead on arrival d Cos initial Rankin scor Exp DAT scan result c Loi J amp Clot dissolving dru Died in hospital d Anzeigen Aktuelles Datum x all Treatment result ee FR u Post event preve Beschreibung db Post event rehabil E Length of stay for E Total treatment a sl Auf der Registerkarte Regeln f r mehrere Variablen k nnen Sie Validierungsregeln f r mehrere Variablen erstellen anzeigen lassen und ndern Regeln Die Liste enth lt die Validierungsregeln f r mehrere Variablen nach Namen Wenn Sie das Dialogfeld ffnen wird eine Platzhalter Regel mit dem Namen MehrVarRegel 1 angezeigt Unter der Liste Regeln werden folgende Schaltfl
123. t 3 2 Age category Haufigste Kategorie Haufigkeit Prozent Gender Haufigste Kategorie Haufigkeit Prozent Physically active Haufigste Kategorie Haufigste Kategorie Haufigkeit Prozent History of H ufigste Kategorie diabetes H ufigkeit Prozent Blood pressure H ufigste Kategorie H ufigkeit Prozent Atrial fibrillation Haufigste Kategorie Haufigkeit Prozent Smoker Haufigste Kategorie Haufigkeit Prozent Cholesterol Haufigste Kategorie Haufigkeit Prozent History of angina H ufigste Kategorie Haufigkeit Prozent Die Normwerte der kategorialen Variablen dienen demselben Zweck wie die Normwerte der metrischen Variablen Bei den Normwerten der kategorialen Variablen werden jedoch die h ufigste Kategorie sowie die Anzahl und der Prozentsatz an Fallen in der Gruppe ausgegeben die in diese Kategorie fallen Ein Vergleich der Werte ist etwas komplizierter So kann es beispielsweise auf den ersten Blick scheinen dass Gender mehr zum Bilden der Gruppen beitr gt als Smoker weil die h ufigste Kategorie f r Smoker in allen drei Gruppen dieselbe ist 65 Ungew hnliche F lle identifizieren die h ufigste Kategorie f r Gender in Gruppe 3 jedoch abweicht Da Gender aber nur zwei Werte annehmen kann k nnen Sie schlussfolgern dass 49 2 der F lle in Gruppe 3 den Wert 0 aufweisen Dies hnelt stark den Prozents tzen in den anderen Gruppen Im Gegensatz dazu variieren die Prozents tze f r Smoker zwischen
124. ter http www spss com worldwide finden Bei einem Anruf werden Sie nach Ihrem Namen dem Namen Ihrer Organisation und Ihrer Seriennummer gefragt Weitere Ver ffentlichungen Weitere Exemplare von Produkthandb chern k nnen direkt bei SPSS Inc bestellt werden Besuchen Sie den SPSS Web Store unter http www spss com estore oder wenden Sie sich an Ihr regionales SPSS B ro das Sie auf der SPSS Website unter http www spss com worldwide finden Wenden Sie sich bei telefonischen Bestellungen in den USA und Kanada unter 800 543 2185 direkt an SPSS Inc Wenden Sie sich bei telefonischen Bestellungen au erhalb von Nordamerika an Ihr regionales SPSS B ro das Sie auf der SPPS Website finden Das Handbuch SPSS Statistical Procedures Companion von Marija NoruSis wurde von Prentice Hall ver ffentlicht Eine neue Fassung dieses Buchs mit Aktualisierungen f r SPSS 16 0 ist geplant Das Handbuch SPSS Advanced Statistical Procedures Companion bei dem auch SPSS 16 0 ber cksichtigt wird erscheint demn chst Das Handbuch SPSS Guide to Data Analysis f r SPSS 16 0 wird ebenfalls derzeit erstellt Ank ndigungen f r Ver ffentlichungen die ausschlie lich ber Prentice Hall verf gbar sind finden Sie auf der SPSS Website unter http www spss com estore w hlen Sie Ihr Land aus und klicken Sie auf Books Kundenmeinungen Ihre Meinung ist uns wichtig Teilen Sie uns bitte Ihre Erfahrungen mit SPSS Produkten mit Insbesondere haben wir Interesse an n
125. tsachbearbeiter finanzielle und demografische Informationen zu fr heren und gegenw rtigen Kunden gesammelt in der Hoffnung ein Modell erstellen zu k nnen das die Wahrscheinlichkeit der Nichtr ckzahlung bei Krediten vorhersagt Mehrere potenzielle Einflussvariablen sind metrisch der Kreditsachbearbeiter m chte jedoch in der Lage sein Modelle zu betrachten die am besten f r kategoriale Einflussvariablen geeignet sind Informationen zu 5000 fr heren Kunden finden Sie in der Datei bankloan_binning sav F r weitere Informationen siehe Beispieldateien in Anhang A auf S 84 Erstellen Sie mithilfe der Prozedur Optimales Klassieren Klassierungsregeln f r die metrischen Einflussvariablen und 70 71 Optimales Klassieren verwenden Sie diese Regeln anschlie end zur Verarbeitung von bankloan sav Mithilfe des verarbeiteten Daten Sets kann dann ein Vorhersagemodell erstellt werden Durchf hrung der Analyse gt Zum Ausf hren einer Analyse vom Typ Optimales Klassieren w hlen Sie die folgenden Men befehle aus Transformieren Optimales Klassieren Abbildung 8 1 Dialogfeld Optimales Klassieren Registerkarte Variablen E Optimales Binning variablen Ausgabe Speichern Fehlende Werte Optionen variablen amp ariablen F r Binning devel of education ed E Age in years age E Years with current employer E Years at current address ad E Household income in thousan E Debt to in
126. tung von Daten Der Informationsbedarf w chst proportional mit dem Anstieg der Leistungsf higkeit von Computern Das f hrt zu immer gr eren Datensammlungen zu mehr F llen mehr Variablen und mehr Fehlern bei der Dateneingabe Diese Fehler behindern Vorhersagen auf der Grundlage von Prognosemodellen dem wichtigsten Ziel des Daten Warehousing Deswegen m ssen die Daten sauber gehalten werden Die Menge der gespeicherten Daten ist jedoch bereits so weit ber die Kapzit ten zur manuellen Pr fung der Daten hinausgewachsen dass es entscheidend ist automatisierte Prozesse f r die Datenvalidierung zu implementieren Mit dem Erweiterungsmodul Data Preparation Aufbereitung von Daten k nnen Sie ungew hnliche und ung ltige F lle Variablen und Datenwerte in der Arbeitsdatei identifizieren Verwendung der Prozeduren von Data Preparation Es h ngt von Ihren Bed rfnissen ab welche Prozeduren von Data Preparation Vorbereitung f r Sie infrage kommen Nachdem Sie die Daten geladen haben k nnte eine typische Vorgehensweise folgenderma en aussehen m Vorbereitung der Metadaten berpr fen Sie die Variablen in der Arbeitsdatei und bestimmen Sie die g ltigen Werte Labels und Messniveaus Identifizieren Sie die Kombinationen von Variablenwerten die zwar unm glich jedoch h ufig falsch kodiert sind Definieren Sie auf der Grundlage dieser Informationen Validierungsregeln Dies kann zeitraubend sein ist jedoch den
127. ualit t der Daten hindeuten m Die schlechtestm gliche Einflussvariable ist eine Variable deren Verwendung zu keinem besseren Ergebnis f hrt als blo es Raten Der Wert ihrer Modellentropie h ngt von den Daten ab In diesem Datensatz kam es bei 1256 bzw 0 2512 der 5000 Kunden zu Schwierigkeiten bei der Kreditr ckzahlung w hrend 3744 bzw 0 7488 ihren Kredit zur ckzahlten Die schlechtestm gliche Einflussvariable h tte also eine Modellentropie von 0 2512 x logy 0 2512 0 7488 x log2 0 7488 0 8132 Es l sst sich schwerlich eine schl ssigere Aussage treffen als dass Variablen mit niedrigeren Werten f r die Modellentropie besser als Einflussvariablen geeignet sein d rften da es von der jeweiligen Anwendung und den jeweiligen Daten abh ngt was ein guter Wert f r die Modellentropie ist In diesem Fall haben anscheinend Variablen die in Bezug auf die Anzahl der unterschiedlichen Kategorien eine gr ere Anzahl an generierten Klassen aufweisen niedrigere Werte bei der Modellentropie Es sollte eine weitere Auswertung dieser Klassierungs Eingabevariablen als Einflussvariablen durchgef hrt werden Hierf r sollten Prozeduren f r Vorhersagemodelle verwendet werden bei denen eine gr ere Palette an Werkzeugen f r die Variablenauswahl zur Verf gung steht 76 Kapitel 8 Klassierungs Zusammenfassungen Die Klassierungs Zusammenfassung gibt die Grenzen der generierten Klassen und die H ufigkeitsz hlung f r d
128. un die Summe der Betr ge die in den vier Wochen der Studie ausgegeben wurden grocery_coupons sav Hierbei handelt es sich um eine hypothetische Datendatei die Umfragedaten enth lt die von einer Lebensmittelkette erfasst wurden die sich f r die Kaufgewohnheiten ihrer Kunden interessiert Jeder Kunde wird ber vier Wochen beobachtet und jeder Fall entspricht einer Kundenwoche und enth lt Informationen zu den Gesch ften in denen der Kunde einkauft sowie zu anderen Merkmalen beispielsweise welcher Betrag in der betreffenden Woche f r Lebensmittel ausgegeben wurde guttman sav Bell Bell 1961 legte eine Tabelle zur Darstellung m glicher sozialer Gruppen vor Guttman Guttman 1968 verwendete einen Teil dieser Tabelle bei der f nf Variablen die Aspekte beschreiben wie soziale Interaktion das Gef hl der Gruppenzugeh rigkeit die 89 Beispieldateien physische N he der Mitglieder und die Formalit t der Beziehung mit sieben theoretischen sozialen Gruppen gekreuzt wurden crowds Menschenmassen beispielsweise die Zuschauer eines Fu ballspiels audience Zuh rerschaften beispielsweise die Personen im Theater oder bei einer Vorlesung public ffentlichkeit beispielsweise Zeitungsleser oder Fernsehzuschauer mobs Mobs wie Menschenmassen jedoch mit wesentlich st rkerer Interaktion primary groups Prim rgruppen vertraulich secondary groups Sekund rgruppen freiwillig und
129. ung zwischen F llen und Variablen herzustellen bei denen Validierungsregeln f r eine Variable verletzt werden Klicken Sie auf OK 43 Daten validieren Regelbeschreibung Abbildung 6 13 Regelbeschreibung Beschreibung Nonnegative integer Type Numeric Domain Range Flag user missing values No Flag system missing values Yes Minimum 0 Flag unlabeled values within range No Flag noninteger values within range Yes VD SRule 5 Rule Oto 1 Dichotomy Type Numeric Domain List Flag user missing values No Flag system missing values Yes List 0 1 VD SRule 1 Rule 1 to 4 Categorical Type Numeric Domain List Flag user missing values No Flag system missing values Yes List 1 2 3 4 D SRule 4 Rule Es werden alle Regeln gezeigt die mindestens einmal verletzt wurden Die Tabelle Regelbeschreibung enth lt Erkl rungen zu den Regeln die verletzt wurden Dies ist n tzlich wenn viele Validierungsregeln vorliegen Variablenauswertung Abbildung 6 14 Variablenauswertung Regel Verletzungen Age category 1 to 4 Categorical Gesamt Gender Oto 1 Dichotomy Gesamt History of angina Oto 1 Dichotomy Gesamt Time to hospital Nonnegative integer Gesamt Dead on arrival Oto 1 Dichotomy Gesamt Die Tabelle Variablenauswertung enth lt alle Variablen die mindestens eine Validierungsregel verletzt haben die verletzten Regeln und die Anzahl der Verletzungen pro Regel und pro Variable
130. usands Schulden auf Kreditkarte in Tausend Anzahl der Falle nach Nivau yon Endpunkt Previously defaulted Klasse Minimum Maximum No Yes Gesamt 1 a 2 97 3 1 91 4 6 05 Gesamt Jede Klasse wird wie folgt berechnet Minimum lt Credit card dept in thousands Maximum a Unbegrenzt Die Zusammenfassung f r Credit card debt in thousands Schulden auf Kreditkarte in Tausend zeigt das umgekehrte Muster bei steigender Klassenzahl nehmen die Anteile der zahlungsunf higen Personen zu Die Variablen Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber und Years at current address Wohnhaft an gleicher Adresse in Jahren scheinen besser zur Ermittlung von Personen geeignet die mit gro er Wahrscheinlichkeit nicht in Zahlungsschwierigkeiten geraten w hrend Credit card debt in 79 Optimales Klassieren thousands Schulden auf Kreditkarte in Tausend besser fiir die Ermittlung von Personen geeignet ist die mit gro er Wahrscheinlichkeit den Kredit nicht zur ckzahlen k nnen Klasse Anteil der zahlungsunfahigen Personen 1 0 177 2 0 266 3 0 354 4 0 609 Abbildung 8 12 Klassierungs Zusammenfassung f r Debt to income ratio x100 Relation Schulden zu Einkommen in Anzahl der F lle nach Nivau von Endpunkt Previously defaulted Klasse Minimum Maximum No Yes Gesamt 1 Jede Klasse wird wie folgt berechnet Minimum lt Debtto income
131. utzerdefinierte Fehlende Werte zulassen Geben Sie als Name der Regel 1 to 3 Categorical ein W hlen Sie im Feld G ltige Werte den Eintrag In einer Liste aus Geben Sie die Werte 1 2 und 3 ein Deaktivieren Sie Systemdefinierte fehlende Werte zulassen Um die Regel f r die Rankin Scores zu definieren klicken Sie auf Neu 48 Kapitel 6 Abbildung 6 21 Dialogfeld Validierungsregeln definieren Registerkarte Regeln f r eine Variable Definition von 0 to 5 Categorical L Validierungsregeln definieren Regeln f r eine Variable Regeln f r mehrere Variablen Regeln _ Regeldefinition Name Typ Name Oto 5 Categorical Typ Numerisch 0 1 dichotomy Numerisch Ka 0 to 2 Categorical Numerisch 2 0 to 3 Categorical Numerisch rmat mmd UD 1 to 4 Categorical Numerisch Nonnegative integer Numerisch La S Nonnegative number Numerisch G ltige Werte 1 to 3 Categorical Numerisch In einer Liste v 0 to 5 Categorical Numerisch Werte 1 2 3 4 5 KI j Kleinschreibung bei der Wertepr fung ignorieren Benutzerdefinierte Fehlende Werte zulassen j gt Geben Sie als Name der Regel 0 to 5 Categorical ein Wahlen Sie im Feld G ltige Werte den Eintrag In einer Liste aus gt Geben Sie die Werte 0 1 2 3 4 und 5 ein Deaktivieren Sie Systemdefinierte fehlende Werte zulassen gt Um die Regel f r die Barthel Indizes zu definieren klicken Sie auf
132. variablen Fehlender Wert 66 Kapitel 7 Auswertung des Anomalie Index Abbildung 7 14 Auswertung des Anomalie Index Anzahl anomaler F lle Minimum Maximum Mittelwert Std Deviation Anomalie Index 1 322 1 550 1 387 068 Die Anzahl anomaler F lle wird folgenderma en bestimmt Der Prozentsatz anomaler F lle ist 2 Diese Tabelle enth lt Auswertungsstatistiken f r die Werte des Anomalie Index von F llen in der Anomalie Liste Auswertung der Gr nde Abbildung 7 15 Auswertung der Gr nde Behandlungs und Rehabilitationsvariablen Auftreten als Grund Statistiken der Yariablenbeeinflussung H ufigkeit Maximum Mittelwert Std Deviation Dead on arrival Initial Rankin score CAT scan result Clot dissolving drugs Died in hospital Treatment result Postevent preventative surgery Post event rehabilitation Rankin score at1 month Rankin score at 3 months Rankin score at 6 months Barthel index at 1 month Barthel index at 3 months Barthel index at 6 months Recoded Barthel index at 1 month Recoded Barthel index at 3 months Recoded Barthel index at 6 months Length of stay for rehabilitation Total treatment and rehabilitation costs in thousands Anteil fehlend Insgesamt In dieser Tabelle wird jede Analysevariable im Hinblick auf ihre Rolle als prim rer Grund ausgewertet Die meisten Variablen z B Dead on arrival bis Post event rehabilitation sind keine prim ren Gr nde f
133. zelnen Mitarbeiter wurden am Ende der Schulung einem Test unterzogen und die erzielten Punkte wurden erfasst Jeder Fall in der Datendatei stellt einen Lehrgangsteilnehmer dar und enth lt die Gruppe der der Lehrgangsteilnehmer zugeteilt wurde sowie die von ihm in der Pr fung erreichte Punktzahl satisf sav Hierbei handelt es sich um eine hypothetische Datendatei zu einer Zufriedenheitsumfrage die von einem Einzelhandelsunternehmen in 4 Filialen durchgef hrt wurde Insgesamt wurden 582 Kunden befragt Jeder Fall gibt die Antworten eines einzelnen Kunden wieder screws sav Diese Datendatei enth lt Informationen zu den Eigenschaften von Schrauben Bolzen Muttern und Rei n geln Hartigan 1975 shampoo_ph sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Fabrik f r Haarpflegeprodukte geht In regelm igen Zeitabst nden werden Messwerte von sechs separaten Ausgangschargen erhoben und ihr pH Wert erfasst Der Zielbereich ist 4 5 5 5 ships sav Ein an anderer Stelle McCullagh et al 1989 vorgestelltes und analysiertes Daten Set bezieht sich auf die durch Wellen verursachten Sch den an Frachtschiffen Die Vorfallsh ufigkeiten k nnen unter Angabe von Schiffstyp Konstruktionszeitraum und Betriebszeitraum gem einer Poisson Rate modelliert werden Das Aggregat der Betriebsmonate f r jede Zelle der durch die Kreuzklassifizierung der Faktoren gebildeten Tabelle gibt die Werte

Download Pdf Manuals

image

Related Search

Related Contents

MANUALE DI INSTALLAZIONE / /  Trinitron® Color Computer Display  lock & hinge dry lube / lubrifiant sec pour serrure & charnière  Samsung AWT19FHB دليل المستخدم  A.O. Smith Hot Water Storage Tanks Technical Documents  Sharp Zaurus SL  Hardware User Manual  INSTALLATION INSTRUCTIONS  

Copyright © All rights reserved.
Failed to retrieve file