Home

PASW® Data Preparation (Vorbereitung von Daten) 18

image

Contents

1. Durchsuchte F lle 1183 Oto 1 Dichotomy Oto 2 Categorical Oto 3 Categorical 1 to 4 Categorical Nonnegative integer Nonnegative number Ti Durchsuchte Anzahl der F lle begrenzen F lle Erneut durchsuchen Anzahl der validierten F lle Begrenzen der durchsuchten F lle hat keinen Einfluss auf die CE enten Zurackeetzen L Avirecnen J nie gt Um die Daten in stroke_invalid sav auf der Grundlage der kopierten Regeln zu validieren klicken Sie auf der Symbolleiste auf die Schaltfl che Zuletzt verwendete Dialogfelder und w hlen Sie Daten validieren aus gt Klicken Sie auf die Registerkarte Regeln f r eine Variable In der Liste Analysevariablen werden die Variablen die Sie auf der Registerkarte Variablen ausgew hlt haben zusammenfassende Informationen zu deren Verteilungen und die Anzahl der Regeln angezeigt die ihnen jeweils zugeordnet sind Variablen deren Eigenschaften aus der Datei patient_los sav kopiert wurden besitzen zugeordnete Regeln In der Liste Regeln werden die Validierungsregeln f r eine Variable angezeigt die in der Datendatei verf gbar sind Diese Regeln wurden aus der Datei patient_los sav kopiert Beachten Sie dass einige dieser Regeln auch auf Variablen zutreffen f r die in der anderen Datendatei keine exakten Entsprechungen vorliegen 69 vv v y Daten validieren Abbildung 7 11 Dialogfeld Daten validieren Registerkart
2. 0 0 00 cece eee 19 Registerkarte Felder 2 2 2 cette teen eee 20 Registerkarte Einstellungen 0 00 c eee tenet eee eee 20 Datum und Uhrzeit aufbereiten 0 teen ene n nee 21 Felder ausschlie en 2 0 0 eee een tence een tenes 22 Messniveau anpassen sicari aeni ccc ee nent nee E E E a 23 Datenqualit t verbessern 0 0 cc teen eee n tenes 24 Felder ne skalere sergas iaai aga ee He aa 25 Felder transformieren 2 ccm 26 Ausw hlen und erstellen 00 00 etn nennen 27 Namensfelder 2 2 cc cece nee tee teens 28 Transformationen anwenden und speichern 0 00 0 cece cece eee eee ae 29 Registerkarte Analyse 0 0 0 0 teen nennen 31 Feldverarbeitungs bersicht 00 cc cece eee eee eee 32 Felder ss sabet ee a Be re ae Barden ee 33 Aktions bersieht iur ana aa ne ne neh 35 Vorhers gekr ft nisa man ca chee aan ea ee aectieder 36 Feldertabelle 2 cece cnet teen eee ee 37 Felddetails u 44 4220 en Atma dines en 38 Aktionsdet lls nun see anna Beal ane to elle 40 Transformiert Werte zur ck 2 0 0 ccc cette een 43 5 Ungew hnliche F lle identifizieren 45 Ungew hnliche F lle identifizieren Ausgabe 0 0 0c cece ee eee nenn 47 Ungew hnliche F lle identifizieren Speichern 0 000 cece eee eee eee 48 Ungew hnliche F lle identifizieren Fehlende Werte 0 20 e cece eee
3. Age category Gender gender Obesity obesity Physically acti mim N Anzeigen Durchsuchte F lle 1183 Regen definieren Variablenverteilungen Ti Durchsuchte Anzahl der F lle begrenzen F lle 5000 Erneut durchsuchen Begrenzen der durchsuchten F lle hat keinen Einfluss auf die Anzahl der validierten F lle ET Teen ne ar tee Auf der Registerkarte Regeln f r eine Variable werden verf gbare Validierungsregeln f r eine Variable angezeigt die Sie auf die Analysevariablen anwenden k nnen Um weitere Regeln f r einzelne Variablen zu definieren klicken Sie auf Regeln definieren F r weitere Informationen siehe Definieren von Regeln f r eine Variable in Kapitel 2 auf S 4 Analysevariablen In der Liste werden Analysevariablen aufgef hrt ihre Verteilungen zusammengefasst und die Anzahl der Regeln angezeigt die auf jede Variable angewendet werden Beachten Sie dass benutzerdefinierte und systemdefinierte fehlende Werte nicht in den Zusammenfassungen enthalten sind Durch die Dropdown Liste Anzeige wird gesteuert welche Variablen angezeigt werden Zur Auswahl stehen Alle Variablen Numerische Variablen String Variablen und Datumsvariablen Regeln Um Regeln auf Analysevariablen anzuwenden w hlen Sie eine oder mehrere Variablen aus und aktivieren Sie in der Liste Regeln alle anzuwendenden Regeln In der Liste Regeln werden nur Regeln aufgef hrt die
4. w w n n nj n ninj n md n w w v w n w m No ho n n v n v He RO en e e N w se n w w w GO RO n S S EIN w N w 2 1 2 2 1 2 2 2 1 2 1 1 2 2 2 Yariablenansicht Die Variablen inbankloan sav wurden klassiert Hierf r wurden die Regeln verwendet die bei der Ausf hrung der Prozedur Optimales Klassieren f r die Datei bankloan_binning sav erstellt wurden Dieses Daten Set kann nun zur Erstellung von Vorhersagemodellen verwendet werden bei denen kategoriale Variablen erforderlich oder vorzuziehen sind Zusammenfassung Mithilfe der Prozedur Optimales Klassieren haben wir Klassierungsregeln f r metrische Variablen generiert die potenzielle Einflussvariablen f r die Wahrscheinlichkeit der Zahlungsunf higkeit sind und haben diese Regeln auf ein separates Daten Set angewendet W hrend des Klassierungsvorgangs haben wir festgestellt dass die klassierten Variablen Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber und Years at current address Wohnhaft an gleicher Adresse in Jahren besser zur Ermittlung von Personen geeignet sind die mit gro er Wahrscheinlichkeit nicht in Zahlungsschwierigkeiten geraten w hrend Credit card debt in thousands Schulden auf Kreditkarte in Tausend besser f r die Ermittlung von Personen geeignet ist die mit gro er Wahrschein
5. 00008 95 Vorbereitung der Daten 0 0 0 eee eens 95 Erstellen eines Modells mit unvorbereiteten Daten 0 0 0 ce eee ee eee 99 Erstellen eines Modells mit den vorbereiteten Daten 20 0 eee eee eee 102 Vergleichen der Vorhersagewerte 0 0 een eee eens 104 R cktransformieren der Vorhersagewerte 2 0 0 0 ce eee eee eens 105 ZUSAMMENFASSUNG uns ua Sed Rae idee eee ees Ges dome Pe by eee 107 9 Ungew hnliche F lle identifizieren 108 Algorithmus f r Ungewohnliche F lle identifizieren eee eee eee 108 Identifizieren ungew hnlicher F lle in einer medizinischen Datenbank 109 Durchf hren der Analyse 0 00 0c ce cect teen en 109 Zusammenfassung der Fallverarbeitung 000 c eee eee eee eee 113 Liste der Indizes anomaler F lle 0 2 2 0 0 cc ce ee teens 114 Liste der Gruppen IDs anomaler F lle 02 0 0 c cece eee eee 115 Liste der Gr nde anomaler F lle 2 22 ccc ee eee eens 116 Normwerte der metrischen Variablen 0 0 0 ccc cece ee eee nee 117 Normwerte der kategorialen Variablen 0 00 0 ccc cece eee eee 118 Auswertung des Anomalie Index 0 0 cece cece eee eens 120 Auswertung der Gr nde 2 0 0 0 tenets 120 Streudiagramm des Anomalie Index ber den Variableneinfluss 121 UID ET SE oe en bu Ge ea Er ee ee eb hese oe Bee hades ated de 123 Verwan
6. Maximale Anzahl an Klassen rD nn besetzte Klassen F Klassen mit relativ kleinen Fallzahlen mit einem gr eren Nachbarn zusammenf hren chwellenwert verh ltnis Eine Klasse wird zusammengef hrt wenn das Verh ltnis ihrer Gr e Anzahl der F lle zu dem einer benachbarten Klasse kleiner als der angegebene Schwellenwert ist H here Schwellenwerte f hren in der Regel zu einem gr eren Zusammenf hrungsumfang rKlassengrenzen Der untere Endpunkt wird eingeschlossen der obere ausgeschlossen Minimum lt x lt Maximum Der untere Endpunkt wird ausgeschlossen der obere eingeschlossen Minimum lt x lt Maximum rErste niedrigste Klasse Letzte h chste Klasse Unbegrenzt dehnt sich bis negativ unendlich aus Unbegrenzt dehnt sich bis positiv unendlich aus Begrenzt durch niedrigsten Datenwert Begrenzt durch h chsten Datenwert St men Auen re Vorverarbeitung Das Pre Binning von Binning Eingabevariablen mit vielen verschiedenen Werten kann die Verarbeitung ohne gr ere Qualit tseinbu en bei den endg ltigen Klassen beschleunigen Der Wert f r die maximale Anzahl an Klassen stellt lediglich die Obergrenze f r die Anzahl der erstellten Klassen dar Wenn Sie also 1000 als Maximalwert angeben eine Binning Eingabevariable jedoch weniger als 1000 verschiedene Werte aufweist werden so viele vorverarbeitete Klasen f r die Binning Eingabevariable erstell
7. National Household Survey of Drug Abuse aus dem Jahr 1998 abstrahiert und stellt eine Wahrscheinlichkeitsstichprobe US amerikanischer Haushalte dar Daher sollte der erste Schritt bei der Analyse dieser Datendatei darin bestehen die Daten entsprechend den Bev lkerungstrends zu gewichten smoking sav Hierbei handelt es sich um eine von Greenacre Greenacre 1984 vorgestellte hypothetische Tabelle Die relevante Tabelle wird durch eine Kreuztabelle der Rauchgewohnheiten und der Berufskategorie gebildet Die Variable Berufsgruppe enth lt die Berufskategorien Senior Manager Junior Manager Angestellter mit Erfahrung Angestellter ohne Erfahrung und Sekretariat sowie die Kategorie National Average die als Erg nzung der Analyse dienen kann Die Variable Rauchen enth lt die Rauchgewohnheiten Nichtraucher Leicht Mittel und Stark sowie die Kategorien No Alcohol und Alcohol die als Erg nzung der Analyse dienen k nnen storebrand sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Verkaufsleiterin in einem Lebensmittelmarkt geht die die Verkaufszahlen des Waschmittels der Eigenmarke gegen ber den anderen Marken steigern m chte Sie erarbeitet eine Werbeaktion im Gesch ft und spricht an der Kasse mit Kunden Jeder Fall entspricht einem Kunden stores sav Diese Datendatei enth lt hypothetische monatliche Marktanteilsdaten f r zwei konkurrierende Lebensmittelgesch fte Jeder Fall entsprich
8. Wenden Sie sich bei Fragen zur Lieferung oder Ihrem Kundenkonto an Ihr regionales B ro das Sie auf der Website unter http www spss com worldwide finden Halten Sie bitte stets Ihre Seriennummer bereit Ausbildungsseminare SPSS Inc bietet ffentliche und unternehmensinterne Seminare an Alle Seminare beinhalten auch praktische bungen Seminare finden in gr eren St dten regelm ig statt Wenn Sie weitere Informationen zu diesen Seminaren w nschen wenden Sie sich an Ihr regionales B ro das Sie auf der Website unter hrtp www spss com worldwide finden Technischer Support Kunden mit Wartungsvertrag k nnen den Technischen Support in Anspruch nehmen Kunden k nnen sich an den Technischen Support wenden wenn sie Hilfe bei der Arbeit mit PASW Statistics oder bei der Installation in einer der unterst tzten Hardware Umgebungen ben tigen Informationen zum Technischen Support finden Sie auf der Website unter http www spss com oder wenden Sie sich an Ihr regionales B ro das Sie auf der Website unter http www spss com worldwide finden Bei einem Anruf werden Sie nach Ihrem Namen dem Namen Ihrer Organisation und Ihrer Seriennummer gefragt Weitere Ver ffentlichungen Das Handbuch SPSS Statistics Statistical Procedures Companion von Marija NoruSis wurde von Prentice Hall ver ffentlicht Eine neue Fassung dieses Buchs mit Aktualisierungen f r PASW Statistics 18 ist geplant Das Handbuch SPSS Statistics Advanced Statistical Pro
9. Wie lautet Ihr Ziel Jedem Ziel entspricht eine eindeutige Standardkonfiguration auf der Registerkarte Einstellungen die Sie wenn n tig weiter anpassen k nnen Geschwindigkeit und Genauigkeit ausgleichen Geschwindigkeit optimieren Genauigkeit optimieren Analyse anpassen Beschreibung Bei der Einstellung Ausgeglichen wird die Standardeinstellung so angepasst dass die Daten mit dem Schwerpunkt auf der Modellerstellung mit ausgeglichener Geschwindigkeit und Genauigkeit transformiert werden Wie lautet Ihr Ziel Die automatisierte Datenaufbereitung empfiehlt Schritte zur Datenaufbereitung die sich auf die Geschwindigkeit auswirken mit der andere Algorithmen Modelle erstellen k nnen und die Vorhersagekraft dieser Modelle verbessern Diese k nnen die Transformation Erstellung und Auswahl von Funktionen beinhalten Das Ziel kann ebenfalls transformiert werden Sie k nnen die Priorit ten der Modellerstellung festlegen auf die sich die Datenaufbereitung konzentrieren sollte Geschwindigkeit und Genauigkeit ausgleichen Diese Option bereitet die Daten auf und sorgt dabei f r eine ausgeglichene Priorit t zwischen der Geschwindigkeit mit der Daten durch die Modellerstellung verarbeitet werden und der Genauigkeit der Vorhersagen Geschwindigkeit optimieren Diese Option bereitet die Daten auf und gibt dabei der Geschwindigkeit Vorrang mit der Daten durch Modellerstellungsalgorithmen verarbeitet werden W hlen
10. um die Bem hungen eines f r einen Bezirk County zust ndigen Immobilienbewerters geht trotz eingeschr nkter Ressourcen die Einsch tzungen des Werts von Immobilien auf dem aktuellsten Stand zu halten Die F lle entsprechen den Immobilien die im vergangenen Jahr in dem betreffenden County verkauft wurden Jeder Fall in der Datendatei enth lt die 147 Beispieldateien Gemeinde in der sich die Immobilie befindet den Bewerter der die Immobilie besichtigt hat die seit dieser Bewertung verstrichene Zeit den zu diesem Zeitpunkt ermittelten Wert sowie den Verkaufswert der Immobilie property_assess_cs sav Hierbei handelt es sich um eine hypothetische Datendatei in der es um die Bem hungen eines f r einen US Bundesstaat zust ndigen Immobilienbewerters geht trotz eingeschr nkter Ressourcen die Einsch tzungen des Werts von Immobilien auf dem aktuellsten Stand zu halten Die F lle entsprechen den Immobilien in dem betreffenden Bundesstaat Jeder Fall in der Datendatei enth lt das County die Gemeinde und das Wohnviertel in dem sich die Immobilie befindet die seit der letzten Bewertung verstrichene Zeit sowie zu diesem Zeitpunkt ermittelten Wert property_assess_cs_sample sav Diese hypothetische Datendatei enth lt eine Stichprobe der in property_assess_cs sav aufgef hrten Immobilien Die Stichprobe wurde gem dem in der Plandatei property_assess csplan angegebenen Stichprobenplan gezogen und in dieser Datendatei sind die Ei
11. Kapitel 9 Gruppe 1 weist die h chste mittleren Kosten und die wenigsten fehlenden Werte auf Gruppe 2 zeichnet sich durch sehr niedrige Kosten und viele fehlende Werte aus In Gruppe 3 finden sich mittlere Kosten und m ig viele fehlende Werte Dies deutet darauf hin dass Gruppe 2 aus Patienten besteht die bereits bei der Ankunft verstorben waren Daher fielen niedrige Kosten an und alle Behandlungs und Rehabilitationsvariablen weisen fehlende Werte auf Gruppe 3 enth lt wahrscheinlich viele Patienten die bei der Behandlung starben Daher fielen Behandlungskosten an aber keine Rehabilitationskosten und die Rehabilitationsvariablen weisen fehlende Werte auf Gruppe 1 besteht wahrscheinlich fast ausschlie lich aus Patienten die die Behandlung und die Rehabilitation berlebt haben Dadurch fielen die h chsten Kosten an Normwerte der kategorialen Variablen Abbildung 9 12 Normwerte der kategorialen Variablen die ersten 10 Variablen Gruppen ID 1 Kombiniert 3 2 Age category Haufigste Kategorie Haufigkeit Prozent Gender Haufigste Kategorie Haufigkeit Prozent Physically active Haufigste Kategorie Haufigste Kategorie Haufigkeit Prozent History of H ufigste Kategorie diabetes H ufigkeit Prozent Blood pressure H ufigste Kategorie H ufigkeit Prozent Atrial fibrillation Haufigste Kategorie Haufigkeit Prozent Smoker Haufigste Kategorie Haufigkeit Prozent Cholesterol Haufigste Kategorie Haufigkeit Pr
12. Missing Yalue Ungew hnliche F lle identifizieren Bei dieser Einstellung ist es einfach die relativen Beitr ge der ersten drei Gr nde f r jeden Fall zu vergleichen Wie vermutet wird Fall 843 als anomal betrachtet weil cost f r diesen Fall einen ungew hnlich hohen Wert aufweist Im Gegensatz dazu tr gt kein einzelner Grund mehr als 0 10 zur Ungew hnlichkeit von Fall 501 bei Normwerte der metrischen Variablen Abbildung 9 11 Normwerte der metrischen Variablen Length of stay for rehabilitation Total treatment and rehabilitation costs in thousands Missing Proportion Mean Std Deviation Mean Std Deviation Mean Std Deviation Gruppen ID 1 16 55 16 39 15 91 3 5089 19 8273 50997 20 17309 2 9E 016 12 596 000 6 834 541 006 16 39 10 887 33 7641 27 31266 Die Liste mit den Normwerten der metrischen Variablen enth lt den Mittelwert und die Standardabweichung jeder Variablen pro Gruppe und insgesamt Bei einem Vergleich der Gruppen finden Sie Hinweise darauf welche Variablen zum Bilden der Gruppen beitragen So weist der Mittelwert von Length of stay for rehabilitation beispielsweise in allen drei Gruppen hnliche Werte auf Dies bedeutet dass die Variable nicht zum Bilden der Gruppen beitr gt Sie k nnen jedoch die Variablen Total treatment and rehabilitation costs in thousands und Missing Proportion nutzen um N heres ber die Gruppenmitgliedschaften zu erfahren 118
13. chentlichen Verkaufszahlen f r das neue Produkt werden f r die ersten vier Wochen aufgezeichnet Jeder Fall entspricht einer Standort Woche testmarket_1month sav Bei dieser hypothetischen Datendatei handelt es sich um die Datendatei testmarket sav wobei die w chentlichen Verkaufszahlen zusammengefasst sind sodass jeder Fall einem Standort entspricht Dadurch entfallen einige der Variablen die w chentlichen nderungen unterworfen waren und die verzeichneten Verkaufszahlen sind nun die Summe der Verkaufszahlen w hrend der vier Wochen der Studie tree_car sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zum Kaufpreis von Fahrzeugen enth lt tree_credit sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zu fr heren Bankkrediten enth lt 150 Anhang A tree_missing_data sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zu fr heren Bankkrediten enth lt und eine gro e Anzahl fehlender Werte aufweist tree_score_car sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zum Kaufpreis von Fahrzeugen enth lt tree_textdata sav Eine einfache Datendatei mit nur zwei Variablen die vor allem den Standardzustand von Variablen vor der Zuweisung von Messniveau und Wertelabels zeigen soll tv survey sav Hierbei handelt es sich um eine hypothe
14. die Tabelle enth lt auch erstellte Funktionen Beachten Sie dass transformierte Versionen von in der Tabelle angezeigten Feldern immer die Endversionen darstellen Die Tabelle enth lt folgende Spalten m Zu verwendende Version Hier wird eine Dropdown Liste angezeigt die festlegt ob ein Feld nachgelagert verwendet wird oder ob die vorgeschlagenen Transformationen verwendet werden sollen Standardm ig werden in der Dropdown Liste die Empfehlungen wiedergegeben F r gew hnliche Funktionen die transformiert wurden stehen in der Dropdown Liste drei Optionen zur Auswahl Transformiert Original und Nicht verwenden F r nicht transformierte gew hnliche Funktionen sind folgende Auswahlm glichkeiten verf gbar Original und Nicht verwenden F r abgeleitete Datums Zeitfelder und erstellte Funktionen sind folgende Auswahlm glichkeiten verf gbar Transformiert und Nicht verwenden F r Original Datumsfelder ist die Dropdown Liste deaktiviert und auf Nicht verwenden gesetzt Hinweis F r Funktionen mit Original und transformierten Versionen werden bei einem Wechsel zwischen den Versionen Original und Transformiert automatisch die Einstellungen Typ und Vorhersagekraft f r diese Funktionen aktualisiert 35 Automatisierte Datenaufbereitung m Name Jeder Feldname ist ein Link Klicken Sie auf den Namen um in der verkn pften Ansicht weitere Informationen ber das Feld anzuzeigen F r weitere Informationen siehe Felddetails
15. die mit den anderen Zielen nicht 21 Automatisierte Datenaufbereitung kompatibel sind wird auf der Registerkarte Ziel automatisch die Option Analyse anpassen ausgew hlt Datum und Uhrzeit aufbereiten Abbildung 4 3 Automatisierte Datenaufbereitung Datum und Uhrzeit aufbereiten Einstellungen M Datums und Zeitangaben f r Modellierung aufbereiten Dauer berechnen Verstrichene Zeit bis zum Referenzdatum berechnen Referenzdatum Einheiten f r Datumsdauer Heutiges Datum Automatisch Festes Datum Feste Einheiten Datum 2009 05 21 Einheit Ti Yerstrichene Zeit bis zur Referenzzeit berechnen Referenzzeit Einheiten f r Zeitdauer Aktuelle Uhrzeit Automatisch Feste Uhrzeit Feste Einheiten Zet 1827208 Einheit Zyklische Zeitelemente extrahieren Aus Datumsangaben extrahieren Aus Zeitangaben extrahieren Viele Modellierungsalgorithmen sind nicht in der Lage Datums und Zeitangaben direkt zu behandeln mit diesen Einstellungen k nnen Sie neue Laufzeitdaten ableiten die Sie in Ihren bestehenden Daten als Modelleingaben aus Datums und Zeitangaben verwenden k nnen Die Felder mit Datums und Zeitangaben m ssen mit Datums oder Zeitspeichertypen vordefiniert sein Die urspr nglichen Datums und Zeitfelder werden nicht als Modelleingaben nach der automatisierten Datenaufbereitung empfohlen Datums und Zeitangaben f r Modellierung aufbereiten Durch Deaktivieren dieser Option werden al
16. geh ren zu Gruppe 3 alle weiteren zu Gruppe 1 116 Kapitel 9 Liste der Gr nde anomaler F lle Abbildung 9 9 Liste der Gr nde anomaler F lle Grund 1 a ae Variablenbe Normwert der Fall Grundvariable einflussung Variablenwert Variablen 7516953 hysid 176466 828754 949 7469179 281 8879591 858 6395130 127 9064917 517 9741176 885 9353251 878 8918339 607 1368252 467 0621567 299 9355732 120 2554580 988 4971530 904 6240985 380 7311392 948 3548308 139 physid 237547 828754 physid 037350 828754 rankin3 rankin1 physid 995409 828754 physid i 185703 828754 barthel1 barthel2 physid i 680253 828754 rankin2 rankin2 physid P 249058 828754 rankini bartheli physid 993921 828754 Die Grundvariablen sind die Variablen die am meisten dazu beitragen dass ein Fall als ungew hnlich eingestuft wird F r jeden anomalen Fall werden die prim re Grundvariable deren Einflussma und deren Wert f r den Fall sowie der Normwert der Gruppe angezeigt Wenn bei einer kategorialen Variablen als Normwert f r die Gruppe Fehlender Wert angegeben ist weist die Mehrzahl der F lle in der Gruppe einen fehlenden Wert f r diese Variable auf Das Einflussma der Variable ist der proportionale Beitrag der Grundvariable zur Abweichung des Falls von seiner Gruppe Es liegen 38 Analysevariablen vor einschlie lich der Variablen f r den fehlenden Anteil Das erwartete Einflussma einer Variable
17. gen Alle durch die automatisierte Datenaufbereitung erstellten Felder werden dem aktiven Daten Set als neue Felder hinzugef gt Mit der Option Rollen f r analysierte Felder aktualisieren wird die Rolle f r alle Felder die von der weiteren Analyse durch die automatisierte Datenaufbereitung ausgeschlossen werden auf Keine gesetzt m Neues Daten Set oder Datei mit transformierten Daten erstellen Von der automatisierten Datenaufbereitung empfohlene Felder werden einem neuen Daten Set oder einer Datei hinzugef gt Mit der Option Nicht analysierte Felder einschlie en werden dem Original Daten Set Felder hinzugef gt die im neuen Daten Set auf der Registerkarte Felder nicht angegeben wurden Das ist n tzlich beim bertragen von Feldern die Informationen enthalten die bei der Modellierung nicht verwendet werden wie zum Beispiel eine ID eine Adresse oder ein Name in das neue Daten Set 30 Kapitel 4 Automatische Datenaufbereitung Anwenden und speichern Einstellungen Abbildung 4 12 Automatische Datenaufbereitung Anwenden und speichern Einstellungen vi Transformationen anwenden Transformierte Daten Neue Felder zu aktivem Daten Set hinzuf gen Fi Rollen f r analysierte Felder aktualisieren Neues Daten Set oder Datei mit transformierten Daten erstellen v Ort Q Transformationen als Syntax speichern E Transformationen als XML speichern Die Gruppe Transformierte Daten ist dieselbe w
18. r die Klassierung von F llen verwenden die zum Zeitpunkt der Klassenerstellung noch nicht verf gbar sind W hlen Sie Variablen erstellen die Werte der Daten in Klassen enthalten gt Geben Sie einen Pfad und einen Dateinamen f r die Syntaxdatei ein die die generierten Klassierungsregeln enthalten soll In diesem Beispiel haben wir bankloan_binning rules sps verwendet Klicken Sie auf OK Diese Auswahl f hrt zu folgender Befehlssyntax Optimales Klassieren OPTIMAL BINNING VARIABLES GUIDE default BIN age employ address income debtinc creddebt othdebt SAVE YES INTO age_bin employ_bin address_bin income_bin debtinc_bin creddebt_bin othdebt_bin CRITERIA METHOD MDLP PREPROCESS EQUALFREQ BINS 1000 FORCEMERGE 0 LOWERLIMIT INCLUSIVE LOWEREND UNBOUNDED UPPEREND UNBOUNDED MISSING SCOPE PAIRWISE OUTFILE RULES bankloan_binning rules sps PRINT ENDPOINTS DESCRIPTIVES ENTROPY 129 Optimales Klassieren Durch die Prozedur werden die Klassierungs Eingabevariablen age employ address income debtinc creddebt und othdebt mithilfe der MDLP Klassierung mit der F hrungsvariablen default diskretisiert Die diskretisierten Werte f r diese Variablen werden in den neuen Variablen age_Klasse employ_Klasse address_Klasse income_Klasse debtinc_Klasse creddebt_Klasse und othdebt_Klasse gespeichert Wenn eine Binning Eingabevariable mehr als 1000 verschiedene Werte aufweist wird
19. speichern m chten Der Befehl TMS IMPORT liest die Transformationen in car_sales_transformations xml und wendet sie auf den aktiven Datensatz an wobei die Rollen bestehender Felder die transformiert werden aktualisiert werden Mit dem Befehl EXECUTE werden die Transformationen verarbeitet Wenn Sie den Befehl EXECUTE als Teil eines l ngeren Syntaxstroms verwenden k nnen Sie ihn entfernen um Verarbeitungszeit zu sparen 99 Automatisierte Datenaufbereitung Erstellen eines Modells mit unvorbereiteten Daten gt Zur Erstellung eines Modells mit den unvorbereiteten Daten w hlen Sie aus den Men s Analysieren Allgemeines lineares Modell Univariat Abbildung 8 15 Dialogfeld GLM Univariat E Univariat Abhangige Variable mogen da Manufacturer manufact E Sales in thousands sal sa Model model Feste Faktoren E resale_transformed A vericiet z i price_transtormed ype type as 8 engine_s_transformed i j E horsepow_transformed 8 wheelbas_transformed 8 width_transtormed 8 length_transformed L curb_wgt_transformed 2 fuel_cap_transformed E mpg_transformed E sales_transformed Zufallsfaktoren Kovariate n W hlen Sie Sales in thousands sales Verk ufe in Tausend Verkaufszahlen als abh ngige Variable aus W hlen Sie Vehicle type type Fahrzeugtyp Typ als festen Faktor W hlen Sie 4 year resale value resale Wiederverkaufswert 4 Jahre Wiederve
20. zeigt ein umgekehrtes Muster mit einem einzigen Trennwert bei 2 19 und einem geringeren Anteil an Kunden mit fr heren Zahlungsschwierigkeiten Previously defaulted in Klasse 1 539 2700 0 200 als in Klasse 2 717 2300 0 312 Auch hier ist wie aus der Statistik f r die Modellentropie zu erwarten der Unterschied in diesen Anteilen nicht so gro wie bei Age in years Alter in Jahren Abbildung 10 9 Klassierungs Zusammenfassung f r Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber Anzahl der F lle nach Nivau von Endpunkt S TEA Klasse Minimum Maximum u Gesamt 1 2 3 8 3 8 18 4 ia i Gesamt Jede Klasse wird wie folgt berechnet Minimum lt Years with current employer Maximum a Unbegrenzt Die Zusammenfassung f r Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber zeigt ein Muster abnehmender Anteile der zahlungsunf higen Personen bei steigender Klassenzahl Klasse Anteil der zahlungsunf higen Personen 1 0 432 2 0 302 3 0 154 4 0 078 133 Optimales Klassieren Abbildung 10 10 Klassierungs Zusammenfassung f r Years at current address Wohnhaft an gleicher Adresse in Jahren Anzahl der F lle nach Nivau von Endpunkt Previously defaulted Klasse Minimum Maximum No 1 a 2 7 3 14 Gesamt Jede Klasse wird wie folgt berechnet Minimum lt Years at current address lt
21. 0 ein was dem Deaktivieren dieser Option entspricht und einen Wert kleiner oder gleich 100 so dass konstante Felder automatisch ausgeschlossen werden Der Standardwert ist 95 Messniveau anpassen Abbildung 4 5 Automatisierte Datenaufbereitung Messniveau anpassen Einstellungen 4 Messniveau anpassen Messniveau Eingab Ziel Fi F Messniveau von numerischen Feldern i ordinal und stetig anpassen Maximale Anzahl an Werten f r ordinale Felder o Maximale Anzahl an Werten f r stetige Felder HE Messniveau anpassen Durch Deaktivieren dieser Option werden alle anderen Befehle Messniveau anpassen deaktiviert und die Auswahl beibehalten Messniveau Legen Sie fest ob das Messniveau von stetigen Feldern mit zu wenigen Werten auf ordinal und von ordinalen Feldern mit zu vielen Werten auf stetig angepasst werden kann m Maximale Anzahl an Werten f r ordinale Felder Ordinale Felder mit mehr als der angegebenen Anzahl an Kategorien werden in stetige Felder umgewandelt Geben Sie eine positive Ganzzahl ein Der Standardwert ist 10 Dieser Wert kann gr er oder gleich der Mindestanzahl an Werten f r stetige Felder sein Minimale Anzahl an Werten f r stetige Felder Stetige Felder mit weniger als der angegebenen Anzahl an eindeutigen Werten werden in ordinale Felder umgewandelt Geben Sie eine positive Ganzzahl ein Der Standardwert ist 5 Dieser Wert kann kleiner oder gleich der H chstanzahl an Werten f r
22. Abbildung 3 6 Dialogfeld Daten validieren Registerkarte Speichern a Daten validieren x Veen undegenePritingen Regen irene Verte Rage f r mehrere an Ausgabe Secher Auswertungsvariablen Beschreibung Speichern Name Indikator f r leere F lle E LeererFall Gruppe mit doppelten IDs F GruppeDoppetterlDs Unvollst ndiger ID Indikator UnvollstandigelD Verletzungen von Validierunqsregeln Gesamt i YalidierungsRegelverletzungen Z Vorhandene Auswertungsvariablen ersetzen Fi Indikatorvariablen speichern die alle Verletzungen von Yalidierungsregeln aufzeichnen Die Variablen geben an ob ein bestimmter Daten wert oder eine YVertekombination eine Validierungsregel verletzt hat Diese Variablen k nnen das Bereinigen und Untersuchen Ihrer Daten vereinfachen Je nach Anzahl der angewendeten Regeln werden der Arbeitsdatei bei dieser Option jedoch m glicherweise viele Variablen hinzugef gt Gesamtanzahl der gespeicherten Variablen 1 ET Teen nen rn tee Line Mithilfe der Registerkarte Speichern k nnen Sie Variablen bei denen Regelverletzungen verzeichnet wurden in der Arbeitsdatei speichern 16 Kapitel 3 Auswertungsvariablen Hierbei handelt es sich um einzelne Variablen die gespeichert werden k nnen Aktivieren Sie die Kontrollk stchen der zu speichernden Variablen F r die Variablen sind Standardnamen vorgegeben die Sie bearbeiten k nnen m Indikator f r leer
23. Analysevariable der Grund f r die Ungew hnlichkeit eines Falls war iM Verarbeiteter Fall Bei dieser Option wird die Verteilung der F lle zusammengefasst die in die Analyse aufgenommen bzw aus ihr ausgeschlossen wurden C enten Zuaetsetzen anrecnen ime gt W hlen Sie Normwerte der Gruppen Anomalie Indizes Vorkommen des Grunds nach Analysevariablen und Verarbeitete F lle aus Klicken Sie auf die Registerkarte Speichern 111 Ungew hnliche F lle identifizieren Abbildung 9 3 Dialogfeld Ungew hnliche F lle identifizieren Registerkarte Speichern Veen Auge Speichen Felder Optone r Variablen speichern A Anomalie Index Name AnomalylIndex Misst die Ungew hnlichkeit eines Falls in Bezug auf die Angeh rigen seiner Gruppe T Gruppen Stammname F r jede Gruppe werden drei Variablen gespeichert ID Fallanzahl und Gr e als Prozentsatz der F lle in der Analyse V Gr nde Stammname Reason F r jeden Grund werden vier Variablen gespeichert Name der Grundvariablen Wert der Grundyariablen Normyvert der Gruppe und Einflussma f r die Grundvariable Bestehende Yariablen ersetzen die denselben Namen oder Stammnamen aufweisen rModelldstei exportieren gt Wahlen Sie Anomalie Index Gruppen und Gr nde aus Wenn Sie diese Ergebnisse speichern k nnen Sie ein sinnvolles Streudiagramm erstellen mit dem die Ergebnisse zusammenge
24. Fehlende Werte Ef Ungew hnliche F lle identifizieren Velen Ausgabe Speichen Feinde Were optenen Fehlende Werte aus der Analyse ausschlie en Benutzer und systemdefinierte fehlende Werte werden ausgeschlossen Fehlende Werte in die Analyse aufnehmen Bei metrischen Yariablen werden benutzer und systemdefinierte fehlende Werte durch den Gesamtmittelwert der Variablen ersetzt Bei kategorialen Yariablen werden benutzer und systemdefinierte fehlende Werte zusammengefasst und als Kategorie in die Analyse aufgenommen I Anteil fehlender Werte pro Fall als Analysevariable verwenden Auf der Registerkarte Fehlende Werte kann die Behandlung benutzerdefinierter und systemdefinierter fehlender Werte festgelegt werden 50 Kapitel 5 m Fehlende Werte aus der Analyse ausschlie en F lle mit fehlenden Werten werden aus der Analyse ausgeschlossen m Fehlende Werte in die Analyse aufnehmen Fehlende Werte von stetigen Variablen werden durch deren entsprechenden Gesamtmittelwert ersetzt Fehlende Kategorien von kategorialen Variablen werden gruppiert und als g ltige Kategorie behandelt Die verarbeiteten Variablen werden anschlie end in der Analyse verwendet Sie k nnen die Erzeugung einer zus tzlichen Variable anfordern die den Anteil der fehlenden Variablen in jedem Fall darstellt und diese Variable in der Analyse verwenden Ungew hnliche F lle identifizieren Optionen Abbildung 5 5 Dialogfeld
25. Kategorien wurden zur Behandlung d nn besetzter Kategorien zusammengef hrt Wegen niedrigem Zielzusammenhang ausgeschlossen Ausgeschlossen weil nach der Zusammenf hrung konstant Wenn es keine kategorialen Eingabefelder gab wird dies durch eine Fu note vermerkt Tabelle Stetige Funktionen Es gibt zwei Tabellen Die erste zeigt eine der folgenden Transformationen m Zu Standardeinheiten transformierte Funktionswerte Zus tzlich werden hier die Anzahl transformierter Funktionen der angegebene Mittelwert und die Standardabweichung angezeigt 43 Automatisierte Datenaufbereitung m Einem gemeinsamen Bereich zugeordnete Funktionswerte Zus tzlich werden hier die Anzahl der mithilfe der min max Transformation transformierten Funktionen sowie die angegebenen Mindest und H chstwerte angezeigt m Klassierte Funktionswerte und die Anzahl klassierter Funktionen Die zweite Tabelle enth lt Informationen ber die Funktionserstellung die als Anzahl folgender Funktionen angezeigt werden m Erstellt m Wegen niedrigem Zielzusammenhang ausgeschlossen m Ausgeschlossen weil nach der Klassierung konstant Ausgeschlossen weil nach der Erstellung konstant Wenn keine stetigen Funktionen eingegeben wurden wird dies durch eine Fu note vermerkt Transformiert Werte zur ck Wenn ein Ziel durch ADP transformiert wurde bewerten nachfolgend mithilfe des transformierten Ziels erstellte Modelle die transformierten Ein
26. Maximum a Unbegrenzt Die Zusammenfassung f r Years at current address Wohnhaft an gleicher Adresse in Jahren zeigt ein hnliches Muster Wie aus der Statistik f r die Modellentropie zu erwarten sind die Unterschiede zwischen den Klassen beim Anteil der zahlungsunf higen Personen bei Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber deutlicher als bei Years at current address Wohnhaft an gleicher Adresse in Jahren Klasse Anteil der zahlungsunf higen Personen 1 0 334 2 0 209 0 112 Abbildung 10 11 Klassierungs Zusammentassung fur Credit card debt in thousands Schulden auf Kreditkarte in Tausend Anzahl der F lle nach Nivau von Endpunkt Previously defaulted Klasse Minimum Maximum No Yes Gesamt 466 1 a 2 97 3 1 91 4 6 05 Gesamt Jede Klasse wird wie folgt berechnet Minimum lt Credit card dept in thousands Maximum a Unbegrenzt Die Zusammenfassung f r Credit card debt in thousands Schulden auf Kreditkarte in Tausend zeigt das umgekehrte Muster bei steigender Klassenzahl nehmen die Anteile der zahlungsunf higen Personen zu Die Variablen Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber und Years at current address Wohnhaft an gleicher Adresse in Jahren scheinen besser zur Ermittlung von Personen geeignet die mit gro er Wahrscheinlichkeit nicht in Zahlungsschwierigkeiten geraten w hrend
27. Nach dem Zufallsprinzip wurde eine Untergruppe des Kundenstamms ausgew hlt Diese Gruppe erhielt die speziellen Angebote und die Reaktionen wurden aufgezeichnet customer_information sav Eine hypothetische Datendatei mit Kundenmailingdaten wie Name und Adresse customers_model sav Diese Datei enth lt hypothetische Daten zu Einzelpersonen auf die sich eine Marketingkampagne richtete Zu diesen Daten geh ren demografische Informationen eine bersicht ber die bisherigen Eink ufe und die Angabe ob die einzelnen Personen auf die Kampagne ansprachen oder nicht Jeder Fall entspricht einer Einzelperson 143 Beispieldateien customers_new sav Diese Datei enth lt hypothetische Daten zu Einzelpersonen die potenzielle Kandidaten f r Marketingkampagnen sind Zu diesen Daten geh ren demografische Informationen und eine bersicht ber die bisherigen Eink ufe f r jede Person Jeder Fall entspricht einer Einzelperson debate sav Hierbei handelt es sich um eine hypothetische Datendatei die gepaarte Antworten auf eine Umfrage unter den Zuh rern einer politischen Debatte enth lt Antworten vor und nach der Debatte Jeder Fall entspricht einem Befragten debate_aggregate sav Hierbei handelt es sich um eine hypothetische Datendatei in der die Antworten aus debate sav aggregiert wurden Jeder Fall entspricht einer Kreuzklassifikation der bevorzugten Politiker vor und nach der Debatte demo sav Hierbei handelt es sich um eine hypot
28. Size of hometown all job_start_date_months E Level of education all Gender gb reside_transformed E Property uninhabitable gb policy_date_months 9 0 0 Type of claim Als Hilfsansicht wird standardm ig die Vorhersagekraft angezeigt die einen schnellen berblick dar ber gibt welche empfohlenen Felder f r die Modellerstellung am n tzlichsten sind Hinweis Zwar werden 18 Einflussgr en f r die Analyse empfohlen doch werden standardm ig nur die ersten zehn im Vorhersagekraft Diagramm angezeigt Mehr oder weniger Felder k nnen mit dem Schieberegler unterhalb der Grafik angezeigt werden Wird Geschwindigkeit amp Genauigkeit ausgleichen als Ziel ausgew hlt dann wird Anspruchstyp als beste Einflussgr e identifiziert gefolgt vom aktuellen Alter des Anspruchsberechtigten in Monaten die berechnete Zeitspanne vom Geburtsdatum bis zum aktuellen Datum und die Anzahl der Monate seit dem Zeitpunkt zu dem der Anspruchsberechtigte in den Besitz des Eigentums gelangt ist die berechnete Zeitspanne vom Datum der Besitznahme bis zum aktuellen Datum Klicken Sie auf Analyse l schen und anschlie end auf die Registerkarte Ziele W hlen Sie Geschwindigkeit optimieren und klicken Sie auf Analysieren 86 Kapitel 8 Abbildung 8 4 Registerkarte Analyse Feldbearbeitungs bersicht bei optimierter Geschwindigkeit Feldverarbeitungs bersicht Gesamtergebnis Originalfelder nicht tran
29. Ziels gt Geben Sie den Speicherort der XML Datei mit den ADP Transformationen an Es sollte eine Datei sein die aus den Dialogfeldern f r interaktive oder automatische Datenaufbereitung heraus gespeichert wurde F r weitere Informationen siehe Transformationen anwenden und speichern auf S 29 Kapitel Ungew hnliche F lle identifizieren Die Prozedur Anomalie Erkennung sucht anhand von Abweichungen von den Normwerten der Gruppe nach ungew hnlichen F llen Die Prozedur wurde f r die Datenpr fung in der explorativen Datenanalyse konzipiert Zweck der Prozedur ist das schnelle Erkennen von ungew hnlichen F llen bevor mit anderen Analysen Schl sse aus den Daten gezogen werden Dieser Algorithmus dient der Erkennung von allgemeinen Anomalien Dies bedeutet dass sich die Definition eines anomalen Falls nicht auf eine bestimmte Anwendung beschr nkt bei der Anomalien sehr treffend definiert werden k nnen z B beim Erkennen von ungew hnlichen Zahlungsmustern im Gesundheitswesen oder beim Aufdecken von Geldw sche im Finanzwesen Beispiel Ein Analytiker der mit der Erstellung von Prognosemodellen f r die Ergebnisse von Schlaganfallbehandlungen betraut wurde ist ber die Qualit t der Daten besorgt weil solche Modelle bei ungew hnlichen Beobachtungen anf llig sein k nnen Einige dieser Randbeobachtungen stellen wirklich einzigartige F lle dar und eignen sich deswegen nicht f r eine Vorhersage Andere Beobachtungen s
30. auf S 38 m Typ Hier erscheint das Symbol f r den entsprechenden Datentyp fahren Sie mit der Maus ber das Symbol um eine Bezeichnung stetig sortiertes Set Set usw anzuzeigen die die Daten beschreibt m Vorhersagekraft Die Vorhersagekraft wird nur f r Felder angezeigt die von ADP empfohlen werden Diese Spalte wird nicht angezeigt wenn kein Ziel definiert wurde Die Vorhersagekraft reicht von 0 bis 1 wobei gr ere Werte bessere Einflussgr en andeuten Im Allgemeinen ist die Vorhersagekraft f r den Vergleich von Einflussgr en in einer ADP Analyse n tzlich doch sollten Vorhersagekraft Werte nicht in Analysen verglichen werden Standardm ig werden in der Tabelle Funktionen nur empfohlene Felder angezeigt Um die restlichen Felder anzuzeigen w hlen Sie das Feld Nicht empfohlene Felder in Tabelle einschlie en ber der Tabelle aus diese Felder werden dann am Ende der Tabelle angezeigt Aktions bersicht Abbildung 4 16 Aktions bersicht Zusammenfassung der Schritte Datums und Uhrzeitfunktionen Funktions Screening Typ berpr fen Ausrei er Fehlende Werte definieren Kategoriale Funktionen Bei jeder von der automatisierten Datenaufbereitung vorgenommenen Aktion werden Eingabefunktionen tranformiert und oder herausgefiltert Felder die in einer Aktion erhalten bleiben werden in der n chsten verwendet Die Felder die bis zum letzten Schritt erhalten 36 Kap
31. der Ansichten Klicken Sie auf Zur cksetzen im unteren Bereich der Hauptansicht um die urspr nglichen Empfehlungen der Analyse erneut anzuzeigen und alle in den Analyseansichten vorgenommenen nderungen r ckg ngig zu machen Feldverarbeitungs bersicht Abbildung 4 14 Feldverarbeitungs bersicht Ziel 1 Ei smerkmale 6 Gesamt 2 Urspr ngliche Felder 0 nicht transformiert F r die Verwendung in A len Transformationen Ti Sa ee der urspriinglichen Felder 2 Abgeleitet von Daten 0 und Zeiten Konstruiert 0 Eingangsmerkmale nicht in Verwendung 4 Die Tabelle Feldverarbeitungstibersicht gibt Ihnen eine Momentaufnahme des projizierten Gesamteinflusses der Verarbeitung einschlie lich nderungen des Status der Funktionen und der Anzahl der erstellten Funktionen Beachten Sie dass dabei kein Modell erstellt wird und somit kein Ma oder keine Grafik der Ver nderung der Gesamtvorhersagekraft vor und nach der Datenaufbereitung vorhanden ist Sie k nnen stattdessen Grafiken der Vorhersagekraft einzelner empfohlener Einflussvariablen anzeigen 33 Felder Automatisierte Datenaufbereitung Die Tabelle zeigt folgende Informationen an Die Anzahl der Zielfelder Die Anzahl der urspr nglichen Eingabefelder Die f r die Analyse und die Modellierung empfohlenen Felder Dazu z hlen die Gesamtanzahl der empfohlenen Felder die Anzahl der urspr nglichen untransformierten Felder die Anzahl der transformierten Feld
32. die Bem hungen eines Bekleidungsherstellers geht der ermitteln m chte ob die Verwendung von Briefsendungen f r das Direktmarketing zu schnelleren Antworten f hrt als Postwurfsendungen Die Mitarbeiter in der Bestellannahme erfassen wie vielen Wochen nach der Postsendung die einzelnen Bestellungen aufgegeben wurden marketvalues sav Diese Datendatei betrifft Hausverk ufe in einem Neubaugebiet in Algonquin Illinois in den Jahren 1999 2000 Diese Verk ufe sind in Grundbucheintr gen dokumentiert mutualfund sav Diese Datendatei betrifft Aktienmarktdaten f r verschiedene Technologieaktien die in im Index S amp P 500 verzeichnet sind Jeder Fall entspricht einem Unternehmen nhis2000_subset sav Die National Health Interview Survey NHIS ist eine gro e bev lkerungsbezogene Umfrage in unter der US amerikanischen Zivilbev lkerung Es werden pers nliche Interviews in einer landesweit repr sentativen Stichprobe von Haushalten durchgef hrt F r die Mitglieder jedes Haushalts werden demografische Informationen und 146 Anhang A Beobachtungen zum Gesundheitsverhalten und Gesundheitsstatus eingeholt Diese Datendatei enth lt eine Teilmenge der Informationen aus der Umfrage des Jahres 2000 National Center for Health Statistics National Health Interview Survey 2000 Datendatei und Dokumentation ffentlich zug nglich ftp ftp cdc gov pub Health_Statistics NCHS Datasets NHIS 2000 Zugriff erfolgte 2003 ozone sav D
33. folgende M glichkeiten m Sie k nnen einige Variablen in der Arbeitsdatei aus der Analyse ausschlie en ohne dass ausdr cklich alle Analysevariablen angegebenen werden m ssen mit dem Unterbefehl EXCEPT m Sie k nnen eine Korrektur angeben um den Einfluss von stetigen und kategorialen Variablen auszutarieren mit dem Schl sselwort MLWEIGHT im Unterbefehl CRITERIA Vollst ndige Informationen zur Syntax finden Sie in der Command Syntax Reference Kapitel Optimales Klass eren Die Prozedur Optimales Klassieren diskretisiert eine oder mehrere metrische Variablen im Folgenden als Klassierungs Eingabevariablen Binning Eingabevariablen bezeichnet indem die Werte der einzelnen Variablen auf verschiedene Klassen verteilt werden Die Klassenbildung ist in Bezug auf eine kategoriale F hrungsvariable optimal die den Klassierungsvorgang berwacht Anstatt der urspr nglichen Datenwerte k nnen dann die Klassen zur weiteren Analyse verwendet werden Beispiele F r die Verringerung der unterschiedlichen Werte die eine Variable annehmen kann gibt es verschiedenen Anwendungsm glichkeiten Hier einige Beispiele m Anforderungen anderer Prozeduren an die Daten Diskretisierte Variablen k nnen f r die Verwendung in Prozeduren bei denen kategoriale Variablen erforderlich sind als kategorial behandelt werden Beispielsweise m ssen f r die Prozedur Kreuztabellen alle Variablen kategorial sein m Datenschutz D
34. gt PASW Data Preparation Vorbereitung von Daten 18 Weitere Informationen zu SPSS Inc Software Produkten finden Sie auf unserer Website unter der Adresse http www spss com oder wenden Sie sich an SPSS Inc 233 South Wacker Drive 11th Floor Chicago IL 60606 6412 USA Tel 312 651 3000 Fax 312 651 3668 SPSS ist eine eingetragene Marke PASW ist eine eingetragene Marke von SPSS Inc Die SOFTWARE und die Dokumentation werden mit BESCHR NKTEN RECHTEN zur Verf gung gestellt Verwendung Vervielf ltigung und Ver ffentlichung durch die Regierung unterliegen den Beschr nkungen in Unterabschnitt c 1 ii von The Rights in Technical Data and Computer Software unter 52 227 7013 Vertragspartner Hersteller ist SPSS Inc 233 South Wacker Drive 11th Floor Chicago IL 60606 6412 Patentnr 7 023 453 Allgemeiner Hinweis Andere in diesem Dokument verwendete Produktnamen werden nur zu Identifikationszwecken genannt und k nnen Marken der entsprechenden Unternehmen sein Windows ist eine eingetragene Marke der Microsoft Corporation Apple Mac und das Mac Logo sind Marken von Apple Computer Inc die in den USA und in anderen L ndern eingetragen sind Dieses Produkt verwendet WinWrap Basic Copyright 1993 2007 Polar Engineering and Consulting http www winwrap com Kein Teil dieser Publikation darf ohne vorherige Einwilligung des Herstellers in irgendeiner Form elektronisch mechanisch
35. lle mit unvollst ndigen Fallbezeichnern ausgegeben Ein Bezeichner wird bei einem gegebenen Fall als unvollst ndig betrachtet wenn der Wert einer ID Variable leer ist oder fehlt Doppelte IDs markieren Bei dieser Option werden F lle mit doppelten Fallbezeichnern ausgegeben Unvollst ndige Fallbezeichner werden aus der Menge der m glichen doppelten Werte ausgeschlossen Leere F lle markieren Bei dieser werden F lle ausgegeben bei denen alle Variablen leer sind oder fehlen Sie k nnen festlegen ob zum Identifizieren leerer F lle alle Variablen in der Datei mit Ausnahme von ID Variablen oder nur die auf der Registerkarte Variablen ausgew hlten Analysevariablen herangezogen werden sollen 12 Kapitel 3 Daten validieren Regeln f r eine Variable Abbildung 3 3 Dialogfeld Daten validieren Registerkarte Regeln f r eine Variable Mi Daten validieren Um Regeln einer Yariablen zuzuweisen w hlen Sie die Variable aus und aktivieren eine oder mehrere Regeln Die Liste Analysevariablen zeigt Verteilungen nichtfehlender Verte aufgrund des Durchsuchens der Daten Die Liste Regeln zeigt alle Regeln die den ausgew hlten Variablen zugewiesen werden k nnen Analysevariablen Variable Verteilung Minimum Maximum Regeln Zuweisen Name i Oto 1 Dichotomy Oto 2 Categorical Oto 3 Categorical Age in years 45 86 1 to 4 Categorical Nonnegative integer Nonnegative number Hospital size h 1 3
36. oder die Anzahl stetiger Felder f r die Ausrei er gefunden und als fehlend eingestuft wurden je nach Ihren Einstellungen im Feld Eingaben amp Ziel vorbereiten auf der Registerkarte Einstellungen m Die Anzahl stetiger Felder die ausgeschlossen wurden weil sie nach der Ausrei er Behandlung konstant waren Der Ausrei er Trennwert wird in einer Fu note vermerkt Eine weitere Fu note wird angezeigt wenn keine Eingabefelder Ziel oder Funktionen stetig waren Tabelle Fehlende Werte Die Tabelle zeigt die Anzahl an Feldern in denen fehlende Werte ersetzt wurden und teilt sich wie folgt auf m Ziel Diese Zeile wird nicht angezeigt wenn kein Ziel angegeben wurde 99 66 m Merkmale Dies teilt sich weiter auf in Anzahl an nominal Set ordinal sortiertes Set und stetig m Die gesamte Anzahl ersetzter fehlender Werte Tabelle Ziel Die Tabelle zeigt wie folgt ob das Ziel tranformiert wurde m Box Cox Transformation in Normalverteilung Dies teilt sich weiter in Spalten auf die die angegebenen Kriterien Mittelwert und Standardabweichung und Lambda zeigen m Zielkategorien zur Verbesserung der Stabilit t neu sortiert Tabelle Kategoriale Funktionen Die Tabelle zeigt folgende Anzahl kategorialer Funktionen m Wessen Kategorien wurden zur Verbesserung der Stabilit t neu sortiert Wessen Kategorien wurden zur Maximierung des Zielzusammenhangs zusammengef hrt Wessen
37. ordinale Felder sein 24 Kapitel 4 Datenqualit t verbessern Abbildung 4 6 Automatisierte Datenaufbereitung Datenqualit t verbessern Einstellungen V Felder zur Verbesserung der Datenqualit t aufbereiten Ausrei er Behandlung Eingab Ziel Ausrei er Verte in stetigen Feldern ersetzen empfohlen f r Eingabefelder wenn diese auf einer gemeinsamen Skala angeordnet sind 3 0 Verfahren zur Behandlung von Ausrei ern Fehlende Verte ersetzen Eingab Ziel i Z Nominale Felder fehlende Verte durch Modalwert ersetzen F E Ordinale Felder fehlende Werte durch Median ersetzen T Stetige Felder fehlende Werte durch Mittelwert ersetzen Nominale Felder neu sortieren Eingab Ziel Fi Nominale Felder neu sortieren sodass die kleinste Kategorie zuerst und die gr te zuletzt erscheint Felder zur Verbesserung der Datenqualit t aufbereiten Durch Deaktivieren dieser Option werden alle anderen Einstellungen zu Datenqualit t verbessern deaktiviert und die Auswahl beibehalten Ausrei er Behandlung Legen Sie fest ob Ausrei er f r die Eingaben und Ziele ersetzt werden sollen wenn ja geben Sie ein in Standardabweichungen gemessenes Ausrei er Trennwert Kriterium und eine Methode zum Ersetzen der Ausrei er an Ausrei er k nnen entweder durch Entfernen durch Setzen auf den Trennwert oder durch Einstufung als fehlende Werte ersetzt werden Jeder als fehlender Wert eingestufte Ausrei e
38. r die Datenvalidierung zu implementieren Mit dem Erweiterungsmodul Data Preparation Aufbereitung von Daten k nnen Sie ungew hnliche und ung ltige F lle Variablen und Datenwerte im aktuellen Datenblatt identifizieren und Daten zur Modellierung vorbereiten Verwendung der Prozeduren von Data Preparation Vorbereitung Es h ngt von Ihren Bed rfnissen ab welche Prozeduren von Data Preparation Vorbereitung f r Sie infrage kommen Nachdem Sie die Daten geladen haben k nnte eine typische Vorgehensweise folgenderma en aussehen m Vorbereitung der Metadaten berpr fen Sie die Variablen in der Arbeitsdatei und bestimmen Sie die g ltigen Werte Labels und Messniveaus Identifizieren Sie die Kombinationen von Variablenwerten die zwar unm glich jedoch h ufig falsch kodiert sind Definieren Sie auf der Grundlage dieser Informationen Validierungsregeln Dies kann zeitraubend sein ist jedoch den Aufwand wert wenn Sie regelm ig Datendateien mit hnlichen Attributen validieren m ssen Datenvalidierung F hren Sie grundlegende Pr fungen und Pr fungen mit definierten Validierungsregeln durch um ung ltige F lle Variablen und Datenwerte zu identifizieren Wenn sie ung ltige Daten gefunden haben untersuchen und beseitigen Sie die Ursache Dies macht m glicherweise einen weiteren Durchlauf durch die Vorbereitung der Metadaten erforderlich m Vorbereitung des Modells Verwenden Sie die automatisierte Datenvo
39. r mehrere Variablen in Kapitel 2 auf S 6 14 Kapitel 3 Daten validieren Ausgabe Abbildung 3 5 Dialogfeld Daten validieren Registerkarte Ausgabe E Daten validieren x rFallweiser Bericht IM Verletzungen von Validierungsregeln nach Fall auff hren Mindestanzahl der Verletzungen damit ein Fall enthalten ist H chstanzahl der F lle im Bericht r Yalidierungsregeln f r eine Variable E Deskriptive Statistik f r Analysevariablen anzeigen _ F lle die Yalidierungsregeln verletzen an den Anfang der Arbeitsdatei verschieben CE enten umsetzen astreoten rare Fallweiser Bericht Wenn Sie Validierungsregeln f r eine oder mehrere Variablen ausgew hlt haben k nnen Sie einen Bericht anfordern der die Verletzungen der Validierungsregeln f r einzelne F lle enth lt Validierungsregeln f r eine Variable Wenn Sie Validierungsregeln f r einzelne Variablen Mindestanzahl der Verletzungen damit ein Fall enthalten ist Mit dieser Option wird die Mindestanzahl der Verletzungen angegeben die erforderlich sind damit ein Fall in den Bericht aufgenommen wird Geben Sie eine positive Ganzzahl ein H chstanzahl der F lle im Bericht Mit dieser Option wird die H chstanzahl der F lle angegeben die im Fallbericht enthalten sein soll Geben Sie eine positive ganze Zahl kleiner oder gleich 1000 ein angewendet haben k nnen Sie ausw hlen ob und wie die
40. sales Korrelationskoeffizient Sig 2 seitig N Korrelationskoeffizient Sig 2 seitig N Korrelationskoeffizient Sig 2 seitig N Korrelationskoeffizient Sig 2 seitig N Korrelationskoeffizient Sig 2 seitig N Sales in thousands Automatisierte Datenaufbereitung vorhergesagt er Wert f r sales vorhergesagt er Wert f r sales_ transformed Vorhergesagter Wert f r sales_transformed Korrelationskoeffizient Sig 2 seitig N Die Korrelation ist auf dern 0 01 Niveau signifikant zweiseitig In der ersten Spalte ist zu sehen dass die Vorhersagewerte f r Modelle die mit den vorbereiteten Daten erzeugt wurden st rker mit den nach Kendall Tau b und Spearman Rho beobachteten Werten korrelieren Daraus l sst sich schlie en dass die Ausf hrung der automatisierten Datenaufbereitung das Modell verbessert hat R cktransformieren der Vorhersagewerte Die vorbereiteten Daten umfassen eine Transformation von Verk ufe so dass die Vorhersagewerte aus diesem Modell nicht direkt als Werte verwendet werden k nnen Zur Transformation der Vorhersagewerte auf die originale Gr e w hlen Sie aus den Men s Transformieren Daten f r Modellierung vorbereiten Werte zur cktransformieren 106 Kapitel 8 Abbildung 8 22 Dialogfeld Werte zur cktransformieren i333 Werte zuriicktransformieren Wenn Sie Ihre Daten mit der interaktiven oder automatischen Datenvorberei
41. sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Fabrik geht die Scheibenbremsen f r Hochleistungsautomobile herstellt Die Datendatei enth lt Messungen des Durchmessers von 16 Scheiben aus 8 Produktionsmaschinen Der Zieldurchmesser f r die Scheiben ist 322 Millimeter breakfast sav In einer klassischen Studie Green als auch Rao 1972 wurden 21 MBA Studenten der Wharton School mit ihren Lebensgef hrten darum gebeten 15 Fr hst cksartikel in der Vorzugsreihenfolge von 1 am meisten bevorzugt bis 15 am wenigsten bevorzugt zu ordnen Die Bevorzugungen wurden in sechs unterschiedlichen Szenarien erfasst von Overall preference Allgemein bevorzugt bis Snack with beverage only Imbiss nur mit Getr nk breakfast overall sav Diese Datei enth lt die Daten zu den bevorzugten Fr hst cksartikeln allerdings nur f r das erste Szenario Overall preference Allgemein bevorzugt 141 Beispieldateien broadband_1 sav Hierbei handelt es sich um eine hypothetische Datendatei die die Anzahl der Abonnenten eines Breitband Service nach Region geordnet enth lt Die Datendatei enth lt die monatlichen Abonnentenzahlen f r 85 Regionen ber einen Zeitraum von vier Jahren broadband_2 sav Diese Datendatei stimmt mit broadband_1 sav berein enth lt jedoch Daten f r weitere drei Monate car_insurance_claims sav Ein an anderer Stelle McCullagh als auch Nelder 19
42. sollen we einigen Eigenschaften k nnen Sie w hlen ob die vorhandenen Werte ersetzt oder soweit wie m glich mit den Quelleigenschaften zusammengef hrt werden sollen Beim Zusammenf hren hat die Arbeitsdatei Vorrang und Variablen Sets die in der Arbeitsdatei ung ltig w ren werden ignoriert r Zu kopierende Eigenschaften des Datenbl tter m Mehrfachantworten Sets Er setzen E Yariablen Sets Ersetzen Zusamment hren Zusammenf hren E Dokumente Ersetzen Zusammenf hren Benutzerdefinierte Attribute Ersetzen Zusammenf hren _ Dateilabel Wahlen Sie Benutzerdefinierte Attribute aus Klicken Sie auf Fertig stellen Nun k nnen Sie die Validierungsregeln verwenden 68 Kapitel 7 Abbildung 7 10 Dialogfeld Daten validieren Registerkarte Regeln f r eine Variable ii Daten validieren x Analysevariablen Variable Verteilung Hospital size h Age in years Age category Gender gender Physically acti Obesity obesity Anzeigen Variablenverteilungen Regeln Minimum Maximum Regeln Um Regeln einer Yariablen zuzuweisen w hlen Sie die Yariable aus und aktivieren eine oder mehrere Regeln Die Liste Analysevariablen zeigt Verteilungen nichtfehlender Werte aufgrund des Durchsuchens der Daten Die Liste Regeln zeigt alle Regeln die den ausgew hlten Variablen zugewiesen werden k nnen
43. ssen Daten sortiert und im Arbeitsspeicher abgelegt werden ADP verwendet homogene Untergruppen zum Klassieren eines stetigen Felds das bedeutet dass die ADP Klassierung keine Daten sortieren und im Arbeitsspeicher ablegen muss Der Einsatz homogener Untergruppen zum Klassieren eines stetigen Felds bedeutet dass die Anzahl der Kategorien nach der Klassierung immer kleiner oder gleich der Anzahl der Kategorien im Ziel ist Ausw hlen und erstellen Abbildung 4 9 Automatisierte Datenaufbereitung Ausw hlen und erstellen Einstellungen Funktionsauswahl Funktionsauswahl durchf hren Q Die Funktionsauswahl gilt f r stetige Eingabefelder bei einem stetigen Ziel und f r kategoriale Eingaben Funktionserstellung T Funktionserstellung durchf hren Q Die Funktionserstellung gilt f r stetige Eingabefelder wenn das Ziel stetig ist oder kein Ziel existiert Um die Vorhersagekraft Ihrer Daten zu verbessern k nnen Sie basierend auf den bestehenden Feldern neue Felder erstellen Funktionsauswahl durchf hren Eine stetige Eingabe wird aus der Analyse entfernt wenn der p Wert f r seine Korrelation mit dem Ziel gr er ist als der angegebene p Wert 28 Kapitel 4 Funktionserstellung durchf hren W hlen Sie diese Option aus um neue Funktionen von einer Kombination aus mehreren bestehenden Funktionen abzuleiten Die alten Funktionen werden bei der weiteren Analyse nicht verwendet Diese Option gilt nur f r stetige Eingabefunkt
44. the binned variable on guide variable Previously defaulted Anhand der Tabelle Modellentropie erhalten Sie eine Vorstellung davon wie n tzlich die einzelnen Variablen in einem Vorhersagemodell f r die Wahrscheinlichkeit der Nichtzur ckzahlung sein k nnten m Die bestm gliche Einflussvariable ist eine die f r jede generierte Klasse F lle mit denselben Werten enth lt wie die F hrungsvariable sodass die F hrungsvariable perfekt vorhergesagt werden kann F r eine solche Einflussvariable ist die Modellentropie nicht definiert Dieser Fall kommt im realen Leben nicht vor und kann auf Probleme mit der Qualit t der Daten hindeuten m Die schlechtestm gliche Einflussvariable ist eine Variable deren Verwendung zu keinem besseren Ergebnis f hrt als blo es Raten Der Wert ihrer Modellentropie h ngt von den Daten ab In diesem Datensatz kam es bei 1256 bzw 0 2512 der 5000 Kunden zu Schwierigkeiten bei der Kreditr ckzahlung w hrend 3744 bzw 0 7488 ihren Kredit zur ckzahlten Die schlechtestm gliche Einflussvariable h tte also eine Modellentropie von 0 2512 x logy 0 2512 0 7488 x log2 0 7488 0 8132 Es l sst sich schwerlich eine schl ssigere Aussage treffen als dass Variablen mit niedrigeren Werten f r die Modellentropie besser als Einflussvariablen geeignet sein d rften da es von der jeweiligen Anwendung und den jeweiligen Daten abh ngt was ein guter Wert f r die Modellentropie ist In diesem Fall habe
45. ufigkeit Value Prozent on 100 0 37 6 Died in hospital Haufigste Kategorie Missing 0 H ufigkeit Value Prozent rar 100 0 751 Treatment result H ufigste Kategorie Missing 4 H ufigkeit vakis Prozent Ex as 100 0 59 2 Post event Haufigste Kategorie Missing Missing 0 preventative H ufigkeit Value Value surgery Prozent 90 171 369 100 0 69 0 35 2 Post event H ufigste Kategorie 0 Missing Missing 0 rehabilitation Haufigkeit Value Value Prozent 278 90 171 314 39 2 100 0 69 0 30 0 Die durch die Normwerte der metrischen Variablen nahe gelegte Vermutung best tigt sich im unteren Teil der Tabelle mit den Normwerten der kategorialen Variablen Gruppe 2 besteht vollst ndig aus Patienten die bereits bei der Ankunft verstorben waren Deshalb fehlen alle Werte der Behandlungs und Rehabilitationsvariablen Die meisten Patienten in Gruppe 3 69 0 starben w hrend der Behandlung Daher ist die h ufigste Kategorie f r die Rehabilitationsvariablen Fehlender Wert 120 Kapitel 9 Auswertung des Anomalie Index Abbildung 9 14 Auswertung des Anomalie Index Anzahl anomaler F lle Minimum Maximum Mittelwert Std Deviation Anomalie Index 1 322 1 550 1 387 068 Die Anzahl anomaler F lle wird folgenderma en bestimmt Der Prozentsatz anomaler F lle ist 2 Diese Tabelle enth lt Auswertungsstatistiken f r die Werte des Anomalie Index von F llen in der Anomalie Liste Auswertu
46. voor kwalitatieve gegevens in niederl ndischer Sprache Leiden Department of Data Theory Universit t Leiden 152 153 Bibliografie Ware O H P F Dockery D Spiro II U U Speizer als auch K A Ferris Jr 1984 Passive smoking gas cooking and respiratory health of children living in six cities American Review of Respiratory Diseases 129 366 374 Analysegewichtung in der automatisierten Datenaufbereitung 25 Anomalie Indizes in Ungew hnliche F lle identifizieren 47 48 114 Automatische Datenaufbereitung 17 Automatisierte Datenaufbereitung 82 Aktionsdetails 40 Aktions bersicht 35 Ansichten zur cksetzen 32 automatisch 95 Datenqualit t verbessern 24 Datum und Uhrzeit aufbereiten 21 Feldanalyse 33 Felddetails 38 90 Felder 20 Felder ausschlie en 22 Felder neu skalieren 25 Felder transformieren 26 Feldertabelle 37 Feldverarbeitungs bersicht 32 Funktionsauswahl 27 Funktionserstellung 27 interaktiv 82 Messniveau anpassen 23 Modellansicht 31 Namensfelder 28 Stetiges Ziel normalisieren 25 Transformationen anwenden 29 Verkn pfungen zwischen Ansichten 32 Vorhersagekraft 36 Werte zuriicktransformieren 43 Ziele 17 Beispieldateien Lage 139 Binning Regeln in Optimales Klassieren 55 Box Cox Transformation in der automatisierten Datenaufbereitung 25 Daten validieren 8 60 Ausgabe 14 Fallbericht 72 80 Gleiche Fallbezeichner 63 grundlegende Priifun
47. 00 1 0 ar Felder neu skalieren Durch Deaktivieren dieser Option werden alle anderen Eingaben zu Felder neu skalieren deaktiviert und die Auswahl beibehalten Analysegewichtung Diese Variable enth lt Analysegewichtungen Regression oder Stichprobe Analysegewichtungen werden verwendet um Differenzen in der Varianz zwischen den Ebenen des Zielfelds zu ber cksichtigen Ein stetiges Feld ausw hlen Stetige Eingabefelder Mit dieser Option werden stetige Eingabefelder durch eine z Wert Transformation oder eine Min Max Transformation normalisiert Die Neuskalierung von Eingaben ist besonders n tzlich wenn Sie Funktionserstellung durchf hren in den Einstellungen Ausw hlen und erstellen ausw hlen m Z Wert Transformation Die Felder werden mithilfe des beobachteten Mittelwerts und der Standardabweichung als Sch tzungen der Populationsparameter standardisiert und die z Werte werden anschlie end den entsprechenden Werten einer Normalverteilung mit den Angaben f rEndg ltiger Mittelwert und Endg ltige Standardabweichung zugeordnet Geben Sie eine Zahl f r Endg ltiger Mittelwert und eine positive Zahl f r Endg ltige Standardabweichung an Die Standardwerte sind entsprechend der standardisierten Neuskalierung 0 bzw 1 Min Max Transformation Die Felder werden mithilfe der beobachteten Mindest und H chstwerte als Sch tzungen der Populationsparameter den entsprechenden Werten einer Gleichverteilung mit den Angaben f
48. 105 106 1406462 419 2191527 525 7237535 360 4592215 163 7628592 330 0300750 006 4590625 286 6272818 258 1959349 605 5856145 337 1543897 849 Attending physician ID 365184 365184 616528 942982 371884 371884 215041 817329 215041 817329 817329 Ein Fall muss eindeutig durch eine Kombination der Werte der Fallbezeichnervariablen identifiziert werden k nnen Hier werden die ersten 11 Eintr ge in der Tabelle der F lle mit gleicher Identifizierung gezeigt Bei diesen Duplikaten handelt es sich um Patienten bei denen mehrere Ereignisse aufgezeichnet wurden die f r jedes Ereignis als separater Fall erfasst wurden Da diese Informationen jeweils in einer Zeile zusammengefasst werden k nnen sollten diese F lle bereinigt werden 64 Kapitel 7 Kopieren und Verwenden von Regeln aus einer anderen Datei Der Analytikerin f llt auf dass die Variablen in der vorliegenden Datendatei den Variablen aus einem anderen Projekt hneln Die Validierungsregeln dieses Projekts wurden als Eigenschaften der entsprechenden Datendatei gespeichert und k nnen auf die vorliegende Datendatei angewendet werden indem die Dateneigenschaften der Datei kopiert werden gt Um die Regeln aus einer anderen Datei zu kopieren w hlen Sie die folgenden Befehle aus den Men s aus Daten Dateneigenschaften kopieren Abbildung 7 6 Kopieren von Dateneigenschaften Schritt 1 Begr ung fz Dateneig
49. 17 118 Optimales Klassieren 52 125 Ausgabe 54 Deskriptive Statistiken 129 Fehlende Werte 56 Klassierte Variablen 135 Klassierungs Zusammenfassungen 131 Modell 125 Modellentropie 130 Optionen 57 Speichern 55 Syntax Klassierungsregeln 135 Pre Binning in Optimales Klassieren 57 Regelbeschreibung in Daten validieren 71 Stetiges Ziel normalisieren 25 berwachtes Binning im Vergleich mit un berwachtem Binning 52 in Optimales Klassieren 52 Ungew hnliche F lle identifizieren 45 108 Ausgabe 47 Auswertung der Gr nde 120 Auswertung des Anomalie Index 120 Fehlende Werte 49 Liste der Gr nde anomaler F lle 116 Liste der Gruppen IDs anomaler F lle 115 Liste der Indizes anomaler F lle 114 Modell 108 Modelldatei exportieren 48 Normwerte der kategorialen Variablen 118 Normwerte der metrischen Variablen 117 Optionen 50 Variablen speichern 48 verwandte Prozeduren 124 Zusammenfassung der Fallverarbeitung 113 Un berwachtes Binning im Vergleich mit berwachtem Binning 52 Unvollst ndige Fallbezeichner in Daten validieren 15 63 Validierungsregeln 2 Validierungsregeln definieren 3 Regeln f r eine Variable 4 Index Regeln f r mehrere Variablen 6 Validierungsregeln f r eine Variable definieren 73 in Daten validieren 12 in Validierungsregeln definieren 4 Validierungsregeln f r mehrere Variablen definieren 73 in Daten
50. 3307441 828754 Zweimal Gestorben 9714672452 237547 Zweimal Gestorben 6613279456 574275 Zweimal Gestorben 2575793702 501318 Zweimal Gestorben 2807437472 680253 Zweimal Gestorben 5284009939 657638 Zweimal Gestorben 8021997463 185703 Zweimal Gestorben 0950897644 267830 1 to 4 Categorical 1 8737661990 185787 a The number of variables that violated the rule follows each rule Der Fallbericht enth lt jetzt neben den bereits vorher erkannten F llen die die Regeln f r eine Variable verletzen auch die F lle die die Regeln f r mehrere Variablen verletzen Diese F lle m ssen den f r die Datenerfassung zust ndigen Personen gemeldet werden damit sie korrigiert werden k nnen Zusammenfassung Die Analytikerin verf gt jetzt ber die Informationen f r einen vorl ufigen Bericht an den Leiter der Datenerfassung 81 Daten validieren Verwandte Prozeduren Die Prozedur Daten validieren ist n tzlich f r die Qualit tskontrolle der Daten m Mit der Prozedur Ungew hnliche F lle identifizieren k nnen Sie Muster in den Daten analysieren und F lle identifizieren bei denen einige signifikante Werte abweichen Kapitel Automatisierte Datenaufbereitung Die Aufbereitung von Daten zur Analyse ist einer der wichtigsten Schritte in jedem Projekt und gew hnlich auch einer der zeitaufwendigsten Die automatisierte Datenaufbereitung ADP bernimmt diese Aufgabe f r Sie Sie analysiert Ihre Daten und identifiziert Probleml
51. 6461046805 607 1077125669 884 2260043998 614 4030164769 241 1038840465 13 2191527525 172 4458028382 705 1336411777 651 4103977868 384 2247641363 839 0437454972 861 9746101913 19 7237535360 806 4391632997 871 6961938294 239 7315965190 887 6044244232 245 0816869249 Der Anomalie Index ist ein Ma das die Ungew hnlichkeit eines Falls in Bezug auf die Angeh rigen seiner Gruppe widerspiegelt Dabei werden die 2 der F lle mit den h chsten Werten des Anomalie Index sowie deren Fallnummern und Bezeichner angezeigt Es werden 21 F lle mit Werten von 1 736 bis 2 837 ausgegeben Es liegt ein relativ gro er Unterschied zwischen dem Wert des Anomalie Index des ersten und des zweiten Falls in der Liste vor Dies legt nahe dass Fall 843 wahrscheinlich anomal ist Die anderen F lle m ssen einzeln beurteilt werden 115 Ungew hnliche F lle identifizieren Liste der Gruppen IDs anomaler F lle Abbildung 9 8 Liste der Gruppen IDs anomaler F lle Fall patid Gruppen ID r e e in Prozent 7840326167 0714726620 6553808330 6461046805 1077125669 2260043998 4030164769 1038840465 2191527525 4458028382 1336411777 4103977865 2247641363 0437454972 9746101913 7237535360 4391632997 6961933294 7315965190 6044244232 0816369249 oF oF Fe M Da wa a a DD DD DD DW ww Die potenziell anomalen F lle werden zusammen mit Informationen zu deren Gruppenmitgliedschaft angezeigt Die ersten 10 F lle und insgesamt 15 F lle
52. 89 vorgestelltes und analysiertes Daten Set bezieht sich auf Schadensanspr che f r Autos Die durchschnittliche H he der Schadensanspr che l sst sich mit Gamma Verteilung modellieren Dazu wird eine inverse Verkn pfungsfunktion verwendet um den Mittelwert der abh ngigen Variablen mit einer linearen Kombination aus Alter des Versicherungsnehmers Fahrzeugtyp und Fahrzeugalter in Bezug zu setzen Die Anzahl der eingereichten Schadensanspr che kann als Skalierungsgewicht verwendet werden car_sales sav Diese Datendatei enth lt hypothetische Verkaufssch tzer Listenpreise und physische Spezifikationen f r verschiedene Fahrzeugfabrikate und modelle Die Listenpreise und physischen Spezifikationen wurden von edmunds com und Hersteller Websites entnommen car_sales_uprepared sav Hierbei handelt es sich um eine modifizierte Version der Datei car_sales sav die keinerlei transformierte Versionen der Felder enth lt carpet sav In einem beliebten Beispiel m chte Green als auch Wind 1973 einen neuen Teppichreiniger vermarkten und dazu den Einfluss von f nf Faktoren auf die Bevorzugung durch den Verbraucher untersuchen Verpackungsgestaltung Markenname Preis G tesiegel Good Housekeeping und Geld zur ck Garantie Die Verpackungsgestaltung setzt sich aus drei Faktorenebenen zusammen die sich durch die Position der Auftrageb rste unterscheiden Au erdem gibt es drei Markennamen K2R Glory und Bissell drei Preisstufen sowie je zwei
53. Abbildung 10 14 Syntaxregeldatei td bankloan_binning rules sps Syntax Editor DEAR Datei Bearbeiten Ansicht Daten Transformieren Analysieren Grafiken Extras Ausf hren Fenster Hilfe eUam Bak A gt HE OPTIMAL BINNING Rules RECODE age MISSING SYSMIS 32 THRU HI 2 LOW THRU 32 1 INTO age_bin VARIABLE LABELS age_bin Binned input variable age based on guide variable default FORMATS age_bin F3 D VARIABLE LEVEL age_bin NOMINAL VALUE LABELS age_bin 1 age lt 32 232 lt age RECODE employ MISSING 2 SMIc Prozessor ist bereit F r jede Klassierungs Eingabevariable gibt es einen Block mit Befehlssyntax die die Klassierung durchf hrt Variablenlabel Format und Stufe und die Variablenlabels f r die Klassen festlegt Diese Befehle k nnen auf ein Daten Set angewendet werden das dieselben Variablen enth lt wie bankloan_binning sav ffnen Sie die Datei bankloan sav F r weitere Informationen siehe Beispieldateien in Anhang A auf S 139 gt Kehren Sie zur Syntax Editor Ansicht von bankloan_binning rules sps zur ck 137 Optimales Klassieren gt Um die Klassierungsregeln anzuwenden w hlen Sie im Syntax Editor folgende Befehle aus Ausf hren Alles Abbildung 10 15 Klassierte Variablen f r bankloan sav im Daten Editor preddef3 age_bin employ_bin address_bin income_bin debtinc_bin creddebt_bin othdebt_bin ww N N N gt n w nn n
54. Aflatoxin geht ein Gift dessen Konzentration stark zwischen und innerhalb von Ernteertr gen schwankt Ein Kornverarbeitungsbetrieb hat aus 8 Ernteertr gen je 16 Proben erhalten und das Aflatoxinniveau in Teilen pro Milliarde parts per billion PPB gemessen m aflatoxin20 sav Diese Datendatei enth lt die Aflatoxinmessungen aus jeder der 16 Stichproben aus den Ertr gen 4 und 8 der Datendatei aflatoxin sav 139 140 Anhang A anorectic sav Bei der Ausarbeitung einer standardisierten Symptomatologie anorektischen bulimischen Verhaltens f hrten Forscher Van der Ham Meulman Van Strien als auch Van Engeland 1997 eine Studie mit 55 Jugendlichen mit bekannten Ess St rungen durch Jeder Patient wurde vier Mal ber einen Zeitraum von vier Jahren untersucht es fanden also insgesamt 220 Beobachtungen statt Bei jeder Beobachtung erhielten die Patienten Scores f r jedes von 16 Symptomen Die Symptomwerte fehlen f r Patient 71 zum Zeitpunkt 2 Patient 76 zum Zeitpunkt 2 und Patient 47 zum Zeitpunkt 3 wodurch 217 g ltige Beobachtungen verbleiben autoaccidents sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Versicherungsanalysten geht ein Modell zur Anzahl der Autounf lle pro Fahrer unter Ber cksichtigung von Alter und Geschlecht zu erstellen Jeder Fall stellt einen Fahrer dar und erfasst das Geschlecht des Fahrers sein Alter in Jahren und die Anzahl der Autounf lle in den letz
55. Anomalie Index ber den Variableneinfluss Die Tabellen enthalten viele n tzliche Informationen Es kann jedoch schwierig sein die wechselseitigen Beziehungen zu erfassen Mit den gespeicherten Variablen k nnen Sie eine Grafik erstellen die Ihnen diese Aufgabe erleichtert gt Um dieses Streudiagramm zu erstellen w hlen Sie die folgenden Befehle aus den Men s aus Grafiken Diagrammerstellung 122 Kapitel 9 Abbildung 9 16 Dialogfeld Diagrammerstellung ae Yariablen Diagrammvorschau verwendet Beispieldaten WI TURRUTMIOT SOG L Gruppengr e Pee Farbe festlegen E Gruppengr e in Pr da Grundvariable 1 Re da Grundvariable 2 Re da Grundvariable 3 Re Eintlussma f r Gr E Einflussma f r Gr I Einflussma f r Gr da Wert der Grundvari da Wert der Grundvari da Wert der Grundvari Wahlen Sie die Galerie Streu Punktdiagramm aus und ziehen Sie das Symbol f r gruppierte Streudiagramme auf die Zeichenfl che gt Wahlen Sie Anomalie Index als y Variable und Einflussma fiir Grundvariable 1 als x Variable aus W hlen Sie Gruppen ID als Variable aus nach der die Farben gesetzt werden sollen Klicken Sie auf OK Nun wird das Streudiagramm erstellt 123 Ungew hnliche F lle identifizieren Abbildung 9 17 Streudiagramm des Anomalie Index ber das Einflussma der ersten Grundvariablen Gruppen ID O1 O2 3 Anomalie In
56. Credit card debt in 134 Kapitel 10 thousands Schulden auf Kreditkarte in Tausend besser f r die Ermittlung von Personen geeignet ist die mit gro er Wahrscheinlichkeit den Kredit nicht zur ckzahlen k nnen Klasse Anteil der zahlungsunf higen Personen 1 0 177 2 0 266 3 0 354 4 0 609 Abbildung 10 12 Klassierungs Zusammenfassung f r Debt to income ratio x100 Relation Schulden zu Einkommen in Anzahl der F lle nach Nivau von Endpunkt Previously defaulted Klasse Minimum Maximum No Yes Gesamt 1 Jede Klasse wird wie folgt berechnet Minimum lt Debtto income ratio 6100 lt Maximum a Unbegrenzt Die Zusammenfassung f r Debt to income ratio x100 Relation Schulden zu Einkommen in weist ein hnliches Muster auf wie Credit card debt in thousands Schulden auf Kreditkarte in Tausend Diese Variable weist den niedrigsten Wert f r die Modellentropie auf und ist somit der beste Kandidat als Einflussvariable f r die Wahrscheinlichkeit der Zahlungsunf higkeit Sie bietet eine bessere Klassifizierung von Personen die mit gro er Wahrscheinlichkeit zahlungsunf hig werden als Credit card debt in thousands Schulden auf Kreditkarte in Tausend und eine fast ebenso gute Klassifizierung von Personen die mit geringer Wahrscheinlichkeit zahlungsunf hig werden wie Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber Klasse Anteil
57. Ebenen Nein oder Ja f r die letzten beiden Faktoren 10 Kunden stufen 22 Profile ein die durch diese Faktoren definiert sind Die Variable Preference enth lt den Rang der durchschnittlichen Einstufung f r die verschiedenen Profile Ein niedriger Rang bedeutet eine starke Bevorzugung Diese Variable gibt ein Gesamtma der Bevorzugung f r die Profile an carpet_prefs sav Diese Datendatei beruht auf denselben Beispielen wie f r carpet sav beschrieben enth lt jedoch die tats chlichen Einstufungen durch jeden der 10 Kunden Die Kunden wurden gebeten die 22 Produktprofile in der Reihenfolge ihrer Pr ferenzen einzustufen Die Variablen PREF bis PREF22 enthalten die IDs der zugeordneten Profile wie in carpet_plan sav definiert catalog sav Diese Datendatei enth lt hypothetische monatliche Verkaufszahlen f r drei Produkte die von einem Versandhaus verkauft werden Daten f r f nf m gliche Einflussvariablen wurden ebenfalls aufgenommen catalog_seasfac sav Diese Datendatei ist mit catalog sav identisch au er dass ein Set von saisonalen Faktoren die mithilfe der Prozedur Saisonale Zerlegung berechnet wurden sowie die zugeh rigen Datumsvariablen hinzugef gt wurden cellular sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Mobiltelefonunternehmens geht die Kundenabwanderung zu verringern Scores f r die Abwanderungsneigung von 0 bis 100 werden auf die Kunden angewendet K
58. Ergebnisse angezeigt werden sollen m Verletzungen nach Analysevariable zusammenfassen Bei dieser Option werden f r jede Analysevariable alle Validierungsregeln f r eine Variable aufgef hrt die verletzt wurden und die Anzahl der Werte angegeben die eine Verletzung der einzelnen Regeln darstellen 15 Daten validieren Au erdem wird f r jede Variable die Gesamtanzahl der Verletzungen von Regeln f r eine Variable ausgegeben m Verletzungen nach Regel zusammenfassen Bei dieser Option werden f r jede Validierungsregel f r eine Variable die Variablen ausgegeben die die Regeln verletzen und die Anzahl der ung ltigen Werte pro Variable angegeben Au erdem wird variablen bergreifend die Gesamtanzahl der Werte ausgegeben die eine Verletzung der einzelnen Regeln darstellen Deskriptive Statistik f r Analysevariablen anzeigen Mit dieser Option k nnen Sie deskriptive Statistiken f r Analysevariablen anfordern F r jede kategoriale Variable wird eine H ufigkeitstabelle erzeugt F r metrische Variablen wird eine Tabelle mit Auswertungsstatistiken erzeugt darunter der Mittelwert die Standardabweichung das Minimum und das Maximum F lle die Validierungsregeln verletzen an den Anfang der Arbeitsdatei verschieben Bei dieser Option werden F lle mit Verletzungen von Regeln f r eine oder mehrere Variablen an den Anfang der ARbeitsdatei verschoben damit sie einfacher aufgefunden werden k nnen Daten validieren Speichern
59. ID amp Call waiting amp Call forwarding ate J oe a LS oo amp amp Electronic billing Die Registerkarte Felder gibt an welche Felder zur weiteren Analyse aufbereitet werden sollen Vordefinierte Rollen verwenden Diese Option greift auf bestehende Feldinformationen zur ck Wenn ein einzelnes Feld mit einer Rolle als Ziel vorhanden ist wird es als Ziel verwendet in allen anderen F llen ist kein Ziel vorhanden Alle Felder mit der vordefinierten Rolle Eingabe werden als Eingaben verwendet Mindestens ein Eingabefeld ist erforderlich Benutzerdefinierte Feldzuweisungen verwenden Wenn Sie Feldrollen durch Verschieben von Feldern aus ihren Standardlisten berschreiben springt das Dialogfeld automatisch auf diese Option Wenn Sie benutzerdefinierte Feldzuweisungen vornehmen geben Sie die folgenden Felder an Ziel optional W hlen Sie das Zielfeld aus wenn Sie Modelle erstellen m chten f r die ein Ziel erforderlich ist Dies gleicht in etwa der Einstellung der Feldrolle auf Ziel m Eingaben W hlen Sie mindestens ein Eingabefeld aus Dies gleicht in etwa der Einstellung der Feldrolle auf Eingabe Registerkarte Einstellungen Die Registerkarte Einstellungen enth lt mehrere unterschiedliche Gruppen von Einstellungen die Sie ndern k nnen um genau festzulegen wie der Algorithmus Ihre Daten verarbeiten soll Wenn Sie an den Standardeinstellungen nderungen vornehmen
60. Kennzeichnung verd chtiger potenziell betr gerischer Anspr che erstellen Vor Erstellung des Modells bereiten sie die Daten f r die Modellierung mithilfe der automatisierten Datenaufbereitung vor Da sie die vorgeschlagenen Transformationen zun chst berpr fen m chten bevor die Transformationen angewendet werden nutzen sie die automatisierte Datenaufbereitung im interaktiven Modus F r weitere Informationen siehe Interaktive Verwendung der automatisierten Datenaufbereitung in Kapitel 8 auf S 82 Eine Gruppe in der Kraftfahrzeugindustrie erfasst die Verkaufszahlen verschiedener Personenkraftwagen Um starke und schwache Modelle identifizieren zu k nnen soll eine Beziehung zwischen den Fahrzeugverkaufszahlen und den Fahrzeugeigenschaften hergestellt werden Zur Vorbereitung der Daten f r die Analyse wird die automatisierte Datenaufbereitung verwendet Es werden Modelle mit Daten vor und nach der Aufbereitung erstellt um zu sehen wie sich die Ergebnisse unterscheiden F r weitere Informationen siehe Automatische Verwendung der automatisierten Datenaufbereitung in Kapitel 8 auf S 95 17 18 Kapitel 4 Abbildung 4 1 Registerkarte Ziel in der automatisierten Datenaufbereitung Empfiehlt Datenaufbereitungsschritte die die Modellerstellung beschleunigen und die Aussagekraft verbessern Diese k nnen die Transformation Erstellung und Auswahl von Funktionen beinhalten Das Ziel kann ebenfalls transformiert werden
61. Kredit nicht zur ckgezahlt haben Previously defaulted ist in Klasse 1 wesentlich h her 639 1768 0 361 als in Klasse 2 617 3232 0 191 Abbildung 10 7 Klassierungs Zusammenfassung f r Household income in thousands Haushaltseinkommen in Tausend Anzahl der Falle nach Nivau von Endpunkt ene ETA a Mnmum Maximum No Yes Gesamt 26 70 1054 513 1567 26 70 2690 3433 Gesamt 3744 1256 5000 Jede Klasse wird wie folgt berechnet Minimum lt Household income in thousands Maximum a Unbegrenzt Die Zusammenfassung f r Household income in thousands Haushaltseinkommen in Tausend zeigt ein hnliches Muster mit einem einzigen Trennwert bei 26 70 und einem h heren Anteil an Kunden mit fr heren Zahlungsschwierigkeiten Previously defaulted in Klasse 1 513 1567 0 327 als in Klasse 2 743 3433 0 216 Wie aus der Statistik f r die Modellentropie zu erwarten ist der Unterschied in diesen Anteilen nicht so gro wie bei Age in years Alter in Jahren 132 Kapitel 10 Abbildung 10 8 Klassierungs Zusammenfassung f r Other debt in thousands Andere Schulden in Tausend Anzahl der F lle nach Nivau von Endpunkt el a Kasse Samim Maximum Gesamt 2 19 2700 1583 17 2300 Gesamt 3744 1256 5000 Jede Klasse wird wie folgt berechnet Minimum lt Other debt in thousands Maximum a Unbegrenzt Die Zusammenfassung ftir Other debt in thousands Andere Schulden in Tausend
62. Mobs wie Menschenmassen jedoch mit wesentlich st rkerer Interaktion primary groups Prim rgruppen vertraulich secondary groups Sekund rgruppen freiwillig und modern community die moderne Gesellschaft ein lockerer Zusammenschluss der aus einer engen physischen N he und dem Bedarf an spezialisierten Dienstleistungen entsteht healthplans sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Versicherungsgruppe geht vier verschiedene Pl ne zur Gesundheitsvorsorge f r Kleinbetriebe zu evaluieren Zw lf Inhaber von Kleinbetrieben Arbeitgeber wurden gebeten die Pl ne danach in eine Rangfolge zu bringen wie gern sie sie ihren Mitarbeitern anbieten w rden Jeder Fall entspricht einem Arbeitgeber und enth lt die Reaktionen auf die einzelnen Pl ne health_funding sav Hierbei handelt es sich um eine hypothetische Datei die Daten zur Finanzierung des Gesundheitswesens Betrag pro 100 Personen Krankheitsraten Rate pro 10 000 Personen der Bev lkerung und Besuche bei medizinischen Einrichtungen rzten Rate pro 10 000 Personen der Bev lkerung enth lt Jeder Fall entspricht einer anderen Stadt hivassay sav Hierbei handelt es sich um eine hypothetische Datendatei zu den Bem hungen eines pharmazeutischen Labors einen Schnelltest zur Erkennung von HIV Infektionen zu entwickeln Die Ergebnisse des Tests sind acht kr ftiger werdende Rotschattierungen wobei kr fti
63. Sie diese Option wenn Sie mit sehr gro en Daten Sets arbeiten oder nach einer schnellen Antwort suchen Genauigkeit optimieren Diese Option bereitet die Daten auf und gibt dabei der Genauigkeit der durch Modellerstellungsalgorithmen erzeugten Vorhersagen Vorrang Analyse anpassen W hlen Sie diese Option wenn Sie den Algorithmus auf der Registerkarte Einstellungen manuell ndern wollen Beachten Sie dass diese Einstellung automatisch ausgew hlt wird wenn Sie anschlie end nderungen auf der Registerkarte Einstellungen vornehmen die mit einem der anderen Ziele nicht kompatibel sind 19 Automatisierte Datenaufbereitung So rufen Sie die automatische Datenaufbereitung ab W hlen Sie die folgenden Befehle aus den Men s aus Transformieren Daten f r Modellierung vorbereiten Automatisch Klicken Sie auf Ausf hren Die folgenden Optionen sind verf gbar m Geben Sie ein Ziel auf der Registerkarte Ziel an m Geben Sie Feldzuweisungen auf der Registerkarte Felder an m Geben Sie Experteneinstellungen auf der Registerkarte Einstellungen an So rufen Sie die interaktive Datenaufbereitung ab W hlen Sie die folgenden Befehle aus den Men s aus Transformieren Daten f r Modellierung vorbereiten Interaktiv Klicken Sie auf Analysieren in der Symbolleiste im oberen Bereich des Dialogfelds Klicken Sie auf die Registerkarte Analyse und berpr fen Sie die folgenden Schrit
64. Stetige Felder einteilen und gleichzeitig die Vorhersagekratt erhalten nur mit einem kategorialen Ziel verf gbar Q Eingabefelder die nach der Einteilung nur eine Kategorie besitzen werden ausgeschlossen Um die Vorhersagekraft Ihrer Daten zu verbessern k nnen Sie die Eingabefelder transformieren Feld f r Modellierung transformieren Durch Deaktivieren dieser Option werden alle anderen Eingaben zu Felder transformieren deaktiviert und die Auswahl beibehalten Kategoriale Eingabefelder D nn besetzte Kategorien zur Maximierung des Zielzusammenhangs zusammenf hren Mit dieser Option erstellen Sie ein sparsameres Modell indem die Anzahl der zu verarbeitenden Felder in Zusammenhang mit dem Ziel reduziert wird hnliche Kategorien werden anhand der Beziehung zwischen der Eingabe und dem Ziel identifiziert Kategorien die sich nicht signifikant unterscheiden d h einen p Wert aufweisen der gr er als der angegebene Wert ist werden zusammengef hrt Geben Sie einen Wert gr er als 0 und kleiner oder gleich 1 an Wenn alle Kategorien zu einer zusammengef hrt werden werden die Original und abgeleiteten Versionen des Felds aus der weiteren Analyse ausgeschlossen da sie keinen Wert als Einflussvariable aufweisen Wenn kein Ziel existiert d nn besetzte Kategorien auf der Basis folgender H ufigkeiten zusammenf hren Wenn das Daten Set kein Ziel aufweist k nnen Sie d nn besetzte Kategorien von ordinalen und nominalen Fe
65. Ungewohnliche F lle identifizieren Registerkarte Optionen E Ungew hnliche F lle identifizieren Yaron Ausgabe Spchern Feemiewee Open Kriterien zum Identifizieren ungew hnlicher F lle rAnzahl von Gruppen Prozentsatz der F lle mit den h chsten Anomalie Indexwerten Minimum Feste Anzahl von F llen mit den h chsten Anomalie Index werten E Nur F lle identifizieren deren Anomalie Index gr er oder gleich einem Minimalwert ist Maximale Anzahl von Gr nden Geben Sie an wie viele Gr nde ausgegeben und falls Grundvariablen gespeichert werden der Arbeitsdatei hinzugef gt werden Der Wert wird nach unten korrigiert wenn er die Anzahl der Analysevariablen bersteigt EI im G Can e Kriterien zum Identifizieren ungew hnlicher F lle Diese Optionen bestimmen wie viele F lle in die Liste der Anomalien aufgenommen werden m Prozentsatz der F lle mit den h chsten Anomalie Indexwerten Geben Sie eine positive Zahl kleiner oder gleich 100 ein Feste Anzahl von F llen mit den h chsten Anomalie Indexwerten Geben Sie eine positive Ganzzahl an die kleiner oder gleich der Gesamtzahl der in der Analyse verwendeten F lle in der Arbeitsdatei ist Nur F lle identifizieren deren Anomalie Index gr er oder gleich einem Minimalwert ist Geben Sie eine nichtnegative Zahl an Ein Fall wird als Anomalie betrachtet wenn sein Anomalie Index gr er ode
66. _transformed Quelle Quadratsum Mittel der T me vom Typ III Quadrate F Sig Korrigiertes Modell 79 3274 000 Konstanter Term 2 436 034 resale_transformed 954 181 price_transformed 9 271 000 engine_s_transformed 2 885 021 horsepow_transformed 034 801 wheelbas_transformed 1 213 132 width_transformed 037 A j 791 length_transformed 265 K 480 curb_wgt_transformed 103 660 fuel_cap_transformed 132 618 mpg_transformed 3 390 O12 type 4 007 007 Fehler 76 673 Gesamt 156 000 Korrigierte Gesamtvariation 156 000 a R Quadrat 509 korrigiertes R Quadrat 471 Zwischen dem auf den unvorbereiteten Daten erstellten Modell und dem auf den vorbereiteten Daten erstellten Modell gibt es einige interessante Unterschiede So sei zun chst darauf hingewiesen dass die Gesamtfreiheitsgrade zugenommen haben Dies liegt an der Tatsache dass fehlende Werte bei der automatisierten Datenaufbereitung durch abgeleitete Werte ersetzt wurden so dass Datens tze die bei dem ersten Modell listenweise entfernt wurden beim zweiten Modell verf gbar sind Noch beachtenswerter ist vielleicht dass sich die Signifikanz bestimmter Einflussgr en ge ndert hat Zwar sind beide Modelle bei der Einsch tzung identisch dass die Motorgr e engine_s und der Fahrzeugtyp type f r das Modell n tzlich sind doch sind der Radstand wheelbas und das Leergewicht curb_wgr nicht mehr signifikant der Fahrzeugpreis price_transformed und die K
67. amp Obesity obesity amp History of diabetes diabetes 6 Blood pressure bp amp Atrial fibrillation af T ren Fallbezeichnervariablen gt Wahlen Sie eine oder mehrere Analysevariablen aus die durch grundlegende Variablenpr fungen oder Validierungsregeln f r eine Variable validiert werden sollen Sie haben au erdem folgende M glichkeiten gt Klicken Sie auf die Registerkarte Regeln f r mehrere Variablen und wenden Sie eine oder mehrere Regeln f r mehrere Variablen an Die folgenden Optionen sind verf gbar m W hlen Sie eine oder mehrere Fallbezeichnervariablen aus um nach doppelten oder unvollst ndigen IDs zu suchen Fallbezeichnervariablen werden auch zum Beschriften der fallweisen Ausgabe verwendet Wenn mehr als eine Fallbezeichnervariable angegeben wurde wird die Kombination der Werte als Fallbezeichner behandelt 10 Kapitel 3 Daten validieren Grundlegende Pr fungen Abbildung 3 2 Dialogfeld Daten validieren Registerkarte Grundlegende Pr fungen E Daten validieren Q Vale GundegendeP ungen Regen f r ne Vale Regeln rmeirere Veran Aussee Space rAnalysevariablen Ti Variablen mit Fehlern in folgenden Pr fungen markieren Maximaler Prozentsatz fehlender Werte Sit f r alle Variablen Maximaler Prozentsatz der F lle in einer einzelnen Kategorie Gilt nur f r kategoriale Yariablen Maximaler Prozentsatz der Kategorien mit Anzahl 1 Gilt nur f r kategoriale
68. amtvariation a R Quadrat 346 korrigiertes R Quadrat 277 2261 23 6587 12227 688 50 702 471 630 19872 712 9644 486 29824 272 263 465 1374 525 32762 692 1124 237 337 585 17668 779 427402183 1062354 955 653525 841 20556 696 12227 688 50 702 471 630 19872 712 9644 486 29824 272 263 465 1374 525 32762 692 1124 237 337 585 17668 779 4070 497 Sig 000 086 911 734 029 127 008 800 562 005 600 TTA 040 Die Standardausgabe f r GLM Univariat beinhaltet die Zwischensubjekteffekte wobei es sich um eine Varianzanalyse Tabelle handelt Jeder Term in dem Modell sowie das Modell als Ganzes wird auf seine F higkeit getestet Variationen in der abh ngigen Variablen zu ber cksichtigen Hinweis Variablenbezeichnungen sind in dieser Tabelle nicht dargestellt Die Einflussgr en zeigen ein variierendes Signifikanzniveau diejenigen deren Signifikanzwerte kleiner als 0 05 sind werden im Allgemeinen als f r das Modell n tzlich betrachtet 102 Kapitel 8 Erstellen eines Modells mit den vorbereiteten Daten Abbildung 8 18 Dialogfeld GLM Univariat EH Univariat da Model model 8 Engine size engine_s 2 Horsepower horsepow Wheelbase wheelbas EH Width width Length length 2 Curb weight curb_wrgt 8 Fuel capacity fuel_cap 8E Fuel efficiency mpg Zur Erstellung des Modells mit den auf Abhangige Variable Mose da Manufacturer manufa
69. an O D 1975 Clustering algorithms New York John Wiley and Sons Hastie B als auch L Tibshirani 1990 Generalized additive models London Chapman and Hall Kennedy L R Riquier als auch K Sharp 1996 Practical applications of correspondence analysis to categorical data in market research Journal of Targeting Measurement and Analysis for Marketing 5 56 70 McCullagh P als auch O D Nelder 1989 Verallgemeinerte lineare Modelle 2nd Hg London Chapman amp Hall Menec V N Roos D Nowicki L MacWilliam G Finlayson als auch C Schwarz 1999 Seasonal Patterns of Winnipeg Hospital Use Manitoba Centre for Health Policy Price L H als auch P L Bouffard 1974 Behavioral appropriateness and situational constraints as dimensions of social behavior Journal of Personality and Social Psychology 30 579 586 Rickman L X Mitchell O Dingman als auch O U Dalen 1974 Changes in serum cholesterol during the Stillman Diet Journal of the American Medical Association 228 54 58 Rosenberg F als auch A K Kim 1975 The method of sorting as a data gathering procedure in multivariate research Multivariate Behavioral Research 10 489 502 Van der Ham B O O Meulman P R Van Strien als auch H Van Engeland 1997 Empirically based subgrouping of eating disorders in adolescents A longitudinal perspective British Journal of Psychiatry 170 363 368 Verdegaal L 1985 Meer sets analyse
70. aration ADP FIELDS TARGET sales INPUT resale type price engine_s horsepow wheelbas width length curb_wgt fuel_cap mpg PREPDATETIME DATEDURATION YES REFERENCE YMD 2009 06 04 UNIT AUTO TIMEDURATION YES REFERENCE HMS 08 43 35 UNIT AUTO EXTRACTYEAR YES SUFFIX _year EXTRACTMONTH YES SUFFIX _month EXTRACTDAY YES SUFFIX _day EXTRACTHOUR YES SUFFIX _hour EXTRACTMINUTE YES SUFFIX _minute EXTRACTSECOND YES SUFFIX _second SCREENING PCTMISSING YES MAXPCT 50 UNIQUECAT YES MAXCAT 100 SINGLECAT NO ADJUSTLEVEL INPUT YES TARGET YES MAXVALORDINAL 10 MINVALCONTINUOUS 5 OUTLIERHANDLING INPUT YES TARGET NO CUTOFF SD 3 REPLACEWITH CUTOFFVALUE REPLACEMISSING INPUT YES TARGET NO REORDERNOMINAL INPUT YES TARGET NO Es 93 Kapitel 8 TM RESCALE INPUT ZSCORE MEAN 0 SD 1 TARGET BOXCOX MEAN 0 SD 1 TRANSFORM MERGESUPERVISED NO MERGEUNSUPERVISED NO BINNING NONE SELECTION NO CONSTRUCTION NO CRITERIA SUFFIX TARGET _transformed INPUT _transformed OUTFILE PREPXML workingDirectory car_sales_transformations xml S IMPORT INFILE TRANSFORMATIONS workingDirectory car_sales_transformations xml MODE FORWARD ROLES UPDATE SAVE TRANSFORMED YES EX ECUTE Mithilfe des Befehls ADP werden das Zielfeld sales Verk ufe und die Eingabefelder resale Wiederverkaufswert durch mpg Verbrauchswerte aufbereitet De
71. assierungsregeln f r die metrischen Einflussvariablen 125 126 Kapitel 10 und verwenden Sie diese Regeln anschlie end zur Verarbeitung von bankloan sav Mithilfe des verarbeiteten Daten Sets kann dann ein Vorhersagemodell erstellt werden Durchf hren der Analyse gt Zum Ausf hren einer Analyse vom Typ Optimales Klassieren w hlen Sie die folgenden Men befehle aus Transformieren Optimales Klassieren Abbildung 10 1 Dialogfeld Optimales Klassieren Registerkarte Variablen E Optimales Klassieren x LYatalon Ausge Speicher Fehlende werte _Optenen Variablen E Variablen f r Klassierung al Level of education ed E Age in years age E Years with current employer employ E Years at current address address amp Household income in thousands income E Debt to income ratio x100 debtinc Credit card debt in thousands creddekt e E Other debt in thousands othdebt e amp Klassierung optimieren in Hinblick auf 5 W hlen Sie eine oder mehrere metrische Yariablen f r die Klassierung sowie eine nominale Leitvariable Die ausgew hlten Klassen maximieren die Zuordnung zwischen der klassierten variablen und der Leitvariablen Auf der Registerkarte Speichern k nnen Sie variablen die Klassenwverte enthalten und oder Klassierungsregeln speichern ox _J _emtogen _ Zur eetzen _Abtrechen __ Hate _ W hlen Sie Age in years Alter in Jahren und Years with current
72. bei handelt es sich um eine hypothetische Datendatei zu einem Arbeitsprogramm der Regierung das versucht benachteiligten Personen bessere Arbeitspl tze zu verschaffen Eine Stichprobe potenzieller Programmteilnehmer wurde beobachtet Von diesen Personen wurden nach dem Zufallsprinzip einige f r die Teilnahme an dem Programm ausgew hlt Jeder Fall entspricht einem Programmteilnehmer Bibliografie Bell U H 1961 Social foundations of human behavior Introduction to the study of sociology New York Harper amp Row Blake R L als auch R O Merz 1998 UCI Repository of machine learning databases Available at http www ics uci edu mlearn MLRepository html Breiman L als auch O H Friedman 1985 Estimating optimal transformations for multiple regression and correlation Journal of the American Statistical Association 80 580 598 Collett D 2003 Modelling survival data in medical research 2 Hg Boca Raton Chapman amp Hall CRC Green K U als auch G Rao 1972 Applied multidimensional scaling Hinsdale Ill Dryden Press Green K U als auch J Wind 1973 Multiattribute decisions in marketing A measurement approach Hinsdale Ill Dryden Press Greenacre A O 1984 Theory and applications of correspondence analysis London Academic Press Guttman L 1968 A general nonmetric technique for finding the smallest coordinate space for configurations of points Psychometrika 33 469 506 Hartig
73. blen die die klassierten Datenwerte enthalten werden nicht standardm ig erstellt Auf der Registerkarte Speichern k nnen Sie diese Variablen speichern 54 Kapitel 6 Optimales Binning Ausgabe Abbildung 6 2 Dialogfeld Optimales Klassieren Registerkarte Ausgabe EH Optimales Klassieren Varan Ansone Speichen Fetienasvieris_ Optionen Anzeige IM Endpunkte f r Klassen Beschreibende Statistiken f r Eingabevariablen mM Modellentropie f r Eingabevariablen Die Registerkarte Ausgabe steuert die Anzeige der Ergebnisse m Endpunkte f r Klassen Zeigt das Set an Endpunkten f r die einzelnen Klassierungs Eingabevariablen an m Beschreibende Statistiken f r Binning Variablen Diese Option zeigt f r die einzelnen Binning Eingabevariablen die Anzahl der F lle mit g ltigen Werten die Anzahl der F lle mit fehlenden Werten die Anzahl der verschiedenen g ltigen Werte sowie die Minimal und Maximalwerte an F r die F hrungsvariable zeigt diese Option die Klassenverteilung f r alle zugeh rigen Binning Eingabevariaben an Modellentropie f r Binning Variable F r jede Binning Eingabevariable zeigt diese Option ein Ma f r die Vorhersagegenauigkeit der Variablen hinsichtlich der F hrungsvariablen an 55 Optimales Klassieren Optimales Binning Speichern Abbildung 6 3 Dialogfeld Optimales Klassieren Registerkarte Speichern fA Optimales Klassiere
74. cedures Companion bei dem auch PASW Statistics 18 ber cksichtigt wird erscheint demn chst Das Handbuch SPSS Statistics Guide to Data Analysis f r PASW Statistics 18 wird ebenfalls derzeit erstellt Ank ndigungen f r Ver ffentlichungen die ausschlie lich ber Prentice Hall verf gbar sind finden Sie auf der Website unter http www spss com estore w hlen Sie Ihr Land aus und klicken Sie auf Books Inhalt Teil I Benutzerhandbuch 1 Einf hrung in Data Preparation Aufbereitung von Daten 1 Verwendung der Prozeduren von Data Preparation Vorbereitung 22222222 1 2 Validierungsregeln 2 Vordefinierte Validierungsregeln laden 1 0 teen eee nes 2 Validierungsregeln definieren 00 cette tte nnn 3 Definieren von Regeln f r eine Variable 2 cee eee ene 4 Definieren von Regeln f r mehrere Variablen 0 0 0 ccc cee eens 6 3 Daten validieren 8 Daten validieren Grundlegende Pr fungen 0 0 ccc cece cee eee ene eee 10 Daten validieren Regeln f r eine Variable 0 cette eee 12 Daten validieren Regeln f r mehrere Variablen cc ccc ccc ects 13 Daten validieren Ausgabe 22 cc en en een een n een ene 14 Daten validieren Speichern 0 0 cc een een tenn ene enes 15 4 Automatisierte Datenaufbereitung 17 So rufen Sie die automatische Datenaufbereitung ab 0 000 00 cece eee 19 So rufen Sie die interaktive Datenaufbereitung ab
75. che Modelle bei ungew hnlichen Beobachtungen anf llig sein k nnen Einige dieser Randbeobachtungen stellen wirklich einzigartige F lle dar und eignen sich deswegen nicht f r eine Vorhersage Andere Beobachtungen stellen Dateneingabefehler dar wobei die Werte technisch gesehen richtig sind und deswegen nicht mit Datenvalidierungsprozeduren abgefangen werden k nnen Diese Informationen finden Sie in der Datei stroke_valid sav F r weitere Informationen siehe Beispieldateien in Anhang A auf S 139 Verwenden Sie die Prozedur Ungew hnliche F lle identifizieren um die Datendatei zu bereinigen Syntax mit denen Sie diese Analysen nachvollziehen k nnen befindet sich in der Datei detectanomaly_stroke sps Durchf hren der Analyse gt Um ungew hnliche F lle zu identifizieren w hlen Sie die folgenden Befehle aus den Men s aus Daten Ungew hnliche F lle identifizieren Abbildung 9 1 Dialogfeld Ungew hnliche F lle identifizieren Registerkarte Variablen BH Ungewohntiche F lle identifizieren Yarklen Ausgabe Speichen Fetiende Were Optenen variablen Analysevariablen Sa Hospital ID hospic oll Age category agecat al Hospital size hospsize da Attending physician ID physid E Age in years age Klicken Sie in der Liste Variablen mit der rechten Maustaste auf eine Variable um deren Messniveau zu ndern Gender gender 5 Physically active active amp Obesity obesity am
76. chf hren von grundlegenden Pr fungen gt Um die Daten zu validieren w hlen Sie die folgenden Befehle aus den Men s aus Daten Validierung Daten validieren 60 61 Daten validieren Abbildung 7 1 Dialogfeld Daten validieren Registerkarte Variablen Yan cones rungen Regn free are Rage rmerre Varsien Ausgabe Secher Variablen Analysevariablen Fallbezeichner variablen W hlen Sie Hospital size sowie die Variablen von Age in years bis Recoded Barthel index at 6 months als Analysevariablen aus W hlen Sie Hospital ID Patient ID und Attending physician ID als Fallbezeichnervariablen aus Klicken Sie auf die Registerkarte Grundlegende Pr fungen 62 Kapitel 7 Abbildung 7 2 Dialogfeld Daten validieren Registerkarte Grundlegende Pr fungen E Daten vatidieren 00 M Veen Srundegen fun Regen r ene arte Regen f r mehrere Varsien Ausgabe Specter rAnalysevariablen IM Variablen mit Fehlern in folgenden Pr fungen markieren Maximaler Prozentsatz fehlender Werte Gilt f r alle Yariablen Maximaler Prozentsatz der F lle in einer einzelnen Kategorie Gilt nur f r kategoriale variablen Maximaler Prozentsatz der Kategorien mit Anzahl 1 Gilt nur f r kategoriale Variablen Minimaler Yariationskoeffizient Gilt nur f r metrische Variablen Minimale Standardabyeichung b Gilt nur f r metrische Yariablen _ e E rFallbezeichner Fi Unvollst ndi
77. chlie en oder Funktionen einzuschlie en von denen ADP empfiehlt sie auszuschlie en Wenn ein Feld transformiert wurde k nnen Sie entscheiden ob Sie die vorgeschlagene Transformation akzeptieren oder die Originalversion verwenden m chten 34 Kapitel 4 Die Felderansicht besteht aus zwei Tabellen eine f r das Ziel und eine f r Funktionen die entweder verarbeitet oder erstellt wurden Tabelle Ziel Die Tabelle Ziel wird nur angezeigt wenn in den Daten ein Ziel definiert wurde Die Tabelle enth lt zwei Spalten m Name Dies ist der Name oder die Bezeichnung des Zielfelds Der Originalname wird immer verwendet auch wenn das Feld transformiert wurde m Typ Hier erscheint das Symbol f r das entsprechende Messniveau fahren Sie mit der Maus ber das Symbol um eine Bezeichnung stetig sortiertes Set Set usw anzuzeigen die die Daten beschreibt Wenn das Ziel transformiert wurde gibt die Spalte Typ die endg ltige transformierte Version an Hinweis Transformationen f r das Ziel k nnen nicht abgeschaltet werden Tabelle Funktionen Die Tabelle Funktionen wird immer angezeigt Jede Zeile der Tabelle repr sentiert ein Feld Standardm ig sind die Zeilen nach absteigender Vorhersagekraft sortiert Bei gew hnlichen Funktionen wird der Originalname immer als Zeilenname verwendet Sowohl Original als auch abgeleitete Versionen von Datums Zeitfeldern werden in der Tabelle in getrennten Zeilen angezeigt
78. ct E sales_transformed Feste Faktoren 2 Sales in thousands sa EEE 8E 4 year resale value re ESP Price in thousands pri a Zufallsfaktoren vorbereiteten Daten rufen Sie das Dialogfeld GLM Univariat Deaktivieren Sie Sales in thousands sales Verk ufe in Tausend und w hlen Sie sales_transformed Verk ufe_transformiert als abh ngige Variable aus gt Deaktivieren Sie 4 year resale valu e resale Wiederverkaufswert 4 Jahre Wiederverkauf durch Fuel efficiency mpg Kraftstoffeffizienz Verbrauchswerte und wahlen Sie resale_transformed Widerverkauf_transformiert durch mpg_transformed Verbrauchswerte_transformiert als Kovariaten aus Klicken Sie auf OK Diese Auswahl f hrt zu folgender Befehlssyntax UNIANOVA sales_transformed I BY type WITH resale_transformed price_transformed engine_s_transformed horsepow_transformed wheelbas_transformed width_transformed length_transformed curb_wgt_transformed fuel_cap_transformed mpg_transformed METHOD SSTYPE 3 INTERCEPT INCLUDE SAVE PRED CRITERIA ALPHA 0 05 DESIGN resale_transformed price_transformed engine_s_transformed horsepow_transformed wheelbas_transformed width_transformed length_transformed curb_wgt_transformed fuel_cap_transformed mpg_transformed type 103 Automatisierte Datenaufbereitung Abbildung 8 19 Zwischensubjekteffekte f r auf vorbereiteten Daten basierte Modelle Abh ngige Variable sales
79. delt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Internet Dienstanbieters geht der die Auswirkungen eines Virus auf seine Netzwerke ermitteln m chte Dabei wurde vom Moment der Virusentdeckung bis zu dem Zeitpunkt zu dem die Virusinfektion unter Kontrolle war der ungef hre prozentuale Anteil infizierter E Mail in den Netzwerken erfasst waittimes sav Hierbei handelt es sich um eine hypothetische Datendatei zu den Wartezeiten f r Kunden bei drei verschiedenen Filialen einer Bank Jeder Fall entspricht einem Kunden und zeichnet die Wartezeit und die Filiale webusability sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Tests zur Benutzerfreundlichkeit eines neuen Internetgesch fts geht Jeder Fall entspricht einer von f nf Testpersonen die die Benutzerfreundlichkeit bewerten und gibt f r sechs separate Aufgaben an ob die Testperson sie erfolgreich ausf hren k nnte wheeze_steubenville sav Hierbei handelt es sich um eine Teilmenge der Daten aus einer Langzeitstudie zu den gesundheitlichen Auswirkungen der Luftverschmutzung auf Kinder Ware Dockery Spiro III Speizer als auch Ferris Jr 1984 Die Daten enthalten wiederholte bin re Messungen des Keuchens von Kindern aus Steubenville Ohio im Alter 151 Beispieldateien von 7 8 9 und 10 Jahren sowie eine unver nderlichen Angabe ob die Mutter im ersten Jahr der Studie rauchte oder nicht m workprog sav Hier
80. der zahlungsunf higen Personen 1 0 088 2 0 179 3 0 382 4 0 605 5 0 933 135 Optimales Klassieren Klassierte Variablen Abbildung 10 13 Klassierte Variablen f r bankloan_binning sav im Daten Editor default 1 0 2 3 2 2 2 1 2 2 0 1 3 2 2 3 2 2 a 0 2 3 3 2 2 3 2 4 0 2 3 3 2 4 3 2 5 0 2 2 3 1 3 2 2 6 0 2 1 2 2 1 1 1 K 1 2 1 1 1 3 2 1 8 0 2 4 2 2 3 2 2 9 0 2 3 2 2 2 2 2 10 0 2 2 2 2 2 2 2 11 0 1 1 1 1 2 1 1 12 1 2 3 2 2 4 4 2 13 0 2 a 3 2 2 3 2 4 ER gt 7 _Datenansicht Variablenansicht Die Ergebnisse des Klassierungsprozesses fiir dieses Daten Set werden aus dem Daten Editor ersichtlich Diese klassierten Variablen sind n tzlich wenn Sie benutzerdefinierte Zusammenfassungen der Klassierungsergebnisse mithilfe von deskriptiven Prozeduren oder Berichtsprozeduren erstellen m chten Es ist jedoch nicht ratsam dieses Daten Set zur Erstellung eines Vorhersagemodells zu verwenden da die Klassierungsregeln mithilfe dieser F lle erstellt wurden Es ist sinnvoller die Klassierungsregeln auf ein anderes Daten Set anzuwenden das Informationen zu anderen Kunden enth lt Anwenden von Syntax Klassierungsregeln Bei der Ausf hrung der Prozedur Optimales Klassieren haben Sie angegeben dass die von der Prozedur erstellten Klassierungsregeln als Befehlssyntax gespeichert werden sollten ffnen Sie die Datei bankloan_binning rules sps 136 Kapitel 10
81. der als Werteliste angeben Mit den Steuerelementen zum Festlegen eines Bereichs k nnen Sie einen Bereich g ltiger Werte angeben Werte die sich au erhalb dieses Bereichs befinden werden als ung ltig gekennzeichnet Abbildung 2 3 Regeln f r eine Variable Bereichsdefinition G ltige Werte nt Innerhalb des Bereichs v Minimum CE Geben Sie einen Minimalwert einen Maximalwert oder beides an Wenn keiner dieser Werte angegeben an wird gelten alle Werte als innerhalb amum des Bereichs Werte ohne Label im Bereich zulassen Da lange Stringvariablen keine Wertelabels besitzen sollte diese Option f r solche Yariablen immer aktiviert sein One Um einen Bereich anzugeben geben Sie den Minimum oder Maximumwert oder beide Werte ein Mit dem Kontrollk stchen k nnen Sie festlegen dass Werte ohne Label und nichtganzzahlige Werte im Bereich gekennzeichnet werden Mit den Steuerelementen zum Festlegen einer Liste k nnen Sie eine Liste g ltiger Werte angeben Werte die nicht in der Liste befinden werden als ung ltig gekennzeichnet Abbildung 2 4 Regeln f r eine Variable Listendefinition G ltige Werte In einer Liste vj Werte Io 1 Geben Sie im Gitter die Listenwerte ein Mit dem Kontrollk stchen legen Sie fest ob die Gro Kleinschreibung ber cksichtigt wird wenn String Datenwerte gegen die Liste der zul ssigen Werte gepr ft werden 6 Kapitel 2 m Benutzerdefinierte fehlende Werte zu
82. dex 0 10 0 15 0 20 0 25 Einflussma f r Grundvariable 1 Das Diagramm ergibt Folgendes m Der Fall in der oberen rechten Ecke geh rt zu Gruppe 3 Er ist der ungew hnlichste Fall und zudem der Fall bei dem eine einzelne Variable den gr ten Einfluss aufweist m Entlang der y Achse ist ersichtlich dass Gruppe 3 drei F lle enth lt deren Werte f r den Anomalie Index knapp ber 2 00 liegen Diese F lle sind potenziell anomal und sollten n her untersucht werden m Entlang der x Achse ist ersichtlich dass Gruppe 1 vier F lle enth lt deren Variablen Einflussma e im Bereich von 0 23 bis 0 33 liegen Diese F lle sollten n her untersucht werden weil diese Werte dazu f hren dass sich die entsprechenden F lle von den anderen F llen absetzen m Gruppe 2 scheint homogen zu sein Ihr Anomalie Index und ihre Variablen Einflussma e weichen nicht sehr stark von der zentrale Tendenz ab bersicht Mit der Prozedur Ungew hnliche F lle identifizieren haben Sie verschiedene F lle ausgesondert die n her untersucht werden sollten Diese F lle k nnen mit keinem anderen Validierungsverfahren erkannt werden weil die Einstufung als anomal nicht nur auf der Grundlage der Variablenwerte sondern anhand der Beziehungen zwischen den Variablen erfolgt 124 Kapitel 9 Es ist ein wenig entt uschend dass die Gruppen weitestgehend auf der Grundlage von zwei Variablen gebildet werden Dead on arrival und Died in hospita
83. die Anzahl vor der Durchf hrung der MDLP KLassierung mithilfe der Methode der gleichen H ufigkeiten auf 1000 reduziert Die Befehlssyntax f r die Klassierungsregeln wird in der Datei c bankloan_binning rules sps gespeichert F r die Klassierungs Eingabevariablen werden die Klassengrenzen und die Modellentropiewerte angefordert F r die anderen Klassierungskriterien werden die Standardwerte verwendet Deskriptive Statistiken Abbildung 10 4 Deskriptive Statistik Anzahl der verschiede Anzahl der Minimum Maximum nen Were Klassen Age in years Years with current employer Years at current address 37 Household income in thousands 2461 70 Debt to income ratio x100 J 44 62 Credit card debt in thousands J 139 58 Other debt in thousands J 416 52 Die Tabelle Deskriptive Statistiken enth lt zusammenfassende Informationen zu den Klassierungs Eingabevariablen Die ersten vier Spalten betreffen die vorklassierten Werte N ist die Anzahl der in der Analyse verwendeten F lle Wenn listenweises L schen fehlender Werte verwendet wird sollte dieser Wert f r alle Variablen konstant sein Wenn paarweises L schen fehlender Werte verwendet wird ist dieser Wert m glicherweise nicht konstant Da das vorliegende Daten Set keine fehlenden Werte aufweist handelt es sich bei diesem Wert einfach um die Anzahl der F lle Die Spalten Minimum und Maximum zeigen die Mindest und H chstwerte f r Vorklassierung im Daten Set
84. dte Prozeduren 1 1 ee eee een e ene e enn e nee 124 10 Optimales Klassieren 125 Der Algorithmus f r optimales Klassieren 0 0 0c eee ee eee eae 125 vii Verwenden der optimalen Klassierung zur Diskretisierung der Daten zu Kreditantragstellern 125 Durchf hren der Analyse 2 2 0c cece ett eee eee 126 Deskriptive Statistiken 0 0 0 0 cette teens 129 Modellentropie 00 0 ccc teen een ernennen 130 Klassierungs Zusammenfassungen 000 cece eee eee eae 131 Klassierte Variablen 2 0 0 0 0 ccc cc teeta 135 Anwenden von Syntax Klassierungsregeln 2 2222 cee eee eee eee 135 Zusammenfassung 0 cee nennen een eee ee 137 Anhang A Beispieldateien Bibliografie Index viii 139 152 154 Teil I Benutzerhandbuch Kapitel Einf hrung in Data Preparation Aufbereitung von Daten Der Informationsbedarf w chst proportional mit dem Anstieg der Leistungsf higkeit von Computern Das f hrt zu immer gr eren Datensammlungen zu mehr F llen mehr Variablen und mehr Fehlern bei der Dateneingabe Diese Fehler behindern Vorhersagen auf der Grundlage von Prognosemodellen dem wichtigsten Ziel des Daten Warehousing Deswegen m ssen die Daten sauber gehalten werden Die Menge der gespeicherten Daten ist jedoch bereits so weit ber die Kapzit ten zur manuellen Pr fung der Daten hinausgewachsen dass es entscheidend ist automatisierte Prozesse f
85. durch Fotokopieren Aufzeichnen oder sonstige Mittel reproduziert in einem Datenabfragesystem gespeichert oder bertragen werden Vorwort PASW Statistics 18 ist ein umfassendes System zum Analysieren von Daten Das optionale Zusatzmodul Data Preparation Vorbereitung von Daten bietet die zus tzlichen Analyseverfahren die in diesem Handbuch beschrieben sind Die Prozeduren im Zusatzmodul Data Preparation Vorbereitung von Daten m ssen zusammen mit PASW Statistics 18 Core verwendet werden Sie sind vollst ndig in dieses System integriert Installation Zur Installation von Data Preparation Vorbereitung von Daten Erweiterungsmodul f hren Sie den Lizenzautorisierungsassistenten mit dem Autorisierungscode aus den Sie von SPSS Inc erhalten haben Weitere Informationen finden Sie in den Installationsanweisungen im Lieferumfang von Data Preparation Vorbereitung von Daten Erweiterungsmodul Kompatibilit t PASW Statistics kann auf vielen Computersystemen ausgef hrt werden Mindestanforderungen an das System und Empfehlungen finden Sie in den Unterlagen die mit Ihrem System geliefert werden Seriennummern Die Seriennummer des Programms dient gleichzeitig als Identifikationsnummer bei SPSS Inc Sie ben tigen diese Seriennummer wenn Sie sich an SPSS Inc wenden um Informationen zum Kundendienst zu Zahlungen oder zu Aktualisierungen des Systems zu erhalten Die Seriennummer wird mit dem Core System ausgeliefert Kundendienst
86. e Regeln f r eine Variable Daten validieren X Um Regeln einer Yariablen zuzuweisen w hlen Sie die Variable aus und aktivieren eine oder mehrere Regeln Die Liste Analysevariablen zeigt Verteilungen nichtfehlender Werte aufgrund des Durchsuchens der Daten Die Liste Regeln zeigt alle Regeln die den ausgew hlten Variablen zugewiesen werden k nnen Analysevariablen Regeln Variable Verteilung Minimum Maximum Regeln j Name Initial Rankin sc Oto 2 Categorical Oto 3 Categorical 1 to 4 Categorical Nonnegative integer Bei Nonnegative number CAT scan resu Clot dissolving Treatment resu Died in hospital Post event pre Anzeigen Alle variablen Durchsuchte F lle 1183 Variablenverteilungen 4 Durchsuchte Anzahl der F lle begrenzen F lle Erneut durchsuchen Begrenzen der durchsuchten F lle hat keinen Einfluss auf die Anzahl der validierten F lle W hlen Sie Arrial fibrillation History of transient ischemic attack CAT scan result und Died in hospital aus und wenden Sie die Regel 0 to 1 Dichotomy an Wenden Sie 0 to 3 Categorical auf Post event rehabilitation an Wenden Sie 0 to 2 Categorical auf Post event preventative surgery an Wenden Sie Nonnegative integer auf Length of stay for rehabilitation an Wenden Sie 1 to 4 Categorical auf die Variablen von Recoded Barthel index at 1 month bis Recoded Barthel index at 6 months an Klicken Sie a
87. e Aktionen davon sind allerdings nicht alle notwendigerweise f r jede Analyse aktiv Tabelle Textfelder Die Tabelle zeigt folgende Anzahl m Von der Analyse ausgeschlossene Funktionen Tabelle Datums und Uhrzeitfunktionen Die Tabelle zeigt folgende Anzahl m Aus Datums und Uhrzeitfunktionen abgeleitete Dauer m Datums und Uhrzeitelemente m Insgesamt abgeleitete Datums und Uhrzeitfunktionen Das Referenzdatum oder die uhrzeit wird als Fu note angezeigt wenn eine Datumsdauer berechnet wurde Tabelle Funktions Screening Die Tabelle zeigt die Anzahl folgender von der Verarbeitung ausgeschlossener Funktionen m Konstanten Felder mit zu vielen fehlenden Werten Funktionen mit zu vielen F llen in einer einzelnen Kategorie Nominale Felder Sets mit zu vielen Kategorien Insgesamt ausgeschlossene Funktionen Tabelle Typ berpr fen Die Tabelle zeigt die Anzahl umgewandelter Felder und teilt sich wie folgt auf m In stetige Feldern umgewandelte ordinale Felder sortierte Sets m In ordinale Felder sortierte Sets umgewandelte stetige Felder m Anzahl an Umwandlungen insgesamt Wenn keine Felder Ziel oder Funktionen stetig oder ordinal sortierte Sets waren wird dies als Fu note vermerkt Tabelle AusreiBer Die Tabelle zeigt ob und wie Ausrei er behandelt wurden 42 Kapitel 4 m Entweder die Anzahl stetiger Felder f r die Ausrei er gefunden und entfernt wurden
88. e F lle Leeren F llen wird der Wert 1 zugeordnet Alle anderen F lle werden als 0 codiert Die Werte der Variablen entsprechen dem Umfang der auf der Registerkarte Grundlegende Pr fungen angegeben wurde Gruppe mit doppelten IDs F lle die denselben Fallbezeichner aufweisen mit Ausnahme von F llen mit unvollst ndigen Bezeichnern erhalten dieselbe Gruppennummer F lle mit eindeutigen oder unvollst ndigen Bezeichnern werden als 0 codiert Unvollst ndiger ID Indikator F lle mit leeren oder unvollst ndigen Fallbezeichnern erhalten den Wert 1 Alle anderen F lle werden als 0 codiert m Verletzungen von Validierungsregeln Dies ist die Gesamtanzahl der Verletzungen von Validierungsregeln f r eine oder mehrere Variablen pro Fall Vorhandene Auswertungsvariablen ersetzen In der Datendatei gespeicherte Variablen m ssen eindeutige Namen aufweisen Wenn dies nicht der Fall ist werden Variablen mit demselben Namen ersetzt Indikatorvariablen speichern die alle Verletzungen von Validierungsregeln aufzeichnen Bei dieser Option wird ein vollst ndiger Bericht ber die Verletzungen der Validierungsregeln gespeichert Jede Variable entspricht der Anwendung einer Validierungsregel und weist den Wert 1 auf wenn der Fall die Regel verletzt oder den Wert 0 wenn die Regel nicht verletzt wird Kapitel Automatisierte Datenaufbereitung Die Aufbereitung von Daten zur Analyse ist einer der wichtigsten Schritte in jedem Proj
89. e Variable Definition von 1 to 3 Categorical Regeln Numerisch Numerisch Numerisch Numerisch i Numerisch Numerisch Numerisch Daten validieren A Daten validieren Validierungsregeln definieren X bo rRegeldefinition Name 1 to 3 Categorical T G ltige Werte 1 2 M Gro Kleinschreibung bei der Wertepr fung ignorieren iM Leere Werte zulassen Format Fi Benutzerdefinierte fehlende Werte zulassen Systemdefinierte fehlende Werte zulassen mmitijjj Fees antrecnen __ tate _ Geben Sie als Name der Regel 1 to 3 Categorical ein Wahlen Sie im Feld Giiltige Werte den Eintrag In einer Liste aus Geben Sie die Werte 1 2 und 3 ein Deaktivieren Sie Systemdefinierte fehlende Werte zulassen Um die Regel f r die Rankin Scores zu definieren klicken Sie auf Neu 76 Kapitel 7 Abbildung 7 21 Dialogfeld Validierungsregeln definieren Registerkarte Regeln f r eine Variable Definition von 0 to 5 Categorical A Daten validieren Validierungsregeln definieren X bo Regeln rRegeldefinition Name 0 to 5 Categorical Typ Numerisch Numerisch Format mmaAtiij Numerisch Numerisch aS Numerisch Bere Numerisch Numerisch w Gro Kleinschreibung bei der Wertepr fung ignorieren Fi Benutzerdefinierte fehlende Werte zulassen Systemdefinierte fehlende Werte zulassen M
90. e vorzubereiten Erstellen Sie au erdem Modelle mit Daten vor und nach der Aufbereitung um die Ergebnisse vergleichen zu k nnen Vorbereitung der Daten gt Zur automatischen Ausf hrung der automatisierten Datenaufbereitung w hlen Sie aus den Men s Transformieren Daten f r Modellierung vorbereiten Automatisch 96 Kapitel 8 Abbildung 8 13 Registerkarte Ziel fa Automatische Datenaufbereitung Pel Far Enungen Empfiehlt Datenaufbereitungsschritte die die Modellerstellung beschleunigen und die Aussagekraft verbessern Diese k nnen die Transformation Erstellung und Auswahl von Funktionen beinhalten Das Ziel kann ebenfalls transformiert werden Wie lautet Ihr Ziel Jedem Ziel entspricht eine eindeutige Standardkontiguration auf der Registerkarte Einstellungen die Sie wenn n tig weiter anpassen k nnen Geschwindigkeit und Genauigkeit ausgleichen Geschwindigkeit optimieren Genauigkeit optimieren Analyse anpassen Beschreibung Bei der Einstellung Genau wird die Standardeinstellung so angepasst dass die Daten mit dem Schwerpunkt auf der Modellerstellung mit der h chsten Vorhersagekratt transformiert werden i eon aun rin um Wahlen Sie Genauigkeit optimieren Da das Zielfeld Sales in thousands Verk ufe in Tausend stetig ist und in der automatisierten Datenaufbereitung transformiert werden k nnte wollen Sie die Transformationen in einer XML Date
91. eeaee 49 Ungew hnliche F lle identifizieren Optionen 0 000 eee eee 50 Zus tzliche Funktionen beim Befehl DETECTANOMALY 0 0 0 cee e eee ee 51 6 Optimales Klassieren 52 Optimales Binning Ausgabe 0 000 cette ttt 54 Optimales Binning Speichern 0 000 cc teen eee 55 Optimales Binning Fehlende Werte 0 000 cece cece eee eee 56 Optimales Binning Optionen 0 000 ccc tte eee 57 Zus tzliche Funktionen beim Befehl OPTIMAL BINNING 0 020 00 e eee eee 58 Teil II Beispiele 7 Daten validieren 60 Validieren einer medizinischen Datenbank 2 cc ccm 60 Durchf hren von grundlegenden Priifungen 00 000 e cece e eee eee 60 Kopieren und Verwenden von Regeln aus einer anderen Datel 0 000e 64 vi Definieren von eigenen Regeln 00 0 cece nennen nenn 73 Regeln f r mehrere Variablen 00 0c cece 79 Fallbericht 0 0 en ee ee een nent tenn een eee ait 80 ZUSAMMENTASSUNG ur una ee een ne ne s 80 Verwandte Prozeduren 1 1 te een nent teen nes 81 8 Automatisierte Datenaufbereitung 82 Interaktive Verwendung der automatisierten Datenaufbereitung 0 0 00 e eee 82 Auswahl aus Objekten 00 0 ccna 82 Felder und Feldd eta ils nis casisix lt 0 aaiae ech eR cheater Gch RA ahaa a acta ae 90 Automatische Verwendung der automatisierten Datenaufbereitung
92. eihenfolge sortiert Dar ber hinaus werden die IDs der F lle angezeigt wenn auf der Registerkarte Variablen eine Fallbezeichnervariable angegeben wurde Auswertung Mit den Steuerlementen in diesem Gruppenfeld werden Auswertungen der Verteilungen erstellt m Normwerte der Gruppen Bei dieser Option wird die Tabelle f r die Normwerte der stetigen Variablen wenn die Analyse stetige Variablen umfasst und die Tabelle f r die Normwerte der kategorialen Variablen wenn die Analyse kategoriale Variable umfasst angezeigt Die Tabelle f r die Normwerte der stetigen Variablen enth lt den Mittelwert und die Standabweichung jeder stetigen Variablen f r jede Gruppe Die Tabelle f r die Normwerte 48 Kapitel 5 der kategorialen Variablen enh lt den Modalwert die h ufigste Kategorie die H ufigkeit und die H ufigkeit in Prozent jeder kategorialen Variablen f r jede Gruppe Der Mittelwert einer stetigen Variablen und der Modalwert einer kategorialen Variablen werden in der Analyse als Normwerte verwendet m Anomalie Indizes Die Auswertung des Anomalie Index enth lt deskriptive Statistiken f r die Anomalie Indizes der F lle die als am ungew hnlichsten identifiziert wurden m Vorkommen des Grunds nach Analysevariablen Die Tabelle zeigt pro Grund die H ufigkeit und die H ufigkeit in Prozent des Vorkommens jeder Variable als Grund an Die Tabelle f hrt auch deskriptive Statistiken ber den Einfluss jeder Variablen auf Wen
93. eines Herstellers von Metallgeschirr Nambe Mills Santa Fe New Mexico zur zeitlichen Planung seiner Produktion Jeder Fall entspricht einem anderen Artikel in der Produktpalette F r jeden Artikel sind Durchmesser Polierzeit Preis und Produkttyp erfasst poll_cs sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bem hungen geht die ffentliche Unterst tzung f r einen Gesetzentwurf zu ermitteln bevor er im Parlament eingebracht wird Die F lle entsprechen registrierten W hlern F r jeden Fall sind County Gemeinde und Wohnviertel des W hlers erfasst poll_cs_sample sav Diese hypothetische Datendatei enth lt eine Stichprobe der in poll_cs sav aufgef hrten W hler Die Stichprobe wurde gem dem in der Plandatei poll csplan angegebenen Stichprobenplan gezogen und in dieser Datendatei sind die Einschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst Beachten Sie jedoch Folgendes Da im Stichprobenplan die PPS Methode PPS probability proportional to size Wahrscheinlichkeit proportional zur Gr e verwendet wird gibt es au erdem eine Datei mit den gemeinsamen Auswahlwahrscheinlichkeiten poll_jointprob sav Die zus tzlichen Variablen zum demografischen Hintergrund der W hler und ihrer Meinung zum vorgeschlagenen Gesetzentwurf wurden nach der Ziehung der Stichprobe erfasst und zur Datendatei hinzugef gt property_assess sav Hierbei handelt es sich um eine hypothetische Datendatei in der es
94. ekt und gew hnlich auch einer der zeitaufwendigsten Die automatisierte Datenaufbereitung ADP bernimmt diese Aufgabe f r Sie Sie analysiert Ihre Daten und identifiziert Probleml sungen findet problematische oder wahrscheinlich nicht n tzliche Felder leitet zum passenden Zeitpunkt neue Attribute ab und verbessert die Leistungsf higkeit durch intelligente Screening Methoden Sie k nnen den Algorithmus vollautomatisch verwenden und so Probleml sungen ausw hlen und anwenden oder Sie k nnen ihn interaktiv verwenden und so die nderungen in einer Vorschau betrachten bevor sie vorgenommen werden und sie gegebenenfalls akzeptieren oder ablehnen Mit ADP k nnen Sie Ihre Daten schnell und einfach f r die Modellerstellung aufbereiten ohne ber Vorkenntnisse der dazugeh rigen statistischen Konzepte verf gen zu m ssen Modelle lassen sich damit schneller erstellen und scoren zudem verbessert sich mit ADP die Robustheit automatisierter Modellierungsprozesse Anmerkung Wenn die ADP ein Feld f r die Analyse vorbereitet erstellt sie ein neues Feld das die Anpassungen oder Transformationen enth lt anstatt die bestehenden Werte und Eigenschaften des alten Felds zu ersetzen Das alte Feld wird bei der weiteren Analyse nicht verwendet seine Rolle wird auf Keine gesetzt Beispiel Eine Versicherungsgesellschaft mit beschr nkten Ressourcen f r die Untersuchung der Versicherungsanspr che von Hauseigent mern m chte ein Modell zur
95. employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber bis Other debt in thousands Andere Schulden in Tausend als Variablen f r die Klassierung aus W hlen Sie Previously defaulted Vorherige Nichtzahlung als F hrungsvariable aus Klicken Sie auf die Registerkarte Ausgabe 127 Optimales Klassieren Abbildung 10 2 Dialogfeld Optimales Klassieren Registerkarte Ausgabe Endpunkte f r Klassen Beschreibende Statistiken f r Eingabevariablen Modellentropie f r Eingabevariablen W hlen Sie Beschreibende Statistiken und Modellentropie f r die zu klassierenden Variablen aus Klicken Sie auf die Registerkarte Speichern 128 Kapitel 10 Abbildung 10 3 Dialogfeld Optimales Klassieren Registerkarte Speichern FEE Optimales Klassieren X Veen Ausgabe SPechen Felder tine rYariablen in Arbeitsdatei speichern I variablen erstellen die Klassenwerte enthalten F r jede Variable f r die die Klassierung erfolgt wird genau eine Variable erstellt Die Namen der Ausgabevariablen werden durch Anf gen eines Unterstrichs und des Suffixes an den Namen der urspr nglichen Variablen erstellt Beispiel Alter_Klasse F vorhandene Variablen mit demselben Namen ersetzen rKlassierungsregeln als Syntax speichern Datei ankloan_binning rules sps Durchsuchen Um Klassierungsregeln zu speichern geben Sie eine Datei an Sie k nnen die gespeicherte Syntax f
96. en Registerkarte Variablen E Ungew hnliche F lle identifizieren x Yale Ausgabe Specter Fetiende Werte Onteren Variablen Analysevariablen amp Hospital ID hospid al Age category agecat al Hospital size hospsize Gender gender da Attending physician ID physid amp Physically active active E Age in years age amp Obesity obesity amp History of diabetes diabetes amp Blood pressure bp amp gt Atrial fibrillation af amp Smoker smoker Cholesterol choles History of angina angina amp History of myocardial infarction mi amp Prescribed nitroglycerin nitro amp Taking anti clotting drugs anticlot amp History of transient ischemic attack tia Le Fallbezeichnervariable Klicken Sie in der Liste variablen mit der rechten Maustaste auf eine Variable um deren Messniveau zu ndern ox J ingen zuucrsetzen Abtrecnen __Hite gt W hlen Sie mindestens eine Analysevariable aus gt Wahlweise k nnen Sie eine Fallbezeichnervariable zum Beschriften der Ausgabe ausw hlen 47 Ungew hnliche F lle identifizieren Ungew hnliche F lle identifizieren Ausgabe Abbildung 5 2 Dialogfeld Ungew hnliche F lle identifizieren Registerkarte Ausgabe Ef Ungew hntiche F lle identifizieren Varen Aussee Speichen Felde Wate Optonen T Liste ungew hnlicher F lle und Gr nde f r die Ungew hnlichkeit Auswertungen Fi Normw
97. endatei bei der es um Bewertung der Auswirkungen der Mulchfarbe auf den Geschmack von Pflanzenprodukten geht Der Geschmack von Erdbeeren die in rotem blauem und schwarzem Rindenmulch gezogen wurden wurde von Testpersonen auf einer ordinalen Skala weit unter bis weit ber dem Durchschnitt bewertet Jeder Fall entspricht einem Geschmackstester telco sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Telekommunikationsunternehmens geht die Kundenabwanderung zu verringern Jeder Fall entspricht einem Kunden und enth lt verschiedene Informationen zum demografischen Hintergrund und zur Servicenutzung telco_extra sav Diese Datendatei hnelt der Datei telco sav allerdings wurden die Variablen tenure und die Log transformierten Variablen zu den Kundenausgaben entfernt und durch standardisierte Log transformierte Variablen ersetzt telco_missing sav Diese Datendatei ist eine Untermenge der Datendatei telco sav allerdings wurde ein Teil der demografischen Datenwerte durch fehlende Werte ersetzt testmarket sav Diese hypothetische Datendatei bezieht sich auf die Pl ne einer Fast Food Kette einen neuen Artikel in ihr Men aufzunehmen Es gibt drei m gliche Kampagnen zur Verkaufsf rderung f r das neue Produkt Daher wird der neue Artikel in Filialen in mehreren zuf llig ausgew hlten M rkten eingef hrt An jedem Standort wird eine andere Form der Verkaufsf rderung verwendet und die w
98. enschaften kopieren Schritt 1 von 5 Wilkommen beim Assistenten zum Kopieren von Dateneigenschaften Mit Dateneigenschaften kopieren k nnen ausgew hlte Variablen und Datenblatt Eigenschaften aus einem ge ffneten Datenblatt lt BR gt oder einer externen PASVV Datendatei in die Arbeitsdatei kopiert werden A Innerhalb der aktiven Datenbl tter k nnen Sie Eigenschaften auch von einer Yariablen in eine andere kopieren rQuelle der Eigenschaften ausw hlen bl Eine externe PASVY Statistics Datendatei patient_los sav Durchsuchen Die Arbeitsdatei stroke_invalid say DatenSet1 W hlen Sie aus dass die Eigenschaften aus einer externen PASW Statistics Datendatei patient_los sav kopiert werden sollen F r weitere Informationen siehe Beispieldateien in Anhang A auf S 139 Klicken Sie auf Weiter 65 Daten validieren Abbildung 7 7 Kopieren von Dateneigenschaften Schritt 2 Variablen ausw hlen iii Dateneigenschaften kopieren Schritt 2 von 5 X Dateneigenschaften kopieren W hlen Sie die Quell und Zielvariablen aus Eigenschaften der ausgew hlten Variablen im Quell Datenblatt auf entsprechende Variablen in der Arbeitsdatei bertragen Entsprechende Variablen in der Arbeitsdatei erstellen wenn nicht bereits vorhanden Eigenschaften einer einzelnen Quellvariablen auf ausgew hlte Variablen desselben Typs in der Arbeitsdatei bertragen Nur Eigenschaften d
99. er ausgenommen Zwischenversionen von aus Datums Zeitfeldern abgeleiteten Feldern und erstellte Felder die Anzahl der aus Datums Zeitfeldern abgeleiteten Felder und die Anzahl der erstellten Felder Die Anzahl der Eingabefelder die in keiner Form empfohlen werden sei es in ihrer urspr nglichen Form als abgeleitetes Feld oder als Eingabe in einer erstellten Funktion Klicken Sie auf die unterstrichenen Informationen unter Felder um weitere Informationen in einer verkn pften Ansicht anzuzeigen In der verkn pften Ansicht Feldertabelle erhalten Sie Informationen ber Ziel Eingabefunktionen und Nicht verwendte Eingabefunktionen F r weitere Informationen siehe Feldertabelle auf S 37 Empfohlene Funktionen f r den Einsatz in Analysen werden in der verkn pften Ansicht Vorhersagekraft angezeigt F r weitere Informationen siehe Vorhersagekraft auf S 36 Abbildung 4 15 Felder Felder Ziel Name Typ Merkmale X Nicht empfohlene Felder in Tabelle aufnehmen Zu verwendende Version Vorhersage kraft Transformiert tenure Transformiert X Nicht verwenden vY Nicht verwenden vY Nicht verwenden Y income Nicht verwenden v In der Hauptansicht Felder werden die verarbeiteten Felder angezeigt sowie ob ADP diese zur Verwendung in nachgelagerten Modellen empfiehlt Sie k nnen die Empfehlung f r jedes Feld berschreiben zum Beispiel um erstellte Funktionen auszus
100. es Datenbl tter bertragen keine Auswahl von Variablen Eine Yariable entspricht einer anderen wenn Name und grundlegender Typ numerisch oder String und String L nge fr bereinstimmen In den folgenden Dialogfeldern geben Sie an welche Eigenschaften im einzelnen bertragen werden sollen Klicken Sie mit der rechten Maustaste auf eine Variable um deren Eigenschaften anzuzeigen W hlen Sie die Variablen in der Liste der Quellvariablen aus deren Eigenschaften auf die entsprechenden Yariablen im aktiven Datenblatt bertragen werden sollen Variablen im Quell Datenblatt Entsprechende Arbeitsdatei E Age in years age Age in years age a Age category fagecet ate ca gt Gender gender amp History of diabetes diabetes amp Blood pressure bp Obes amp Smoker smoker History of diabetes diabetes amp Cholesterol choles lood e bp amp Physically active active amp Smoker smoker 2 NAhesitu Inhesitul MR Cholesteral Ichales Ausgew hlte Variablen 18 Entsprechende Variablen 18 Zu erstellende Variablen 0 ezur ck_ Unter Fertgetssen Lasrechen rate Dies sind die Variablen aus patient_los sav deren Eigenschaften Sie in die entsprechenden Variablen in stroke_invalid sav kopieren m chten Klicken Sie auf Weiter 66 Kapitel 7 Abbildung 7 8 Kopieren von Dateneigenschaften Schritt 3 Variableneigenschaften ausw hlen fH Dateneigenschaften kopieren Schritt 3 von 5 X Datenei
101. eugt f r die Modellierung verwendbare Felder aus Daten und transformiert ggf stetige Felder wie reside Haushaltsgr e um sie normaler zu verteilen m Genauigkeit optimieren erzeugt einige zus tzliche Felder aus Datumsangaben au erdem werden Ausrei er berpr ft und ggf stetige Ziele f r eine normalere Verteilung transformiert m Bei Geschwindigkeit optimieren werden keine Datumsangaben aufbereitet und keine stetigen Felder neu skaliert sondern Kategorien aus kategorialen Einflussgr en zusammengef hrt und stetige Einflussgr en klassiert wenn das Ziel kategorial ist und eine Merkmalsauswahl und erstellung durchgef hrt wenn das Ziel stetig ist Die Versicherungsgesellschaft beschlie t die Ergebnisse bei Genauigkeit optimieren n her zu untersuchen W hlen Sie aus der Dropdown Liste in der Hauptansicht die Option Felder 90 Kapitel 8 Felder und Felddetails Abbildung 8 8 Felder Felder Ziel Name Typ fraudulent rc Funktionen F nicht empfohlene Felder in Tabelle einschlie en Zu verwendende A a PS a Version ne Name Y Typ Vorhersagekraft amp claim type 0 08 amp job_start_date days 006 Transformiert Dd job start date year 0 06 7 dob _ year 0 06 IJI S U ree dob days 0 05 0 05 policy date year 005 05 0 Rj policy date days occupancy date days In der Ansicht Felder werden die verarbeiteten Felder angezeigt sowie
102. f r die ausgew hlten Analysevariablen geeignet sind Wenn beispielsweise numerische Variablen ausgew hlt wurden werden nur numerische Regeln angezeigt Wurde eine String Variable ausgew hlt werden nur String Regeln angezeigt Wenn keine Analysevariablen ausgew hlt wurden oder die ausgew hlten Variablen unterschiedliche Datentypen aufweisen werden keine Regeln angezeigt 13 Daten validieren Variablenverteilungen Die in der Liste Analysevariablen angezeigten Verteilungszusammenfassungen k nnen auf allen F llen beruhen oder auf einer Durchsuchung der ersten n F lle Dies wird im Textfeld F lle festgelegt Durch Klicken auf Erneut durchsuchen werden die Verteilungszusammenfassungen aktualisiert Daten validieren Regeln f r mehrere Variablen Abbildung 3 4 Dialogfeld Daten validieren Registerkarte Regeln f r mehrere Variablen fa Daten validieren Variablen Grundegense Pr fungen Regeln f r he Variatie Regeln Zuweisen Name Ausdruck ZweimalGestorben doa 1 amp dhosp 1 Klicken Sie auf die Schaltfl che Regeln definieren um Regeln f r mehrere Variablen zu definieren Auf der Registerkarte Regeln f r mehrere Variablen werden verf gbare Regeln f r mehrere Variablen angezeigt die Sie auf die Daten anwenden k nnen Um weitere Regeln f r mehrere Variablen zu definieren klicken Sie auf Regeln definieren F r weitere Informationen siehe Definieren von Regeln f
103. f r die einzelnen Klassierungs Eingabevariablen Durch diese Spalten erhalten Sie nicht nur einen Eindruck von dem beobachteten Wertebereich f r die einzelnen Variablen sondern sie k nnen auch hilfreich beim Aufsp ren von Werten sein die au erhalb des erwarteten Bereichs liegen In der Spalte Anzahl der verschiedenen Werte erfahren Sie welche Variablen mithilfe des Algorithmus f r gleiche H ufigkeiten vorverarbeitet wurden Standardm ig werden Variablen mit mehr als 1000 verschiedenen Werten Household income in thousands Haushaltseinkommen in Tausend bis Orher debt in thousands Andere Schulden in Tausend durch die Vorklassierung in 1000 verschiedene Klassen eingeteilt Diese 130 Kapitel 10 vorverarbeiteten Klassen werden anschlie end unter Verwendung von MDLP anhand der F hrungsvariablen klassiert Auf der Registerkarte Optionen k nnen Sie Einfluss auf die Vorverarbeitungsfunktion nehmen m Die Spalte Anzahl der Klassen enth lt die endg ltige Anzahl an Klassen die von der Prozedur erstellt werden Diese ist erheblich kleiner als die Anzahl der verschiedenen Werte Modellentropie Abbildung 10 5 Modellentropie Modellentropie Age in years 788 Years with current employer 754 Years at current address 781 Household income in thousands 803 Debt to income ratio x100 711 Credit card debt in thousands 776 Other debt in thousands 601 Smaller model entropy indicates higher predictive accuracy of
104. f r mehrere Variablen nach Namen Wenn Sie das Dialogfeld ffnen wird eine Platzhalter Regel mit dem Namen MehrVarRegel 1 angezeigt Unter der Liste Regeln werden folgende Schaltfl chen angezeigt m Neu F gt einen neuen Eintrag am Ende der Liste Regeln hinzu Die Regel wird ausgew hlt und erh lt den Namen MehrVarRegel n Hierbei ist n eine Ganzzahl sodass der Name der Regel unter den Regeln f r eine oder mehrere Variablen eindeutig ist 7 Validierungsregeln m Duplizieren F gt eine Kopie der ausgew hlten Regel am Ende der Liste Regeln hinzu Der Name der Regel wird so angepasst dass er unter den Regeln f r eine oder mehrere Variablen eindeutig ist Wenn Sie beispielsweise MehrVarRegel 1 duplizieren erh lt die erste duplizierte Regel den Namen Kopie von MehrVarRegel 1 die zweite den Namen Kopie 2 von MehrVarRegel 1 usw m L schen L scht die ausgew hlte Regel Regeldefinition Mit diesen Steuerelementen k nnen Sie die Eigenschaften f r eine ausgew hlte Regel anzeigen lassen und festlegen m Name Der Name der Regel muss unter den Regeln f r eine oder mehrere Variablen eindeutig sein m Logischer Ausdruck Im Wesentlichen ist dies die Regeldefinition Die Auswertung des Ausdrucks f r einen ung ltigen Fall muss 1 entsprechen Erstellen von Ausdr cken gt Um einen Ausdruck zu erstellen f gen Sie die Komponenten in das Feld Logischer Au
105. fasst werden Klicken Sie auf die Registerkarte Fehlende Werte 112 Kapitel 9 Abbildung 9 4 Dialogfeld Ungew hnliche F lle identifizieren Registerkarte Fehlende Werte A Ungewohnliche Falle identifizieren X Varatien Ausgabe Speichem Feierde Werte optonen Fehlende Werte aus der Analyse ausschlie en Benutzer und systemdefinierte fehlende Werte werden ausgeschlossen Fehlende Werte in die Analyse aufnehmen Bei metrischen Yariablen werden benutzer und systemdefinierte fehlende Werte durch den Gesamtmittelwert der Yariablen ersetzt Bei kategorialen Yariablen werden benutzer und systemdefinierte fehlende Werte zusammengefasst und als Kategorie in die Analyse aufgenommen T Anteil fehlender Werte pro Fall als Analysevariable verwenden W hlen Sie Fehlende Werte in die Analyse aufnehmen aus Dies ist notwendig weil viele benutzerdefinierte fehlende Werte f r Patienten vorliegen die vor oder w hrend der Behandlung gestorben sind Der Analyse wird eine zus tzliche metrische Variable hinzugef gt mit der der Anteil der fehlenden Werte pro Fall aufgezeichnet wird gt Klicken Sie auf die Registerkarte Optionen 113 Ungew hnliche F lle identifizieren Abbildung 9 5 Dialogfeld Ungew hnliche F lle identifizieren Registerkarte Optionen E Ungew hnliche F lle identifizieren X Veen Aue Speichen Felde te Olenen Kriterien zum Identifizieren ungew hnlicher F lle rAnzah
106. fasst werden Eine Situation dieser Art kann nicht mit einer Regel fiir eine Variable erkannt werden Sie ben tigen eine Regel f r mehrere Variablen 74 Kapitel 7 Klicken Sie auf der Symbolleiste auf das Symbol Zuletzt verwendete Dialogfelder und w hlen Sie Daten validieren aus Klicken Sie auf die Registerkarte Regeln f r eine Variable Sie m ssen Regeln f r Hospital size die Variablen f r die Rankin Scores und die Variablen der nicht umkodierten Barthel Indizes erstellen Klicken Sie auf Regeln definieren Abbildung 7 19 Dialogfeld Validierungsregeln definieren Registerkarte Regeln f r eine Variable ER Daten validieren Validierungsregeln definieren X Regeln rRegeldefinition Name 0 to 1 Dichotomy Typ Numerisch 0 Numerisch Format mmittiAjj m Numerisch Numerisch i Numerisch Numerisch G ltige Werte M Gro Mleinschreibung bei der Wertepr fung ignoriere Fi Benutzerdefinierte fehlende Werte zulassen m Systemdefinierte fehlende Werte zulassen M Leere Werte zulassen In der Liste Regeln werden die aktuell definierten Regeln angezeigt Die Regel 0 to 1 Dichotomy ist ausgew hlt und ihre Eigenschaften werden im Gruppenfeld Regeldefinition angezeigt gt Um eine Regel zu definieren klicken Sie auf Neu 75 vv v vy y Abbildung 7 20 Dialogfeld Validierungsregeln definieren Registerkarte Regeln f r ein
107. fe zusammengefasst sind sodass jeder Fall einem anderen Kunden entspricht Dadurch entfallen einige der Variablen die w chentlichen nderungen unterworfen waren und der verzeichnete ausgegebene Betrag ist nun die Summe der Betr ge die in den vier Wochen der Studie ausgegeben wurden grocery_coupons sav Hierbei handelt es sich um eine hypothetische Datendatei die Umfragedaten enth lt die von einer Lebensmittelkette erfasst wurden die sich f r die Kaufgewohnheiten ihrer Kunden interessiert Jeder Kunde wird ber vier Wochen beobachtet und jeder Fall entspricht einer Kundenwoche und enth lt Informationen zu den Gesch ften in denen der Kunde einkauft sowie zu anderen Merkmalen beispielsweise welcher Betrag in der betreffenden Woche f r Lebensmittel ausgegeben wurde guttman sav Bell Bell 1961 legte eine Tabelle zur Darstellung m glicher sozialer Gruppen vor Guttman Guttman 1968 verwendete einen Teil dieser Tabelle bei der f nf Variablen die Aspekte beschreiben wie soziale Interaktion das Gef hl der Gruppenzugeh rigkeit die physische N he der Mitglieder und die Formalit t der Beziehung mit sieben theoretischen sozialen Gruppen gekreuzt wurden crowds Menschenmassen beispielsweise die Zuschauer eines Fu ballspiels audience Zuh rerschaften beispielsweise die Personen im Theater oder bei einer Vorlesung public ffentlichkeit beispielsweise Zeitungsleser oder Fernsehzuschauer mobs
108. ge IDs markieren M Doppelte IDs markieren Leere F lle markieren F lle definieren nach Ale Variablen im Datenblatt ohne ID Variablen Ein Fall gitt als leer wenn alle relevanten Yariablen fehlen oder leer sind Sie k nnen mit den Standardeinstellungen fortfahren gt Klicken Sie auf OK Warnungen Abbildung 7 3 Warnungen Die Analysevariablen haben die grundlegenden Priifungen bestanden und es liegen keine leeren F lle vor Deshalb wird eine Warnung ausgegeben die erl utert warum f r die grundlegenden Pr fungen keine Ausgabe vorhanden ist 63 Unvollst ndige Identifizierung Abbildung 7 4 Unvollst ndige Fallbezeichner Identifizierung Attending Hospital ID PatientID physician ID OZN 6137798 782 2322241 867 125304 790697 176466 Daten validieren Wenn in den Fallbezeichnervariablen fehlende Werte vorliegen k nnen die entsprechenden F lle nicht ordnungsgem identifiziert werden In der vorliegenden Datendatei fehlt der Wert von Patient ID in Fall 288 und in den F llen 573 und 774 sind keine Werte f r Hospital ID vorhanden Gleiche Identifizierung Abbildung 7 5 Gleiche Fallbezeichner gezeigt werden die ersten 11 Identifizierung Hospital ID Patient ID Gruppe mit gleicher Anzahl Identifizierung Duplikate F lle mit gleicher Identifizierung 10 11 14 15 21 22 28 29 30 31 64 65 83 84 86 87 96 97 100 101 102 104
109. gebnis Originalfelder nicht transformiert Transformationen von Originalfeldern Aus Datums und Zeitangaben abgeleitet Erstellt Nicht verwendete Eingabefunktionen 0 Wird Genauigkeit optimieren als Ziel eingegeben werden 32 Felder fiir die Modellerstellung empfohlen da mehr Felder aus Datumsangaben und Uhrzeiten durch das Extrahieren von Tagen Monaten und Jahren aus Datumsangaben und Stunden Minuten und Sekunden aus Uhrzeiten abgeleitet werden Abbildung 8 7 Registerkarte Analyse Vorhersagekraft bei optimierter Genauigkeit Empfohlene Funktionen f r den Einsatz in Analysen Vorhersagekraft Ziel fraudulent_transformed Type of claim amp SS job_start_date_days job_start_date_year E E dob_year E El income _transformed amp dob_days E w policy_date_days E u policy_date_year E E occupancy_date_days E occupancy_date_year E i i i i 0 0 0 2 0 4 0 6 08 1 0 Type of claim Anspruchstyp wird als die beste Einflussgr e identifiziert gefolgt von der Anzahl der Tage seit dem letzten Besch ftigungsbeginn des Anspruchsnehmers die berechnete Zeitspanne seit dem Datum des Besch ftigungsbeginns bis zum aktuellen Datum und dem Jahr 89 Automatisierte Datenaufbereitung in dem der Anspruchsnehmer die aktuelle Besch ftigung aufgenommen hat extrahiert aus dem Datum des Besch ftigungsbeginns Zusammenfassung m Geschwindigkeit amp Genauigkeit ausgleichen erz
110. gen 10 Regelbeschreibung 71 Regeln fiir eine Variable 12 Regeln fiir mehrere Variablen 13 79 Unvollst ndige Fallbezeichner 63 Variablen speichern 15 Variablenauswertung 71 Index verwandte Prozeduren 81 Warnungen 62 Datenvalidierung in Daten validieren 8 Dauer berechnen Automatisierte Datenaufbereitung 21 Dauerberechnung Automatisierte Datenaufbereitung 21 Deskriptive Statistiken in Optimales Klassieren 129 Endpunkte fiir Klassen in Optimales Klassieren 54 Fallbericht in Daten validieren 72 80 Fehlende Werte in Ungew hnliche F lle identifizieren 49 Felddetails Automatisierte Datenaufbereitung 90 Funktionsauswahl in der automatisierten Datenaufbereitung 27 Funktionserstellung in der automatisierten Datenaufbereitung 27 Gleiche Fallbezeichner in Daten validieren 15 63 Gr nde in Ungew hnliche F lle identifizieren 47 48 116 120 Gruppen in Ungew hnliche F lle identifizieren 47 48 113 115 Interaktive Datenaufbereitung 17 Klassierte Variablen in Optimales Klassieren 135 Klassierungs Zusammenfassungen in Optimales Klassieren 131 Leere F lle in Daten validieren 15 MDLP in Optimales Klassieren 52 Modellansicht in der automatisierten Datenaufbereitung 31 154 155 Modellentropie in Optimales Klassieren 130 Normwerte der Gruppen in Ungew hnliche F lle identifizieren 1
111. gen Alle konstanten oder 100 an fehlenden Werten aufweisenden Felder werden automatisch ausgeschlossen Eingabefelder mit niedriger Qualit t ausschlieRen Durch Deaktivieren dieser Option werden alle anderen Befehle Felder ausschlie en deaktiviert und die Auswahl beibehalten Felder mit zu vielen fehlenden Werten ausschlie en Felder mit mehr als dem angegebenen Prozentsatz an fehlenden Werten werden aus der weiteren Analyse ausgeschlossen Geben Sie einen Wert gr er oder gleich 0 ein was dem Deaktivieren dieser Option entspricht und 23 Automatisierte Datenaufbereitung einen Wert kleiner oder gleich 100 so dass die Felder mit allen fehlenden Werten automatisch ausgeschlossen werden Der Standardwert ist 50 Nominale Felder mit zu vielen eindeutigen Kategorien ausschlie en Nominale Felder mit mehr als der angegebenen Anzahl an Kategorien werden aus der weiteren Analyse ausgeschlossen Geben Sie eine positive Ganzzahl ein Der Standardwert ist 100 Dies ist n tzlich f r das automatische Entfernen von Feldern aus der Modellierung die eine datensatzeindeutige Information enthalten wie zum Beispiel eine ID eine Adresse oder einen Namen Kategoriale Felder mit zu vielen Werten in einer einzelnen Kategorie ausschlie en Ordinale und nominale Felder mit einer Kategorie die mehr als die angegebene Prozentzahl an Datens tzen enth lt werden aus der weiteren Analyse ausgeschlossen Geben Sie einen Wert gr er oder gleich
112. genschaften kopieren Zu kopierende Yariableneigenschaften ausw hlen W hlen Sie aus welche Variableneigenschaftten in die Arbeitsdatei bertragen werden sollen Bei Yertelabels k nnen Sie w hlen ob die vorhandenen Verte ersetzt oder soweit wie m glich mit den Eigenschaften in der Arbeitsdatei zusammengef hrt werden sollen Beim Zusammenf hren hat die Arbeitsdatei Vorrang Leere Eigenschaften in Quellyariablen ersetzen in keinem Fall Eigenschaften von Zielvariablen F r Yariablen die erstellt werden werden alle Eigenschaften kopiert rF r vorhandene ausgew hlte Variablen zu kopierende Variableneigenschaften _ Wertelabels Ersetzen Zusammentiihren Ti Benutzerdefinierte Attribute Ersetzen Zusammenf hren Fehlende Werte Yariablenlabel Messniveau _ Rolle Formate Ausrichtung _ Spaltenbreite im Daten Editor szurit Coveter2 Fertastelen ammecten rate _ gt Heben Sie die Auswahl aller Eigenschaften mit Ausnahme von Benutzerdefinierte Attribute auf Klicken Sie auf Weiter 67 Daten validieren Abbildung 7 9 Kopieren von Dateneigenschaften Schritt 4 Daten Set Eigenschaften ausw hlen fH Dateneigenschaften kopieren Schritt 4 von 5 X Dateneigenschaften kopieren Zu kopierende Eigenschaften des Datenbl tter ausw hlen W hlen Sie aus welche Eigenschaften des Datenbl tter in die Arbeitsdatei kopiert werden
113. geren Schattierungen auf eine h here Infektionswahrscheinlichkeit hindeuten Bei 2 000 Blutproben von denen die H lfte mit HIV infiziert war wurde ein Labortest durchgef hrt hourlywagedata sav Hierbei handelt es sich um eine hypothetische Datendatei zum Stundenlohn von Pflegepersonal in Praxen und Krankenh usern mit unterschiedlich langer Berufserfahrung 145 Beispieldateien insurance_claims sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die ein Modell zur Kennzeichnung verd chtiger potenziell betr gerischer Anspr che erstellen m chte Jeder Fall entspricht einem Anspruch insure sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die die Risikofaktoren untersucht die darauf hinweisen ob ein Kunde die Leistungen einer mit einer Laufzeit von 10 Jahren abgeschlossenen Lebensversicherung in Anspruch nehmen wird Jeder Fall in der Datendatei entspricht einem Paar von Vertr gen je einer mit Leistungsforderung und der andere ohne wobei die beiden Versicherungsnehmer in Alter und Geschlecht bereinstimmen judges sav Hierbei handelt es sich um eine hypothetische Datendatei mit den Wertungen von ausgebildeten Kampfrichtern sowie eines Sportliebhabers zu 300 Kunstturnleistungen Jede Zeile stellt eine Leistung dar die Kampfrichter bewerteten jeweils dieselben Leistungen kinship_dat sav Rosenberg u
114. h dieses Attribut beschrieben werden Die sechs Marken werden als AA BB CC DD EE und FF bezeichnet um Vertraulichkeit zu gew hrleisten contacts sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Kontaktlisten einer Gruppe von Vertretern geht die Computer an Unternehmen verkaufen Die einzelnen Kontaktpersonen werden anhand der Abteilung in der sie in ihrem Unternehmen arbeiten und anhand ihrer Stellung in der Unternehmenshierarchie in Kategorien eingeteilt Au erdem werden der Betrag des letzten Verkaufs die Zeit seit dem letzten Verkauf und die Gr e des Unternehmens in dem die Kontaktperson arbeitet aufgezeichnet creditpromo sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Kaufhauses geht die Wirksamkeit einer k rzlich durchgef hrten Kreditkarten Werbeaktion einzusch tzen Dazu wurden 500 Karteninhaber nach dem Zufallsprinzip ausgew hlt Die H lfte erhielt eine Werbebeilage die einen reduzierten Zinssatz f r Eink ufe in den n chsten drei Monaten ank ndigte Die andere H lfte erhielt eine Standard Werbebeilage customer_dbase sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Unternehmens geht das die Informationen in seinem Data Warehouse nutzen m chte um spezielle Angebote f r Kunden zu erstellen die mit der gr ten Wahrscheinlichkeit darauf ansprechen
115. he im Finanzwesen Algorithmus f r Ungew hnliche F lle identifizieren Dieser Algorithmus gliedert sich in drei Phasen Modellierung Die Prozedur erstellt ein Clustermodell zum Ermitteln von nat rlichen Gruppierungen Clustern innerhalb eines Daten Sets die andernfalls nicht erkennbar w ren Die Cluster beruhen auf einem Satz von Eingabevariablen Das resultierende Clustermodell und ausreichende Statistiken zum Berechnen der Normwerte der Clustergruppen werden f r die sp tere Verwendung gespeichert Bewertung Das Modell wird auf jeden Fall angewendet um die Clustergruppe des Falls zu ermitteln Dabei werden Indikatorvariablen f r jeden Fall erstellt um die Ungew hnlichkeit jedes Falls in Bezug auf die entsprechende Clustergruppe zu messen Die F lle werden nach den Werten des Anomalie Index sortiert Der oberste Anteil der Fallliste stellt die Anomalien dar Argumentation F r jeden anomalen Fall werden die Variablen nach den entsprechenden Variablenabweichungs Indizes sortiert Die obersten Variablen deren Werte und die entsprechenden Normwerte werden als Gr nde ausgegeben warum ein Fall als Anomalie identifiziert wurde 108 109 Ungew hnliche F lle identifizieren Identifizieren ungew hnlicher F lle in einer medizinischen Datenbank Ein Analytiker der mit der Erstellung von Prognosemodellen f r die Ergebnisse von Schlaganfallbehandlungen betraut wurde ist ber die Qualit t der Daten besorgt weil sol
116. heiten Um die Ergebnisse interpretieren und verwenden zu k nnen m ssen Sie den vorhergesagten Wert wieder in das urspr ngliche metrische Ma zur ckkonvertieren Abbildung 4 21 Transformiert Werte zur ck H Werte zur cktransformieren Wenn Sie Ihre Daten mit der interaktiven oder automatischen Datenvorbereitung transformiert haben verwenden Sie nach der Modellierung dieses Dialogfeld um die vorhergesagten Werte in ihre urspr nglichen Einheiten zur ckzutransformieren Felder Zur ckzutransformierendes Feld 9 horsepow_transtormed Le amp Yorhergesagter Wert f r sales_tr L wheelbas_transformed E width_transformed E length_transformed L curb_wgt_transformed E fuel_cap_transformed E mpg_transformed E sales_transformed amp Vorhergesagter Wert f r sa Suffix f r neues Feld packtransformed XML Datei wyorkingDirectoryscar_sales_transformations xmi Durchsuchen ET Tannen eam sea e Wahlen Sie die folgenden Befehle aus den Men s aus um Werte zur ckzutransformieren Transformieren Daten f r Modellierung vorbereiten Werte zur cktransformieren 44 Kapitel 4 W hlen Sie ein Feld das zur cktransformiert werden soll Dieses Feld sollte vom Modell vorhergesagte Werte des transformierten Ziels enthalten gt Geben Sie ein Suffix f r das neue Feld an Dieses neue Feld enth lt vom Modell vorhergesagte Werte im urspr nglichen metrischen Ma des nicht transformierten
117. hersagekraft Diagramme F r empfohlene Felder zeigen Balkendiagramme die Vorhersagekraft vor und nach der Transformation an Wenn das Ziel transformiert wurde steht die berechnete Vorhersagekraft in Beziehung zum transformierten Ziel Hinweis Die Vorhersagekraft Diagramme werden nicht angezeigt wenn kein Ziel definiert wurde oder wenn Sie in der Hauptansicht auf das Ziel klicken Fahren Sie mit der Maus ber das Diagramm um den Wert der Vorhersagekraft anzuzeigen Tabelle Verarbeitungsverlauf Die Tabelle zeigt wie die transformierte Version eines Felds abgeleitet wurde Von ADP durchgef hrte Aktionen werden in der Reihenfolge ihrer Ausf hrung aufgelistet Bei bestimmten Schritten wurden jedoch unter Umst nden mehrere Aktionen f r ein spezielles Feld durchgef hrt Hinweis Die Tabelle wird nur f r transformierte Felder angezeigt Die Informationen in der Tabelle erscheinen in drei Spalten m Stufen Der Name der Stufe Zum Beispiel Stetige Funktionen F r weitere Informationen siehe Aktionsdetails auf S 40 40 Kapitel 4 m Durchgef hrte Aktionen Die Liste der durchgef hrten Verarbeitung Zum Beispiel Zu Standardeinheiten transformieren m Funktion Diese Spalte erscheint nur bei erstellten Funktionen und zeigt die lineare Kombination von Eingabefeldern an zum Beispiel 0 06 Alter 1 21 Gr e Aktionsdetails Abbildung 4 20 ADP Analyse Aktionsdetails Stetige Funktionen Kriterien Anza
118. hetische Datendatei bei der es um eine Kundendatenbank geht die zum Zwecke der Zusendung monatlicher Angebote erworben wurde Neben verschiedenen demografischen Informationen ist erfasst ob der Kunde auf das Angebot geantwortet hat demo_cs_1 sav Hierbei handelt es sich um eine hypothetische Datendatei f r den ersten Schritt eines Unternehmens das eine Datenbank mit Umfrageinformationen zusammenstellen m chte Jeder Fall entspricht einer anderen Stadt Au erdem sind IDs f r Region Provinz Landkreis und Stadt erfasst demo_cs_2 sav Hierbei handelt es sich um eine hypothetische Datendatei f r den zweiten Schritt eines Unternehmens das eine Datenbank mit Umfrageinformationen zusammenstellen m chte Jeder Fall entspricht einem anderen Stadtteil aus den im ersten Schritt ausgew hlten St dten Au erdem sind IDs f r Region Provinz Landkreis Stadt Stadtteil und Wohneinheit erfasst Die Informationen zur Stichprobenziehung aus den ersten beiden Stufen des Stichprobenplans sind ebenfalls enthalten demo_cs sav Hierbei handelt es sich um eine hypothetische Datendatei die Umfrageinformationen enth lt die mit einem komplexen Stichprobenplan erfasst wurden Jeder Fall entspricht einer anderen Wohneinheit Es sind verschiedene Informationen zum demografischen Hintergrund und zur Stichprobenziehung erfasst dmdata sav Hierbei handelt es sich um eine hypothetische Datendatei die Informationen ber Demografie und Eink ufe f r ein Direkt
119. hl der Funktionen Mittelwert SD In Standardeinheiten transformieren Erstellte Funktionen Funktionen die wegen niedrigem Zielzusammenhang ausgeschlossen wurden Funktionen die ausgeschlossen wurden weil sie nach der Einteilung konstant waren Die verkn pfte Ansicht Aktionsdetails wird angezeigt wenn Sie in der Hauptansicht Aktionsiibersicht auf den unterstrichenen Link Beschreibung klicken und enth lt sowohl aktionsspezifische als auch allgemeine Informationen ber jeden durchgef hrten Verarbeitungsschritt Die aktionsspezifischen Informationen erscheinen stets zuerst F r jede Aktion wird die Beschreibung als Titel im oberen Bereich der verkn pften Ansicht verwendet Die aktionsspezifischen Informationen erscheinen unter dem Titel und enthalten unter Umst nden Details zur Anzahl abgeleiteter Funktionen zu umgewandelten Feldern zu Zieltransformationen zu zusammengef hrten oder neu sortierten Kategorien und zu erstellten oder ausgeschlossenen Funktionen Bei der Verarbeitung jeder Aktion kann sich die f r die Verarbeitung verwendete Anzahl an Funktionen ndern wenn beispielsweise Funktionen ausgeschlossen oder zusammengef hrt werden Hinweis Wenn eine Aktion deaktiviert oder kein Ziel angegeben wurde erscheint eine Fehlermeldung anstelle der Aktionsdetails wenn Sie in der Hauptansicht Aktionstibersicht auf den Schritt klicken 41 Automatisierte Datenaufbereitung Es gibt neun m glich
120. hle aus den Men s aus Daten Validierung Regeln definieren Das Dialogfeld wird mit Validierungsregeln f r eine oder mehrere Variablen ausgef llt die aus dem Datenlexikon ausgelesen werden Wenn keine Regeln vorliegen wird automatisch eine neue Regel als Platzhalter erzeugt die Sie nach Bedarf anpassen k nnen W hlen Sie einzelne Regeln auf den Registerkarten Regeln f r eine Variable und Regeln f r mehrere Variablen aus um sich die Eigenschaften anzeigen zu lassen und diese zu ndern 4 Kapitel 2 Definieren von Regeln f r eine Variable Abbildung 2 2 Dialogfeld Validierungsregeln definieren Registerkarte Regeln f r eine Variable E Daten validieren Validierungsregeln definieren Regeln rRegeldefinition Name 0 to 1 Dichotomy Typ oto Numerisch Numerisch Numerisch Numerisch i Numerisch Numerisch n einer Liste G ltige Werte wy i Fi Benutzerdefinierte fehlende Werte zulassen _ Systemdetinierte fehlende Werte zulassen eter _ anerecnen rre _ Auf der Registerkarte Regeln f r eine Variable k nnen Sie Validierungsregeln f r eine Variable erstellen anzeigen lassen und ndern Regeln Die Liste zeigt die Validierungsregeln f r eine Variable nach Namen und Variablentyp auf den die jeweilige Regel angewendet werden kann Wenn Sie das Dialogfeld ffnen werden die im Datenlexikon definierten Regeln angezeigt Fal
121. ht dem Anteil der F lle mit nichtfehlenden Werten der Variablen Maximaler Prozentsatz der Kategorien mit Anzahl 1 Wenn kategoriale Analysevariablen vorhanden sind werden bei dieser Option kategoriale Analysevariablen ausgegeben bei denen der prozentuale Anteil der Kategorien der Variablen die nur einen Fall enthalten 11 Daten validieren den angegebenen Wert bersteigt Der angegebene Wert muss eine positive Zahl kleiner oder gleich 100 sein Minimaler Variationskoeffizient Wenn metrische Analysevariablen vorhanden sind werden bei dieser Option metrische Analysevariablen ausgegeben bei denen der absolute Wert des Variationskoeffizienten kleiner als der angegebene Wert ist Diese Option betrifft nur Variablen mit einem von 0 abweichenden Mittelwert Der angegebene Wert muss eine nichtnegative Zahl sein Durch Angabe von 0 wird die Pr fung des Variationskoeffizienten deaktiviert Minimale Standardabweichung Wenn metrische Analysevariablen vorhanden sind werden bei dieser Option metrische Analysevariablen ausgegeben deren Standardabweichung kleiner als der angegebene Wert ist Der angegebene Wert muss eine nichtnegative Zahl sein Durch Angabe von 0 wird die Pr fung der Standardabweichung deaktiviert Fallbezeichner Wenn Sie auf der Registerkarte Variablen Fallbezeichnervariablen ausgew hlt haben k nnen Sie die folgenden G ltigkeitspr fungen ausw hlen Unvollst ndige IDs markieren Bei dieser Option werden F
122. i speichern damit Sie das Dialogfeld Werte zur cktransformieren verwenden k nnen um Vorhersagewerte des transformierten Ziels zur ck auf ihre urspr ngliche Gr e zu konvertieren gt Klicken Sie auf die Registerkarte Einstellungen und anschlie end auf die Einstellungen Anwenden und speichern 97 Automatisierte Datenaufbereitung Abbildung 8 14 Einstellungen Anwenden und speichern FH Automatische Datenaufbereitung FE Element ausw hlen Datums und Zeitangaben aufbereiten M Transformationen anwenden Transformi n Felder ausschlie en ranstormiente Date Messung anpassen Neue Felder zu aktivem Daten Set hinzuf gen Datenqualit t verbessern Rolen f r analysierte Felder aktualisieren Felder neu skalieren Neues Daten Set oder Datei erstellen Felder transformieren Nicht ana Ausw hlen und erstellen Lage Namensfelder Anwenden und speichern E Transformationen als Syntax speichern te Ti Transformationen als XML speichern naan workingDirectory car_sales_transformations xml Durchsuchen J Entogen _ Zur cksetzen Anirechen __ Hate W hlen Sie Transformationen als XML speichern und klicken Sie auf Durchsuchen um workingDirectory car_sales_transformations xml als den Pfad einzugeben unter dem Sie die Datei f r das Arbeitsverzeichnis speichern m chten Klicken Sie auf Ausf hren Diese Auswahl f hrt zu folgender Befehlssyntax Automatic Data Prep
123. ie Angabe von gebinnten Werten anstelle der tats chlichen Werte in Berichten kann zur Gew hrleistung des Datenschutzes bei Ihren Datenquellen beitragen Die Prozedur Optimales Binning kann eine Orientierung f r die Auswahl der Klassen bieten m Schnellere Durchf hrung Einige Prozeduren sind effizienter wenn sie mit einer reduzierten Anzahl an unterschiedlichen Werten arbeiten So l sst sich beispielsweise die Geschwindigkeit der multinomialen logistischen Regression durch die Verwendung diskretisierter Variablen erh hen m Ermittlung vollst ndiger oder quasi vollst ndiger Datentrennung Optimales Binning im Vergleich zum visuellen Binning In den Dialogfeldern von Visuelles Binning stehen Ihnen mehrere automatische Methoden zur Erstellung von Klassen ohne die Verwendung einer F hrungsvariablen zur Verf gung Diese Regeln f r un berwachtes Binning sind n tzlich f r die Erstellung deskriptiver Statistiken wie beispielsweise H ufigkeitstabellen Optimales Binning ist am besten wenn das Endziel in der Erstellung eines Vorhersagemodells besteht Ausgabe Mit dieser Prozedur werden Tabellen mit Trennwerten f r die Klassen und deskriptive Statistiken f r jede Klassierungs Eingabevariable erstellt Zus tzlich k nnen Sie neue Variablen im aktiven Daten Set speichern die die klassierten Werte der Klassierungs Eingabevariablen enthalten und die Klassierungsregeln als Befehlssyntax zur Verwendung bei der Diskretisierung ne
124. ie Daten enthalten 330 Beobachtungen zu sechs meteorologischen Variablen zur Vorhersage der Ozonkonzentration aus den brigen Variablen Bei fr heren Untersuchungen Breiman als auch Friedman 1985 Hastie als auch Tibshirani 1990 fanden Wissenschaftler einige Nichtlinearit ten unter diesen Variablen die die Standardverfahren bei der Regression behindern pain_medication sav Diese hypothetische Datendatei enth lt die Ergebnisse eines klinischen Tests f r ein entz ndungshemmendes Medikament zur Schmerzbehandlung bei chronischer Arthritis Von besonderem Interesse ist die Zeitdauer bis die Wirkung des Medikaments einsetzt und wie es im Vergleich mit bestehenden Medikamenten abschneidet patient_los sav Diese hypothetische Datendatei enth lt die Behandlungsaufzeichnungen zu Patienten die wegen des Verdachts auf Herzinfarkt in das Krankenhaus eingeliefert wurden Jeder Fall entspricht einem Patienten und enth lt diverse Variablen in Bezug auf den Krankenhausaufenthalt patlos_sample sav Diese hypothetische Datendatei enth lt die Behandlungsaufzeichnungen f r eine Stichprobe von Patienten denen w hrend der Behandlung eines Herzinfarkts Thrombolytika verabreicht wurden Jeder Fall entspricht einem Patienten und enth lt diverse Variablen in Bezug auf den Krankenhausaufenthalt polishing sav Hierbei handelt es sich um die Datendatei Nambeware Polishing Times aus der Data and Story Library Sie bezieht sich auf die Bem hungen
125. ie in der interaktiven Datenaufbereitung Bei der automatischen Datenaufbereitung sind die folgenden zus tzlichen Optionen verf gbar Transformationen anwenden Wird im Dialogfeld der automatischen Datenaufbereitung diese Option deaktiviert werden alle anderen Befehle Anwenden und speichern deaktviert und die Auswahl beibehalten Transformationen als Syntax speichern Mit dieser Option werden die empfohlenen Transformationen als Befehlssyntax in eine externe Datei gespeichert Das Dialogfeld Interaktive Datenaufbereitung enth lt diese Steuerung nicht da es die Transformationen als Befehlssyntax in das Syntaxfenster einf gt wenn Sie auf Einf gen klicken Transformationen als XML speichern Mit dieser Option werden die empfohlenen Transformationen als XML in einer externen Datei gespeichert die mithilfe von TMS MERGE mit der Modell PMML zusammengef hrt oder mithilfe von TMS IMPORT auf ein anderes Daten Set angewendet werden kann Das Dialogfeld Interaktive Datenaufbereitung enth lt diese Steuerung nicht da es die Transformationen als XML speichert wenn Sie in der Symbolleiste im oberen Bereich des Dialogfelds auf XML speichern klicken 31 Automatisierte Datenaufbereitung Registerkarte Analyse Anmerkung Die Registerkarte Analyse wird in der interaktiven Datenaufbereitung verwendet damit Sie die empfohlenen Transformationen berpr fen k nnen Das Dialogfeld Automatische Datenaufbereitung en
126. in Caller Il Long distance last monti Calling card service Eingangsmerkmale nicht in Verwendung lt 1 E E F Konstruiert Die Registerkarte Analyse besteht aus zwei Bereichen der Hauptansicht im linken Bereich und der verkn pften oder Hilfsansicht im rechten Bereich Es gibt drei Hauptansichten m Feldverarbeitungstibersicht Standard F r weitere Informationen siehe Feldverarbeitungs bersicht auf S 32 Felder F r weitere Informationen siehe Felder auf S 33 m Aktions bersicht F r weitere Informationen siehe Aktions bersicht auf S 35 32 Kapitel 4 Es gibt vier verkn pfte Hilfsansichten m Vorhersagekraft Standard F r weitere Informationen siehe Vorhersagekraft auf S 36 Feldertabelle F r weitere Informationen siehe Feldertabelle auf S 37 Felddetails F r weitere Informationen siehe Felddetails auf S 38 Aktionsdetails F r weitere Informationen siehe Aktionsdetails auf S 40 Verkn pfungen zwischen Ansichten In der Hauptansicht steuert unterstrichener Text in den Tabellen die Anzeige in der verkn pften Ansicht Wenn Sie auf den Text klicken erhalten Sie Informationen ber ein bestimmtes Feld ein Set von Feldern oder einen Verarbeitungsschritt Der zuletzt von Ihnen ausgew hlte Link wird in einer dunkleren Farbe angezeigt dies hilft Ihnen dabei die Verbindung zwischen den Inhalten der beiden Ansichtsbereiche zu identifizieren Zur cksetzen
127. in einer Fabrik f r Haarpflegeprodukte geht In regelm igen Zeitabst nden werden Messwerte von sechs separaten Ausgangschargen erhoben und ihr pH Wert erfasst Der Zielbereich ist 4 5 5 5 ships sav Ein an anderer Stelle McCullagh et al 1989 vorgestelltes und analysiertes Daten Set bezieht sich auf die durch Wellen verursachten Sch den an Frachtschiffen Die Vorfallsh ufigkeiten k nnen unter Angabe von Schiffstyp Konstruktionszeitraum und Betriebszeitraum gem einer Poisson Rate modelliert werden Das Aggregat der Betriebsmonate f r jede Zelle der durch die Kreuzklassifizierung der Faktoren gebildeten Tabelle gibt die Werte f r die Risikoanf lligkeit an site sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Unternehmens geht neue Standorte f r die betriebliche Expansion auszuw hlen Das Unternehmen beauftragte zwei Berater unabh ngig voneinander mit der Bewertung der Standorte Neben einem umfassenden Bericht gaben die Berater auch eine zusammenfassende Wertung f r jeden Standort als good gut fair mittelm ig oder poor schlecht ab siteratings sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Betatests der neuen Website eines E Commerce Unternehmens geht Jeder Fall entspricht einem Beta Tester der die Brauchbarkeit der Website auf einer Skala von 0 bis 20 bewertete smokers sav Diese Datendatei wurde aus der Umfrage
128. in thousands Haushaltseinkommen in Tausend job start date day L Transformiert i i Es job_start date month E W hlen Sie in der Ansicht Felder Nicht verwenden aus der Dropdown Liste Zu verwendende Version in der Zeile job_start_date_day F hren Sie diesen Vorgang bei allen Feldern mit dem Suffix _day und _month durch Klicken Sie auf reside in der Ansicht Felder 94 Kapitel 8 Abbildung 8 12 Felddetails fur Household income in thousands Haushaltseinkommen in Tausend Details f r Number of people in household Transformiert Original Discriminant Verteilung Schiefe 1 11 4 500 I SD 1 45 0 0 2 4 6 8 10 12 Fehlende Werte definieren Vorhersagekraft 00 02 04 06 08 10 00 02 04 06 08 10 I Ee Wird verarbeitet Schritt Durchgef hrte Aktionen Ausrei er Ausrei er entfernen Stetige In Standardeinheiten Funktionen transformieren Mittelwert 0 Name des transformierten Felds reside_transformed Die Felddetailsanzeige Number of people in household Haushaltsgr e zeigt ein interessantes und etwas ungew hnliches Ergebnis Den Vorhersagekraft Diagrammen zufolge weist das transformierte Feld tats chlich eine geringf gig niedrigere Vorhersagekraft als das originale Feld auf W hlen Sie in der Ansicht Felder aus der Dropdown Liste Zu verwendende Version in der Zeile reside die Option Original In Anbetracht der Tatsache dass Number of pe
129. inden Sie Kurzbeschreibungen der in den verschiedenen Beispielen in der Dokumentation verwendeten Beispieldateien m accidents sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die alters und geschlechtsabh ngige Risikofaktoren f r Autounf lle in einer bestimmten Region untersucht Jeder Fall entspricht einer Kreuzklassifikation von Alterskategorie und Geschlecht m adl sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bem hungen geht die Vorteile einer vorgeschlagenen Therapieform f r Schlaganfallpatienten zu ermitteln rzte teilten weibliche Schlaganfallpatienten nach dem Zufallsprinzip jeweils einer von zwei Gruppen zu Die erste Gruppe erhielt die physische Standardtherapie die zweite erhielt eine zus tzliche Emotionaltherapie Drei Monate nach den Behandlungen wurden die F higkeiten der einzelnen Patienten bliche Alltagsaktivit ten auszuf hren als ordinale Variablen bewertet m advert sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Einzelh ndlers geht die Beziehungen zwischen den in Werbung investierten Betr gen und den daraus resultierenden Ums tzen zu untersuchen Zu diesem Zweck hat er die Ums tze vergangener Jahre und die zugeh rigen Werbeausgaben zusammengestellt m aflatoxin sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Tests von Maisernten auf
130. ingegeben werden Im Dialogfeld Daten validieren kann die Analytikerin die Variablen angeben durch die Kunden eindeutig identifiziert werden Regeln f r g ltigen Wertebereiche einzelner Variablen definieren und Regeln zum Erkennen unm glicher Kombinationen f r mehrere Variablen definieren Die Prozedur liefert einen Bericht der Problemf lle und variablen Dar ber hinaus weisen die Daten in jedem Monat die gleichen Datenelemente auf sodass die Analytikerin in der Lage ist die Regeln im folgenden Monat auf die neue Datendatei anzuwenden Statistiken Die Prozedur erzeugt Listen von Variablen F llen und Datenwerten die verschiedene Pr fungen nicht bestehen H ufigkeiten der Verletzung von Regeln f r einzelne oder mehrere Variablen sowie einfache deskriptive Auswertungen der Analysevariablen Gewichtungen Die Prozedur ignoriert Angaben zur Gewichtungsvariablen und behandelt diese stattdessen wie jede andere Analysevariable So validieren Sie Daten W hlen Sie die folgenden Befehle aus den Men s aus Daten Validierung Daten validieren 9 Daten validieren Abbildung 3 1 Dialogfeld Daten validieren Registerkarte Variablen Daten validieren x Ya runden Pr fungen Regeln tr ene Variasie Regenn far mehrer Var Aves Speichern Variablen Analysevariablen d Hospital size hospsize amp age in years age ofl Age category fagecat amp Gender gender amp gt Physically active active
131. inition von O to 100 by 5 E Daten vatidieren 0 M Van rungen rungen Regeln t r ene Variable Regen f r metere Variablen _ Ausgabe Speicher Um Regeln einer Yariablen zuzuweisen w hlen Sie die Variable aus und aktivieren eine oder mehrere Regeln Die Liste Analysevariablen zeigt Verteilungen nichtfehlender Werte aufgrund des Durchsuchens der Daten Die Liste Regeln zeigt alle Regeln die den ausgew hlten Variablen zugewiesen werden k nnen Analysevariablen Regeln Zuweisen E Name Oto 1 Dichotomy Barthel index at 1 month b Oto 2 Categorical Oto 3 Categorical Barthel index at 3 months 1 to 4 Categorical P Nonnegative integer Nonnegative number 1 to 3 Categorical Oto 5 Categorical Barthel index at 6 months Recoded Barthel index at 1 Recoded Barthel index at 3 Anzeigen Alle variablen Durchsuchte F lle 1183 Variablenverteilungen 4 Durchsuchte Anzahl der F lle begrenzen F lle Erneut durchsuchen Begrenzen der durchsuchten F lle hat keinen Einfluss auf die Anzahl der validierten F lle Jetzt m ssen Sie die definierten Regeln Variablen zuordnen Wenden Sie 1 to 3 Categorical auf Hospital size an Wenden Sie 0 to 5 Categorical auf Initial Rankin score sowie die Variablen von Rankin score at 1 month bis Rankin score at 6 months an gt Wenden Sie 0 to 100 by 5 auf die Variablen von Barthel index at 1 mon
132. ionen mit stetigem Ziel oder Eingabefunktionen in denen kein Ziel vorhanden ist Namensfelder Abbildung 4 10 Automatisierte Datenaufbereitung Namensfelder Einstellungen Transformierte und erstellte Felder Namenserweiterung f r transformiertes Ziel Namenserweiterung f r transformierte Eingabe feature Berechnete Dauer Namenseryeiterung f r die aus Datumsangaben berechnete Dauer Jahre _months _days Namenserweiterung f r die aus Zeitangaben berechnete Dauer Stunden _minutes _seconds Extrahierte zyklische Zeitelemente Namenserweiterung f r aus Datumsangaben extrahierte zyklische Elemente year _month _day Namenserweiterung f r aus Zeitangaben extrahierte zyklische Elemente _hour _minute _second Zur einfachen Identifikation neuer und transformierter Funktionen erstellt ADP allgemeine neue Namen Pr fixe oder Suffixe und wendet diese an Sie k nnen diese Namen ndern und ihnen mehr Aussagekraft f r Ihre eigenen Anforderungen und Daten geben Transformierte und erstellte Felder Geben Sie die Namenserweiterungen an die auf transformierte Ziel und Eingabefelder angewendet werden sollen Geben Sie au erdem ber die Einstellungen Ausw hlen und erstellen den Pr fixnamen an der auf erstellte Funktionen angewendet werden soll Der neue Name wird erstellt indem ein numerisches Suffix an diesen Pr fix Stammnamen angeh ngt wird Das Zahlenformat h ngt davon ab wie viele neue Funktionen abge
133. itel 4 bleiben werden dann f r die Modellierung empfohlen w hrend Eingaben zu transformierten und erstellten Funktionen durch Filterung ausgeschlossen werden Die Aktions bersicht ist eine einfache Tabelle in der die von der ADP vorgenommenen Verarbeitungsaktionen aufgelistet sind Klicken Sie auf den unterstrichenen Link Beschreibung um in einer verkn pften Ansicht weitere Informationen ber die durchgef hrten Schritte anzuzeigen F r weitere Informationen siehe Aktionsdetails auf S 40 Hinweis Es werden nur die Original und endg ltigen transformierten Versionen jedes Felds angezeigt jedoch keine w hrend der Analyse verwendeten Zwischenversionen Vorhersagekraft Abbildung 4 17 Vorhersagekraft F r die Verwendung in der Analyse empfohlene Merkmale Vorhersagekraft Ziel marital Months with service all Geographic indicator FA Months with service Wird standardm ig bei der ersten Ausf hrung der Analyse angezeigt Wenn Sie dagegen Empfohlene Funktionen f r den Einsatz in Analysen in der Hauptansicht Feldverarbeitungs bersicht ausw hlen zeigt das Diagramm die Vorhersagekraft der empfohlenen Funktionen an Felder werden nach Vorhersagekraft sortiert wobei das Feld mit dem h chsten Wert zuerst erscheint Bei transformierten Versionen gew hnlicher Funktionen gibt der Feldname Ihre Suffixauswahl im Bereich Feldnamen auf der Registerkarte Einstellungen an zum Beispiel _transfo
134. l In einer weiterf hrenden Analyse k nnten Sie untersuchen welche Auswirkungen es hat wenn Sie eine gr ere Anzahl von Gruppen erzwingen oder Sie k nnten eine Analyse durchf hren die nur auf den berlebenden Patienten beruht Verwandte Prozeduren Die Prozedur Ungew hnliche F lle identifizieren ist n tzlich um anomale F lle in einer Datendatei aufzudecken m Mit der Prozedur Daten validieren k nnen verd chtige und ung ltige F lle Variablen und Datenwerte in der Arbeitsdatei identifiziert werden Kapitel Optimales Klassieren Die Prozedur Optimales Klassieren diskretisiert eine oder mehrere metrische Variablen als Klassierungs Eingabevariablen bezeichnet indem die Werte der einzelnen Variablen auf verschiedene Klassen verteilt werden Die Klassenbildung ist in Bezug auf eine kategoriale F hrungsvariable optimal die den Klassierungsvorgang berwacht Bei Prozeduren bei denen kategoriale Variablen erforderlich oder vorzuziehen sind k nnen dann anstatt der urspr nglichen Datenwerte die Klassen zur weiteren Analyse verwendet werden Der Algorithmus f r optimales Klassieren Die Grundschritte f r den Algorithmus f r optimales Klassieren lassen sich wie folgt charakterisieren Vorverarbeitung optional Die Klassierungs Eingabevariable wird in n Klassen unterteilt den Wert f r n geben Sie selbst an wobei jede Klasse gleich viele F lle enth lt bzw ann hernd gleich viele F lle wenn
135. l von Gruppen Prozentsatz der F lle mit den h chsten ae Anomalie Indexwerten Minimum Feste Anzahl von F llen mit den h chsten Anomalie Indexwerten Anzahl E Nur F lle identifizieren deren Anomalie Index gr er oder gleich einem Minimalwert ist Trennwert Maximale Anzahl von Gr nden Geben Sie an wie viele Gr nde ausgegeben und falls Grundvariablen gespeichert werden der Arbeitsdatei hinzugef gt werden Der Wert wird nach unten korrigiert wenn er die Anzahl der Analysevariablen bersteigt a _ent gen _ Zu ctetzen Abtrecten J e Geben Sie als Prozentsatz der F lle die als anomal betrachtet werden sollen den Wert 2 ein gt Deaktivieren Sie Nur F lle identifizieren deren Anomalie Index gr er oder gleich einem Minimalwert ist gt Geben Sie als maximale Anzahl von Gr nden den Wert 3 ein Klicken Sie auf OK Zusammenfassung der Fallverarbeitung Abbildung 9 6 Zusammenfassung der Fallverarbeitung vonkombiniert von gesamt Gruppen ID 1 2 3 Kombiniert Gesamt Jeder Fall wird in eine Gruppe hnlicher F lle aufgenommen Die Zusammenfassung der Fallverarbeitung zeigt wie viele Gruppen erstellt wurden sowie die Anzahl und den Prozentsatz von F llen in jeder Gruppe 114 Kapitel 9 Liste der Indizes anomaler F lle Abbildung 9 7 Liste der Indizes anomaler F lle Anomaly Index 843 7840326167 510 0714726620 623 6553808330 501
136. lassen Hiermit wird festgelegt ob benutzerdefinierte fehlende Werte als ung ltig gekennzeichnet werden m Systemdefinierte fehlende Werte zulassen Hiermit wird festgelegt ob systemdefinierte fehlende Werte als ung ltig gekennzeichnet werden Dies gilt nicht f r Regeln f r Strings m Leere Werte zulassen Hiermit wird festgelegt ob leere String Werte als ung ltig gekennzeichnet werden Dies gilt nur f r Regeln f r Strings Definieren von Regeln f r mehrere Variablen Abbildung 2 5 Dialogfeld Validierungsregeln definieren Registerkarte Regeln f r mehrere Variablen H Daten validieren Validierungsregeln definieren rRegeldefinition doa 1 amp dhosp 1 variablen 6a Hospital ID hospid da Patient ID patid Age in years age amp Gender gender amp Obesity obesity amp Blood pressure bp amp Atrial fibrillation af Hospital size hosp amp Physically active a amp History of diabetes A Attending physician al Age category agec ha Name ZweimalGestorben Logischer Ausdruck muss bei einem ung ltigen Fall 1 entsprechen ia i i at a ia a i i i a Gi r Funktionen und Sondervariablen Funktion Beschreibung Auf der Registerkarte Regeln f r mehrere Variablen k nnen Sie Validierungsregeln f r mehrere Variablen erstellen anzeigen lassen und ndern Regeln Die Liste enth lt die Validierungsregeln
137. ldern zusammenf hren Die Methode der 27 Automatisierte Datenaufbereitung gleichen H ufigkeiten wird verwendet um Kategorien mit weniger als dem angegebenen Mindestprozentsatz der Gesamtanzahl an Datens tzen zusammenzuf hren Geben Sie einen Wert gr er oder gleich 0 und kleiner als 100 ein Der Standardwert ist 10 Die Zusammenf hrung wird beendet wenn keine Kategorien mit weniger als dem angegebenen Mindestprozentsatz an F llen vorhanden sind oder wenn nur noch zwei Kategorien brig sind Stetige Eingabefelder Wenn das Daten Set ein kategoriales Ziel enth lt k nnen Sie stetige Eingaben mit starkem Zusammenhang einteilen um die Verarbeitungsleistung zu verbessern Klassen werden anhand der Eigenschaften homogener Untergruppen erstellt die durch die Scheff Methode mithilfe des angegebenen p Werts als Alpha f r den kritischen Wert zur Bestimmung homogener Untergruppen identifiziert werden Geben Sie einen Wert gr er als 0 und kleiner oder gleich 1 ein Der Standardwert ist 0 05 Wenn in dem Klassierungsvorgang eine einzelne Klassierung f r ein bestimmtes Feld durchgef hrt wird werden die Original und eingeteilten Versionen des Felds ausgeschlossen da sie keinen Wert als Einflussvariable aufweisen Hinweis Die Klassierung in ADP unterscheidet sich von der optimalen Klassierung Bei der optimalen Klassierung werden Entropieinformationen verwendet um ein stetiges Feld in ein kategoriales Feld umzuwandeln dazu m
138. le anderen Datums und Zeiteingaben deaktiviert und die Auswahl beibehalten Verstrichene Zeit bis zum Referenzdatum berechnen Errechnet die Anzahl der Jahre Monate Tage seit einem Referenzdatum f r jede Variable die Datumsangaben enth lt m Referenzdatum Geben Sie das Datum an ab dem die Dauer bez glich der Datumsinformationen in den Eingabedaten berechnet wird Durch die Auswahl von Heutiges Datum wird das aktuelle Systemdatum stets verwendet wenn ADP ausgef hrt wird Um ein bestimmtes Datum zu verwenden w hlen Sie Festes Datum und geben Sie das erforderliche Datum ein Einheiten f r Datumsdauer Legen Sie fest ob ADP die Einheit der Datumsdauer automatisch bestimmen soll oder w hlen Sie Feste Einheiten f r Jahre Monate oder Tage 22 Kapitel 4 Verstrichene Zeit bis zur Referenzzeit berechnen Errechnet die Anzahl der Stunden Minuten Sekunden seit einer Referenzzeit f r jede Variable die Uhrzeiten enth lt m Referenzzeit Geben Sie die Zeit an ab der die Dauer bez glich der Zeitinformationen in den Eingabedaten berechnet wird Durch die Auswahl von Aktuelle Uhrzeit wird die aktuelle Systemzeit stets verwendet wenn ADP ausgef hrt wird Um eine bestimmte Uhrzeit zu verwenden w hlen Sie Feste Uhrzeit und geben Sie die erforderlichen Daten ein m Einheiten f r Zeitdauer Legen Sie fest ob ADP die Einheit der Zeitdauer automatisch bestimmen soll oder w hlen Sie Feste Einheiten f r Stunden Minuten oder Seku
139. leitet werden zum Beispiel m Es werden 1 9 erstellte Funktionen benannt Funktion bis Funktion m Es werden 10 99 erstellte Funktionen benannt Funktion01 bis Funktion99 m Es werden 100 999 erstellte Funktionen benannt Funktion001 bis Funktion999 usw 29 Automatisierte Datenaufbereitung So wird gew hrleistet dass die erstellten Funktionen ungeachtet ihrer Anzahl in einer vern nftigen Reihenfolge sortiert werden Berechnete Dauer Geben Sie die Namenserweiterungen an die auf die aus Datums und Zeitangaben berechnete Dauer angewendet werden sollen Extrahierte zyklische Zeitelemente Geben Sie die Namenserweiterungen an die auf die aus Datums und Zeitangaben extrahierten zyklischen Elemente angewendet werden sollen Transformationen anwenden und speichern Jenachdem ob Sie die Dialogfelder f r interaktive oder automatische Datenaufbereitung verwenden weichen die Einstellungen zum Anwenden und Speichern von Transformationen leicht voneinander ab Interaktive Datenaufbereitung Transformationen anwenden Einstellungen Abbildung 4 11 Interaktive Datenaufbereitung Transformationen anwenden Einstellungen Transformierte Daten Neue Felder zu aktivem Daten Set hinzuf gen Fi Rollen f r analysierte Felder aktualisieren Neues Daten Set oder Datei erstellen 4 Lage Q Transformierte Daten Diese Einstellungen legen den Speicherort der transformierten Daten fest m Neue Felder zu aktivem Daten Set hinzuf
140. lichkeit den Kredit nicht zur ckzahlen k nnen Diese interessante Beobachtung ist sehr wertvoll wenn es darum geht Vorhersagemodelle f r die Wahrscheinlichkeit der Zahlungsunf higkeit zu erstellen Wenn die Vermeidung uneinbringlicher Forderungen das Hauptanliegen ist ist die Variable Credit card debt in thousands Schulden auf Kreditkarte in Tausend wichtiger als Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber und Years at current address Wohnhaft an gleicher Adresse in Jahren Wenn die Erweiterung des Kundenstamms oberste Priorit t hat sind die Variablen Years with current employer Jahre der Besch ftigung beim derzeitigen Arbeitgeber und Years at current address Wohnhaft an gleicher Adresse in Jahren von gr erer Bedeutung Anhang A Beispieldateien Die zusammen mit dem Produkt installierten Beispieldateien finden Sie im Unterverzeichnis Samples des Installationsverzeichnisses F r jeder der folgenden Sprachen gibt es einen eigenen Ordner innerhalb des Unterverzeichnisses Samples Englisch Franz sisch Deutsch Italienisch Japanisch Koreanisch Polnisch Russisch Vereinfachtes Chinesisch Spanisch und Traditionelles Chinesisch Nicht alle Beispieldateien stehen in allen Sprachen zur Verf gung Wenn eine Beispieldatei nicht in einer Sprache zur Verf gung steht enth lt der jeweilige Sprachordner eine englische Version der Beispieldatei Beschreibungen Im Folgenden f
141. ls gegenw rtig keine Regel definiert ist wird eine Platzhalter Regel mit dem Namen EinVarRegel 1 angezeigt Unter der Liste Regeln werden folgende Schaltfl chen angezeigt m Neu F gt einen neuen Eintrag am Ende der Liste Regeln hinzu Die Regel wird ausgew hlt und erh lt den Namen EinVarRegel n Hierbei ist n eine Ganzzahl sodass der Name der Regel unter den Regeln f r eine oder mehrere Variablen eindeutig ist Duplizieren F gt eine Kopie der ausgew hlten Regel am Ende der Liste Regeln hinzu Der Name der Regel wird so angepasst dass er unter den Regeln f r eine oder mehrere Variablen eindeutig ist Wenn Sie beispielsweise EinVarRegel 1 duplizieren erh lt die erste duplizierte Regel den Namen Kopie von EinVarRegel 1 die zweite den Namen Kopie 2 von EinVarRegel 1 usw m L schen L scht die ausgew hlte Regel 5 Validierungsregeln Regeldefinition Mit diesen Steuerelementen k nnen Sie die Eigenschaften f r eine ausgew hlte Regel anzeigen lassen und festlegen m Name Der Name der Regel muss unter den Regeln f r eine oder mehrere Variablen eindeutig sein m Typ Dies ist der Variablentyp auf den die Regel angewendet werden kann W hlen Sie Numerisch String oder Datum aus m Format Hiermit k nnen Sie das Datumsformat f r die Regeln ausw hlen die auf Datumsvariablen angewendet werden k nnen m G ltige Werte Sie k nnen die g ltigen Werte als Bereich o
142. marketing Unternehmen enth lt dietstudy sav Diese hypothetische Datendatei enth lt die Ergebnisse einer Studie der Stillman Di t Rickman Mitchell Dingman als auch Dalen 1974 Jeder Fall entspricht einem Teilnehmer und enth lt dessen Gewicht vor und nach der Di t in amerikanischen Pfund sowie mehrere Messungen des Triglyceridspiegels in mg 100 ml dischargedata sav Hierbei handelt es sich um eine Datendatei zum Thema Seasonal Patterns of Winnipeg Hospital Use Menec Roos Nowicki MacWilliam Finlayson als auch Schwarz 1999 Saisonale Muster der Belegung im Krankenhaus von Winnipeg vom Manitoba Centre for Health Policy dvdplayer sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Entwicklung eines neuen DVD Spielers geht Mithilfe eines Prototyps hat das Marketing Team Zielgruppendaten erfasst Jeder Fall entspricht einem befragten Benutzer und enth lt demografische Daten zu dem Benutzer sowie dessen Antworten auf Fragen zum Prototyp flying sav Diese Datendatei enth lt die Flugmeilen zwischen zehn St dten in den USA 144 Anhang A german_credit sav Diese Daten sind aus dem Daten Set German credit im Repository of Machine Learning Databases Blake als auch Merz 1998 an der Universit t von Kalifornien in Irvine entnommen grocery_1month sav Bei dieser hypothetischen Datendatei handelt es sich um die Datendatei grocery_coupons sav wobei die w chentlichen Eink u
143. mierten Werte enth lt erh lt die Bezeichnung PRE_2_backtransformed m Mit dem Befehl EXECUTE werden die Transformationen verarbeitet Wenn Sie den Befehl EXECUTE als Teil eines l ngeren Syntaxstroms verwenden k nnen Sie ihn entfernen um Verarbeitungszeit zu sparen 107 Automatisierte Datenaufbereitung Zusammenfassung Mithilfe der automatisierten Datenaufbereitung erhalten Sie schnelle Datentransformationen die Ihr Modell verbessern k nnen Wenn das Ziel transformiert ist K nnen Sie die Transformationen als XML Datei speichern und das Dialogfeld Werte zur cktransformieren nutzen um die Vorhersagewerte f r das transformierte Ziel zur ck auf die urspr ngliche Gr e zu transformieren Kapitel Ungew hnliche F lle identifizieren Die Prozedur Anomalie Erkennung sucht anhand von Abweichungen von den Normwerten der Gruppe nach ungew hnlichen F llen Die Prozedur wurde f r die Datenpr fung in der explorativen Datenanalyse konzipiert Zweck der Prozedur ist das schnelle Erkennen von ungew hnlichen F llen bevor mit anderen Analysen Schl sse aus den Daten gezogen werden Dieser Algorithmus dient der Erkennung von allgemeinen Anomalien Dies bedeutet dass sich die Definition eines anomalen Falls nicht auf eine bestimmte Anwendung beschr nkt bei der Anomalien sehr treffend definiert werden k nnen z B beim Erkennen von ungew hnlichen Zahlungsmustern im Gesundheitswesen oder beim Aufdecken von Geldw sc
144. n anscheinend Variablen die in Bezug auf die Anzahl der unterschiedlichen Kategorien eine gr ere Anzahl an generierten Klassen aufweisen niedrigere Werte bei der Modellentropie Es sollte eine weitere Auswertung dieser Klassierungs Eingabevariablen als Einflussvariablen durchgef hrt werden Hierf r sollten Prozeduren f r Vorhersagemodelle verwendet werden bei denen eine gr ere Palette an Werkzeugen f r die Variablenauswahl zur Verf gung steht 131 Optimales Klassieren Klassierungs Zusammenfassungen Die Klassierungs Zusammenfassung gibt die Grenzen der generierten Klassen und die H ufigkeitsz hlung f r die einzelnen Klassen anhand der Werte der F hrungsvariablen wieder F r jede Klassierungs Eingabevariable wird eine gesonderte Tabelle mit der Klassierungs Zusammenfassung erstellt Abbildung 10 6 Klassierungs Zusammenfassung f r Age in Years Alter in Jahren Anzahl der F lle nach Nivau von Endpunkt rem defaulted Klasse Minimum Maximum Yes Gesamt 1129 1768 2615 3232 Gesamt 3744 1256 5000 Jede Klasse wird wie folgt berechnet Minimum lt Age in years lt Maximum a Unbegrenzt Die Zusammenfassung f r Age in years Alter in Jahren zeigt dass 1768 Kunden alle im Alter von 32 Jahren oder darunter in Klasse 1 eingeteilt wurden w hrend die brigen 3232 Kunden deren Alter jeweils mehr als 32 Jahre betr gt alle in Klasse 2 eingeteilt wurden Der Anteil der Kunden die schon einmal einen
145. n betr gt daher 1 38 0 026 Das Einflussma der Variable cost f r Fall 843 betr gt 0 411 was relativ gesehen gro ist Der Wert von cost f r Fall 843 ist 200 51 der Durchschnitt f r die F lle in Gruppe 3 ist 19 83 Im Dialogfeld wurde festgelegt dass Ergebnisse f r die ersten drei Gr nde ausgegeben werden sollen gt Um die Ergebnisse f r die anderen Gr nde anzuzeigen doppelklicken Sie auf die Tabelle Verschieben Sie Grund aus der Schichtendimension in die Zeilendimension 117 Abbildung 9 10 Liste der Gr nde anomaler F lle die ersten 8 F lle patid Grund Variablen Yariablen Yariablen Pinflussung wert Normwert der Yariablen 7840326167 7840326167 7840326167 0714726620 0714726620 0714726620 cost 200 51 barthel1 rankint cost barthel1 rehab 19 83 Missing Value Missing Value 19 83 Missing Value Missing Value ON lo n lo NM elu NY nm Il m on 6553808330 6553808330 6553808330 6461046805 6461046805 6461046805 1077125669 1077125669 1077125669 2260043998 2260043998 2260043998 4030164769 4030164769 4030164769 cost surgery barthel1 barthel1 rehab rankin1 cost barthel1 rehab cost barthel1 rehab barthel1 rankint rechart1 19 83 Missing Value Missing Value Missing Value Missing Value Missing Value 19 83 Missing Value Missing Value 19 83 Missing Yalue Missing Yalue Missing Yalue Missing Yalue
146. n die maximale Anzahl von Gr nden auf der Registerkarte Optionen auf 0 festgelegt wurde steht diese Option nicht zur Verf gung m Verarbeitete F lle Die Zusammenfassung der Fallverarbeitung enth lt H ufigkeiten und H ufigkeiten in Prozent f r alle F lle in der Arbeitsdatei die in die Analyse aufgenommenen und ausgeschlossenen F lle und die F lle in jeder Gruppe Ungew hnliche F lle identifizieren Speichern Abbildung 5 3 Dialogfeld Ungew hnliche F lle identifizieren Registerkarte Speichern Ef Ungew hnliche F lle identifizieren Veen Ausgabe pechem Folie Ontnen r Yariablen speichern Fi Anomalie Index Name AnomalylIndex Misst die Ungews hnlichkeit eines Falls in Bezug auf die Angeh rigen seiner Gruppe F r jede Gruppe werden drei Variablen gespeichert ID Fallanzahl und Gr e als Prozentsatz der F lle in der Analyse Gr nde Stammname Reason F r jeden Grund werden vier Variablen gespeichert Name der Grundvariablen Wert der Grundyariablen Normyvert der Gruppe und Einflussma f r die Grundvariable Al Bestehende Variablen ersetzen die denselben Namen oder Stammnamen aufweisen rModelldatei exportieren ET Cte Gaetano Aeon C me Variablen speichern Mithilfe der Steuerelemente in diesem Gruppenfeld k nnen Sie Modellvariablen in der Arbeitsdatei speichern Sie k nnen auch festlegen dass vorhandene Variablen ersetzt werden deren Namen mit den zu
147. n hat eine sehr schiefe Verteilung was der Fall sein kann wenn der Standardtrennwert bei der Bestimmung von Ausrei ern zu aggressiv ist Auff llig ist auch der Anstieg in der Vorhersagekraft des transformierten Felds gegen ber dem originalen Feld Es scheint sich um eine n tzliche Transformation zu handeln Klicken Sie in der Ansicht Felder auf job_start_date_day Tag des Arbeitsbeginns Hinweis Nicht zu verwechseln mit job_start_date_days Tage seit Arbeitsbeginn 92 Kapitel 8 Abbildung 8 10 Felddetails f r job_start_date_day Details f r job_start_date_day Verteilung 1 200 800 400 Schiefe 0 02 SD 1 00 Fehlende Werte definieren Vorhersagekraft 0 0 0 2 0 4 0 6 0 8 1 0 SS Wird verarbeitet Schritt Durchgefiihrte Aktionen Datums und Datumselemente ableiten Uhrzeitfunktionen Tag Typ von sortiertem in Typ berpr fen stetiges Set ndern Ausrei er Ausrei er entfernen In Standardeinheiten transformieren Stetige Funktionen Das Feld job_start_date_day ist der extrahierte Tag aus Employment starting date job_start_date Besch ftigungsbeginn Es ist hochgradig unwahrscheinlich dass dieses Feld eine tats chliche Aussagekraft dar ber hat ob ein Anspruch betr gerisch ist und daher m chte es die Versicherungsgesellschaft nicht in die Modellerstellung einbeziehen 93 Automatisierte Datenaufbereitung Abbildung 8 11 Felddetails fur Household income
148. n x Veen Ausgabe SPechen Felndewee tone r Variablen in Arbeitsdatei speichern iM Variablen erstellen die Klassenwerte enthalten Su f r Ausgabevariabiere F r jede Yariable f r die die Klassierung erfolgt wird genau eine Yariable erstellt Die Namen der Ausgabevariablen werden durch Anf gen eines Unterstrichs und des Suffixes an den Namen der urspr nglichen Yariablen erstellt Beispiel Alter_Klasse E vorhandene Variablen mit demselben Namen ersetzen rKlassierungsregeln als Syntax speichern Um Klassierungsregeln zu speichern geben Sie eine Datei an Sie k nnen die gespeicherte Syntax f r die Klassierung von F llen verwenden die zum Zeitpunkt der Klassenerstellung noch nicht verf gbar sind Variablen in Arbeitsdatei speichern In der weiteren Analyse k nnen anstelle der urspr nglichen Variablen Variablen verwendet werden die die gebinnten Datenwerte enthalten Klassierungsregeln als Syntax speichern Generiert Befehlssyntax die f r die Klassierung von anderen Daten Sets verwendet werden kann Die Umkodierungsregeln beruhen auf den vom Klassierungsalgorithmus bestimmten Trennwerten 56 Kapitel 6 Optimales Binning Fehlende Werte Abbildung 6 4 Dialogfeld Optimales Binning Registerkarte Fehlende Werte E Optimales Klassieren r F lle mit fehlenden Werten ausschlie en Paarweise Nutzt bei der Klassierung mehrerer Variablen so viele F lle wie m glich Li
149. nal zur Gr e verwendet wird gibt es au erdem eine Datei mit den gemeinsamen Auswahlwahrscheinlichkeiten recidivism_cs_jointprob sav rfm_transactions sav Eine hypothetische Datendatei mit Kauftransaktionsdaten wie Kaufdatum gekauften Artikeln und Geldbetrag f r jede Transaktion salesperformance sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bewertung von zwei neuen Verkaufsschulungen geht 60 Mitarbeiter die in drei Gruppen unterteilt sind erhalten jeweils eine Standardschulung Zus tzlich erh lt Gruppe 2 eine technische Schulung und Gruppe 3 eine Praxisschulung Die einzelnen Mitarbeiter wurden am Ende der Schulung einem Test unterzogen und die erzielten Punkte wurden erfasst Jeder Fall in der Datendatei stellt einen Lehrgangsteilnehmer dar und enth lt die Gruppe der der Lehrgangsteilnehmer zugeteilt wurde sowie die von ihm in der Pr fung erreichte Punktzahl satisf sav Hierbei handelt es sich um eine hypothetische Datendatei zu einer Zufriedenheitsumfrage die von einem Einzelhandelsunternehmen in 4 Filialen durchgef hrt wurde Insgesamt wurden 582 Kunden befragt Jeder Fall gibt die Antworten eines einzelnen Kunden wieder 148 Anhang A screws sav Diese Datendatei enth lt Informationen zu den Eigenschaften von Schrauben Bolzen Muttern und Rei n geln Hartigan 1975 shampoo_ph sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle
150. nd Kim Rosenberg als auch Kim 1975 haben 15 Bezeichnungen f r den Verwandtschaftsgrad untersucht Tante Bruder Cousin Tochter Vater Enkelin Gro vater Gro mutter Enkel Mutter Neffe Nichte Schwester Sohn Onkel Die beiden Analytiker baten vier Gruppen von College Studenten zwei weibliche und zwei m nnliche Gruppen diese Bezeichnungen auf der Grundlage der hnlichkeiten zu sortieren Zwei Gruppen eine weibliche und eine m nnliche Gruppe wurden gebeten die Bezeichnungen zweimal zu sortieren die zweite Sortierung sollte dabei nach einem anderen Kriterium erfolgen als die erste So wurden insgesamt sechs Quellen erzielt Jede Quelle entspricht einer hnlichkeitsmatrix mit 15 x 15 Elementen Die Anzahl der Zellen ist dabei gleich der Anzahl der Personen in einer Quelle minus der Anzahl der gemeinsamen Platzierungen der Objekte in dieser Quelle kinship_ini sav Diese Datendatei enth lt eine Ausgangskonfiguration f r eine dreidimensionale L sung f r kinship_dat sav kinship_var sav Diese Datendatei enth lt die unabh ngigen Variablen gender Geschlecht gener Generation und degree Verwandtschaftsgrad die zur Interpretation der Dimensionen einer L sung f r kinship_dat sav verwendet werden k nnen Insbesondere k nnen sie verwendet werden um den L sungsraum auf eine lineare Kombination dieser Variablen zu beschr nken mailresponse sav Hierbei handelt es sich um eine hypothetische Datendatei in der es um
151. nd Zeitfelder sowie erstellte Funktionen werden die Diagramme nur f r die neue Funktion angezeigt Hinweis Wenn ein Feld wegen zu vieler Kategorien ausgeschlossen wurde wird nur der Verarbeitungsverlauf angezeigt 39 Automatisierte Datenaufbereitung Verteilungsdiagramm Die Verteilung stetiger Felder wird als Histogramm angezeigt mit einer berlagerten Normalverteilungskurve und einer vertikalen Referenzlinie f r den Mittelwert kategoriale Felder werden als Balkendiagramm angezeigt Die Histogramme werden nach Standardabweichung und Schiefe bezeichnet allerdings wird Letztere nicht angezeigt wenn die Anzahl der Werte kleiner gleich 2 oder die Varianz des originalen Felds kleiner als 10 20 ist Fahren Sie mit der Maus ber das Diagramm um entweder den Mittelwert f r Histogramme oder die Z hlung und den Prozentsatz der Gesamtzahl der Datens tze f r Kategorien in Balkendiagrammen anzuzeigen Diagramm fehlender Werte Kreisdiagramme vergleichen den Prozentsatz fehlender Werte mit und ohne angewendete Transformationen die Diagrammbeschriftungen zeigen den Prozentsatz an Wenn ADP die Behandlung fehlender Werte durchgef hrt hat enth lt das Kreisdiagramm nach der Transformation auch den Ersatzwert als Beschriftung d h den anstelle von fehlenden Werten verwendeten Wert Fahren Sie mit der Maus ber das Diagramm um die Z hlung der fehlenden Werte und den Prozentsatz der Gesamtzahl an Datens tzen anzuzeigen Vor
152. nden Zyklische Zeitelemente extrahieren Verwenden Sie diese Einstellungen um ein einzelnes Datums oder Zeitfeld in ein oder mehrere Felder aufzuteilen Wenn Sie zum Beispiel alle drei Datumskontrollk stchen ausw hlen wird das Eingabedatumsfeld 1954 05 23 in drei Felder aufgeteilt 1954 5 und 23 wobei jedes das unter Feldnamen definierte Suffix verwendet und das urspr ngliche Datumsfeld ignoriert wird m Aus Datumsangaben extrahieren Legen Sie f r eine beliebige Datumseingabe fest ob Sie Jahre Monate Tage oder eine Kombination daraus extrahieren m chten m Aus Zeitangaben extrahieren Legen Sie f r eine beliebige Zeiteingabe fest ob Sie Stunden Minuten Sekunden oder eine Kombination daraus extrahieren m chten Felder ausschlie en Abbildung 4 4 Automatisierte Datenaufbereitung Felder ausschlie en Einstellungen Fi Eingabefelder mit niedriger Qualit t ausschlie en Eingabefelder ausschlie en F Felder mit zu vielen fehlenden Werten ausschlie en Maximaler Prozentsatz fehlender Verte so Fi Nominale Felder mit zu vielen eindeutigen Kategorien ausschlie en Maximale Anzahl an Kategorien oo Kategoriale Felder mit zu vielen Werten in einer einzelnen Kategorie ausschlie en 95 0 Q Konstante Felder werden immer ausgeschlossen Schlechte Datenqualit t kann sich negativ auf die Genauigkeit Ihrer Vorhersagen auswirken Sie k nnen daher die akzeptable Qualit tsstufe f r Eingabefunktionen festle
153. nen beliebigen Wert der reellen Zahlen annehmen k nnen aber wenn es theoretische oder praktische Gr nde f r die Begrenzung des Bereichs gibt k nnen Sie den gew nschten niedrigsten und oder h chsten Wert angeben Zus tzliche Funktionen beim Befehl OPTIMAL BINNING Mit der Befehlssyntax Sprache verf gen Sie au erdem ber folgende M glichkeiten m Sie k nnen mithilfe der Methode der gleichen Haufigkeiten untiberwachtes Binning durchf hren mit dem Unterbefehl CRITERIA Vollst ndige Informationen zur Syntax finden Sie in der Command Syntax Reference Teil II Beispiele Kapitel 7 Daten validieren Mit der Prozedur Daten validieren k nnen verd chtige und ung ltige F lle Variablen und Datenwerte identifiziert werden Validieren einer medizinischen Datenbank Eine bei einem Unternehmen in der Pharmabranche angestellte Analytikerin hat die Aufgabe die Qualit t der Informationen in einem System zu berwachen Dabei muss sie die Werte und Variablen pr fen und einen Bericht f r den Leiter des Datenerfassungsteams erstellen Den aktuellen Zustand der Datenbank finden Sie in der Datei stroke_invalid sav F r weitere Informationen siehe Beispieldateien in Anhang A auf S 139 Verwenden Sie die Prozedur Daten validieren um die f r den Bericht ben tigten Informationen zusammenzustellen Syntax mit denen Sie diese Analysen nachvollziehen k nnen befindet sich in der Datei validatedata_stroke sps Dur
154. ng der Gr nde Abbildung 9 15 Auswertung der Gr nde Behandlungs und Rehabilitationsvariablen Auftreten als Grund Statistiken der Yariablenbeeinflussung H ufigkeit Maximum Mittelwert Std Deviation Dead on arrival Initial Rankin score CAT scan result Clot dissolving drugs Died in hospital Treatment result Postevent preventative surgery Post event rehabilitation Rankin score at1 month Rankin score at 3 months Rankin score at 6 months Barthel index at 1 month Barthel index at 3 months Barthel index at 6 months Recoded Barthel index at 1 month Recoded Barthel index at 3 months Recoded Barthel index at 6 months Length of stay for rehabilitation Total treatment and rehabilitation costs in thousands Anteil fehlend Insgesamt In dieser Tabelle wird jede Analysevariable im Hinblick auf ihre Rolle als prim rer Grund ausgewertet Die meisten Variablen z B Dead on arrival bis Post event rehabilitation sind keine prim ren Gr nde f r die F lle in der Anomalie Liste Barthel index at 1 month ist der h ufigste Grund Total treatment and rehabilitation costs in thousands der zweith ufigste Es werden die Einflussstatistiken der Variablen ausgewertet Dabei werden f r jede Variable der kleinste 121 Ungew hnliche F lle identifizieren gr te und mittlere Einfluss sowie bei Variablen die bei mehr als einem Fall die Grundvariablen sind die Standardabweichung ausgegeben Streudiagramm des
155. nnegative integer 1 2090290204 883285 Oto 1 Dichotomy 1 2349729006 723384 Nonnegative integer 1 4993307441 828754 1 to 4 Categorical 1 8737661990 185787 a The number of variables that violated the rule follows each rule In der Tabelle Fallbericht werden alle Falle sowohl nach Fallnummer als auch nach Fallbezeichner die mindestens eine Validierungsregel verletzt haben die verletzten Regeln und die Anzahl der Regelverletzungen nach Fall aufgef hrt Die ung ltigen Werte werden nun im Daten Editor angezeigt Abbildung 7 16 Daten Editor mit gespeicherten Indikatorvariablen fur Regelverletzungen recbart3 2 OtoSCategoric OtosCateg Otol Dichot 0to1Dichot Otol Dic 0 al_clotsolv_ orical_rehab_ omy_obesity omy_dhosp_ hotomy_ti oto h Ubah hh 1 0550550050565 fe te m Yariablenansicht F r jede Anwendung einer Validierungsregel wird eine separate Indikatorvariable erstellt So entstpricht 0to3Categorical_clotsolv_ der Anwendung der Validierungsregel 0 to 3 Categorical auf die Variable Clot dissolving drugs Wenn Sie bei einem Fall feststellen m chten welche Variable einen ung ltigen Wert aufweist betrachten Sie am besten die Werte der Indikatorvariablen Der Wert 1 bedeutet dass der Wert der zugeordneten Variablen ung ltig ist 73 Daten validieren Abbildung 7 17 Daten Editor mit Indikatorvariable f r Regelverletzung in Fall 175 recbar
156. nschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst Die zus tzliche Variable Current value Aktueller Wert wurde nach der Ziehung der Stichprobe erfasst und zur Datendatei hinzugef gt recidivism sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Strafverfolgungsbeh rde geht einen Einblick in die R ckfallraten in ihrem Zust ndigkeitsbereich zu gewinnen Jeder Fall entspricht einem fr hren Straft ter und erfasst Daten zu dessen demografischen Hintergrund einige Details zu seinem ersten Verbrechen sowie die Zeit bis zu seiner zweiten Festnahme sofern diese innerhalb von zwei Jahren nach der ersten Festnahme erfolgte recidivism_cs_sample sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Strafverfolgungsbeh rde geht einen Einblick in die R ckfallraten in ihrem Zust ndigkeitsbereich zu gewinnen Jeder Fall entspricht einem fr heren Straft ter der im Juni 2003 erstmals aus der Haft entlassen wurde und erfasst Daten zu dessen demografischen Hintergrund einige Details zu seinem ersten Verbrechen sowie die Daten zu seiner zweiten Festnahme sofern diese bis Ende Juni 2006 erfolgte Die Straft ter wurden aus per Stichprobenziehung ermittelten Polizeidirektionen ausgew hlt gem dem in recidivism_cs csplan angegebenen Stichprobenplan Da hierbei eine PPS Methode PPS probability proportional to size Wahrscheinlichkeit proportio
157. ob die ADP diese zur Verwendung bei der Modellerstellung empfiehlt Durch Klicken auf einen Feldnamen werden in der verkn pften Ansicht weitere Informationen ber das Feld angezeigt Klicken Sie auf income Einkommen 91 Automatisierte Datenaufbereitung Abbildung 8 9 Felddetails fur Household income in thousands Haushaltseinkommen in Tausend Details f r Household income in thousands Transformiert Original Discriminant Verteilung 4 0007 Schiefe 5 10 8007 Schiefe 1 22 SD 67 53 O 400 800 11 200 200 600 1 000 1 40 Fehlende Werte definieren Vorhersagekraft 00 02 04 06 08 10 00 02 04 06 08 10 o a Wird verarbeitet Schritt Durchgef hrte Aktionen Ausrei er Ausrei er entfernen Stetige In Standardeinheiten Funktionen transformieren Mittelwert 0 Name des transformierten Felds income_transformed Die Ansicht Felddetails zeigt die Verteilung von Household income in thousands im Original und in der Transformation Der Verarbeitungstabelle zufolge wurden Datens tze die als Ausrei er identifiziert wurden getrimmt durch Setzen ihrer Werte gleich dem Trennwert zur Bestimmung von Ausrei ern und das Feld wurde auf einen Mittelwert von 0 und eine Standardabweichung von 1 standardisiert Die Beule am rechten Rand des Histogramms des transformierten Felds zeigt dass eine Reihe von Datens tzen vielleicht ber 200 als Ausrei er identifiziert wurden Das Einkomme
158. ople in household Haushaltsgr e in der Rangordnung der Felder nach Vorhersagekraft ziemlich weit unten steht ist es unwahrscheinlich dass dieser Punkt einen nennenswerten Effekt auf die Modellerstellung hat Doch einer der Vorteile der interkativen Anwendung der automatisierten Datenaufbereitung ist es dass die Transformationen ganz nach Bedarf fein abgestimmt werden k nnen Klicken Sie auf Ausf hren um die Transformationen anzuwenden 95 Automatisierte Datenaufbereitung Der Datensatz ist jetzt in der Hinsicht bereit f r die Modellerstellung dass die Rollen aller empfohlenen Einflussgr en sowohl neuer als auch alter auf Eingabe gesetzt sind wogegen die Rollen nicht empfohlener Einflussgr en auf Keine gesetzt sind Um einen Datensatz nur mit den empfohlenen Einflussgr en zu erstellen verwenden Sie die Einstellung Transformationen anwenden im Dialogfeld Automatische Verwendung der automatisierten Datenaufbereitung Eine Gruppe in der Kraftfahrzeugindustrie erfasst die Verkaufszahlen verschiedener Personenkraftwagen Um starke und schwache Modelle identifizieren zu k nnen soll eine Beziehung zwischen den Fahrzeugverkaufszahlen und den Fahrzeugeigenschaften hergestellt werden Diese Informationen sind in der Datei car_sales_unprepared sav erfasst F r weitere Informationen siehe Beispieldateien in Anhang A auf S 139 Verwenden Sie die automatisierte Datenaufbereitung um die Daten f r die Analys
159. ozent History of angina H ufigste Kategorie Haufigkeit Prozent Die Normwerte der kategorialen Variablen dienen demselben Zweck wie die Normwerte der metrischen Variablen Bei den Normwerten der kategorialen Variablen werden jedoch die h ufigste Kategorie sowie die Anzahl und der Prozentsatz an F llen in der Gruppe ausgegeben die in diese Kategorie fallen Ein Vergleich der Werte ist etwas komplizierter So kann es beispielsweise auf den ersten Blick scheinen dass Gender mehr zum Bilden der Gruppen beitr gt als Smoker weil die h ufigste Kategorie f r Smoker in allen drei Gruppen dieselbe ist 119 Ungew hnliche F lle identifizieren die h ufigste Kategorie f r Gender in Gruppe 3 jedoch abweicht Da Gender aber nur zwei Werte annehmen kann k nnen Sie schlussfolgern dass 49 2 der F lle in Gruppe 3 den Wert 0 aufweisen Dies hnelt stark den Prozents tzen in den anderen Gruppen Im Gegensatz dazu variieren die Prozents tze f r Smoker zwischen 72 2 und 81 4 Abbildung 9 13 Normwerte der kategorialen Variablen ausgew hlte Variablen Gruppen ID Kombiniert 0 1 0 Dead on arrival H ufigste Kategorie 0 H ufigkeit 90 248 958 Prozent 100 0 100 0 91 4 Initial Rankin H ufigste Kategorie Missing 5 score H ufigkeit Value Prozent a 19 100 0 18 4 CAT scan result H ufigste Kategorie Missing 0 Haufigkeit Valua Prozent a0 791 100 0 75 5 Clot dissolving H ufigste Kategorie Missing 2 drugs H
160. p History of diabetes diabetes amp Blood pressure bp amp gt Atrial fibrillation af amp gt Smoker smoker amp Cholesterol choles amp History of angina angina amp History of myocardial infarction mi amp Prescribed nitroglycerin nitro amp Taking anti clotting drugs anticlot amp History of transient ischemic attack tia Fallbezeichnervariable ox J ingen zuucrsetzen Abtrechen _tite W hlen Sie die Variablen von Age category bis Stroke between 3 and 6 months als Analysevariablen aus 110 Kapitel 9 W hlen Sie Patient ID als Fallbezeichnervariable aus gt Klicken Sie auf die Registerkarte Ausgabe Abbildung 9 2 Dialogfeld Ungew hnliche F lle identifizieren Registerkarte Ausgabe ii Ungew hnliche F lle identifizieren X iM Liste ungew hnlicher F lle und Gr nde f r die Ungew hnlichkeit rAuswertungen F Normwverte der Gruppen Hierbei handelt es sich um Gruppen von F llen mit hnlichen Werten f r die Analysevariablen Bei dieser Option werden die Verteilungen der Analysevariablen nach Gruppen angezeigt M Anomalie Indizes Der Anomalie Index ist ein Ma das die Ungew hnlichkeit eines Falls in Bezug auf die Angeh rigen seiner Gruppe widerspiegelt Bei dieser Option wird die Verteilung der Anomalie Indexwerte bei den ungew hnlichen F llen angezeigt V vorkommen des Grunds nach Analysevariablen Hierbei wird gezeigt wie oft jede
161. r Minimum und Maximum zugeordnet Geben Sie f r Maximum eine Zahl gr er als Minimum an Stetiges Ziel Mit dieser Option wird ein stetiges Feld mithilfe der Box Cox Transformation in ein Feld transformiert das eine ungef hre Normalverteilung mit den Angaben f r Endg ltiger Mittelwert und Endg ltige Standardabweichung aufweist Geben Sie eine Zahl f r Endg ltiger Mittelwert und eine positive Zahl f r Endg ltige Standardabweichung an Die Standardwerte sind 0 bzw 1 26 Kapitel 4 Hinweis Wenn ein Ziel durch ADP transformiert wurde bewerten nachfolgend mithilfe des transformierten Ziels erstellte Modelle die transformierten Einheiten Um die Ergebnisse interpretieren und verwenden zu k nnen m ssen Sie den vorhergesagten Wert wieder in das urspr ngliche metrische Ma zur ckkonvertieren F r weitere Informationen siehe Transformiert Werte zur ck auf S 43 Felder transformieren Abbildung 4 8 Automatisierte Datenaufbereitung Felder transformieren Einstellungen IM Feld f r Modellierung transformieren Kategoriale Eingabefelder E D nn besetzte Kategorien zur Maximierung des Zielzusammenhangs zusammenf hren 0 05 Wenn kein Ziel existiert d nn besetzte Kategorien auf der Basis folgender H ufigkeiten zusammenf hren E Ordinale Funktionen Nominale Funktionen 100 Q Eingabefelder die nach der berwachten Zusammenf hrung nur eine Kategorie besitzen werden ausgeschlossen Stetige Eingabefelder
162. r Unterbefehl PREPDATETIME wird aufgef hrt jedoch nicht angewendet da keines der Felder ein Datums oder ein Zeitfeld ist Der Unterbefehl ADJUSTLEVEL wandelt Ordinalfelder mit ber zehn Werten in stetige Felder und stetige Felder mit weniger als f nf Werten in Ordinalfelder Der Unterbefehl OUTLIERHANDLING ersetzt Werte stetiger Eingaben nicht das Ziel die ber drei Standardabweichungen vom Mittelwert entfernt sind durch den Wert der drei Standardabweichungen vom Mittelwert entfernt ist Der Unterbefehl REPLACEMISSING ersetzt fehlende Eingabewerte nicht das Ziel Der Unterbefehl REORDERNOMINAL kodiert die Werte von nominalen Eingaben von am seltensten auftretend auf am h ufigsten auftretend um Der Unterbefehl RESCALE standardisiert stetige Eingaben mithilfe einer Z Wert Transformation auf einen Mittelwert von 0 und eine Standardabweichung von 1 und standardisiert das stetige Ziel mithilfe einer Box Cox Transformation auf einen Mittelwert von 0 und eine Standardabweichung von 1 Der Unterbfehl TRANSFORM deaktiviert alle von diesem Unterbefehl spezifizierten Standardvorg nge Der Unterbefehl CRITERIA spezifiziert die Standardsuffixe f r die Transformationen des Ziels und der Eingaben Der Unterbefehl OUTFILE gibt an dass die Transformationen unter workingDirectory car_sales_transformations xml gespeichert werden sollen wobei workingDirectory der Pfad ist unter dem Sie die Datei car_sales_transformations xml
163. r gleich dem angegebenen Trennwert ist Diese Option wird 51 Ungew hnliche F lle identifizieren zusammen mit den Optionen Prozentsatz der F lle und Feste Anzahl von F llen verwendet Wenn Sie beispielsweise eine feste Anzahl von 50 F llen und einen Trennwert von 2 angeben besteht die Anomalie Liste h chstens aus 50 F llen von denen jeder einen Anomalie Indexwert gr er oder gleich 2 aufweist Anzahl von Gruppen Die Prozedur sucht nach der besten Anzahl von Gruppen zwischen dem angegebenen Minimal und Maximalwert Die Werte m ssen positive Ganzzahlen sein und das Minimum darf das Maximum nicht berschreiten Wenn die angegebenen Werte gleich sind setzt die Prozedur eine feste Anzahl von Gruppen voraus Anmerkung Abh ngig von der Variation in den Daten k nnen Situationen auftreten in denen die Daten weniger Gruppen unterst tzen k nnen als als Minimum angegeben In einer solchen Situation erzeugt die Prozedur eine kleinere Anzahl von Gruppen Maximale Anzahl von Gr nden Ein Grund besteht aus dem Variablen Einflussma dem Variablennamen f r diesen Grund dem Wert der Variablen und dem Wert der entsprechenden Gruppe Geben Sie eine nichtnegative Ganzzahl an Wenn dieser Wert gr er oder gleich der Anzahl der verarbeiteten Variablen ist die in der Analyse verwendet werden werden alle Variablen angezeigt Zus tzliche Funktionen beim Befehl DETECTANOMALY Mit der Befehlssyntax Sprache verf gen Sie au erdem ber
164. r unterliegt den unten ausgew hlten Einstellungen f r die Behandlung fehlender Werte Fehlende Werte ersetzen Legen Sie fest ob fehlende Werte von stetigen nominalen oder ordinalen Feldern ersetzt werden sollen Nominale Felder neu sortieren Mit dieser Option werden die Werte von nominalen Set Feldern von der kleinsten am seltensten auftretenden zur gr ten am h ufigsten auftretenden Kategorie umkodiert Die neuen Feldwerte starten mit 0 als der seltensten Kategorie Hinweis Das neue Feld ist numerisch auch wenn das originale Feld eine Zeichenfolge enth lt Wenn zum Beispiel die Datenwerte eines nominalen Felds A A A B C C sind kodiert die automatisierte Datenaufbereitung B zu 0 um C zu 1 und A zu 2 25 Automatisierte Datenaufbereitung Felder neu skalieren Abbildung 4 7 Automatisierte Datenaufbereitung Felder neu skalieren Einstellungen V Felder neu skalieren Analysegewichtung E Analysegewichtung verwenden keine wi Stetiges Eingabefeld Fi Alle stetigen Felder auf einer gemeinsamen Skala anordnen dringend empfohlen bei der Durchf hrung einer Funktionserstellung Neuskalierungsmethode Z VVert Transformation Za Endg ltiger Mittelwert am Endg ltige Standardabweichung 1 0 al fe ones ka 00 100 0 Stetiges Ziel Stetiges Ziel zur Verringerung der Schiefe mit einer Box Cox Transformation neu skalieren
165. raftstoffverwertung mpg_fransformed dagegen schon Woher kommt diese Ver nderung Verk ufe weist eine schiefe Verteilung auf so dass der Radstand und das Leergewicht einige beeinflussende Datens tze umfasst haben k nnten die keinen Einfluss mehr hatten als Verk ufe transformiert war Eine andere M glichkeit ist dass die Zusatzf lle die aufgrund fehlender Wertersetzung verf gbar sind die statistische Signifikanz dieser Variablen ver ndert haben In jedem Falle w ren weitere Nachforschungen erforderlich denen wir hier jedoch nicht nachgehen Hinweis Sas Quadrat von R ist f r das auf den vorbereiteten Daten erstellte Modell h her doch da die Variable Verk ufe transformiert wurde ist das nicht unbedingt der beste Ma stab f r einen Vergleich der Qualit t der Modelle Stattdessen k nnen Sie die nicht parametrischen Korrelationen zwischen den beobachteten Werten und den zwei S tzen an Vorhersagewerten berechnen 104 Kapitel 8 Vergleichen der Vorhersagewerte F r Korrelationen der Vorhersagewerte aus den zwei Modellen w hlen Sie aus den Men s Analysieren Korrelation Bivariat Abbildung 8 20 Dialogfeld Bivariate Korrelationen H Bivariate Korrelationen variablen g engine_s_transformed 8 E Sales in thousands sales horsepow_transformed amp Vorhergesagter Wert f r sales PRE_1 amp Yorhergesagter Wert f r sales_transtf 2 wheelbas_transformed E width_
166. rbereitung um Transformationen der urspr nglichen Felder zu erhalten die die Modellerstellung verbessern Identifizieren Sie potenzielle statistische Ausrei er die in vielen Vorhersagemodellen Probleme verursachen k nnen Einige Ausrei er sind das Ergebnis von ung ltigen Variablenwerte die noch nicht identifiziert wurden Dies macht m glicherweise einen weiteren Durchlauf durch die Vorbereitung der Metadaten erforderlich Sobald die Datendatei sauber ist k nnen Sie Modelle in anderen Erweiterungsmodulen erstellen Kapitel Val dierungsregeln Eine Regel wird verwendet um zu entscheiden ob ein Fall g ltig ist Es gibt zwei Typen von Validierungsregeln m Regeln f r eine Variable Regeln f r eine Variable bestehen aus einer festen Gruppe von Tests die auf eine einzige Variable angwendet werden z B Tests auf Werte au erhalb des Bereichs Bei den Regeln f r eine Variable k nnen die g ltigen Werte als Wertebereich oder als eine Liste zul ssiger Werte ausgedr ckt werden Regeln f r mehrere Variablen Regeln f r mehrere Variablen stellen benutzerdefinierte Regeln dar die auf eine einzige Variable oder eine Kombination von Variablen angewendet werden k nnen Regeln f r mehrere Variablen bestehen aus einem logischen Ausdruck der ung ltige Werte kennzeichnet Die Validierungsregeln werden im Datenlexikon Ihrer Datendatei gespeichert Dies erm glicht es die Regeln einmal zu definieren und sp ter wiederzuver
167. rkauf durch Fuel efficiency mpg Kraftstoffverwertung Verbrauchswerte als Kovariaten aus Klicken Sie auf Speichern 100 Kapitel 8 Abbildung 8 16 Dialogfeld Speichern EH Univariat Speichern rvorhergesagte Werte rResiduen M Nicht standardisiert Nicht standardisiert ja Se tet a Sewichtet E Standardfehler E Standardisiert E Studentisiert E Ausgeschlossen rDiagnose E Cook Distanz E Hebelwerte effizientenstatistik E Koeftizientenstatistik erstellen W hlen Sie in der Gruppe Vorhersagewerte die Option Nicht standardisiert Klicken Sie auf Weiter gt Klicken Sie im Dialogfeld GLM Univariat auf OK Diese Auswahl f hrt zu folgender Befehlssyntax UNIANOVA sales BY type WITH resale price engine_s horsepow wheelbas width length curb_wgt fuel_cap mpg METHOD SSTYPE 3 INTERCEPT INCLUDE SAVE PRED CRITERIA ALPHA 0 05 DESIGN resale price engine_s horsepow wheelbas width length curb_wgt fuel_cap mpg type 101 Abbildung 8 17 Automatisierte Datenaufbereitung Zwischensubjekteffekte f r auf unvorbereiteten Daten basierte Modelle Abh ngige Yariable Sales in thousands Quelle Quadratsum Mittel der me vom Typ Ill df Quadrate F Korrigiertes Modell Konstanter Term resale price engine_s horsepow wheelbas width length curb_wot fuel_cap mpg type Fehler Gesamt Korrigierte Ges
168. rmationen angewendet werden nutzen sie die automatisierte Datenaufbereitung im interaktiven Modus Auswahl aus Objekten gt Zur interaktiven Ausf hrung der automatisierten Datenaufbereitung w hlen Sie aus den Men s Transformieren Daten f r Modellierung vorbereiten Interaktiv 82 83 Automatisierte Datenaufbereitung Abbildung 8 1 Registerkarte Ziel fa Interaktive Datenaufbereitung X Es werden die Empfehlungen zur Datenaufbereitung auf der Registerkarte Analyse verwendet Empfiehlt Datenaufbereitungsschritte die die Modellerstellung beschleunigen und die Aussagekraft verbessern Diese k nnen die Transformation Erstellung und Auswahl von Funktionen beinhalten Das Ziel kann ebenfalls transformiert werden Wie lautet Ihr Ziel Jedem Ziel entspricht eine eindeutige Standardkonfiguration auf der Registerkarte Einstellungen die Sie wenn n tig weiter anpassen k nnen Geschwindigkeit und Genauigkeit ausgleichen Geschwindigkeit optimieren Genauigkeit optimieren Analyse anpassen Beschreibung Bei der Einstellung Ausgeglichen wird die Standardeinstellung so angepasst dass die Daten mit dem Schwerpunkt auf der Modellerstellung mit ausgeglichener Geschwindigkeit und Genauigkeit transformiert werden Die erste Registerkarte fragt nach einem Ziel das die Standardeinstellungen regelt Doch was ist der faktische Unterschied zwischen den Zielen Wir f hren die P
169. rmiert Diese Symbole werden nach den einzelnen Feldnamen angezeigt Die Vorhersagekraft jeder empfohlenen Funktion oder Einflussvariablen wird entweder aus einer linearen Regression oder einem Naive Bayes Modell berechnet abh ngig davon ob das Ziel stetig oder kategorial ist 37 Automatisierte Datenaufbereitung Feldertabelle Abbildung 4 18 Feldertabelle Eingangsmerkmale Name Typ region Set age Continuous tenure amp Continuous address Continuous income amp Continuous ed A Ordered Set Die Feldertabelle wird angezeigt wenn Sie in der Hauptansicht Feldverarbeitungstibersicht auf Ziel Eingabefunktionen oder Nicht verwendete Eingabefunktionen klicken und enth lt eine einfache Tabelle die die wichtigsten Funktionen auflistet Die Tabelle enth lt zwei Spalten m Name Der Funktions oder Feldname F r Ziele wird der Originalname oder die Originalbeschriftung verwendet selbst wenn das Ziel transformiert wurde Bei transformierten Versionen gew hnlicher Funktionen gibt der Name Ihre Suffixauswahl im Bereich Feldnamen auf der Registerkarte Einstellungen an zum Beispiel _transformiert Bei aus Datums und Zeitangaben abgeleiteten Feldern wird der Name der endg ltigen transformierten Version verwendet zum Beispiel bdatum_Jahre Bei erstellten Funktionen wird der Name der erstellten Funktion verwendet zum Beispiel Funktion m Typ Hier erscheint das S
170. rozedur mit jedem einzelnen Ziel durch und sehen wie sich die Ergebnisse unterscheiden gt Stellen Sie sicher dass Geschwindigkeit amp Genauigkeit ausgleichen ausgew hlt ist und klicken Sie auf Analysieren 84 Kapitel 8 Abbildung 8 2 Registerkarte Analyse Feldverarbeitungs bersicht f r ausgeglichene Ziele Feldverarbeitungs bersicht Gesamtergebnis Originalfelder nicht transformiert pomii n Funktionen Transformationen r den Einsatz in Analysen von Originalfeldern Aus Datums und Zeitangaben abgeleitet Erstellt Nicht verwendete Eingabefunktionen 0 W hrend die Daten verarbeitet werden richtet sich die Konzentration automatisch auf die Registerkarte Analyse Die Standardhauptansicht ist die Feldverarbeitungs bersicht die einen berblick dar ber gibt wie die Felder von der automatisierten Datenaufbereitung verarbeitet wurden Es gibt ein Einzelziel 18 Eingaben und 18 f r die Modellerstellung empfohlene Felder Von den f r die Modellierung empfohlenen Feldern sind acht originale Eingabefelder f nf sind Transformationen originaler Eingabefelder und f nf sind von Datum und Uhrzeitfeldern abgeleitet 85 Automatisierte Datenaufbereitung Abbildung 8 3 Registerkarte Analyse Vorhersagekraft bei ausgeglichenen Zielen Empfohlene Funktionen f r den Einsatz in Analysen Vorhersagekraft Ziel fraudulent_transformed Type of claim db dob_months E occupancy _date_months
171. schreibung Nonnegative integer Type Numeric Domain Range Flag user missing values No Flag system missing values Yes Minimum 0 Flag unlabeled values within range No Flag noninteger values within range Yes VD SRule 5 Rule Oto 1 Dichotomy Type Numeric Domain List Flag user missing values No Flag system missing values Yes List 0 1 VD SRule 1 Rule 1 to 4 Categorical Type Numeric Domain List Flag user missing values No Flag system missing values Yes List 1 2 3 4 D SRule 4 Rule Es werden alle Regeln gezeigt die mindestens einmal verletzt wurden Die Tabelle Regelbeschreibung enth lt Erkl rungen zu den Regeln die verletzt wurden Dies ist n tzlich wenn viele Validierungsregeln vorliegen Variablenauswertung Abbildung 7 14 Variablenauswertung Regel Verletzungen Age category 1 to 4 Categorical Gesamt Gender Oto 1 Dichotomy Gesamt History of angina Oto 1 Dichotomy Gesamt Time to hospital Nonnegative integer Gesamt Dead on arrival Oto 1 Dichotomy Gesamt Die Tabelle Variablenauswertung enth lt alle Variablen die mindestens eine Validierungsregel verletzt haben die verletzten Regeln und die Anzahl der Verletzungen pro Regel und pro Variable 72 Kapitel 7 Fallbericht Abbildung 7 15 Fallbericht Verletzungen von Identifizierung Fall Eine Variable hospid patid physid Oto 1 Dichotomy 1 0333204686 883285 Oto 1 Dichotomy 1 1038840465 103254 No
172. sdruck ein oder geben den Ausdruck direkt in dieses Feld ein m Sie k nnen Funktionen oder h ufig verwendete Systemvariablen einf gen indem Sie eine Gruppe aus der Liste Funktion ausw hlen und in der Liste Funktionen und Sodervariablen auf die Funktion bzw Variable doppelklicken oder die Funktion bzw Variable ausw hlen und auf Einf gen klicken Geben Sie alle durch Fragezeichen gekennzeichneten Parameter an gilt nur f r Funktionen Die Funktionsgruppe mit der Beschriftung Alle bietet eine Liste aller verf gbaren Funktionen und Systemvariablen Eine kurze Beschreibung der aktuell ausgew hlten Funktion oder Variablen wird in einem speziellen Bereich des Dialogfelds angezeigt String Konstanten m ssen in Anf hrungszeichen oder Apostrophe eingeschlossen werden Wenn die Werte Dezimalstellen enthalten muss ein Punkt als Dezimaltrennzeichen verwendet werden Kapitel 3 Daten validieren Im Dialogfeld Daten validieren k nnen Sie verd chtige oder ung ltige F lle Variablen und Datenwerte in der Arbeitsdatei identifizieren Beispiel Eine Datenanalytikerin muss f r ihren Auftraggeber einen monatlichen Bericht ber die Kundenzufriedenheit zusammenstellen Die monatlich erhaltenen Daten m ssen einer Qualit tspr fung unterzogen werden Dabei muss nach ung ltigen Kunden IDs Variablenwerten au erhalb des Bereichs sowie Kombinationen von Variablenwerten gesucht werden die h ufig fehlerhaft e
173. sformiert Transformationen von Originalfeldern Aus Datums und Zeitangaben abgeleitet Erstellt Es wurde eine Funktionserstellung angefordert aber es konnten keine Vorhersagefunktionen erstellt werden Die h ufigsten Gr nde sind zu wenige stetige Eingabefunktionen mit hohem Zielzusammenhang oder alle stetigen Eingabefunktionen waren unabh ngig W hrend die Daten verarbeitet werden richtet sich die Konzentration automatisch wieder auf die Registerkarte Analyse In diesem Fall werden nur zwei Felder f r die Modellerstellung empfohlen und beide sind Transformationen der originalen Felder 87 Automatisierte Datenaufbereitung Abbildung 8 5 Registerkarte Analyse Vorhersagekraft bei optimierter Geschwindigkeit Empfohlene Funktionen f r den Einsatz in Analysen Vorhersagekraft Ziel fraudulent_transformed claim_type_transformed amp income_transformed all 0 0 02 0 4 0 6 0 8 1 0 income_transformed claim_type_transformed Wird Geschwindigkeit optimieren als Ziel eingegeben dann wird claim_type_transformed gefolgt von income_transformed als beste Einflussgr e identifiziert Klicken Sie auf Analyse l schen und anschlie end auf die Registerkarte Ziele W hlen Sie Genauigkeit optimieren und klicken Sie auf Analysieren 88 Kapitel 8 Abbildung 8 6 Registerkarte Analyse Vorhersagekraft bei optimierter Genauigkeit Feldverarbeitungs bersicht Gesamter
174. sich die Anzahl der F lle nicht restlos durch n teilen l sst Ermitteln potenzieller Trennwerte Jeder unterschiedliche Wert der Klassierungs Eingabe der nicht zur selben Kategorie der F hrungsvariablen geh rt wie der n chstgr ere Wert der Klassierungs Eingabevariablen ist ein potenzieller Trennwert Ausw hlen von Trennwerten Der potenzielle Trennwert der zum gr ten Informationsgewinn f hrt wird durch das MDLP Akzeptanzkriterium ausgewertet Wiederholen Sie den Vorgang bis keine weiteren potenziellen Trennwerte akzeptiert werden Die akzeptierten Trennwerte legen die Klassengrenzen fest Verwenden der optimalen Klassierung zur Diskretisierung der Daten zu Kreditantragstellern Im Rahmen der Bem hungen einer Bank den Anteil der nicht zur ckgezahlten Kredite zu reduzieren hat ein Kreditsachbearbeiter finanzielle und demografische Informationen zu fr heren und gegenw rtigen Kunden gesammelt in der Hoffnung ein Modell erstellen zu k nnen das die Wahrscheinlichkeit der Nichtr ckzahlung bei Krediten vorhersagt Mehrere potenzielle Einflussvariablen sind metrisch der Kreditsachbearbeiter m chte jedoch in der Lage sein Modelle zu betrachten die am besten f r kategoriale Einflussvariablen geeignet sind Informationen zu 5000 fr heren Kunden finden Sie in der Datei bankloan_binning sav F r weitere Informationen siehe Beispieldateien in Anhang A auf S 139 Erstellen Sie mithilfe der Prozedur Optimales Klassieren Kl
175. speichernden Variablen kollidieren 49 Ungew hnliche F lle identifizieren m Anomalie Index Speichert f r jeden Fall den Wert des Anomalie Index in einer Variablen mit dem angegebenen Namen Gruppen Speichert die Gruppen ID die Fallanzahl und die Gr e als Prozentsatz f r jeden Fall in Variablen mit dem angegebenen Stammnamen Wenn f r den Stammnamen zum Beispiel Gruppe angegeben wurde werden die Variablen GruppeID GruppeGr e und GruppePrztGr e erzeugt GruppelD stellt die Gruppen ID des Falls dar GruppeGr e die Gruppengr e und GruppePrztGr e die Gruppengr e als Prozentsatz sm Gr nde Speichert Sets von Grundvariablen mit dem angegebenen Stammnamen Ein Set von Grundvariablen besteht aus dem Namen einer Variablen die einen Grund darstellt dem Einflussma der Variablen dem Variablenwert und dem Normwert Die Anzahl der Sets h ngt von der Anzahl der angeforderten Gr nde ab angegeben auf der Registerkarte Optionen Wenn als Stammname zum Beispiel Grund angegeben wurde werden die Variablen GrundVar_k GrundMa _k GrundWert_k und GrundNormwert_k erzeugt wobei k den k ten Grund darstellt Diese Option steht nicht zur Verf gung wenn die Anzahl der Gr nde auf 0 festgelegt wurde Modelldatei exportieren Hiermit k nnen Sie das Modell im XML Format speichern Ungew hnliche F lle identifizieren Fehlende Werte Abbildung 5 4 Dialogfeld Ungew hnliche F lle identifizieren Registerkarte
176. stdaten angewendet werden Fallreihenfolge Beachten Sie dass die L sung von der Fallreihenfolge abh ngen kann Um die Auswirkungen der Reihenfolge zu minimieren mischen Sie die F lle in zuf lliger Reihenfolge Pr fen Sie daher die Stabilit t einer bestimmten L sung indem Sie verschiedene L sungen 45 46 Kapitel 5 abrufen bei denen die F lle in einer unterschiedlichen zuf llig ausgew hlten Reihenfolgen sortiert sind In Situationen mit extrem umfangreichen Dateien k nnen mehrere Durchg nge mit jeweils einer Stichprobe von F llen durchgef hrt werden die in unterschiedlicher zuf llig ausgew hlter Reihenfolge sortiert ist Annahmen Der Algorithmus setzt voraus dass alle Variablen nichtkonstant und unabh ngig sind Es wird au erdem angenommen dass kein Fall bei einer Eingabevariablen fehlende Werte aufweist F r alle stetigen Variablen wird eine Normalverteilung Gau Verteilung und f r alle kategorialen Variablen eine multinomiale Verteilung vorausgesetzt Empirische interne Tests zeigen dass die Prozedur wenig anf llig gegen ber Verletzungen hinsichtlich der Unabh ngigkeitsannahme und der Verteilungsannahme ist Dennoch sollten Sie darauf achten wie genau diese Voraussetzungen erf llt sind So identifizieren Sie ungew hnliche F lle W hlen Sie die folgenden Befehle aus den Men s aus Daten Ungew hnliche F lle identifizieren Abbildung 5 1 Dialogfeld Ungew hnliche F lle identifizier
177. stenweise Gew hrleistet dass bei der Klassierung mehrerer Variablen eine konsistente Fallbasis verwendet wird Benutzerdefiniert fehlende Verte werden immer als ung ltig behandelt Auf der Registerkarte Fehlende Werte wird angegeben ob der Umgang mit fehlenden Werten anhand eines listenweisen oder paarweisen Ausschlusses erfolgt Benutzerdefinierte fehlende Werte werden stets als ung ltig behandelt Bei der Umkodierung der urspr nglichen Variablenwerte in eine neue Variable werden benutzerdefiniert fehlende Werte in systemdefiniert fehlende Werte umgewandelt m Paarweise Diese Option operiert auf der Basis der einzelnen Paare aus F hrungsvariabler und Binning Eingabevariabler Die Prozedur verwendet alle F lle mit nichtfehlenden Werten bei der F hrungs und Binning Eingabevariablen m Listenweise Diese Option wird auf alle auf der Registerkarte Variablen angegebenen Variablen angewendet Wenn bei einem Fall eine Variable fehlt wird der gesamte Fall ausgeschlossen 57 Optimales Klassieren Optimales Binning Optionen Abbildung 6 5 Dialogfeld Optimales Binning Registerkarte Optionen EH Optimales Klassieren Veen Ausgabe Spahe Felonies Orionen rYorverarbeitung IM VYorklassierung von Variablen durchf hren um die Leistung bei gro en Datenbl tter zu verbessern Geben Sie die maximale Anzahl an Klassen an die f r jede Variable nach der Yorverarbeitung bestehen sollen
178. sungen findet problematische oder wahrscheinlich nicht n tzliche Felder leitet zum passenden Zeitpunkt neue Attribute ab und verbessert die Leistungsf higkeit durch intelligente Screening Methoden Sie k nnen den Algorithmus vollautomatisch verwenden und so Probleml sungen ausw hlen und anwenden oder Sie k nnen ihn interaktiv verwenden und so die nderungen in einer Vorschau betrachten bevor sie vorgenommen werden und sie gegebenenfalls akzeptieren oder ablehnen Mit ADP k nnen Sie Ihre Daten schnell und einfach f r die Modellerstellung aufbereiten ohne ber Vorkenntnisse der dazugeh rigen statistischen Konzepte verf gen zu m ssen Modelle lassen sich damit schneller erstellen und scoren zudem verbessert sich mit ADP die Robustheit automatisierter Modellierungsprozesse Interaktive Verwendung der automatisierten Datenaufbereitung Eine Versicherungsgesellschaft mit beschr nkten Ressourcen f r die Untersuchung der Versicherungsanspr che von Hauseigent mern m chte ein Modell zur Kennzeichnung verd chtiger potenziell betr gerischer Anspr che erstellen Sie haben ein Datenbeispiel fr herer Anspr che unter insurance_claims sav zusammengestellt F r weitere Informationen siehe Beispieldateien in Anhang A auf S 139 Vor Erstellung des Modells bereiten sie die Daten f r die Modellierung mithilfe der automatisierten Datenaufbereitung vor Da sie die vorgeschlagenen Transformationen zun chst berpr fen m chten bevor die Transfo
179. t den Marktanteilsdaten f r einen bestimmten Monat stroke_clean sav Diese hypothetische Datendatei enth lt den Zustand einer medizinischen Datenbank nachdem diese mithilfe der Prozeduren in der Option Data Preparation bereinigt wurde 149 Beispieldateien stroke_invalid sav Diese hypothetische Datendatei enth lt den urspr nglichen Zustand einer medizinischen Datenbank der mehrere Dateneingabefehler aufweist stroke_survival In dieser hypothetischen Datendatei geht es um die berlebenszeiten von Patienten die nach einem Rehabilitationsprogramm wegen eines isch mischen Schlaganfalls mit einer Reihe von Problemen zu k mpfen haben Nach dem Schlaganfall werden das Auftreten von Herzinfarkt isch mischem Schlaganfall und h morrhagischem Schlaganfall sowie der Zeitpunkt des Ereignisses aufgezeichnet Die Stichprobe ist auf der linken Seite abgeschnitten da sie nur Patienten enth lt die bis zum Ende des Rehabilitationprogramms das nach dem Schlaganfall durchgef hrt wurde berlebten stroke_valid sav Diese hypothetische Datendatei enth lt den Zustand einer medizinischen Datenbank nachdem diese mithilfe der Prozedur Daten validieren berpr ft wurde Sie enth lt immer noch potenziell anomale F lle survey_sample sav Diese hypothetische Datendatei enth lt Umfragedaten einschlie lich demografischer Daten und verschiedener Meinungskennzahlen tastetest sav Hierbei handelt es sich um eine hypothetische Dat
180. t wie verschiedene Klassen in der Binning Eingabevariablen enthalten sind D nn besetzte Klassen Gelegentlich kann die Prozedur zu Klassen mit sehr wenigen F llen f hren Mit der folgenden Strategie k nnen diese Pseudotrennwerte gel scht werden gt Angenommen der Algorithmus hat f r eine Variable Nendg ltig Trennwerte und daher nendg ltig 1 Klassen gefunden F r die Klassen i 2 Nendgiiltig von der Klasse mit dem zweitniedrigsten Wert bis zur Klasse mit dem zweith chsten Wert wird Folgendes berechnet sizeof b min sizeof b _ sizeof b Dabei ist sizeof b die Anzahl der F lle in der Klasse 58 Kapitel 6 gt Wenn dieser Wert kleiner ist als der angegebene Zusammenf hrungsschwellenwert dann wird b als d nn besetzt betrachtet und mit b _ oder b zusammengef hrt je nachdem welche Klasse die niedrigere Klasseninformationsentropie aufweist Bei dieser Prozedur wird ein einzelner Durchlauf durch die Klassen vorgenommen Binning von Endpunkten Bei dieser Option wird angegeben wie die Untergrenze eines Intervalls festgelegt wird Da die Prozedur die Trennwerte automatisch ermittelt ist dies weitgehend eine Frage der Vorlieben Erste niedrigste Klasse Letzte h chste Klasse Diese Optionen geben an wie die minimalen und maximalen Trennwerte f r die einzelnen Klassierungs Eingabevariablen festgelegt werden Im Allgemeinen geht die Prozedur davon aus dass die Binning Eingabevariablen ei
181. t3 Oto1Dichot Dto1Dichoto 0to1Dichoto 1to4Categori Nonnegative omy_doa my_gender_ my angina cal agecat eger_time 4 al W W Fk WO NW e VYariablenansicht Wechseln Sie zu Fall 175 dem ersten Fall bei dem eine Regelverletzung auftritt Um die Suche zu beschleunigen betrachten Sie die Indikatorvariablen die den Variablen in der Tabelle Variablenauswertung zugeordnet sind Es ist offensichtlich dass History of angina einen ung ltigen Wert aufweist Abbildung 7 18 Daten Editor mit ung ltigem Wert f r History of angina af smoker choles angina mi nitro anticlot tia oo yo 0 0 2 I 1 0 1 0 0 3 E 0 1 0 1 o o 2 0 o 0 a 1 176 0 0 0 iy 1 o o o o 0 0 1 o o o o 1 iy 0 o o 0 0 0 0 0 o 1 180 0 0 0 0 0 0 0 m q A n n g ON Datenansicht Yariablenansicht History of angina weist den Wert 1 auf Dieser Wert ist zwar ein g ltiger fehlender Wert f r die Behandlungs und Ergebnisvariablen in der Datendatei an der vorliegenden Stelle ist er jedoch ung ltig weil f r die Anamnesevariablen keine benutzerdefiniert fehlenden Werte festgelegt wurden Definieren von eigenen Regeln Die aus der Datei patient_los sav kopierten Validierungsregeln sind zweifellos niitzlich reichen jedoch nicht aus Es gibt Situationen in denen Patienten die bereits vor der Ankunft verstorben waren versehentlich als im Krankenhaus verstorben er
182. te der Datenaufbereitung Sind alle Angaben korrekt klicken Sie auf Ausf hren Wenn nicht klicken Sie auf Analyse l schen ndern die Einstellungen nach Ihren W nschen und klicken dann auf Analysieren Die folgenden Optionen sind verf gbar m Geben Sie ein Ziel auf der Registerkarte Ziel an m Geben Sie Feldzuweisungen auf der Registerkarte Felder an m Geben Sie Experteneinstellungen auf der Registerkarte Einstellungen an 7 Speichern Sie die vorgeschlagenen Schritte der Datenaufbereitung in eine XML Datei mit einem Klick auf XML speichern 20 Kapitel 4 Registerkarte Felder Abbildung 4 2 Registerkarte Felder in der automatisierten Datenaufbereitung Vordetinierte Rollen verwenden Feldzuweisungen anpassen Felder Ziel optional Sortieren Keine Y e amp Churn within last month Log long distance A ee Eingaben 8 Log toll free E Log equipment Log calling card E Log wireless Log income amp Customer category gO Hil tree service amp Equipment rental amp Calling card service amp Wireless service E Long distance last month E Toll free last month E Equipment last month E Calling card last month E Wireless last month E Long distance over tenure L Toll free over tenure e E Equipment over tenure E Calling card over tenure E Wireless over tenure d Multiple lines amp Voice mail amp Paging service amp Internet amp Caller
183. tellen Dateneingabefehler dar wobei die Werte technisch gesehen richtig sind und deswegen nicht mit Datenvalidierungsprozeduren abgefangen werden k nnen Die Prozedur Ungew hnliche F lle identifizieren sucht Ausrei er und meldet diese sodass der Analytiker entscheiden kann wie mit diesen F llen verfahren wird Statistiken Die Prozedur erzeugt Gruppen Normwerte f r Gruppen bei stetigen und kategorialen Variablen Anomalie Indizes auf der Grundlage von Abweichungen von den Normwerten der Gruppen sowie Variablen Einflusswerte f r Variablen die am meisten dazu beitragen dass ein Falls als ungew hnlich klassifiziert wird Erl uterung der Daten Daten Mit dieser Prozedur k nnen sowohl stetige als auch kategoriale Variablen analysiert werden Jede Zeile stellt eine eindeutige Beobachtung und jede Zeile eine eindeutige Variable als Grundlage f r die Gruppen dar In der Datendatei kann eine Fallidentifizierungsvariable zum Markieren der Ausgabe verf gbar sein Diese Variable wird jedoch nicht in der Analyse verwendet Fehlende Werte sind zul ssig Wenn die Gewichtungsvariable angegeben wurde wird diese ignoriert Das Erkennungsmodell kann auf eine neue Test Datendatei angewendet werden Die Elemente der Testdaten m ssen dieselben wie die Elemente der Lerndaten sein Abh ngig von den Einstellungen des Algorithmus kann die Verarbeitung fehlender Werte die beim Erstellen des Modells verwendet wird vor der Bewertung auf die Te
184. ten f nf Jahren band sav Diese Datendatei enth lt die hypothetischen w chentlichen Verkaufszahlen von CDs f r eine Musikgruppe Daten f r drei m gliche Einflussvariablen wurden ebenfalls aufgenommen bankloan sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Bank geht den Anteil der nicht zur ckgezahlten Kredite zu reduzieren Die Datei enth lt Informationen zum Finanzstatus und demografischen Hintergrund von 850 fr heren und potenziellen Kunden Bei den ersten 700 F llen handelt es sich um Kunden denen bereits ein Kredit gew hrt wurde Bei den letzten 150 F llen handelt es sich um potenzielle Kunden deren Kreditrisiko die Bank als gering oder hoch einstufen m chte bankloan_binning sav Hierbei handelt es sich um eine hypothetische Datendatei die Informationen zum Finanzstatus und demografischen Hintergrund von 5 000 fr heren Kunden enth lt behavior sav In einem klassischen Beispiel Price als auch Bouffard 1974 wurden 52 Sch ler Studenten gebeten die Kombinationen aus 15 Situationen und 15 Verhaltensweisen auf einer 10 Punkte Skala von 0 ausgesprochen angemessen bis 9 ausgesprochen unangemessen zu bewerten Die Werte werden ber die einzelnen Personen gemittelt und als Un hnlichkeiten verwendet behavior_ini sav Diese Datendatei enth lt eine Ausgangskonfiguration f r eine zweidimensionale L sung f r behavior sav brakes sav Hierbei handelt es
185. th lt diesen Schritt nicht gt Wenn Sie mit den ADP Einstellungen einschlie lich aller in den Registerkarten Ziel Felder und Einstellungen vorgenommenen nderungen zufrieden sind klicken Sie auf Daten analysieren Der Algorithmus wendet die Eingabedaten an und zeigt die Ergebnisse auf der Registerkarte Analyse an Die Registerkarte Analyse enth lt Ausgaben in Grafik und Tabellenform die die Verarbeitung Ihrer Daten zusammenfassen und zeigt Empfehlungen an wie die Daten m glicherweise bearbeitet oder zum Scoring verbessert werden k nnen Anschlie end k nnen Sie diese Empfehlungen berpr fen und entweder akzeptieren oder ablehnen Abbildung 4 13 Registerkarte Analyse in der automatisierten Datenaufbereitung fa Interaktive Datenaufbereitung LE e sonpenren Qc arms toon icio enna Es werden die Empfehlungen zur Datenaufbereitung auf der Registerkarte Analyse verwendet o h A L Fur die Verwendung in der Analyse Feldverarbeitungstibersicht Vorhersagekraft Ziel churn Months with servic Equipment last mont Equipment over tenur Wireless over tenur Calling card last mont Gesamt Urspriingliche Felder nicht transformiert Number of people in househol Calling card over tenur Transformationen aoe der urspriinglichen Felder Blectronic bilinga Equipment rental Abgeleitet von Daten i und Zeiten his Call forward
186. th bis Barthel index at 6 months an gt Klicken Sie auf die Registerkarte Regeln f r mehrere Variablen Gegenw rtig sind keine Regeln definiert Klicken Sie auf Regeln definieren 79 Abbildung 7 24 Daten validieren Dialogfeld Validierungsregeln definieren Registerkarte Regeln f r mehrere Variablen H Daten validieren Validierungsregeln definieren X imma Regeln rRegeldefinition doa 1 amp dhosp 1 Variablen 4 Hospital ID hospid da Patient ID patid E Age in years age amp Gender gender amp Obesity obesity amp Blood pressure bp amp Atrial fibrillation af Hospital size hosp da Attending physician al Age category agec amp Physically active a 5 History of diabetes Neme o o Name ZweimalGestorben ZweimalGestorben Logischer Ausdruck muss bei einem ung ltigen Fall 1 entsprechen r Funktionen und Sondervariablen Funktion Beschreibung Einf gen Wenn keine Regeln vorliegen wird automatisch eine neue Platzhalterrregel erstellt gt Geben Sie als Name der Regel ZweimalGestorben ein gt Geben Sie als logischen Ausdruck doa 1 amp dhosp 1 ein Dieser Ausdruck ergibt den Wert 1 wenn f r den Patienten sowohl der Tod vor der Ankunft als auch der Tod im Krankenhaus aufgezeichnet wurde Klicken Sie auf Weiter Die neue Regel auf der Registerkarte Regeln f r mehrere Variablen
187. tische Datendatei zu einer Studie die von einem Fernsehstudio durchgef hrt wurde das berlegt ob die Laufzeit eines erfolgreichen Programms verl ngert werden soll 906 Personen wurden gefragt ob sie das Programm unter verschiedenen Bedingungen ansehen w rden Jede Zeile entspricht einem Befragten jede Spalte entspricht einer Bedingung ulcer_recurrence sav Diese Datei enth lt Teilinformationen aus einer Studie zum Vergleich der Wirksamkeit zweier Therapien zur Vermeidung des Wiederauftretens von Geschw ren Es stellt ein gutes Beispiel f r intervallzensierte Daten dar und wurde an anderer Stelle Collett 2003 vorgestellt und analysiert ulcer_recurrence_recoded sav In dieser Datei sind die Daten aus ulcer_recurrence sav so umstrukturiert dass das Modell der Ereigniswahrscheinlichkeit f r jedes Intervall der Studie berechnet werden kann und nicht nur die Ereigniswahrscheinlichkeit am Ende der Studie Sie wurde an anderer Stelle Collett et al 2003 vorgestellt und analysiert verd1985 sav Diese Datendatei enth lt eine Umfrage Verdegaal 1985 Die Antworten von 15 Subjekten auf 8 Variablen wurden aufgezeichnet Die relevanten Variablen sind in drei Sets unterteilt Set 1 umfasst alter und heirat Set 2 besteht aus per und news und in Set 3 finden sich music und live Die Variable per wird mehrfach nominal skaliert und die Variable Alter ordinal Alle anderen Variablen werden einzeln nominal skaliert virus sav Hierbei han
188. transformed 2 length_transformed 2 curb_wgt_transformed 8 fuel_cap_transformed E mpg_transformed E sales_transformed r Korrelationskoeffizienten E Pearson V Kendall Tau b Y Spearman r Test auf Signifikanz Zweiseitig Einseitig Fi Signifikante Korrelationen markieren Ca L noen zuucrsetzen _abbrechen J nite W hlen Sie Sales in thousands sales Verk ufe in Tausend Predicted Value for sales PRE_1 Vorhersagewert f r Verk ufe und Predicted Values for sales_transformed PRE_2 Vorhersagewerte f r Verk ufe_transformiert als Analysevariablen aus Deaktivieren Sie Pearson und w hlen Sie Kendall Tau b und Spearman in der Gruppe Korrelationskoeffizienten Hinweis Predicted Values for sales_transformed PRE_2 Vorhersagewerte f r Verk ufe kann f r die Berechnung der nichtparametrischen Korrelationen verwendet werden ohne auf die originale Gr e zur cktransformiert werden zu m ssen da eine R cktransformation die Rangordnung der Vorhersagewerte nicht ndert Klicken Sie auf OK Diese Auswahl f hrt zu folgender Befehlssyntax NONPAR CORR VARIABLES sales PRE_l PRE_2 PRINT BOTH TWOTAIL NOSIG MISSING PAIRWISE 105 Abbildung 8 21 Nichtparametrische Korrelationen Kendall Tau b Spearman Rho Sales in thousands Yorhergesagter Wert f r sales Yorhergesagter Wert f r sales_transformed Sales in thousands Vorhergesagter Wert f r
189. tung transformiert haben verwenden Sie nach der Modellierung dieses Dialogfeld um die vorhergesagten Werte in ihre urspr nglichen Einheiten zur ckzutransformieren Felder Zur ckzutransformierendes Feld 9 horsepow_transformed Le amp Yorhergesagter Wert f r sales_tr 2 wheelbas_transformed E width_transformed E length_transformed 2 curb_wgt_transformed E fuel_cap_transformed E mpg_transformed 8E sales_transformed amp Yorhergesagter Vert f r sa Suffix f r neues Feld packtransformed XML Datei workingDirectory car_sales_transformations xml Durchsuchen U noen Zur eietzen abereeten me W hlen Sie Predicted Value for sales_transformed PRE_2 Vorhersagewerte f r Verk ufe_transformiert als zur ckzutransformierendes Feld gt Geben Sie _backtransformed als Suffix f r das neue Feld ein gt Geben Sie als Speicherort f r die XML Datei mit den Transformationen den Pfad workingDirectory car_sales_transformations xml ein um die Datei im Arbeitsverzeichnis zu speichern Klicken Sie auf OK Diese Auswahl f hrt zu folgender Befehlssyntax TMS IMPORT INFILE TRANSFORMATIONS workingDirectory car_sales_transformations xml MODE BACK PREDICTED PRE_2 SUFFIX _backtransformed EXECUTE m Der Befehl TMS IMPORT liest die Transformationen in car_sales_transformations xml und wendet die R cktransformation auf PRE_2 an m Das neue Feld das die r cktransfor
190. uer Daten speichern Daten Bei dieser Prozedur wird davon ausgegangen dass es sich bei den Binning Eingabevariablen um metrische numerische Variablen handelt Die F hrungsvariable sollte kategorial sein Es kann sich dabei um eine String Variable oder eine numerische Variable handeln 52 53 Optimales Klassieren So erhalten Sie ein optimales Binning Wahlen Sie die folgenden Befehle aus den Men s aus Transformieren Optimales Klassieren Abbildung 6 1 Dialogfeld Optimales Klassieren Registerkarte Variablen fA Optimales Klassieren X Yan Ausgabe Speicher Felder cine Variablen E Variablen f r Klassierung oil Level of education ed Age in years age 8 Years with current employer employ E Years at current address address E Household income in thousands income Debt to income ratio x100 dektinc Credit card debt in thousands creddekt Other debt in thousands othdekt Le amp Klassierung optimieren in Hinblick auf W hlen Sie eine oder mehrere metrische Yariablen f r die Klassierung sowie eine nominale Leitvariable Die ausgew hlten Klassen maximieren die Zuordnung zwischen der klassierten variablen und der Leitvariablen Auf der Registerkarte Speichern k nnen Sie Variablen die Klassenvwerte enthalten und oder Klassierungsregeln speichern W hlen Sie mindestens eine Binning Eingabevariable aus W hlen Sie eine F hrungsvariable aus Varia
191. uf die Registerkarte Speichern 70 Kapitel 7 Abbildung 7 12 Dialogfeld Daten validieren Registerkarte Speichern rion Gngende ren Regn fren Varta Regen tr merre Varin Ausgabe Speicher Auswertungsvariablen Beschreibung Speichern Name Indikator f r leere F lle LeererFall Gruppe mit doppelten IDs GruppeDoppelterIDs Unvollstandiger ID Indikator Unvollst ndigelD Verletzungen von Validierungsregeln Gesamt ValidierungsRegelVerletzungen w vorhandene Auswertungsvariablen ersetzen Fi Indikatorvariablen speichern die alle Verletzungen von Yalidierungsregeln aufzeichnen Die Variablen geben an ob ein bestimmter Datenwert oder eine VWWertekombination eine Yalidierungsregel verletzt hat Diese variablen k nnen das Bereinigen und Untersuchen Ihrer Daten vereinfachen Je nach Anzahl der angewendeten Regeln werden der Arbeitsdatei bei dieser Option jedoch m glicherweise viele Variablen hinzugef gt Gesamtanzahl der gespeicherten Yariablen 1 CE enten Zurickeetzen L Avirecnen J Hate W hlen Sie Indikatorvariablen speichern die alle Verletzungen von Validierungsregeln aufzeichnen aus Dies vereinfacht es eine Verbindung zwischen F llen und Variablen herzustellen bei denen Validierungsregeln f r eine Variable verletzt werden Klicken Sie auf OK 71 Daten validieren Regelbeschreibung Abbildung 7 13 Regelbeschreibung Be
192. unden mit einem Score von 50 oder h her streben vermutlich einen Anbieterwechsel an 142 Anhang A ceramics sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Herstellers geht der ermitteln m chte ob ein neue hochwertige Keramiklegierung eine gr ere Hitzebest ndigkeit aufweist als eine Standardlegierung Jeder Fall entspricht einem Test einer der Legierungen die Temperatur bei der das Keramikw lzlager versagte wurde erfasst cereal sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Umfrage geht bei der 880 Personen nach ihren Fr hst ckgewohnheiten befragt wurden Au erdem wurden Alter Geschlecht Familienstand und Vorliegen bzw Nichtvorliegen eines aktiven Lebensstils auf der Grundlage von mindestens zwei Trainingseinheiten pro Woche erfasst Jeder Fall entspricht einem Teilnehmer clothing_defects sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Bekleidungsfabrik geht Aus jeder in der Fabrik produzierten Charge entnehmen die Kontrolleure eine Stichprobe an Bekleidungsartikeln und z hlen die Anzahl der Bekleidungsartikel die inakzeptabel sind coffee sav Diese Datendatei enth lt Daten zum wahrgenommenen Image von sechs Eiskaffeemarken Kennedy Riquier als auch Sharp 1996 Bei den 23 Attributen des Eiskaffee Image sollten die Teilnehmer jeweils alle Marken ausw hlen die durc
193. validieren 13 79 in Validierungsregeln definieren 6 Validierungsregelverletzungen in Daten validieren 15 Variablenauswertung in Daten validieren 71 Verletzungen von Validierungsregeln in Daten validieren 15 Warnungen in Daten validieren 62 Zusammenfassung der Fallverarbeitung in Ungew hnliche F lle identifizieren 113 Zyklische Zeitelemente Automatisierte Datenaufbereitung 21
194. variablen Minimaler Variationskoeffizient Gilt nur f r metrische Variablen Minimale Standardabweichung p Gilt nur f r metrische Variablen rFallbezeichner Ti Unvollstandige IDs markieren Fi Doppelte IDs markieren V Leere F lle markieren F lle definieren nach Alle Variables Ein Fall git als leer wenn alle relevanten variablen fehlen oder leer sind m nen Amann J e Auf der Registerkarte Grundlegende Pr fungen k nnen Sie grundlegende Pr fverfahren f r Analysevariablen Fallbezeichner und ganze F lle ausw hlen Analysevariablen Wenn Sie auf der Registerkarte Variablen Analysevariablen ausgew hlt haben k nnen Sie die folgenden G ltigkeitspr fungen ausw hlen Mit den Kontrollk stchen k nnen Sie die einzelnen Pr fungen aktivieren oder deaktivieren m Maximaler Prozentsatz fehlender Werte Gibt Analysevariablen aus bei denen der prozentuale Anteil fehlender Werte den angegebenen Wert bersteigt Der angegebene Wert muss eine positive Zahl kleiner oder gleich 100 sein m Maximaler Prozentsatz der F lle in einer einzelnen Kategorie Wenn kategoriale Analysevariablen vorhanden sind werden bei dieser Option kategoriale Analysevariablen ausgegeben bei denen der prozentuale Anteil der F lle die eine einzelne nichtfehlende Kategorie darstellen den angegebenen Wert bersteigt Der angegebene Wert muss eine positive Zahl kleiner oder gleich 100 sein Der Prozentsatz entspric
195. verte der Gruppen Hierbei handelt es sich um Gruppen von F llen mit hnlichen YVerten f r die Analysevariablen Bei dieser Option werden die Yerteilungen der Analysevariablen nach Gruppen angezeigt IM Anomalie Indizes Der Anomalie Index ist ein Ma das die Ungew hnlichkeit eines Falls in Bezug auf die Angeh rigen seiner Gruppe widerspiegelt Bei dieser Option wird die Yerteilung der Anomalie Indexwerte bei den ungew hnlichen F llen angezeigt Fi vorkommen des Grunds nach Analysevariablen Hierbei wird gezeigt wie oft jede Analysevariable der Grund f r die Ungewr hnlichkeit eines Falls war Fi Yerarbeiteter Fall Bei dieser Option wird die Verteilung der F lle zusammengefasst die in die Analyse aufgenommen bzw aus ihr ausgeschlossen wurden U _emt oen _ Zur etetzen Abtrecnen J e Liste ungew hnlicher F lle und Gr nde f r die Ungew hnlichkeit Bei dieser Option werden drei Tabellen erstellt m Die Liste der Indizes anomaler F lle zeigt die als ungew hnlich identifizierten F lle und deren entsprechende Anomalie Indexwerte an m Die Liste der Gruppen IDs anomaler F lle zeigt ungew hnliche F lle und die Informationen ber deren entsprechende Gruppen an m Die Liste der Gr nde anomaler F lle zeigt die Fallanzahl die Grundvariable den Einflusswert der Variablen den Wert der Variablen und den Normwert der Variablen f r jeden Grund an Alle Tabellen werden nach Anomalie Index in absteigender R
196. w Leere Werte zulassen rasen a srecren He Geben Sie als Name der Regel 0 to 5 Categorical ein W hlen Sie im Feld G ltige Werte den Eintrag In einer Liste aus Geben Sie die Werte 0 1 2 3 4 und 5 ein Deaktivieren Sie Systemdefinierte fehlende Werte zulassen vv v vy Vv Um die Regel f r die Barthel Indizes zu definieren klicken Sie auf Neu 77 vv v vy Vv Abbildung 7 22 Dialogfeld Validierungsregeln definieren Registerkarte Regeln f r eine Variable Definition von O to 100 by 5 Regeln ren Validierungsregeln definieren Numerisch Numerisch Numerisch Numerisch i Numerisch Numerisch Numerisch Numerisch Numerisch wm rRegeldefinition Name 0 to 100 by 5 Tye Numerisch Format mmstiiij G ltige Werte M Gro Mleinschreibung bei der Wertepr fung ignorieren Fi Benutzerdefinierte fehlende Werte zulassen Systemdefinierte fehlende Werte zulassen EA Leere Werte zulassen etter bbrechen __Hite Geben Sie als Name der Regel 0 to 100 by 5 ein Wahlen Sie im Feld G ltige Werte den Eintrag In einer Liste aus Geben Sie die Werte 0 5 bis 100 ein Deaktivieren Sie Systemdefinierte fehlende Werte zulassen Klicken Sie auf Weiter Daten validieren 78 Kapitel 7 Abbildung 7 23 Dialogfeld Daten validieren Registerkarte Regeln f r eine Variable Def
197. wenden Vordefinierte Validierungsregeln laden Sie k nnen schnell auf eine Gruppe gebrauchsfertiger Validierungsregeln zugreifen indem Sie vordefinierte Validierungsregeln aus einer externen Datendatei laden die in der Installation enthalten ist So laden Sie vordefinierte Validierungsregeln W hlen Sie die folgenden Befehle aus den Men s aus Daten Validierung Vordefinierte Regeln laden 3 Validierungsregeln Abbildung 2 1 Vordefinierte Validierungsregeln laden H Vordefinierte Validierungsregeln laden Yalidierungsregeln werden aus dem PASW Statistics Installationsverzeichnis geladen Datei langide Predetined Yalidation Rules say Sie konnen die Regeln den Daten mithilfe des Dialogfelds Daten validieren zuweisen oder als Ausgangspunkt f r die Definition eigener Regeln verwenden Alle vorhandenen Regeln f r eine variable in der Arbeitsdatei werden ersetzt a Conn ss ae Beachten Sie dass hierbei alle vorhandenen Validierungsregeln f r eine Variable in der Arbeitsdatei gel scht werden Sie k nnen auch den Assistenten zum Kopieren von Dateneigenschaften verwenden um Regeln aus einer beliebigen Datendatei zu laden Validierungsregeln definieren Im Dialogfeld Validierungsregeln definieren k nnen Sie Validierungsregeln f r eine oder mehrere Variablen erstellen und anzeigen So erstellen Sie Validierungsregeln und lassen diese anzeigen gt Wahlen Sie die folgenden Befe
198. wird automatisch ausgew hlt Klicken Sie auf OK Regeln f r mehrere Variablen Abbildung 7 25 Regeln f r mehrere Variablen Anzahl der Verletzungen Zweimal Gestorben doa 1 amp dhosp 1 80 Kapitel 7 Die Liste der Regeln f r mehrere Variablen enth lt Regeln die mindestens einmal verletzt wurden die Anzahl der Verletzungen und eine Beschreibung jeder verletzten Regel Fallbericht Abbildung 7 26 Fallbericht Validation Rule Violations Identifizierung Single Yariable Cross Variable patid Zweimal Gestorben 1192970826 355184 Zweimal Gestorben 8717862852 237418 Zweimal Gestorben 6901932085 215041 Zweimal Gestorben 1205005069 695521 Zweimal Gestorben 5546809538 125304 Oto 1 Dichotomy 1 0333204686 883285 Oto 1 Dichotomy 1 1038840465 103254 Nonnegative integer 1 2090290204 883285 Zweimal Gestorben 3351107142 462020 Oto 1 Dichotomy 1 2349729006 723384 Zweimal Gestorben 7163481282 519548 Zweimal Gestorben 9159094175 652070 Zweimal Gestorben 2137520354 723384 Zweimal Gestorben 5246122506 928076 Zweimal Gestorben 1605957462 506108 Zweimal Gestorben 8141858966 828754 Zweimal Gestorben 3397891610 539412 Zweimal Gestorben 3397891610 539412 Zweimal Gestorben 3962622031 327422 Zweimal Gestorben 4271782383 749432 Zweimal Gestorben 0950686750 618069 Zweimal Gestorben 0663642766 001448 Zweimal Gestorben 0418125590 877354 Zweimal Gestorben 8744721380 539412 Nonnegative integer 1 Oto 1 Dichotomy 3 499
199. ymbol f r den entsprechenden Datentyp F r das Ziel gibt der Typ stets die transformierte Version wieder wenn das Ziel transformiert wurde zum Beispiel bei einem Wechsel von ordinal sortiertes Set zu stetig Bereich Skala oder umgekehrt 38 Kapitel 4 Felddetails Abbildung 4 19 Felddetails Details f r Years at current address Original Transformiert Verteilung 300 Schiefe 1 11 2 001 er I SD 10 09 1 50 1 00 100 50 0 10 0 10 20 30 40 50 60 0 Fehlende Werte Verarbeitung Schritt Durchgef hrte Aktionen Kontinuierliche Transformation in Merkmale Standardeinheiten Mean Kontinuierliche Klassenwerte Kontinuierliche Merkmal nach der Merkmale Klassierung ausschlie en Name des transformierten Felds address _RescaleScaleFeature_CreateOrdinalFeature Cont Die Ansicht Felddetails wird angezeigt wenn Sie auf Name in der Hauptansicht Felder klicken und enth lt Informationen ber Verteilung fehlende Werte und falls zutreffend Vorhersagekraft Diagramme f r das ausgew hlte Feld Au erdem wird der Verarbeitungsverlauf f r das Feld und der Name des transformierten Felds angezeigt falls zutreffend F r jedes Diagramm Set werden nebeneinander zwei Versionen angezeigt um das Feld mit und ohne angewendete Transformationen zu vergleichen Wenn keine transformierte Version des Felds vorhanden ist wird nur ein Diagramm f r die Originalversion angezeigt F r abgeleitete Datums u

Download Pdf Manuals

image

Related Search

Related Contents

Samsung Galaxy Tab 3 8.0 16GB Brown  Tecumseh AVA4540EXTXM Performance Data Sheet  MB_MOVE user's manual  PASCO Specialty & Mfg. ES-9042A User's Manual  Deutsch - Ectaco  Istruzioni per l`uso NOVACAT 305 ED NOVACAT 350  Samsung ST96 دليل المستخدم  PDF版:3.95MB  "A la croisée des esthétiques: quatre livrets tirés d  Husqvarna 137, 142 Chainsaw User Manual  

Copyright © All rights reserved.
Failed to retrieve file