Home
PASW® Decision Trees (Entscheidungsbäume) 18
Contents
1. Die Korrelation von 0 92 weist auf eine sehr hohe positive Korrelation zwischen tats chlichem und vorhergesagtem Fahrzeugpreis auf die anzeigt dass das Modell gut funktioniert Zusammenfassung Mit der Prozedur Entscheidungsbaum k nnen Sie Modelle konstruieren die dann auf andere Datendateien angewendet werden k nnen um Ergebnisse vorherzusagen Die Zieldatendatei muss Variablen mit demselben Namen enthalten wie die im endg ltigen Modell enthaltenen unabh ngigen Variablen die mit derselben Metrik gemessen werden und die dieselben benutzerdefiniert fehlenden Werte aufweisen sofern vorhanden In der Zieldatendatei m ssen jedoch weder die abh ngige Variable noch die aus dem endg ltigen Modell ausgeschlossenen unabh ngigen Variablen enthalten sein Kapitel Fehlende Werte in Baummodellen Bei den unterschiedlichen Aufbaumethoden werden fehlende Werte f r unabh ngige Variablen Einflu variablen auf verschiedene Weise behandelt m Bei CHAID und Exhaustive CHAID werden alle system und benutzerdefiniert fehlenden Werte f r die einzelnen unabh ngigen Variablen als einzige Kategorie behandelt Bei metrischen und ordinalen unabh ngigen Variablen wird diese Kategorie ggf anschlie end mit anderen Kategorien dieser unabh ngigen Variable zusammengef hrt je nach den Aufbaukriterien m Bei CRT und QUEST werden nach M glichkeit Surrogate f r unabh ngige Variablen Einflu variablen verwendet In Situationen
2. 20 30 40 50 60 70 80 90 100 Erstellen von Entscheidungsb umen Mittelwert Liniendiagramm der kumulativen Perzentil Mittelwerte f r die abh ngige Variable Nur f r metrische abh ngige Variablen verf gbar Durchschnittlicher Profit Liniendiagramm des kumulativen durchschnittlichen Profits Nur f r kategoriale abh ngige Variablen verf gbar bei denen Profite definiert sind F r weitere Informationen siehe Profite auf S 18 Das Diagramm f r den durchschnittlichen Profit enth lt dieselben Werte wie die Spalte Profit in der Tabelle Gewinnzusammenfassung f r Perzentile 36 Kapitel 1 Abbildung 1 29 Tabelle Gewinnzusammenfassung f r Perzentile und Durchschnittsprofit Diagramm Gewinnzusammenfassung f r Perzentile Perzentile 10 20 30 40 377 4 352 0 336 2 323 4 307 9 280 6 254 4 221 6 197 9 180 4 Anlageertrag ROI Liniendiagramm des kumulativen ROI Anlageertrag Der ROI wird als Verh ltnis der Profite zu den Aufwendungen berechnet Nur f r kategoriale abh ngige Variablen verf gbar bei denen Profite definiert sind Das ROI Diagramm enth lt dieselben Werte wie die Spalte ROI in der Tabelle Gewinnzusammenfassung f r Perzentile 37 Erstellen von Entscheidungsb umen Abbildung 1 30 Tabelle Gewinnzusammenfassung f r Perzentile und ROI Diagramm Gewinnzusammenfassung f r Perzentile Perzentie Knoten
3. Gesamt 302 744 Gesamt 13 1 322 Gesamt 15 8 390 Gesamt 18 5 455 Alter 28 08 gt 28 08 Knoten 9 Kategorie n E schlecht 4 7 211 m gut 56 3 272 Gesamt 19 5 483 Knoten 8 Kategorie n E schlecht 80 8 211 m gut 192 50 Gesamt 10 5 261 Auf den ersten Blick sieht der durch die Prozedur erstellte Baum im Wesentlichen genauso aus wie der urspr ngliche Baum Eine genauere Betrachtung ergibt jedoch dass zwar die Verteilung der F lle in den einzelnen Knoten gleich geblieben ist sich jedoch einige vorhergesagte Kategorien ge ndert haben Bei den Endknoten bleiben die vorhergesagten Kategorien in allen Knoten gleich bis auf einen Knoten 9 Die vorhergesagte Kategorie lautet nun Schlecht obwohl sich etwas mehr als die H lfte der F lle in der Kategorie Gur befinden Da die Prozedur nun f r die Fehlklassifizierung schlechter Kreditrisiken als gute Kreditrisiken h here Kosten ansetzt f llt nun jeder Knoten in dem die F lle ungef hr gleichm ig auf die beiden Kategorien verteilt sind in die vorhergesagte Kategorie Schlecht selbst wenn sich eine leichte Mehrheit der F lle in der Kategorie Gut befindet 82 Kapitel 4 Diese nderung in der vorhergesagten Kategorie ist auch in der Klassifikationstabelle zu sehen Abbildung 4 24 Risiko und Klassifikationstabellen auf der Grundlage der angepassten Kosten Risiko ee Standardfe Sch tzer hler Aufbaumethode CHAID Abh ngige Variable Kreditrating
4. OoOo JO O Z oO Z 2 O Kategorie B ll e Le Jaen me _ W hlen Sie Benutzerdefiniert aus und geben Sie unter Tats chliche Kategorie Schlecht Vorhergesagte Kategorie Guf den Wert 2 ein Dadurch werden die Kosten der falschen Klassifizierung eines schlechten Kreditrisikos als gut doppelt so hoch gewertet wie die Kosten der falschen Klassifizierung eines guten Kreditrisikos als schlecht gt Klicken Sie auf Weiter und danach im Hauptdialogfeld auf OK um die Prozedur auszuf hren Verwenden von Entscheidungsb umen zur Bewertung des Kreditrisikos Abbildung 4 23 Baummodell mit angepassten Kostenwerten Kreditrating Knoten O Kategorie n E schlecht 41 4 1020 S gut 58 6 1444 Gesamt 100 0 2964 Einkommen in Kategorien lt niedrig Knoten 1 niedrig mittel Knoten 2 gt mittel Knoten 3 Kategorie n E schlecht 115 90 Kategorie n E schlecht 420 476 m gut 58 0 _ 658 Gesamt 45 0 1134 Kategorie n E schlecht 82 1 454 m gut 179 99 Gesamt 22 4 553 B gut 83 4 687 Gesamt 31 5 777 Anzahl an Kreditkarten Anzahl an Kreditkarten 5 oder mehr weniger als 5 Knoten 5 Kategorie n E schlecht 138 54 B gut 86 2 336 Knoten 4 Kategorie n m schlecht 586 7 422 5 oder mehr Knoten 6 Kategorie n E schlecht 176 80 B gut 82 4 375 weniger als 5 Knoten 7 Kategorie n E schlecht 31 10 B gut 96 9 312 S out 33 3 322
5. 6a Geschlecht Geschlecht A Einkommenskategorien d Ausbildung Ausbildung Familienstand Familen Erste Variable erzwingen gt Einflussvariable Aufbaumethode Klicken Sie mit der rechten Maustaste auf eine Variable um ihr Messniveau in der Yariablenliste zu ndern Las IL gw _ Zurictsetzen averecnen_ tine W hlen Sie Preis des Erstwagens als abh ngige Variable aus W hlen Sie alle verbleibenden Variablen als unabh ngige Variablen aus Die Prozedur schlie t automatisch alle Variablen aus die keinen signifikanten Beitrag zum endg ltigen Modell leisten W hlen Sie als Aufbaumethode CRT aus Klicken Sie auf Ausgabe 85 Konstruieren eines Bewertungsmodells Abbildung 5 2 Dialogfeld Ausgabe Registerkarte Regeln E Entsc heidungsbaum Ausgabe bam Sen Zem Rezen EI Klassifizierungsregeln erstellen rSyrtax rKnoten PASW Statistics Alle Endknoten sal O Text v rTyp F llen Werte zuweisen F lle ausw hlen X Surrogate in PASW Minimaler Statistics und SQL Regeln einschlie en Alle Knoten Regeln in Datei exportieren Datei c ttemp car_scores sps Durchsuchen uchen mee Auerechen me Klicken Sie auf die Registerkarte Regeln Aktivieren Sie Klassifizierungsregeln erstellen W hlen Sie f r Syntax PASW Statistics W hlen Sie als Typ F l
6. Klassifikation vorhergesadt Prozent Beobachtet schlecht korrekt schlecht 876 SCH 85 9 gut 421 1023 70 8 Gesamtprozentsatz 52 6 47 4 771 Aufbaumethode CHAID Abh ngige Yariable Kreditrating m Fast 86 der schlechten Kreditrisiken sind nun richtig klassifiziert gegen ber vorher nur 65 Andererseits ist die korrekte Klassifizierung guter Kreditrisken von 90 auf 71 gesunken und der Gesamtwert f r die korrekte Klassifizierung ist von 79 5 auf 77 1 gesunken Beachten Sie au erdem dass der Risikosch tzer und die Gesamtquote f r korrekte Klassifizierung nicht mehr zueinander konsistent sind Bei einer Gesamtquote f r korrekte Klassifizierung von 77 1 w re eigentlich ein Risikosch tzer von 0 229 zu erwarten Durch die Erh hung der Kosten f r die Fehlklassifizierung von F llen mit schlechtem Kreditrating wurde in diesem Beispiel der Risikowert erh ht was seine Interpretation komplizierter macht Zusammenfassung Mit Baummodellen k nnen Sie F lle in Gruppen einordnen die durch bestimmte Merkmale identifiziert werden beispielsweise die Merkmale die Bankkunden mit guter oder schlechter Kredit Historie zugeordnet werden k nnen Wenn ein bestimmtes vorhergesagtes Ergebnis wichtiger ist als andere m gliche Ergebnisse k nnen Sie das Modell verfeinern um diesem Ergebnis h here Fehlklassifizierungskosten zuzuordnen Allerdings werden durch die Verringerung der Fehlklassifizierungsqu
7. 1 Exhaustive CHAID Methode 1 Messniveau 1 QUEST Methode 1 14 Fehlende Werte B ume 23 in Baummodellen 93 Fehlklassifizierung B ume 28 Kosten 17 Quoten 72 Gewichten von F llen nichtganzzahlige Gewichtungen in Entscheidungsb umen 1 Gewinndiagramm 71 Gini 12 Index Baummodelle 70 Indexdiagramm 72 115 116 Index Indexwerte B ume 28 Klassifikationstabelle 72 Knoten mehrere Baumknoten ausw hlen 41 Knotennummer als Variable in Entscheidungsb umen speichern 24 Kosten Baummodelle 78 Fehlklassifizierung 17 Kreuzvalidierung B ume 7 mehrere Baumknoten ausw hlen 41 Messniveau Entscheidungsb ume 1 in Baummodellen 53 Metrische Variablen abh ngige Variablen in der Prozedur Entscheidungsbaum 83 Modellzusammenfassungstabelle Baummodelle 67 Ordinales Twoing 12 Profite A priori Wahrscheinlichkeit 20 B ume 18 28 QUEST 1 14 beschneiden 15 Reduzieren von Baumverzweigungen 41 Regeln Auswahl und Bewertungssyntax f r Klassifizierungsb ume erstellen 38 49 Risikosch tzer B ume 28 f r abh ngige kategoriale Variablen 72 f r abh ngige metrische Variablen in der Prozedur Entscheidungsbaum 88 Signifikanzniveau f r die Aufteilung von Knoten 14 Split Sample Validierung B ume 7 SQL SQL Syntax f r Auswahl und Bewertung erstellen 38 49 Startwert f r Zufallszahlen Entscheidungsbaum Validierung 7 Surrogate in Baummodellen 93 100
8. Baum verwendeten unabh ngigen Yariablen fehlende Werte aufweisen Geben Sie die maximale Anzahl an Surrogaten an die f r jede Aufteilung berechnet werden sollen Loes Jace Hure Mit der Einstellung Automatisch wird bei jeder Knotenaufteilung f r die unabh ngige Variable gepr ft ob eine andere unabh ngige Variable im Modell als Surrogat infrage kommt Dieses Beispiel enth lt nur wenige unabh ngige Variablen die Einstellung Automatisch ist daher ohne weiteres m glich Klicken Sie auf Weiter gt Klicken Sie im Dialogfeld Entscheidungsbaum auf Ausgabe 99 Fehlende Werte in Baummodellen Abbildung 6 7 Dialogfeld Optionen Registerkarte Statistik Baum Suen egene Regen Modell Knotenleistung Zusammenfassung bersicht M Risiko Nach Zielkategorie wl Klassifikationsmatrix Werte f r Kosten A priori Wahrscheinlichkeit Wert und Profit Zeilen Sortier reihenfolge Enaknoten Absteigend Perzentil Inkrement P 0 Kumulative Statistik anzeigen Unabh ngige Variablen Wichtigkeit f r Modell wl Surrogate nach Aufteilung gt Klicken Sie auf die Registerkarte Statistik W hlen Sie Surrogate nach Aufteilung gt Klicken Sie auf Weiter und dann auf OK Die Prozedur wird gestartet 100 Kapitel 6 CRT Ergebnisse Abbildung 6 8 CRT Baum mit fehlenden Werten f r unabh ngige Variablen K
9. Kreditrating Die Risiko und Klassifizierungstabellen weisen darauf hin dass das CHAID Modell etwa 75 der F lle korrekt klassifiziert Dieses Ergebnis ist zwar nicht schlecht aber noch lange nicht gut Au erdem besteht Grund zur Annahme dass die Rate der richtigen Klassifizierung f r risikolose Kreditf lle zu optimistisch sein k nnte weil diese Rate teilweise auf der willk rlichen Annahme beruht dass fehlende Daten f r zwei unabh ngige Variablen Einkommen in Kategorien und Anzahl an Kreditkarten ein Anzeichen f r einen risikolosen Kredit sind Fehlende Werte bei CRT Wiederholen Sie nun dieselbe grundlegende Analyse und verwenden Sie dabei die Aufbaumethode CRT gt W hlen Sie im Hauptdialogfeld Entscheidungsbaum als Aufbaumethode die Option CRT gt Klicken Sie auf Kriterien gt Stellen Sie sicher dass die Mindestanzahl der F lle weiterhin 400 f r bergeordnete Knoten bzw 200 f r untergeordnete Knoten betr gt gt Klicken Sie auf die Registerkarte Surrogate Hinweis Die Registerkarte Surrogate ist nur dann sichtbar wenn Sie die Aufbaumethode CRT oder QUEST verwenden 93 Kapitel 6 Abbildung 6 6 Dialogfeld Kriterien Registerkarte Surrogate Ei Entscheidungsbaum Kriterien x Maximale Anzahl an Surrogaten Automatisch Anzahl der unabh ngigen Variablen minus 1 Anpassen Wert Surrogate werden verwendet um F lle zu klassifizieren die bei den im
10. Syntax Auswahl und Bewertungssyntax f r Klassifizierungsb ume erstellen 38 49 Twoing 12 Unreinheit CRT B ume 12 Validierung B ume 7 Vorhergesagte Wahrscheinlichkeit als Variable in Entscheidungsb umen speichern 24 Vorhergesagte Werte als Variable in Entscheidungsb umen speichern 24 Speichern f r Baummodelle 73 Werte B ume 21 Wertelabels B ume 57 Zunahme 70
11. Wertelabels definiert die in die Analyse aufgenommen werden sollten Wir verwenden die Datei free_textdata sav um die Wichtigkeit dieser beiden Anforderungen zu verdeutlichen Diese Datendatei spiegelt den Standardzustand von eingelesenen oder eingegebenen Daten vor der Definition von Attributen wie Messniveau oder Wertelabels wider F r weitere Informationen siehe Beispieldateien in Anhang A in PASW Decision Trees Entscheidungsb ume 18 Auswirkungen des Messniveaus auf Baummodelle Beide Variablen in dieser Datendatei sind numerisch Standardm ig geht man davon aus dass numerische Variablen ein metrisches Messniveau aufweisen Wie wir jedoch weiter unten sehen werden handelt es sich bei beiden Variablen in Wahrheit um kategoriale Variablen bei denen numerische Codes f r Kategoriewerte stehen gt Zum Erstellen einer Entscheidungsbaum Analyse w hlen Sie die folgenden Befehle aus den Men s aus Analysieren Klassifizieren Baum 53 54 Kapitel 3 Die Symbole neben den beiden Variablen in der Quellvariablenliste zeigen an dass sie als metrische Variablen behandelt werden Abbildung 3 1 Hauptdialogfeld von Entscheidungsbaum mit zwei metrischen Variablen aeea eee Wariablen FF Abh ngige variable L abh ngig D L unabh ngig Kategorien Unabh ngige Variablen EI Erste Variable erzwingen Lal Einflussvariable S A S A x Aufbaumethode ee CHAID Yariablenliste zu ndern mg
12. der F lle in der schlechten Kategorie und 18 der F lle in der guten Kategorie was eine vorhergesagte Wahrscheinlichkeit von 0 82 bzw 0 18 ergibt Bei einer kategorialen abh ngigen Variablen ist der vorhergesagte Wert die Kategorie mit dem h chsten Anteil von F llen im Endknoten f r den jeweiligen Fall Beispiel Beim ersten Fall ist der vorhergesagte Wert 1 gutes Kreditrating da ca 56 der F lle in seinem Endknoten ein gutes Kreditrating aufweisen Umgekehrt ist beim zweiten Fall der vorhergesagte Wert 0 schlechtes Kreditrating da ca 81 der F lle in seinem Endknoten ein schlechtesKreditrating aufweisen Wenn Sie jedoch Kosten definiert haben ist die Beziehung zwischen vorhergesagter Kategorie und vorhergesagten Wahrscheinlichkeiten m glicherweise nicht so offensichtlich F r weitere Informationen siehe Zuweisen von Kosten zu den Ergebnissen auf S 78 Verfeinern des Modells Insgesamt weist das Modell eine Quote f r die korrekte Klassifizierung von knapp unter 80 auf Dies spiegelt sich in den meisten Endknoten wider in denen die vorhergesagte Kategorie die markierte Kategorie im Knoten in mindestens 80 der F lle mit der tats chlichen Kategorie bereinstimmt Es gibt jedoch einen Endknoten in dem die F lle ziemlich gleichm ig zwischen gutem und schlechtem Kreditrating verteilt sind In Knoten 9 ist das vorhergesagtes Kreditrating gut doch nur 56 der F lle in diesem Knoten weisen tats chlich
13. f r die Vorhersagegenauigkeit des Baums m Bei kategorialen abh ngigen Variablen ist die Risikosch tzung der Anteil der F lle die nach der Anpassung aufgrund der A priori Wahrscheinlichkeiten und Fehlklassifizierungskosten fehlerhaft klassifiziert wurden m Bei metrischen abh ngigen Variablen ist die Risikosch tzung die Varianz innerhalb der Knoten Klassifikationsmatrix Bei kategorialen nominalen ordinalen abh ngigen Variablen zeigt diese Tabelle die Anzahl der F lle in jeder Kategorie der abh ngigen Kategorie die korrekt bzw fehlerhaft klassifiziert wurden Nicht verf gbar f r metrische abh ngige Variablen Abbildung 1 22 Tabellen f r Risiko und Klassifizierung Risiko Standardfe Sch tzer hler Aufbaumethode CHAID Abh ngige Variable Kreditrating Beobachtet schlecht gut Gesamtprozentsatz 33 0 Klassifikation vorhergesagt schlecht 665 149 Aufbaumethode CHAID Abhang ge Variable Kreditrating Prozent korrekt Kostenwerte Werte f r A priori Wahrscheinlichkeiten Score Werte und Profitwerte Bei kategorialen abh ngigen Variablen zeigt diese Tabelle die Kostenwerte die Werte f r die A priori Wahrscheinlichkeiten die Score Werte und die Profitwerte f r die Analyse Nicht verf gbar f r metrische abh ngige Variablen 30 Kapitel 1 Unabh ngige Variablen Wichtigkeit f r Modell Bei der CRT Aufbaumethode wird jede unabh ngige Variable Einflussvariable gem
14. hungen einer Strafverfolgungsbeh rde geht einen Einblick in die R ckfallraten in ihrem Zust ndigkeitsbereich zu gewinnen Jeder Fall entspricht einem fr heren Straft ter der im Juni 2003 erstmals aus der Haft entlassen wurde und erfasst Daten zu dessen demografischen Hintergrund einige Details zu seinem ersten Verbrechen sowie die Daten zu seiner zweiten Festnahme sofern diese bis Ende Juni 2006 erfolgte Die Straft ter wurden aus per Stichprobenziehung ermittelten Polizeidirektionen ausgew hlt gem dem in recidivism_cs csplan angegebenen Stichprobenplan Da hierbei eine PPS Methode PPS probability proportional to size Wahrscheinlichkeit proportional zur Gr e verwendet wird gibt es au erdem eine Datei mit den gemeinsamen Auswahlwahrscheinlichkeiten recidivism_cs_jointprob sav rfm_transactions sav Eine hypothetische Datendatei mit Kauftransaktionsdaten wie Kaufdatum gekauften Artikeln und Geldbetrag f r jede Transaktion salesperformance sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bewertung von zwei neuen Verkaufsschulungen geht 60 Mitarbeiter die in drei Gruppen unterteilt sind erhalten jeweils eine Standardschulung Zus tzlich erh lt Gruppe 2 eine technische Schulung und Gruppe 3 eine Praxisschulung Die einzelnen Mitarbeiter wurden am Ende der Schulung einem Test unterzogen und die erzielten Punkte wurden erfasst Jeder Fall in der Datendatei stellt einen Lehrgangsteilnehmer dar und
15. ihrer Bedeutung f r das Modell in eine Rangliste eingeordnet Nicht verf gbar f r QUEST und CHAID Methoden Surrogate nach Aufteilung Bei den Aufbaumethoden CRT und QUEST werden die Surrogate f r jede Aufteilung im Baum aufgef hrt sofern das Modell berhaupt Surrogate enth lt Nicht verf gbar f r CHAID Methoden F r weitere Informationen siehe Surrogate auf S 16 Knotenleistung Zusammenfassung Bei metrischen abh ngigen Variablen enth lt die Tabelle die Knotennummer die Anzahl der F lle und den Mittelwert f r die abh ngige Variable Bei kategorialen abh ngigen Variablen mit definierten Profiten zeigt die Tabelle die Knotennummer die Anzahl der F lle den durchschnittlichen Profit sowie den Anlageertrag ROI Nicht verf gbar f r kategoriale abh ngige Variablen bei denen keine Profite definiert sind F r weitere Informationen siehe Profite auf S 18 Abbildung 1 23 Gewinnauswertungstabellen f r Knoten und Perzentile Gewinnzusammenfassung f r Knoten Knoten N Perzentie pen Ro Gewinnzusammenfassung f r Perzentile Perzertile 10 20 20 40 50 On 60 70 80 90 gt oo OD oO OO OO nm 4 w Nach Zielkategorie Bei kategorialen abh ngigen Variablen mit definierten Zielkategorien enth lt die Tabelle den prozentualen Gewinn die Antworten in Prozent sowie den Indexprozentsatz Anhebung f r die einzelnen Knoten oder Perzentilgruppen F r jede Zielkategorie wird eine se
16. lle in einer bestimmten Region untersucht Jeder Fall entspricht einer Kreuzklassifikation von Alterskategorie und Geschlecht m adl sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bem hungen geht die Vorteile einer vorgeschlagenen Therapieform f r Schlaganfallpatienten zu ermitteln rzte teilten weibliche Schlaganfallpatienten nach dem Zufallsprinzip jeweils einer von zwei Gruppen zu Die erste Gruppe erhielt die physische Standardtherapie die zweite erhielt eine zus tzliche Emotionaltherapie Drei Monate nach den Behandlungen wurden die F higkeiten der einzelnen Patienten bliche Alltagsaktivit ten auszuf hren als ordinale Variablen bewertet m advert sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Einzelh ndlers geht die Beziehungen zwischen den in Werbung investierten Betr gen und den daraus resultierenden Ums tzen zu untersuchen Zu diesem Zweck hat er die Ums tze vergangener Jahre und die zugeh rigen Werbeausgaben zusammengestellt m aflatoxin sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Tests von Maisernten auf Aflatoxin geht ein Gift dessen Konzentration stark zwischen und innerhalb von Ernteertr gen schwankt Ein Kornverarbeitungsbetrieb hat aus 8 Ernteertr gen je 16 Proben erhalten und das Aflatoxinniveau in Teilen pro Milliarde parts per billion PPB gemessen m aflatoxin20 sav Diese Datendatei enth
17. m Inder Baumstruktur wird der gesamte Baum angezeigt Sie k nnen die Gr e des Fensters Baumstruktur ndern wodurch die Strukturanzeige des Baums entsprechend der Fenstergr e vergr ert bzw verkleinert wird m Der markiert Bereich in der Baumstruktur ist der Bereich des Baums der derzeit im Baum Editor angezeigt wird m Mithilfe der Baumstruktur k nnen Sie im Baum navigieren und Knoten ausw hlen F r weitere Informationen siehe Baumstruktur in Kapitel 2 auf S 43 Bei abh ngigen metrischen Variablen zeigt jeder Knoten den Mittelwert und die Standardabweichung der abh ngigen Variablen an Knoten O zeigt einen Gesamtmittelwert f r den Fahrzeugkaufpreis von ca 29 9 in Tausend an mit einer Standardabweichung von ca 21 6 m Knoten 1 der f r F lle mit einem Einkommen von weniger als 75 ebenfalls in Tausend steht weist einen mittleren Fahrzeugpreis von nur 18 7 auf m Knoten 2 dagegen der f r F lle mit einem Einkommen von mindestens 75 steht weist einen mittleren Fahrzeugpreis von 60 9 auf Eine eingehendere Untersuchung des Baums w rde zeigen dass alter und ausbildu ebenfalls eine Beziehung zum Fahrzeugkaufpreis aufweisen im Moment interessieren wir uns jedoch in erster Linie f r die praktische Anwendung des Modells und weniger f r eine detaillierte Untersuchung seiner Komponenten Risikosch tzer Abbildung 5 6 Risikotabelle Risiko Standardfe Sch tzer hler Aufbaumethode CRT Abh ngige Yariable Preis des Ers
18. mit ihren Lebensgef hrten darum gebeten 15 Fr hst cksartikel in der Vorzugsreihenfolge von 1 am meisten bevorzugt bis 15 am wenigsten bevorzugt zu ordnen Die Bevorzugungen wurden in sechs unterschiedlichen Szenarien erfasst von Overall preference Allgemein bevorzugt bis Snack with beverage only Imbiss nur mit Getr nk breakfast overall sav Diese Datei enth lt die Daten zu den bevorzugten Fr hst cksartikeln allerdings nur f r das erste Szenario Overall preference Allgemein bevorzugt broadband_1 sav Hierbei handelt es sich um eine hypothetische Datendatei die die Anzahl der Abonnenten eines Breitband Service nach Region geordnet enth lt Die Datendatei enth lt die monatlichen Abonnentenzahlen f r 85 Regionen ber einen Zeitraum von vier Jahren 105 Beispieldateien broadband_2 sav Diese Datendatei stimmt mit broadband_1 sav berein enth lt jedoch Daten f r weitere drei Monate car_insurance_claims sav Ein an anderer Stelle vorgestelltes und analysiertes Daten Set bezieht sich auf Schadensanspr che f r Autos Die durchschnittliche H he der Schadensanspr che l sst sich mit Gamma Verteilung modellieren Dazu wird eine inverse Verkn pfungsfunktion verwendet um den Mittelwert der abh ngigen Variablen mit einer linearen Kombination aus Alter des Versicherungsnehmers Fahrzeugtyp und Fahrzeugalter in Bezug zu setzen Die Anzahl der eingereichten Schadensanspr che kann
19. ngig Knoten 0 Mittelwert n Ki Morbergezagt unabh ngig Adj P value 0 000 F 2854 214 df1 3 df2 996 lt 1 00 1 00 2 00 2 00 3 00 Knoten 2 Mittelwert StdAbw Knoten 3 3 000 Mittelwert 0 000 StdAbw 161 n 16 1 3 000 Vorhergesagt Knoten 1 Mittelwert StdAbw 1 000 0 000 2 522 0 500 339 33 9 2 522 n 171 n Ki 17 1 Ki Vorhergesagt 1 000 vorhergesagt Mittelwert StdAbw n 329 Ki 32 9 Vorhergesagt gt 3 00 Knoten 4 1 000 0 000 1 000 56 Kapitel 3 m Jeder Knoten des Baums zeigt den vorhergesagten Wert den Mittelwert f r die abh ngige Variable an diesem Knoten F r eine eigentlich kategoriale Variable ist der Mittelwert m glicherweise keine sinnvolle Statistik m Der Baum weist vier untergeordnete Knoten auf einen f r jeden Wert der unabh ngigen Variablen In Baummodellen werden h ufig hnliche Knoten zusammengef hrt bei metrischen Variablen k nnen jedoch nur aufeinanderfolgende Werte zusammengef hrt werden In diesem Beispiel wurden keine aufeinander folgenden Werte als hnlich genug f r eine Knotenzusammenf hrung betrachtet Der Baum bei dem beide Variablen als nominal behandelt werden weist in mehrerlei Hinsicht Unterschiede auf Abbildung 3 4 Baum bei dem beide Variablen als nominale Variablen behandelt werden abh ngig Knoten O Kategorie n nen f 50 0 500 LEE 16 2 162 1m 2 0 13 338 3383 i 1 Gesamt 100 0 1000 unabh
20. 114 Std Abw 16 163 n 2286 n 824 735 Ki 26 5 Vorhergesagt 18 663 Vorhergesagt 60 928 inkommenskategorien in Tausend Alter in Jahren Verbesserung 32 340 Verbesserung 5 411 Knoten 4 Knoten 5 Mittelwert 30 213 Mittelwert 52 544 Std Abw 3 521 Std Abw 13 069 n 567 n 189 Ki 18 2 Ki 6 1 Vorhergesagt 30 213 Vorhergesagt 52 594 Alter in Jahren Ausbildung Verbesserung 0 027 Verbesserung 0 264 gt unter 25 IS gt L ia eb gt Hauptschul Realschulabschlu Knoten 8 Knoten 9 Knoten 10 Knoten 11 Knoten 12 Knd Mittelwert 17 863 Mittelwert 29 783 Mittelwert 30 563 Mittelwert 49 523 Mittelwert 54 084 Mittelwert Std Abw 3 589 Std Abw 3 515 Std Abw 3 493 Std Abw 10 021 Std Abw 14 104 Std Abw n 1130 n 255 n 312 n 61 n 128 n 36 3 Ki 82 Ki 10 0 Ki 20 Ki 41 Ki Vorhergesagt 17 563 Vorhergesagt 29 783 Vorhergesagt 30 563 Vorhergesagt 49 523 Vorhergesagt 54 084 Vorherges Alter in Jahren Verbesserung 0 169 Das Baummodelldiagramm enth lt so viele Knoten dass es schwierig ist das ganze Modell auf einmal in einer Gr e anzuzeigen in der die Informationen zum Knoteninhalt noch lesbar sind Mithilfe der Baumstruktur k nnen Sie den gesamten Baum anzeigen gt Doppelklicken Sie auf den Baum im Viewer um den Baum Editor zu ffnen W hlen Sie die folgenden Men befehle des Baum Editors aus Ansicht Baumstruktur 88 Kapitel 5 Abbildung 5 5 Baumstruktur Baumstruktur
21. 12 Diagramme 32 Effekte der Messniveaus 53 Effekte von Wertelabels 57 Endknotenstatistik 28 Farben 46 Farben in Knotendiagrammen 46 Fehlende Werte 23 93 Fehlklassifizierungskosten 17 Fehlklassifizierungstabelle 28 Gewinne f r Knoten Tabelle 70 Indexwerte 28 Intervalle f r metrische unabh ngige Variablen 11 Knotengr e steuern 9 Kreuzvalidierung 7 mehrere Knoten ausw hlen 41 mit umfangreichen B umen arbeiten 43 Modellvariablen speichern 24 Modellzusammenfassungstabelle 67 Profite 18 Regeln erzeugen 38 49 Risikosch tzer 28 Risikosch tzer f r abh ngige metrische Variablen 88 Schriftarten 46 Speichern vorhergesagter Werte 73 Split Sample Validierung 7 Surrogate 93 100 Index Textattribute 46 Verzweigungen und Knoten ausblenden 41 Verzweigungsstatistik ein und ausblenden 26 Werte 21 Baummodelle 70 Befehlssyntax Auswahl und Bewertungssyntax f r Klassifizierungsb ume erstellen 38 49 Beispieldateien Lage 103 Bewertung Baummodelle 83 CHAID 1 Bonferroni Korrektur 10 erneut aufgeteilte zusammengef hrte Kategorien 10 Intervalle f r metrische unabh ngige Variablen 11 Kriterien f r Aufteilen und Zusammenf hren 10 Maximalzahl der Iterationen 10 CRT 1 beschneiden 15 Unreinheitsma e 12 Entscheidungb ume beschneiden im Vergleich mit dem Ausblenden von Knoten 15 Entscheidungsb ume 1 CHAID Methode 1 CRT Methode 1 erste Variable in Modell aufnehmen lassen
22. 5 lt 28 0792 gt 28 0792 m Die unabh ngige Variable die zur Aufteilung des Knotens verwendet wird 70 Kapitel 4 m Der Chi Quadrat Wert da der Baum mit der Methode CHAID erstellt wurde die Freiheitsgrade df und das Signifikanzniveau Sig f r die Aufteilung F r die meisten Zwecke sind Sie vermutlich nur am Signifikanzniveau interessiert das f r alle Aufteilungen weniger als 0 0001 betr gt m Die Werte der unabh ngigen Variablen f r diesen Knoten Hinweis Bei unabh ngigen ordinalen und metrischen Variablen k nnen im Baum und in der Baumtabelle Bereiche in der allgemeinen Form Wert Wert2 ausgedr ckt werden die bedeutet gr er als Wertl und kleiner oder gleich Wert2 In diesem Beispiel gibt es f r das Einkommensniveau nur drei m gliche Werte Niedrig Mittel und Hoch und Low Medium Niedrig Mittel bedeutet einfach Medium Mittel gt Mittel bedeutet Hoch Gewinne f r Knoten Abbildung 4 11 Gewinne f r Knoten Knoten Tregor Inte 1 Aufbaumethode CHAID Abh ngige Variable Kreditrating Die Tabelle Gewinne f r Knoten bietet eine Zusammenfassung der Informationen ber die Endknoten im Modell m Nur die Endknoten Knoten an denen der Baum nicht mehr weiter w chst werden in der Tabelle aufgef hrt In den meisten F llen sind nur die Endknoten von Interesse da sie die besten Klassifikationsvoraussagen f r das Modell darstellen m Da die Gew
23. Anhang A cereal sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Umfrage geht bei der 880 Personen nach ihren Fr hst ckgewohnheiten befragt wurden Au erdem wurden Alter Geschlecht Familienstand und Vorliegen bzw Nichtvorliegen eines aktiven Lebensstils auf der Grundlage von mindestens zwei Trainingseinheiten pro Woche erfasst Jeder Fall entspricht einem Teilnehmer clothing_defects sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Bekleidungsfabrik geht Aus jeder in der Fabrik produzierten Charge entnehmen die Kontrolleure eine Stichprobe an Bekleidungsartikeln und z hlen die Anzahl der Bekleidungsartikel die inakzeptabel sind coffee sav Diese Datendatei enth lt Daten zum wahrgenommenen Image von sechs Eiskaffeemarken Bei den 23 Attributen des Eiskaffee Image sollten die Teilnehmer jeweils alle Marken ausw hlen die durch dieses Attribut beschrieben werden Die sechs Marken werden als AA BB CC DD EE und FF bezeichnet um Vertraulichkeit zu gew hrleisten contacts sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Kontaktlisten einer Gruppe von Vertretern geht die Computer an Unternehmen verkaufen Die einzelnen Kontaktpersonen werden anhand der Abteilung in der sie in ihrem Unternehmen arbeiten und anhand ihrer Stellung in der Unternehmenshierarchie in Kategorien ei
24. Anzahl der Zellen ist dabei gleich der Anzahl der Personen in einer Quelle minus der Anzahl der gemeinsamen Platzierungen der Objekte in dieser Quelle kinship_ini sav Diese Datendatei enth lt eine Ausgangskonfiguration f r eine dreidimensionale L sung f r kinship_dat sav kinship_var sav Diese Datendatei enth lt die unabh ngigen Variablen gender Geschlecht gener Generation und degree Verwandtschaftsgrad die zur Interpretation der Dimensionen einer L sung f r kinship_dat sav verwendet werden k nnen Insbesondere k nnen sie verwendet werden um den L sungsraum auf eine lineare Kombination dieser Variablen zu beschr nken mailresponse sav Hierbei handelt es sich um eine hypothetische Datendatei in der es um die Bem hungen eines Bekleidungsherstellers geht der ermitteln m chte ob die Verwendung von Briefsendungen f r das Direktmarketing zu schnelleren Antworten f hrt als Postwurfsendungen Die Mitarbeiter in der Bestellannahme erfassen wie vielen Wochen nach der Postsendung die einzelnen Bestellungen aufgegeben wurden marketvalues sav Diese Datendatei betrifft Hausverk ufe in einem Neubaugebiet in Algonquin Illinois in den Jahren 1999 2000 Diese Verk ufe sind in Grundbucheintr gen dokumentiert mutualfund sav Diese Datendatei betrifft Aktienmarktdaten f r verschiedene Technologieaktien die in im Index S amp P 500 verzeichnet sind Jeder Fall entspricht einem Unternehmen nhis2000_subset sav Die Natio
25. Fragen zur Lieferung oder Ihrem Kundenkonto an Ihr regionales B ro das Sie auf der Website unter http www spss com worldwide finden Halten Sie bitte stets Ihre Seriennummer bereit Ausbildungsseminare SPSS Inc bietet ffentliche und unternehmensinterne Seminare an Alle Seminare beinhalten auch praktische bungen Seminare finden in gr eren St dten regelm ig statt Wenn Sie weitere Informationen zu diesen Seminaren w nschen wenden Sie sich an Ihr regionales B ro das Sie auf der Website unter hrtp www spss com worldwide finden Technischer Support Kunden mit Wartungsvertrag k nnen den Technischen Support in Anspruch nehmen Kunden k nnen sich an den Technischen Support wenden wenn sie Hilfe bei der Arbeit mit PASW Statistics oder bei der Installation in einer der unterst tzten Hardware Umgebungen ben tigen Informationen zum Technischen Support finden Sie auf der Website unter http www spss com oder wenden Sie sich an Ihr regionales B ro das Sie auf der Website unter http www spss com worldwide finden Bei einem Anruf werden Sie nach Ihrem Namen dem Namen Ihrer Organisation und Ihrer Seriennummer gefragt Weitere Ver ffentlichungen Das Handbuch SPSS Statistics Statistical Procedures Companion von Marija Noru is wurde von Prentice Hall ver ffentlicht Eine neue Fassung dieses Buchs mit Aktualisierungen f r PASW Statistics 18 ist geplant Das Handbuch SPSS Statistics Advanced Statistical Procedures Companion b
26. Personen auf die Kampagne ansprachen oder nicht Jeder Fall entspricht einer Einzelperson customers_new sav Diese Datei enth lt hypothetische Daten zu Einzelpersonen die potenzielle Kandidaten f r Marketingkampagnen sind Zu diesen Daten geh ren demografische Informationen und eine bersicht ber die bisherigen Eink ufe f r jede Person Jeder Fall entspricht einer Einzelperson debate sav Hierbei handelt es sich um eine hypothetische Datendatei die gepaarte Antworten auf eine Umfrage unter den Zuh rern einer politischen Debatte enth lt Antworten vor und nach der Debatte Jeder Fall entspricht einem Befragten 107 Beispieldateien debate_aggregate sav Hierbei handelt es sich um eine hypothetische Datendatei in der die Antworten aus debate sav aggregiert wurden Jeder Fall entspricht einer Kreuzklassifikation der bevorzugten Politiker vor und nach der Debatte demo sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Kundendatenbank geht die zum Zwecke der Zusendung monatlicher Angebote erworben wurde Neben verschiedenen demografischen Informationen ist erfasst ob der Kunde auf das Angebot geantwortet hat demo_cs_1 sav Hierbei handelt es sich um eine hypothetische Datendatei f r den ersten Schritt eines Unternehmens das eine Datenbank mit Umfrageinformationen zusammenstellen m chte Jeder Fall entspricht einer anderen Stadt Au erdem sind IDs f r Region Provinz Landkreis und Stadt e
27. Schriften ndern Schriftart und gr e ndern Baumausrichtung ndern Untergruppen von F llen f r weitere Analyse auf der Grundlage ausgew hlter Knoten ausw hlen m Regeln zum Ausw hlen und Bewerten von F llen auf der Grundlage ausgew hlter Knoten erstellen und speichern So bearbeiten Sie ein Baummodell Doppelklicken Sie im Viewer Fenster auf das Baummodell oder W hlen Sie im Men Bearbeiten bzw im Kontextmen folgende Optionen Inhalt bearbeiten In separatem Fenster Ein und Ausblenden von Knoten So k nnen Sie alle untergeordneten Knoten in einer Verzweigung unterhalb eines bergeordneten Knotens ausblenden reduzieren Klicken Sie auf das Minuszeichen in dem kleinen K stchen unterhalb der rechten unteren Ecke des bergeordneten Knotens Alle Knoten unterhalb des bergeordneten Knotens in dieser Verzweigung werden ausgeblendet So k nnen Sie die untergeordneten Knoten in einer Verzweigung unterhalb eines bergeordneten Knotens einblenden erweitern Klicken Sie auf das Pluszeichen in dem kleinen K stchen unterhalb der unteren rechten Ecke des bergeordneten Knotens 41 42 Kapitel 2 Hinweis Das Ausblenden der untergeordneten Knoten in einer Verzweigung ist nicht dasselbe wie das Beschneiden eines Baums Soll der Baum beschnitten werden aktivieren Sie das Beschneiden bevor Sie den Baum erstellen Beschnittene Verzweigungen sind nicht im endg ltigen Baum
28. Sie auf die Registerkarte Profite Klicken Sie auf Benutzerdefiniert Geben Sie die Werte f r Verkaufserl se und Aufwendungen f r alle im Gitter aufgef hrten Kategorien der abh ngigen Variablen ein 20 Kapitel 1 A priori Wahrscheinlichkeit Abbildung 1 14 Dialogfeld Optionen Registerkarte A priori Wahrscheinlichkeiten E Entscheidungsbaum Optionen Aus Trainingsstichprobe bernehmen empirische A priori Vahrscheinlichkeiten In allen Kategorien gleich Anpassen A priori Yahrscheinlichkeiten Summe der Werte 100 Die Werte werden automatisch normalisiert EI A priori Wahrscheinlichkeiten anhand der Fehlklassifizierungskosten korrigieren Le luese mm Bei CRT und QUEST B umen mit kategorialen abh ngigen Variablen k nnen Sie A priori Wahrscheinlichkeiten f r die Gruppenzugeh rigkeit angeben A priori Wahrscheinlichkeiten sind eine Sch tzung der gesamten relativen H ufigkeit f r jede Kategorie der abh ngigen Variable die aufgestellt wird noch bevor die Werte der unabh ngigen Variablen Einflussvariablen bekannt sind Mithilfe von A priori Wahrscheinlichkeiten k nnen Sie den Aufbau des Baums durch Daten in der Stichprobe korrigieren die nicht repr sentativ f r die Gesamtheit als Ganzes sind Aus Trainingsstichprobe bernehmen empirische A priori Wahrscheinlichkeiten Aktivieren Sie diese Einstellung wenn die Verteilung der Variablenwerte in der Datendatei rep
29. auszuw hlen oder aus einer Datenbank zu extrahieren oder um Werte f r diese Datens tze zuzuweisen werden Standard SQL Regeln erzeugt Die erzeugten SQL Regeln enthalten keine Tabellennamen oder andere Informationen zur Datenquelle m Text Pseudo Code in nat rlicher Sprache Regeln werden als Reihe logischer Wenn Dann Anweisungen ausgedr ckt die die Klassifizierungen oder Vorhersagen des Modells f r jeden Knoten beschreiben Regeln in dieser Form k nnen definierte Variablen und Wertelabels oder auch Variablennamen und Datenwerte nutzen 39 Erstellen von Entscheidungsb umen Typ Bei PASW Statistics und SQL Regeln wird hiermit der Typ der erzeugten Regeln gesteuert Auswahl oder Bewertungsregeln m F llen Werte zuweisen Mit den Regeln k nnen die Vorhersagen aus dem Modell F llen zugewiesen werden die die Kriterien f r die Knotenzugeh rigkeit erf llen F r jeden Knoten der den Kriterien f r die Knotenzugeh rigkeit entspricht wird eine separate Regel erzeugt m F lle ausw hlen Mit den Regeln k nnen F lle ausgew hlt werden die die Kriterien f r die Knotenzugeh rigkeit erf llen Bei PASW Statistics und SQL Regeln wird eine einzige Regel erzeugt mit der alle F lle ausgew hlt werden die den Auswahlkriterien entsprechen Ersatzwerte in PASW Statistics und SQL Regeln einschlie en Bei CRT und QUEST k nnen Sie ersatzweise Einflussvariablen aus dem Modell in die Regeln aufnehmen Regeln mit Surrogaten k nne
30. den Signifikanzwert f r das Aufteilen von Knoten und das Zusammenf hren von Kategorien fest Bei beiden Kriterien liegt das Standard Signifikanzniveau bei 0 05 m Beim Aufteilen von Knoten muss der Wert gr er als O und kleiner als 1 sein Bei niedrigeren Werten entstehen B ume mit weniger Knoten m Beim Zusammenf hren von Kategorien muss der Wert gr er als O und kleiner oder gleich 1 sein Wenn ein Zusammenf hren der Kategorien unterbunden werden soll legen Sie den Wert 1 fest Bei einer metrischen unabh ngigen Variablen bedeutet dies dass die Anzahl der Kategorien f r die Variable im fertigen Baum der angegebenen Anzahl an Intervallen entspricht Standardwert 10 F r weitere Informationen siehe Metrische Intervalle f r die CHAID Analyse auf S 11 Chi Quadrat Statistik Bei ordinalen abh ngigen Variablen wird der Chi Quadrat Wert mit dem das Aufteilen von Knoten und das Zusammenf hren von Kategorien bestimmt wird mithilfe der Likelihood Quotienten Methode berechnet Bei nominalen abh ngigen Variablen k nnen Sie die Methode ausw hlen m Pearson Diese Methode liefert schnellere Berechnungen sollte bei kleineren Stichproben jedoch nur nach sorgf ltiger Erw gung verwendet werden Dies ist die Standardmethode m Likelihood Quotient Diese Methode ist stabiler als die Pearson Methode die Berechnungen nehmen jedoch mehr Zeit in Anspruch Diese Methode eignet sich ideal f r kleine Stichproben 11 Erstellen von En
31. drei wurden in das endg ltige Modell aufgenommen Die Variablen f r Ausbildung und Anzahl der laufenden Autodarlehen leisteten keinen signifikanten Beitrag zum Modell und wurden daher beim endg ltigen Modell automatisch weggelassen 68 Kapitel 4 Baumdiagramm Abbildung 4 8 Baumdiagramm f r die Erstellung eines Modells f r das Kreditrating Kreditrating Knoten O Kategorie n E schlecht 41 4 1020 B gut 58 6 1444 Gesamt 100 0 2454 Einkommen in Kategorien lt niedrig niedrig mittel Knoten 1 Knoten 2 Kategorie n Kategorie n E schlecht 82 1 454 E schlecht 42 0 476 m gut 179 99 gut 58 0 658 Gesamt 22 4 553 Gesamt 45 0 1134 Anzahl an Kreditkarten gt mittel Knoten 3 Kategorie n E schlecht 115 90 B gut 88 4 687 Gesamt 315 777 Anzahl an Kreditkarten 5 oder mehr Knoten 4 Kategorie n E schlecht 56 7 422 gut 43 3 322 Gesamt 30 2 744 Alter 28 08 gt 28 08 Knoten 8 Knoten 9 Kategorie n E schlecht B gut 56 3 272 19 6 483 Kategorie n E schlecht 80 8 211 S gut 192 50 Gesamt 10 5 261 Gesamt Das Baumdiagramm ist eine grafische Darstellung des Baummodells Dieses Baumdiagramm zeigt Folgendes m Bei Verwendung der CHAID Methode ist Einkommen in Kategorien die beste Einflussvariable f r Kreditrating m Bei der unteren Einkommensklasse ist Einkommen in Kategorien die einzige signifikante Einflussvariable f r Kreditrating Von den Ban
32. enth lt die Gruppe der der Lehrgangsteilnehmer zugeteilt wurde sowie die von ihm in der Pr fung erreichte Punktzahl satisf sav Hierbei handelt es sich um eine hypothetische Datendatei zu einer Zufriedenheitsumfrage die von einem Einzelhandelsunternehmen in 4 Filialen durchgef hrt wurde Insgesamt wurden 582 Kunden befragt Jeder Fall gibt die Antworten eines einzelnen Kunden wieder screws sav Diese Datendatei enth lt Informationen zu den Eigenschaften von Schrauben Bolzen Muttern und Rei n geln shampoo_ph sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Fabrik f r Haarpflegeprodukte geht In regelm igen Zeitabst nden werden Messwerte von sechs separaten Ausgangschargen erhoben und ihr pH Wert erfasst Der Zielbereich ist 4 5 5 5 ships sav Ein an anderer Stelle vorgestelltes und analysiertes Daten Set bezieht sich auf die durch Wellen verursachten Sch den an Frachtschiffen Die Vorfallsh ufigkeiten k nnen unter Angabe von Schiffstyp Konstruktionszeitraum und Betriebszeitraum gem einer Poisson Rate modelliert werden Das Aggregat der Betriebsmonate f r jede Zelle 112 Anhang A der durch die Kreuzklassifizierung der Faktoren gebildeten Tabelle gibt die Werte f r die Risikoanf lligkeit an site sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Unternehmens geht neue Standorte f r die betriebl
33. enthalten F r weitere Informationen siehe Beschneiden von B umen in Kapitel 1 auf S 15 Abbildung 2 1 Erweiterter und reduzierter Baum Knoten 0 Kategorie n E Einfach 28 8 1841 m Standard 35 5 2275 Knoten O 5 Luxus 35 7 2284 Kategorie 2 n Gesamt 100 0 5400 E Einfach 28 3 184 Standard 35 5 2275 Einkommensklassen in Tausend Luxus 35 7 2284 Korrigierter P Wert 0 000 Chi Gesamt 100 0 6400 Quadrat 15321 425 Freiheitsgrade 3 Einkommensklassen in Tausend Korrigierter P Wert 0 000 Chi Quadrat 15321 425 Freiheitsgrade 3 lt Unter 25 Unter 25 25 49 Knoten 1 Knoten 2 Kategorie n Kategorie n Einfach 100 0 1174 m Einfach 279 667 m Standard 00 o m Standard 72 1 1721 Unter 25 Unter 25 25 49 Knoten 1 Knoten 2 Kategorie n Kategorie n E Einfach 100 0 1174 E Einfach 279 667 B Standard 00 D m Standard 72 1 1721 Zufriedenheit mit der Arbeit E Luxus 00 0 Luxus 00 0 Korrigierter P Wert 0 010 Chi Gesamt 18 3 1174 Gesamt 37 3 2388 Quadrat 12 7386 Freiheitsgrade 2 I Luxus 0 0 0 E Luxus 0 0 0 Gesamt 18 3 1174 Gesamt 37 3 2388 Knoten 6 Knoten 7 Kategorie n Kategorie n E Einfach 280 301 E Einfach 242 189 E Standard 720 775 D Standard 758 592 5 Luxus 0 0 0 5 Luxus 0 0 0 Gesamt 16 8 1076 Gesamt 12 2 781 Ausw hlen mehrerer Knoten Auf der Grundlage des oder der ausgew hlten Knoten k nnen Sie F lle ausw hlen Bewertungs und Auswahlregeln
34. gibt allerdings eine Reihe wichtiger Unterschiede m Die wichtigste unabh ngige Variable Einflussvariable im CRT Modell ist Anzahl an Kreditkarten im CHAID Modell dagegen Einkommen in Kategorien 101 Fehlende Werte in Baummodellen m Bei F llen mit weniger als f nf Kreditkarten ist Anzahl an Kreditkarten die einzige relevante Einflussvariable f r das Kreditrating und Knoten 2 ist ein Endknoten m Wie beim CHAID Modell sind auch die Variablen Einkommen in Kategorien und Alter in diesem Modell vorhanden Einkommen in Kategorien fungiert jedoch nun nicht mehr als erste Einflussvariable sondern als zweite m Es liegen keine Knoten mit der Kategorie lt fehlend gt vor weil bei CRT keine fehlenden Werte im Modell zugelassen sondern Surrogat Einflussvariablen verwendet werden Abbildung 6 9 Risiko und Klassifizierungstabellen f r das CRT Modell Risiko SSES Standardfe Sch tzer hler Aufbaumethode CRT Abh ngige Yariable Kreditrating Klassifikation O vorhergesadt Prozent Beobachtet schlecht korrekt schlecht 832 ar 81 6 gut 364 1080 74 3 Gesamtprozentsatz 48 5 51 5 77 6 Aufbaumethode CRT Abh ngige Variable Kreditrating m Die Risiko und Klassifizierungstabellen zeigen eine Gesamtrate f r die korrekte Klassifizierung von nahezu 78 also eine leichte Verbesserung gegen ber dem CHAID Modell 75 m Die Rate f r die richtige Klassifizierung risikobehafteter Kredite ist beim CRT Mod
35. gt PASW Decision Trees Entscheidungsb ume 18 Weitere Informationen zu SPSS Inc Software Produkten finden Sie auf unserer Website unter der Adresse hrip www spss com oder wenden Sie sich an SPSS Inc 233 South Wacker Drive 11th Floor Chicago IL 60606 6412 USA Tel 312 651 3000 Fax 312 651 3668 SPSS ist eine eingetragene Marke PASW ist eine eingetragene Marke von SPSS Inc Die SOFTWARE und die Dokumentation werden mit BESCHR NKTEN RECHTEN zur Verf gung gestellt Verwendung Vervielf ltigung und Ver ffentlichung durch die Regierung unterliegen den Beschr nkungen in Unterabschnitt c 1 ii von The Rights in Technical Data and Computer Software unter 52 227 7013 Vertragspartner Hersteller ist SPSS Inc 233 South Wacker Drive 11th Floor Chicago IL 60606 6412 Patentnr 7 023 453 Allgemeiner Hinweis Andere in diesem Dokument verwendete Produktnamen werden nur zu Identifikationszwecken genannt und k nnen Marken der entsprechenden Unternehmen sein Windows ist eine eingetragene Marke der Microsoft Corporation Apple Mac und das Mac Logo sind Marken von Apple Computer Inc die in den USA und in anderen L ndern eingetragen sind Dieses Produkt verwendet WinWrap Basic Copyright 1993 2007 Polar Engineering and Consulting http www winwrap com Kein Teil dieser Publikation darf ohne vorherige Einwilligung des Herstellers in irgendeiner Form elektronisch mechanisch durc
36. m Prot f Ro 10 7 377 4 20 352 0 336 2 323 4 307 9 280 6 254 4 221 6 197 9 180 4 Perzentil Inkrement Bei allen Perzentildiagrammen steuert diese Einstellung die im Diagramm abgebildeten Perzentil Inkremente 1 2 5 10 20 oder 25 38 Kapitel 1 Auswahl und Bewertungsregeln Abbildung 1 31 Dialogfeld Ausgabe Registerkarte Regeln EB Entsc heidungsbaum Ausgabe E Klassifizierungsregeln erstellen rSyrtax rKnoten PASW Statistics Alle Endknoten sal O Text Typ F llen Werte zuweisen F lle ausw hlen I Surrogate in PAS Statistics und SQL Regeln einschlie en Alle Knoten Regeln in Datei exportieren Datei c ttemp car_scores sps Durchsuchen GE mm Auf der Registerkarte Regeln legen Sie die Regeln f r die Auswahl oder die Klassifizierung Vorhersage mit der Befehlssyntax als SOL Anweisungen oder in nat rlicher Sprache fest Sie k nnen diese Regeln im Viewer anzeigen lassen und oder in einer externen Datei speichern Syntax Steuert die Form der Auswahlregeln sowohl f r die Ausgabe im Viewer als auch beim Speichern in einer externen Datei m PASW Statistics Befehlssyntax Sprache Die Regeln werden als Befehle ausgedr ckt die eine Filterbedingung zum Ausw hlen von Untergruppen mit F llen definieren oder auch als COMPUTE Anweisungen mit denen F lle bewertet werden k nnen m SOL Um Datens tze
37. sie sie ihren Mitarbeitern anbieten w rden Jeder Fall entspricht einem Arbeitgeber und enth lt die Reaktionen auf die einzelnen Pl ne health_funding sav Hierbei handelt es sich um eine hypothetische Datei die Daten zur Finanzierung des Gesundheitswesens Betrag pro 100 Personen Krankheitsraten Rate pro 10 000 Personen der Bev lkerung und Besuche bei medizinischen Einrichtungen rzten Rate pro 10 000 Personen der Bev lkerung enth lt Jeder Fall entspricht einer anderen Stadt hivassay sav Hierbei handelt es sich um eine hypothetische Datendatei zu den Bem hungen eines pharmazeutischen Labors einen Schnelltest zur Erkennung von HIV Infektionen zu entwickeln Die Ergebnisse des Tests sind acht kr ftiger werdende Rotschattierungen wobei kr ftigeren Schattierungen auf eine h here Infektionswahrscheinlichkeit hindeuten Bei 2 000 Blutproben von denen die H lfte mit HIV infiziert war wurde ein Labortest durchgef hrt hourlywagedata sav Hierbei handelt es sich um eine hypothetische Datendatei zum Stundenlohn von Pflegepersonal in Praxen und Krankenh usern mit unterschiedlich langer Berufserfahrung insurance_claims sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die ein Modell zur Kennzeichnung verd chtiger potenziell betr gerischer Anspr che erstellen m chte Jeder Fall entspricht einem Anspruch insure sav Hierbei handelt es sich um eine hypothetische D
38. voraussagen z B die Wahrscheinlichkeit dass eine Person mit dem Darlehen in Bezug ger t oder den potenziellen Wiederverkaufswert eines Autos oder Hauses Dimensionsreduktion und Variablen Screening W hlen Sie eine geeignete Untergruppe an Einflussgr en aus einer Vielzahl von Variablen aus und bauen Sie damit ein formales parametrisches Modell auf Erkennen von Wechselwirkungen Ermitteln Sie Beziehungen die nur f r bestimmte Untergruppen gelten und halten Sie diese in einem formalen parametrischen Modell fest Zusammenf hrung von Kategorien und Diskretisierung stetiger Variablen Nehmen Sie die Umkodierung der Einflussgr enkategorien und der stetigen Variablen bei minimalem Datenverlust vor Beispiel Eine Bank m chte die Kreditantragsteller danach kategorisieren ob sie ein annehmbares Kreditrisiko darstellen oder nicht Auf der Grundlage verschiedener Faktoren z B bekanntes Kreditrating bisheriger Kunden k nnen Sie ein Modell aufbauen mit dem Sie vorhersagen ob zuk nftige Kunden mit ihren Darlehen in Verzug geraten w rden Eine baumbasierte Analyse bietet einige ansprechende M glichkeiten m Sie k nnen homogene Gruppen mit hohem oder niedrigem Risiko erkennen m Regeln f r Vorhersagen zu individuellen F llen k nnen leichter aufgestellt werden Erl uterung der Daten Daten Die abh ngigen und die unabh ngigen Variablen k nnen wie folgt gestaltet sein m Nominal Eine Variable kann als nominal behandel
39. werden beim Aufbau und bei der Klassifizierung des Baums als normale Werte behandelt 24 Kapitel 1 Methodenspezifische Regeln Einige jedoch nicht alle Werte f r eine unabh ngige Variable fehlen system oder benutzerdefiniert m Bei CHAID und Exhaustive CHAID werden system und benutzerdefiniert fehlende Werte f r eine unabh ngige Variable als eine einzige kombinierte Kategorie in die Analyse aufgenommen Bei metrischen und ordinalen unabh ngigen Variablen werden mit den Algorithmen zun chst Kategorien mithilfe g ltiger Werte erzeugt Anschlie end wird entschieden ob die fehlende Kategorie mit der hnlichsten g ltigen Kategorie zusammengef hrt oder als separate Kategorie beibehalten werden soll m Bei CRT und QUEST werden F lle bei denen Werte f r eine unabh ngige Variable fehlen aus dem Vorgang des Baumaufbaus ausgeschlossen Falls Surrogate in der Methode eingeschlossen sind werden diese F lle allerdings mithilfe von Surrogaten klassifiziert F r nominale benutzerdefiniert fehlende Werte die als fehlend behandelt werden gilt dieselbe Vorgehensweise F r weitere Informationen siehe Surrogate auf S 16 So bestimmen Sie die Behandlung f r nominale unabh ngige benutzerdefiniert fehlende Werte gt W hlen Sie im Hauptdialogfeld Entscheidungsbaum mindestens eine nominale unabh ngige Variable aus Klicken Sie auf Optionen Klicken Sie auf die Registerkarte Fehlende Werte Speichern der
40. 10 20 30 40 50 60 70 80 90 100 Index Der Index ist das Verh ltnis des Zielkategorieanteils im Knoten zum Zielkategorieanteil der gesamten Stichprobe Das Indexdiagramm ist ein Liniendiagramm kumulativer Perzentil Indexwerte Nur f r kategoriale abh ngige Variablen verf gbar Der kumulative Perzentil Index wird wie folgt berechnet Kumulative Perzentil Antwort in Prozent Gesamtantwort in Prozent x 100 F r jede Zielkategorie wird ein separates Diagramm angelegt Die Zielkategorien m ssen definiert werden Das Indexdiagramm enth lt dieselben Werte wie die Spalte Index in der Tabelle Gewinne f r Perzentile 34 Kapitel 1 Abbildung 1 27 Tabelle Gewinne f r Perzentile und Indexdiagramm Gewinne f r Perzentile Gewinn N Prozent nee index Zielkategorie Der Prozentsatz der F lle im Knoten die der Zielkategorie angeh ren Das Antwortdiagramm besteht aus einem Liniendiagramm kumulativer Perzentil Antworten die wie folgt berechnet werden Kumulatives Perzentilziel n Kumulatives Perzentil Gesamt n x 100 Dies ist nur f r kategoriale abh ngige Variablen verf gbar bei denen Zielkategorien definiert sind Das Antwortdiagramm enth lt dieselben Werte wie die Spalte Antwort in der Tabelle Gewinne f r Perzentile 35 Abbildung 1 28 Tabelle Gewinne f r Perzentile und Antwortdiagramm Gewinne f r Perzentile Perzertile Knoten 10 1 246 N Prozent
41. 7 Syntax Fenster mit Befehl INSERT zur Ausf hrung einer Befehlsdatei Syntax1 Syntax Editor ke ok Date Bearbeite Ansict Dater Transformie Analysier Grafike Extra Ausf hre Add Or Fenste Hilfe INSERT FILE temp car_scores sps Der Befehl INSERT f hrt die Befehle in der angegebenen Datei aus n mlich der Regel Datei die bei der Erstellung des Modells angelegt wurde W hlen Sie die folgenden Befehle aus den Men s des Befehlssyntax Fensters aus Ausf hren Alle Abbildung 5 8 Zur Datendatei hinzugef gte vorhergesagte Werte SH tree_score_car sav DatenSet2 Daten Editor Datei Bearbeiten Ansicht Daten Transformierer Analysierer Grafiken Extras Add Ons Fenster Hilfe b Auto EH Sichtbar 8 von 8 Variablen D icht Variablenansicht Dadurch werden zwei neue Variablen zu der Datendatei hinzugef gt m nod OU enth lt die vom Modell f r die einzelnen F lle vorhergesagten Endknotennummern m pre_001 enth lt den vorhergesagten Wert f r den Fahrzeugkaufpreis f r die einzelnen F lle 91 Konstruieren eines Bewertungsmodells Da Regeln f r die Zuweisung von Werten f r Endknoten angefordert wurden stimmt die Anzahl der m glichen vorausgesagten Werte mit der Anzahl der Endknoten berein in diesem Fall 15 So weist beispielsweise jeder Fall mit einer vorhergesagten Knotennummer von 10 denselben vorhergesagten Fahrzeugkaufpreis auf 30 56 Dies ist und zwar nicht zuf l
42. Deviation kleinste quadratische Abweichung verwendet Dieser Wert wird als Varianz innerhalb der Knoten berechnet und ggf gem der H ufigkeitsgewichtungen oder der Einflusswerte angepasst Bei kategorialen nominalen ordinalen abh ngigen Variablen stehen die folgenden Unreinheitsma e zur Auswahl m Gini Die Aufteilungen maximieren die Homogenit t der untergeordneten Knoten im Hinblick auf den Wert der abh ngigen Variable Das Gini Ma beruht auf den quadratischen Wahrscheinlichkeiten f r die Zugeh rigkeit zu einer Kategorie der abh ngigen Variable Der Mindestwert Null wird erreicht sobald alle F lle in einem Knoten in eine einzige Kategorie fallen Dies ist das Standardma m Twoing Die Kategorien der abh ngigen Variablen werden in zwei Unterklassen gruppiert Die Aufteilungen bewirken die bestm gliche Trennung der beiden Gruppen m Ordinales Twoing Dieses Ma entspricht weitgehend dem Twoing mit der Ausnahme dass nur nebeneinander liegende Kategorien gruppiert werden k nnen Dieses Ma steht nur bei ordinalen abh ngigen Variablen zur Verf gung Mindest nderung bei der Verbesserung Dies ist der mindestens erforderliche R ckgang der Unreinheit f r das Aufteilen eines Knotens Der Standardwert ist 0 0001 Bei h heren Werten entstehen B ume mit weniger Knoten 14 Kapitel 1 QUEST Kriterien vv v 4 Abbildung 1 9 Dialogfeld Kriterien Registerkarte QUEST GH Entscheidungsbaum Kriteri
43. Entscheidungsbaum Sa Entscheidungsbaum variablen Klicken Sie mit der rechten Maustaste auf eine Yariable um ihr Messniveau in der Variablenliste zu ndern Abh ngige variable Age Le amp Kreditrating Kredit_rati adenn Unabh ngige Variablen Speichern dem mes A Einkommen in Kategori Anzahl an Kreditkarten Ausbildung Ausbildung o Autodarlehen Darlehen Z Erste Variable erzwingen Einflussvariable 2a Aufbaumethode ET Genen in eme sen W hlen Sie eine abh ngige Variable aus W hlen Sie mindestens eine unabh ngige Variable aus W hlen Sie eine Aufbaumethode aus Die folgenden Optionen sind verf gbar ndern Sie das Messniveau f r eine Variable in der Liste der Quellvariablen Lassen Sie die erste Variable aus der Liste der unabh ngigen Variablen als erste Teilungsvariable aufnehmen W hlen Sie eine Einflussvariable aus mit der definiert wird wie viel Einfluss ein Fall auf den Aufbauprozess des Baums hat F lle mit niedrigeren Einflusswerten wirken sich weniger stark aus F lle mit h heren Werten entsprechend st rker Die Einflussvariablen m ssen positiv sein Validieren Sie den Baum Passen Sie die Kriterien f r den Aufbau des Baums an Speichern Sie die Endknotennummern die vorhergesagten Werte und die vorhergesagten Wahrscheinlichkeiten als Variablen Speichern Sie das Modell im XML Format PMML Andern des
44. ID und Exhaustive CHAID bzw f nf Ebenen unterhalb des Stammknotens CRT und QUEST begrenzt Mindestanzahl der F lle Steuert die Mindestanzahl der F lle f r die Knoten Knoten die diese Kriterien nicht erf llen werden nicht aufgeteilt m Wenn Sie die Mindestwerte anheben entstehen in der Regel B ume mit weniger Knoten m Werden die Mindestwerte gesenkt entstehen B ume mit mehr Knoten Bei Datendateien mit nur wenigen F llen f hren die Standardwerte von 100 F llen f r bergeordnete Knoten und 50 F llen f r untergeordnete Knoten unter Umst nden dazu dass der resultierende Baum keine Knoten unterhalb des Stammknotens erh lt In dieser Situation sollten Sie die Mindestwerte verringern um so aussagekr ftigere Ergebnisse zu erzielen 10 Kapitel 1 CHAID Kriterien Abbildung 1 6 Dialogfeld Kriterien Registerkarte CHAID EB Entsc heidungsbaum Kriterien r Signifikanzniveau f r 2 rChi Quadrat Statistik Aufteilen von Knoten Pearson Likelihood Quotient WYerbinden von Kategorien 0 05 rModellsch tzung X Signifikanzwerte mit der Maximale Anzahl an 00 Bonferroni Methode anpassen kterationen e _ Erneute Aufteilung verbundener Kategorien innerhalb eines Knotens zulassen amp E Mindest nderung bei den erwarteten Zellh ufigkeiten C ann mm Bei den Methoden CHAID und Exhaustive CHAID k nnen Sie Folgendes steuern Signifikanzniveau Legen Sie
45. Kunden die Kredite von der Bank aufgenommen haben einschlie lich der Informationen ob sie die Kredite zur ckgezahlt haben oder ihren Zahlungsverpflichtungen nicht nachgekommen sind Mithilfe von Entscheidungsb umen k nnen Sie die Merkmale der beiden Kundengruppen analysieren und Modelle konstruieren mit denen sich die Wahrscheinlichkeit voraussagen l sst dass Kreditantragsteller ihre Kredite nicht zur ckzahlen Die Kreditdaten sind in der Datei ee Credit sou gespeichert F r weitere Informationen siehe Beispieldateien in Anhang A in PASW Decision Trees Entscheidungsb ume 18 Erstellen des Modells Die Prozedur Entscheidungsbaum bietet mehrere verschiedene Methoden zur Erstellung von Baummodellen In diesem Beispiel verwenden wir die Standardmethode CHAID Steht f r Chi squared Automatic Interaction Detection d h automatische Entdeckung von Zusammenh ngen mittels Chi Quadrat Tests In jedem Schritt bestimmt das CHAID Verfahren diejenige unabh ngige Variable Einflussvariable Pr diktor die den st rksten Zusammenhang mit der abh ngigen Variablen aufweist Die Kategorien der einzelnen Einflussvariablen werden zusammengef hrt wenn sie im Hinblick auf die abh ngige Variable nicht signifikant unterschiedlich sind Erstellen des CHAID Baummodells gt Zum Erstellen einer Entscheidungsbaum Analyse w hlen Sie die folgenden Befehle aus den Men s aus Analysieren Klassifizieren Baum 60 61 Verwend
46. M glichkeiten zur Auswahl m Kategorien festlegen die im Diagramm angezeigt werden sollen m Relevante Zielkategorien ausw hlen Kategorien ein ausschlie en Sie k nnen die Analyse auf bestimmte Kategorien der abh ngigen Variablen einschr nken m F lle mit Werten der abh ngigen Variablen in der Liste Ausschlie en werden bei der Analyse nicht ber cksichtigt m Bei nominalen abh ngigen Variablen k nnen auch benutzerdefiniert fehlende Kategorien in die Analyse aufgenommen werden Standardm ig werden benutzerdefiniert fehlende Kategorien in der Liste Ausschlie en aufgef hrt Zielkategorien Die ausgew hlten markierten Kategorien werden als prim r relevante Kategorien in der Analyse behandelt Wenn Sie beispielsweise haupts chlich die Personen ermitteln m chten bei denen die Wahrscheinlichkeit gro ist dass sie mit ihrem Darlehen in Verzug geraten bestimmen Sie entsprechend die Kategorie f r schlechtes Kreditrating als Zielkategorie m Es ist keine Standard Zielkategorie festgelegt Ist keine Kategorie ausgew hlt stehen einige Optionen f r die Klassifikation sowie die Ausgabe im Zusammenhang mit dem Profit nicht zur Verf gung 7 Erstellen von Entscheidungsb umen m Wenn mehrere Kategorien angegeben sind werden separate Tabellen und Diagramme mit dem Profit in den einzelnen Zielkategorien erstellt m Die Kennzeichnung von einer oder mehreren Kategorien als Zielkategorien wirkt sich ni
47. Messniveaus Klicken Sie mit der rechten Maustaste auf eine Variable in der Liste der Quellvariablen W hlen Sie ein Messniveau im Kontextmen aus Das Messniveau wird vor bergehend f r die Dauer der Prozedur Entscheidungsbaum ge ndert 5 Erstellen von Entscheidungsb umen Aufbaumethoden Die folgenden Aufbaumethoden sind verf gbar CHAID Steht f r Chi squared Automatic Interaction Detection d h automatische Entdeckung von Zusammenh ngen mittels Chi Quadrat Tests In jedem Schritt bestimmt das CHAID Verfahren diejenige unabh ngige Variable Einflussvariable Pr diktor die den st rksten Zusammenhang mit der abh ngigen Variablen aufweist Die Kategorien der einzelnen Einflussvariablen werden zusammengef hrt wenn sie im Hinblick auf die abh ngige Variable nicht signifikant unterschiedlich sind Exhaustive CHAID Eine Abwandlung von CHAID die f r jede Einflussvariable Pr diktor alle m glichen Aufteilungen untersucht CRT Steht f r Classification and Regression Trees d h Klassifikations und Regressionsb ume CRT unterteilt die Daten in Segmente die im Hinblick auf die abh ngige Variable so homogen wie m glich sind Ein Endknoten in dem alle F lle denselben Wert der abh ngigen Variablen haben ist ein homogener reiner Knoten QUEST Steht f r Quick Unbiased Efficient Statistical Tree d h schneller unverzerrter effizienter statistischer Baum Dabei handelt es sich um ein sch
48. Modelldaten Abbildung 1 17 Dialogfeld Speichern r Gi H Entsc heidungsbaum Speichern r Gespeicherte Variablen Endknotennummer E vorhergesagter Wert EI Gesch tzte Wahrscheinlichkeiten rBaummodell als XML exportieren Trainingsstichprobe Sie k nnen die Daten aus dem Modell als Variablen in der Arbeitsdatei ablegen und auch das gesamte Modell im XML Format PMML in eine externe Datei speichern 25 Erstellen von Entscheidungsb umen Gespeicherte Variablen Endknotennummer Endknoten dem die einzelnen F lle zugewiesen sind Der Wert ist die Baumknotennummer Vorhergesagter Wert Klasse Gruppe oder Wert f r die abh ngige Variable der durch das Modell vorhergesagt wurde Vorhergesagte Wahrscheinlichkeiten Wahrscheinlichkeit die mit der Vorhersage des Modells verbunden ist F r jede Kategorie der abh ngigen Variablen wird je eine Variable gespeichert Nicht verf gbar f r metrische abh ngige Variablen Stichprobenzuweisungen Training Tests Diese Variable zeigt bei der Split Sample Validierung ob ein Fall in der Trainings oder in der Teststichprobe verwendet wurde Bei der Trainingsstichprobe ist der Wert gleich 1 bei der Teststichprobe dagegen gleich 0 Nur verf gbar wenn die Split Sample Validierung ausgew hlt ist F r weitere Informationen siehe Validierung auf S 7 Baummodell als XML exportieren Sie k nnen das gesamte Baummodell im XML Format PMML s
49. abels zu allen Werten Um einen versehentlichen Ausschluss g ltiger kategorialer Werte aus der Analyse zu vermeiden m ssen Sie mit der Option Variableneigenschaften definieren allen abh ngen Variablenwerten die in den Daten gefunden werten Wertelabel zuordnen 59 Datenannahmen und anforderungen Wenn die Informationen aus dem Datenlexikon f r die Variable name im Dialogfeld Variableneigenschaften definieren angezeigt werden k nnen Sie sehen dass es zwar mehr als 300 F lle mit den Wert 3 f r diese Variable gibt jedoch kein Wertelabel f r diesen Wert definiert wurde Abbildung 3 7 Variable teilweise mit Wertelabels im Dialogfeld Variableneigenschaften definieren al Variableneigenschaften definieren X Liste der durchsuchten Variablen Aktuelle Variable za Beschriftung Werte ohne Label Rh Gitter der Wertelabels kd Labels im Gitter eingeben bzw bearbeiten Im unteren Teil k nnen weitere Werte eingegeben werden Ge ndert Fehlende Werte Anzahl Variablenlabel 500 1 00 Ja 162 2 00 Nein 3 F E 338 3 00 4 Eigenschaften kopieren Werte ohne Label Durchsuchte F lle J l Einf gen Zur cksetzen Abbrechen Hie Grenze f r Werteliste Kapitel Verwenden von Entscheidungsb umen zur Bewertung des Kreditrisikos Eine Bank unterh lt eine Datenbank mit Informationen zu
50. ahl der unabh ngigen Variablen minus 1 Anpassen Surrogate werden verwendet um F lle zu klassifizieren die bei den im Baum verwendeten unabh ngigen Yariablen fehlende Werte aufweisen Geben Sie die maximale Anzahl an Surrogaten an die f r jede Aufteilung berechnet werden sollen EEN Bei CRT und QUEST k nnen Surrogate f r unabh ngige Variablen Einflussvariablen verwendet werden In Situationen in denen der Wert f r die betreffende Variable fehlt werden andere unabh ngige Variablen die einen hohen Grad an Zusammenhang mit der urspr nglichen Variable besitzen zur Klassifizierung herangezogen Diese alternativen Einflussvariablen werden als Surrogate bezeichnet Sie k nnen die maximal zul ssige Anzahl an Surrogaten f r das Modell festlegen m Standardm ig ist die maximale Anzahl an Surrogaten um 1 kleiner als die Anzahl der unabh ngigen Variablen F r eine unabh ngige Variable kann also jede andere unabh ngige Variable als Surrogat verwendet werden m Sollen keine Surrogate im Modell verwendet werden geben Sie den Wert O als Anzahl der Surrogate an Optionen Die tats chlich verf gbaren Optionen sind abh ngig von der Aufbaumethode dem Messniveau der abh ngigen Variablen und oder dem Vorhandensein definierter Wertelabel f r die Werte der abh ngigen Variable 17 Erstellen von Entscheidungsb umen Fehlklassifizierungskosten Abbildung 1 12 Dialogfeld Optionen Registerkarte Fehl
51. akzeptable Risikodifferenz zwischen dem beschnittenen Baum und dem Teilbaum mit dem kleinsten Risiko ein Um einen einfacheren Baum zu erzielen erh hen Sie die maximale Differenz Um den Teilbaum mit dem kleinsten Risiko auszuw hlen geben Sie 0 ein Cee an mm Bei der CRT und der QUEST Methode k nnen Sie ein berf llen des Modells vermeiden indem Sie den Baum zuschneiden Der Baum w chst bis die Kriterien f r das Anhalten erf llt sind Anschlie end wird der Baum automatisch gem der angegebenen maximalen Risikodifferenz auf den kleinsten Teilbaum beschnitten Der Risikowert wird in Standardfehlern ausgedr ckt Der Standardwert ist 1 Der Wert muss positiv oder gleich Null sein Um den Teilbaum mit dem geringstm glichen Risiko zu erzielen geben Sie den Wert 0 an Beschneiden im Vergleich mit dem Ausblenden von Knoten Bei einem beschnittenen Baum sind alle Knoten die aus dem Baum herausgeschnitten wurden im endg ltigen Baum nicht mehr verf gbar Sie k nnen zwar ausgew hlte untergeordnete Knoten im fertigen Baum interaktiv ein und ausblenden es ist jedoch nicht m glich Knoten anzeigen zu lassen die beim Erstellen des Baums beschnitten wurden F r weitere Informationen siehe Baumeditor in Kapitel 2 auf S 41 16 Kapitel 1 Surrogate Abbildung 1 11 Dialogfeld Kriterien Registerkarte Surrogate GH Entscheidungsbaum Kriterien rMaximale Anzahl an Surrogaten Automatisch Anz
52. als Skalierungsgewicht verwendet werden car_sales sav Diese Datendatei enth lt hypothetische Verkaufssch tzer Listenpreise und physische Spezifikationen f r verschiedene Fahrzeugfabrikate und modelle Die Listenpreise und physischen Spezifikationen wurden von edmunds com und Hersteller Websites entnommen car_sales_uprepared sav Hierbei handelt es sich um eine modifizierte Version der Datei car_sales sav die keinerlei transformierte Versionen der Felder enth lt carpet sav In einem beliebten Beispiel m chte einen neuen Teppichreiniger vermarkten und dazu den Einfluss von f nf Faktoren auf die Bevorzugung durch den Verbraucher untersuchen Verpackungsgestaltung Markenname Preis G tesiegel Good Housekeeping und Geld zur ck Garantie Die Verpackungsgestaltung setzt sich aus drei Faktorenebenen zusammen die sich durch die Position der Auftrageb rste unterscheiden Au erdem gibt es drei Markennamen K2R Glory und Bissell drei Preisstufen sowie je zwei Ebenen Nein oder Ja f r die letzten beiden Faktoren 10 Kunden stufen 22 Profile ein die durch diese Faktoren definiert sind Die Variable Preference enth lt den Rang der durchschnittlichen Einstufung f r die verschiedenen Profile Ein niedriger Rang bedeutet eine starke Bevorzugung Diese Variable gibt ein Gesamtma der Bevorzugung f r die Profile an carpet_prefs sav Diese Datendatei beruht auf denselben Beispielen wie f r carpet sav beschrieben enth lt jedoch die tat
53. amme Regen Modell Knotenleistung W Zusammenfassung W sersicht M Risiko Nach Zielkategorie M Klassifikationsmatrix e Werte f r Kasten Zeilen amp priori Wahrscheinlichkeit Wert und Profit Enaknoten Sortier reihenfolge apet Perzertil Inkrement 4nog Unabh ngige Variablen Kumulative Statistik anzeigen Wichtigkeit f r Modell Surrogate nach Aufteilung Die verf gbaren Statistiktabellen sind abh ngig vom Messniveau der abh ngigen Variable von der Aufbaumethode und anderen Einstellungen Modell Zusammenfassung Die Zusammenfassung zeigt die verwendete Methode die Variablen die im Modell ber cksichtigt sind sowie die Variablen die zwar angegeben jedoch nicht in das Modell aufgenommen wurden 29 Abbildung 1 21 Modellzusammenfassungstabelle Spezifikationen Ergebnisse Aufbaumethode Abh ngige Yariable Unabh ngige Yariablen Yalidierung Maximale Baumtiefe Mindestanzahl der F lle im bergeordneten Knoten Mindestanzahl der F lle im untergeordneten Knoten Aufgenommene unabh ngige Variablen Anzahl der Knoten Anzahl der Endknoten Tiefe Erstellen von Entscheidungsb umen CHAID Kreditrating Alter Einkommen in Kategorien Anzahl an Kreditkarten Ausbildung Autodarlehen NONE Einkommen in Kategorien Anzahl an Kreditkarten Alter Risiko Risikosch tzung und zugeh riger Standardfehler Ma
54. atendatei bei der es um eine Versicherungsgesellschaft geht die die Risikofaktoren untersucht die darauf hinweisen ob ein Kunde die Leistungen einer mit einer Laufzeit von 10 Jahren abgeschlossenen Lebensversicherung in Anspruch nehmen wird Jeder Fall in der Datendatei entspricht einem Paar von Vertr gen je einer mit Leistungsforderung und der andere ohne wobei die beiden Versicherungsnehmer in Alter und Geschlecht bereinstimmen 109 Beispieldateien judges sav Hierbei handelt es sich um eine hypothetische Datendatei mit den Wertungen von ausgebildeten Kampfrichtern sowie eines Sportliebhabers zu 300 Kunstturnleistungen Jede Zeile stellt eine Leistung dar die Kampfrichter bewerteten jeweils dieselben Leistungen kinship_dat sav Rosenberg und Kim haben 15 Bezeichnungen f r den Verwandtschaftsgrad untersucht Tante Bruder Cousin Tochter Vater Enkelin Gro vater Gro mutter Enkel Mutter Neffe Nichte Schwester Sohn Onkel Die beiden Analytiker baten vier Gruppen von College Studenten zwei weibliche und zwei m nnliche Gruppen diese Bezeichnungen auf der Grundlage der hnlichkeiten zu sortieren Zwei Gruppen eine weibliche und eine m nnliche Gruppe wurden gebeten die Bezeichnungen zweimal zu sortieren die zweite Sortierung sollte dabei nach einem anderen Kriterium erfolgen als die erste So wurden insgesamt sechs Quellen erzielt Jede Quelle entspricht einer hnlichkeitsmatrix mit 15 x 15 Elementen Die
55. atienten die wegen des Verdachts auf Herzinfarkt in das Krankenhaus eingeliefert wurden Jeder Fall entspricht einem Patienten und enth lt diverse Variablen in Bezug auf den Krankenhausaufenthalt patlos_sample sav Diese hypothetische Datendatei enth lt die Behandlungsaufzeichnungen f r eine Stichprobe von Patienten denen w hrend der Behandlung eines Herzinfarkts Thrombolytika verabreicht wurden Jeder Fall entspricht einem Patienten und enth lt diverse Variablen in Bezug auf den Krankenhausaufenthalt polishing sav Hierbei handelt es sich um die Datendatei Nambeware Polishing Times aus der Data and Story Library Sie bezieht sich auf die Bem hungen eines Herstellers von Metallgeschirr Nambe Mills Santa Fe New Mexico zur zeitlichen Planung seiner Produktion Jeder Fall entspricht einem anderen Artikel in der Produktpalette F r jeden Artikel sind Durchmesser Polierzeit Preis und Produkttyp erfasst poll_cs sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bem hungen geht die ffentliche Unterst tzung f r einen Gesetzentwurf zu ermitteln bevor er im Parlament eingebracht wird Die F lle entsprechen registrierten W hlern F r jeden Fall sind County Gemeinde und Wohnviertel des W hlers erfasst poll_cs_sample sav Diese hypothetische Datendatei enth lt eine Stichprobe der in poll_cs sav aufgef hrten W hler Die Stichprobe wurde gem dem in der Plandatei poll csplan angegebenen Stichprobe
56. bh ngigen Variablen unterdr cken F r weitere Informationen siehe Steuern der im Baum angezeigten Daten auf S 46 Baumstruktur Die Baumstruktur ist eine kompakte vereinfachte Ansicht des Baums mit der Sie im Baum navigieren und Knoten ausw hlen k nnen So verwenden Sie das Baumstruktur Fenster W hlen Sie die folgenden Men befehle des Baum Editors aus Ansicht Baumstruktur Abbildung 2 2 Baumstruktur Fenster 2 Baumstruktur m Der derzeit ausgew hlte Knoten ist sowohl im Baummodell Editor als auch im Baumstruktur Fenster hervorgehoben m Der Teil des Baums der derzeit im Ansichtsbereich des Baummodell Editors angezeigt wird ist in der Baumstruktur mit einem roten Rechteck umrandet Soll ein anderer Teil des Baums im Ansichtsbereich dargestellt werden klicken Sie mit der rechten Maustaste auf das Rechteck und ziehen Sie es an die gew nschte Position 44 Kapitel 2 m Wenn Sie einen Knoten in der Baumstruktur ausw hlen der sich derzeit im Ansichtsbereich des Baumeditors befindet wird der sichtbare Ausschnitt so verschoben dass der ausgew hlte Knoten sichtbar wird m Die Mehrfachknotenauswahl funktioniert in der Baumstruktur auf dieselbe Weise wie im Baumeditor Halten Sie die STRG Taste gedr ckt und w hlen Sie die gew nschten Knoten aus Es ist nicht m glich gleichzeitig einen bergeordneten Knoten und einen untergeordneten Knoten bzw einen Nachfolger in derselben Knotenverzweigung aus
57. cht auf das Baummodell die Risikosch tzung und die Fehlklassifizierungsergebnisse aus Kategorien und Wertelabels In diesem Dialogfeld sind definierte Wertelabels f r die abh ngige Variable erforderlich Das Dialogfeld ist erst dann verf gbar wenn mindestens zwei Werte der kategorialen abh ngigen Variablen ein Wertelabel besitzen So k nnen Sie Kategorien ein ausschlie en und Zielkategorien ausw hlen W hlen Sie im Hauptdialogfeld Entscheidungsbaum eine kategoriale nominale ordinale abh ngige Variable mit mindestens zwei definierten Wertelabels aus Klicken Sie auf Kategorien Validierung Abbildung 1 4 Dialogfeld Validierung Bi Entscheidungsbaum Validierung Keine Kreuzvalidierung Spit Sample Validierung rFallzuweisung Zufallszuweisung verwenden Trainingsstichprobe en op Teststichprobe 50 Yariable verwenden F lle mit dem Wert 1 werden der Trainin robe rErgebnisse anzeigen f r Trainings und Teststichproben O Nur Teststichproben Les Anrecnen me 8 Kapitel 1 Mit der Validierung stellen Sie fest wie gut sich die Baumstruktur auf eine gr ere Gesamtheit verallgemeinern l sst Es stehen zwei Validierungsmethoden zur Auswahl Kreuzvalidierung und Split Sample Validierung Kreuzvalidierung Bei der Kreuzvalidierung wird die Stichprobe in mehrere Teilstichproben oder Aufteilungen gegliedert Anschlie end werd
58. chtsfenster w hlen Sie den Typ f r die anzuzeigenden Regeln aus F r weitere Informationen siehe Regeln f r die Auswahl oder Bewertung von F llen auf S 49 m Alle Ansichten im Knoten bersichtsfenster zeigen eine kombinierte bersicht f r alle ausgew hlten Knoten So verwenden Sie das Knoten bersichtsfenster W hlen Sie die gew nschten Knoten im Baumeditor aus Sollen mehrere Knoten ausgew hlt werden halten Sie beim Klicken die STRG Taste gedr ckt W hlen Sie die folgenden Befehle aus den Men s aus Ansicht Zusammenfassung Abbildung 2 4 bersichtsfenster E Baumeditor oog Datei Ansicht Regeln Optionen Hilfe DIR Atr Hui ms D Sasser or Bk As Dis Kreditrating Knoten 1 Knoten 0 Kategorie i Datei Ansicht Regeln Hilfe E schlecht 41 4 1020 B gut 58 6 1444 A Gesamt 100 0 24654 Anzahl an Kreditkarten Korrigierter P Wert 0 000 Chi Knoten 1 Quadrat 415 957 Freiheitsgrade 1 ZS Kategorie 2 n 5 oder mehr E schlecht 55 4 923 Knoten 1 m gut 44 6 7 i Kategorie nj schlecht 55 4 923 Gesamt 67 6 1666 gut 446 743 i Gesamt 67 6 1666 Alter Korrigierter P Wert 0 000 Chi Quadrat 238 427 Freiheitsgrade 3 25 737 33 074 33 074 38 428 46 Kapitel 2 Steuern der im Baum angezeigten Daten Mit dem Men Optionen im Baumeditor steuern Sie die Anzeige des Knoteninhalts der Namen und Statist
59. d nicht nur die Ereigniswahrscheinlichkeit am Ende der Studie Sie wurde an anderer Stelle vorgestellt und analysiert verd1985 sav Diese Datendatei enth lt eine Umfrage Die Antworten von 15 Subjekten auf 8 Variablen wurden aufgezeichnet Die relevanten Variablen sind in drei Sets unterteilt Set 1 umfasst alter und heirat Set 2 besteht aus per und news und in Set 3 finden sich music und live Die Variable per wird mehrfach nominal skaliert und die Variable Alter ordinal Alle anderen Variablen werden einzeln nominal skaliert virus sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Internet Dienstanbieters geht der die Auswirkungen eines Virus auf seine Netzwerke ermitteln m chte Dabei wurde vom Moment der Virusentdeckung bis zu dem Zeitpunkt zu dem die Virusinfektion unter Kontrolle war der ungef hre prozentuale Anteil infizierter E Mail in den Netzwerken erfasst waittimes sav Hierbei handelt es sich um eine hypothetische Datendatei zu den Wartezeiten f r Kunden bei drei verschiedenen Filialen einer Bank Jeder Fall entspricht einem Kunden und zeichnet die Wartezeit und die Filiale webusability sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Tests zur Benutzerfreundlichkeit eines neuen Internetgesch fts geht Jeder Fall entspricht einer von f nf Testpersonen die die Benutzerfreundlichkeit bewerten und gibt f r sechs separate Aufgaben an ob die Te
60. daf r gab dass die Prozedur sie beim endg ltigen Modell nicht verwendete sind sie vermutlich nicht sonderlich aussagekr ftig Wir wollen sie uns jedoch dennoch einmal genauer anschauen W hlen Sie die folgenden Befehle aus den Men s aus Analysieren Deskriptive Statistiken Kreuztabellen Abbildung 4 18 Dialogfeld Kreuztabellen H Kreuztabellen Zeile n E Alter Alter Kreditrating Kredit_rating d Einkommen in Kategorien Einkomm Le amp Anzahl an Kreditkarten Kreditkarten d Terminal Node Identifier NodelD Spalten d Predicted Value Predictedalue ve Ausbildung Ausbildung L mer 3 Le de Autodarlehen Darlehen Schicht 1 von HUE E Gruppierte Balkendiagramme anzeigen keine Tabellen La 1 me _ Zur ctetzen Abtrecten me W hlen Sie Kreditrating als Zeilenvariable aus W hlen Sie Ausbildung und Autodarlehen als Spaltenvariablen aus Klicken Sie auf Zellen 77 Abbildung 4 19 Verwenden von Entscheidungsb umen zur Bewertung des Kreditrisikos Dialogfeld Kreuztabellen Zellenanzeige EZ Kreuztabellen Zellen anzeigen M Beobachtet U Erwartet rH ufigkeiten en rProzentwerte e Zeilenweise E Spattenweise Gesamt Residuen L Nicht standardisiert E standardisiert E Korrigiert standardisiert rNichtganzzahlige Gewichtungen en Anzahl in den Zellen runden Fallgewichte runden Anzah
61. dell m Baumdiagramm m Grafiken die die Leistungsf higkeit des Modells anzeigen E In die Arbeitsdatei aufgenommene Modellvorhersagevariablen 67 Verwenden von Entscheidungsb umen zur Bewertung des Kreditrisikos Modellzusammenfassungstabelle Abbildung 4 7 Modellzusammenfassung Spezifikationen Ergebnisse Aufbaumethode Abh ngige Yariable Unabh ngige Yariablen Yalidierung Maximale Baumtiefe Mindestanzahl der F lle im bergeordneten Knoten Mindestanzahl der F lle im untergeordneten Knoten Aufgenommene unabh ngige Yariablen Anzahl der Knoten Anzahl der Endknoten Tiefe CHAID Kreditrating Alter Einkommen in Kategorien Anzahl an Kreditkarten Ausbildung Autodarlehen NONE Einkommen in Kategorien Anzahl an Kreditkarten Alter Die Modellzusammenfassungstabelle bietet sehr allgemeine Informationen ber die f r die Konstruktion des Modells verwendeten Spezifikationen und das resultierende Modell Der Abschnitt Spezifikationen bietet Informationen zu den bei der Konstruktion des Baummodells verwendeten Einstellungen einschlie lich der bei der Analyse verwendeten Variablen Der Abschnitt Ergebnisse bietet Informationen zur Gesamtanzahl der Knoten und zur Anzahl der Endknoten zur Tiefe des Baums Anzahl der Ebenen unterhalb des Stammknotens und zu den im endg ltigen Modell enthaltenen unabh ngigen Variablen Es wurden f nf unabh ngige Variablen angegeben jedoch nur
62. den verschiedenen Aufbaumethoden werden fehlende Daten auf unterschiedliche Weise behandelt Wenn die Daten aus denen das Modell erstellt wurde zahlreiche fehlende Werte aufweisen oder wenn Sie das Modell auf andere Datendateien anwenden m chten bei denen viele Werte fehlen sollten Sie die Auswirkungen der fehlenden Werte auf die verschiedenen Modelle berpr fen Sollen fehlende Werte im Modell durch Surrogate ausgeglichen werden verwenden Sie die Methode CRT oder QUEST Anhang A Beispieldateien Die zusammen mit dem Produkt installierten Beispieldateien finden Sie im Unterverzeichnis Samples des Installationsverzeichnisses F r jeder der folgenden Sprachen gibt es einen eigenen Ordner innerhalb des Unterverzeichnisses Samples Englisch Franz sisch Deutsch Italienisch Japanisch Koreanisch Polnisch Russisch Vereinfachtes Chinesisch Spanisch und Traditionelles Chinesisch Nicht alle Beispieldateien stehen in allen Sprachen zur Verf gung Wenn eine Beispieldatei nicht in einer Sprache zur Verf gung steht enth lt der jeweilige Sprachordner eine englische Version der Beispieldatei Beschreibungen Im Folgenden finden Sie Kurzbeschreibungen der in den verschiedenen Beispielen in der Dokumentation verwendeten Beispieldateien m accidents sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die alters und geschlechtsabh ngige Risikofaktoren f r Autounf
63. die Kategorien No Alcohol und Alcohol die als Erg nzung der Analyse dienen k nnen storebrand sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Verkaufsleiterin in einem Lebensmittelmarkt geht die die Verkaufszahlen des Waschmittels der Eigenmarke gegen ber den anderen Marken steigern m chte Sie erarbeitet eine Werbeaktion im Gesch ft und spricht an der Kasse mit Kunden Jeder Fall entspricht einem Kunden stores sav Diese Datendatei enth lt hypothetische monatliche Marktanteilsdaten f r zwei konkurrierende Lebensmittelgesch fte Jeder Fall entspricht den Marktanteilsdaten f r einen bestimmten Monat stroke_clean sav Diese hypothetische Datendatei enth lt den Zustand einer medizinischen Datenbank nachdem diese mithilfe der Prozeduren in der Option Data Preparation bereinigt wurde stroke_invalid sav Diese hypothetische Datendatei enth lt den urspr nglichen Zustand einer medizinischen Datenbank der mehrere Dateneingabefehler aufweist stroke_survival In dieser hypothetischen Datendatei geht es um die berlebenszeiten von Patienten die nach einem Rehabilitationsprogramm wegen eines isch mischen Schlaganfalls mit einer Reihe von Problemen zu k mpfen haben Nach dem Schlaganfall werden das Auftreten von Herzinfarkt isch mischem Schlaganfall und h morrhagischem Schlaganfall sowie der Zeitpunkt des Ereignisses aufgezeichnet Die Stichprobe ist auf der linken Seite abgesch
64. dungsbaum Ausgabe Baum Statistiken Diagramme Regen rKnotenleistung Gewinn Index Treffer CRW Wei Die verf gbaren Diagramme sind abh ngig vom Messniveau der abh ngigen Variable von der Aufbaumethode und anderen Einstellungen Wichtigkeit der unabh ngigen Variablen im Modell Balkendiagramm ber die Modellbedeutung nach unabh ngiger Variable Einflussvariable Nur f r die CRT Aufbaumethode verf gbar Knotenleistung Gewinn Der Gewinn ist der Prozentsatz aller F lle in der Zielkategorie in jedem Knoten und wird wie folgt berechnet Knotenziel n Gesamtziel n x 100 Das Gewinndiagramm besteht aus einem Liniendiagramm kumulativer Perzentilgewinne die wie folgt berechnet werden Kumulatives Perzentilziel n Gesamtziel n x 100 F r jede Zielkategorie wird ein separates Liniendiagramm erstellt Nur f r kategoriale abh ngige Variablen verf gbar bei denen Zielkategorien definiert sind F r weitere Informationen siehe Ausw hlen von Kategorien auf S 6 Das Gewinndiagramm enth lt dieselben Werte wie die Spalte Gewinn Prozent in der Tabelle Gewinne f r Perzentile hier werden ebenfalls kumulative Werte angezeigt 33 Erstellen von Entscheidungsb umen Abbildung 1 26 Tabelle Gewinne f r Perzentile und Gewinndiagramm Gewinne f r Perzentile Treffer 198 3 198 3 197 6 181 3 Te 166 2 148 4 133 2 120 9 110 3 100 0 Loppa O
65. e ber und untergeordneten Knoten angegeben wird gt Klicken Sie im Hauptdialogfeld Entscheidungsbaum auf Kriterien 96 Kapitel 6 Abbildung 6 3 Dialogfeld Kriterien Registerkarte Aufbaubegrenzungen Ga Entscheidungsbaum Kriterien r Maximale Baumtiefe 2 rMindestanzahl der F lle Automatisch bergeordneter Knoten Die maximale Anzahl der Stufen ist 3 f r CHAID 5 f r CRT und QUEST Untergeordneter Knoten 1200 Anpassen Wert gt Geben Sie unter Mindestanzahl der F lle den Wert 400 f r bergeordneter Knoten sowie den Wert 200 f r Untergeordneter Knoten ein gt Klicken Sie auf Weiter und dann auf OK Die Prozedur wird gestartet CHAID Ergebnisse Abbildung 6 4 CHAID Baum mit fehlenden Werten f r unabh ngige Variablen Kreditrating Knoten 0 Kategorie n m schlecht 41 4 1020 gut 58 5 1444 Gesamt 100 0 2464 Einkommen in Kategorien lt niedrig niedrig mittel gt mittel lt Fehlend gt Knoten 1 Knoten 2 Knoten 3 Kategorie 3 n Kategorie 3 n Kategorie 3 n m schlecht 81 0 366 m schlecht 42 0 476 m gut 19 0 86 Gesamt 18 3 452 Ater Anzahl an Kreditkarten lt 25 74 25 74 30 54 0 54 41 31 4131 5 oder mehr weniger als 5 lt Fehlend gt Knoten 4 Knoten 5 Knoten 6 Knoten 7 Knoten 8 Knoten 9 Knoten 10 Kategorie 3 n Kategorie 3 n Kategorie 3 n Kategorie 3 n Kategorie 3 n Kategorie 3 n Kategorie 3 n E schlec
66. e Kategorie den Score Wert 2 usw Dies ist die Standardeinstellung m Benutzerdefiniert Geben Sie je einen numerischen Score Wert f r jede im Gitter aufgef hrte Kategorie der abh ngigen Variablen ein Beispiel Wertbeschriftung Originalwert Wert Ungelernt 1 1 Gelernt Werkstatt 2 4 Verwaltung 3 4 5 Professional 4 H Management 5 6 m Die Score Werte vergr ern die relative Distanz zwischen Ungelernt und Gelernt Werkstatt und verringern die relative Distanz zwischen Gelernt Werkstatt und Verwaltung m Die Score Werte kehren die Reihenfolge von Management und Fachkraft um Werte und Wertlabels In diesem Dialogfeld sind definierte Wertelabels f r die abh ngige Variable erforderlich Das Dialogfeld ist erst dann verf gbar wenn mindestens zwei Werte der kategorialen abh ngigen Variablen ein Wertelabel besitzen So legen Sie Score Werte fest W hlen Sie im Hauptdialogfeld Entscheidungsbaum eine ordinale abh ngige Variable mit mindestens zwei definierten Wertelabels aus W hlen Sie als Aufbaumethode die Option CHAID oder Exhaustive CHAID Klicken Sie auf Optionen Klicken Sie auf die Registerkarte Werte 23 Erstellen von Entscheidungsb umen Fehlende Werte definieren Abbildung 1 16 Dialogfeld Optionen Registerkarte Fehlende Werte EB Entsc heidungsbaum Optionen Benutzerdefiniert fehlende Werte nominaler unabh ngiger Variablen Als fehlend
67. e Verte behandeln Als g ltige Werte behandeln Die Behandlung von F llen mit fehlenden Werten unabh ngiger variablen h ngt von der Aufbaumethode ab Bei CHAID werden fehlende Werte in den Aufbauprozess des Baums als gleitende Kategorie aufgenommen die mit anderen Kategorien an Baumknoten zusammengef hrt werden kann Bei CRT und QUEST werden fehlende Werte aus dem Aufbauprozess des Baums ausgeschlossen jedoch mithilfe von Surrogaten klassifiziert Los Jace me Auf der Registerkarte Fehlende Werte steuern Sie die Behandlung benutzerdefiniert fehlender Werte f r nominale unabh ngige Variablen Einflussvariablen Benutzerdefiniert fehlende Werte f r ordinale und metrische Variablen werden bei den verschiedenen Aufbaumethoden auf unterschiedliche Weise behandelt Die Behandlung nominaler abh ngiger Variablen wird im Dialogfeld Kategorien festgelegt F r weitere Informationen siehe Ausw hlen von Kategorien auf S 6 Bei ordinalen und metrischen abh ngigen Variablen werden F lle bei denen systemdefiniert oder benutzerdefiniert fehlende Werte vorliegen stets ausgeschlossen Als fehlende Werte behandeln Benutzerdefiniert fehlende Werte werden wie systemdefiniert fehlende Werte behandelt Systemdefiniert fehlende Werte werden bei den verschiedenen Aufbaumethoden auf unterschiedliche Weise behandelt Als g ltige Werte behandeln Benutzerdefinert fehlende Werte bei nominalen unabh ngigen Variablen
68. e aper 1 mme Klicken Sie mit der rechten Maustaste auf W hlen Sie abh ngig als abh ngige Variable aus W hlen Sie unabh ngig als unabh ngige Variable aus Klicken Sie auf OK um die Prozedur auszuf hren ffnen Sie noch einmal das Dialogfeld Entscheidungsbaum und klicken Sie auf Zur cksetzen vv Vv vy y Klicken Sie in der Quell Liste auf abh ngig und w hlen Sie im Kontextmen die Option Nominal aus F hren Sie denselben Vorgang f r die Variable unabh ngig in der Quell Liste aus 55 Datenannahmen und anforderungen Die Symbole neben den einzelnen Variablen geben nun an dass sie als nominale Variablen behandelt werden Abbildung 3 2 Symbole f r nominal in der Quell Liste Kal Entscheidungsbaum E Lal Abh ngige variable Variablen Kategorien Unabh ngige Variablen EI Erste Variable erzo Lal Einflussvariable Klicken Sie mit der rechten Maustaste auf eine variable um ihr Messniveau in der Yariablenliste zu ndern Aufbaumethode Optionen d e W hlen Sie abh ngig als abh ngige Variable und unabh ngig als unabh ngige Variable aus und klicken Sie auf OK um die Prozedur erneut auszuf hren Vergleichen wir nun die beiden B ume Betrachten wir zun chst den Baum in dem beide numerischen Variablen als metrische Variablen behandelt werden Abbildung 3 3 Baum bei dem beide Variablen als metrische Variablen behandelt werden abh
69. e eter Knoten gut schlecht gut gut schlecht gut gut gut schlecht gut P P GA on nm OO CH Die Baumtabelle bietet wie der Name schon sagt die wichtigsten Informationen aus dem Baumdiagramm in Tabellenform F r jeden Knoten wird in der Tabelle Folgendes angezeigt m Die Anzahl und der Prozentsatz der F lle in jeder Kategorie der abh ngigen Variablen m Die vorhergesagte Kategorie f r die abh ngige Variable In diesem Beispiel handelt es sich bei der vorhergesagten Kategorie um die Kategorie Kreditrating mit mehr als 50 der F lle in diesem Knoten da es nur zwei m gliche Kreditratings gibt m Der bergeordnete Knoten f r jeden Knoten im Baum Beachten Sie dass Knoten 1 der Knoten f r das niedrige Einkommensniveau f r keinen anderen Knoten als bergeordneter Knoten fungiert Da es sich um einen Endknoten handelt besitzt er keine untergeordneten Knoten Abbildung 4 10 Baumtabelle f r das Kreditrating Fortsetzung Prim re unabh ngige Yariable Sig Chi Quadrat Aufteilungwerte Einkommen in Kategorien Einkommen in Kategorien Einkommen in Kategorien Anzahl an Kreditkarten Anzahl an Kreditkarten Anzahl an Kreditkarten Anzahl an Kreditkarten Alter Alter o00000000 662 457 662 457 662 457 193 113 193 113 39 587 38 587 95 299 95 299 s t icht zit ebe ei kr KR A lt niedrig niedrig mittel gt mittel 5 oder mehr weniger als 5 5 oder mehr weniger als
70. edite zu reduzieren Die Datei enth lt Informationen zum Finanzstatus und demografischen Hintergrund von 850 fr heren und potenziellen Kunden Bei den ersten 700 F llen handelt es sich um Kunden denen bereits ein Kredit gew hrt wurde Bei den letzten 150 F llen handelt es sich um potenzielle Kunden deren Kreditrisiko die Bank als gering oder hoch einstufen m chte bankloan_binning sav Hierbei handelt es sich um eine hypothetische Datendatei die Informationen zum Finanzstatus und demografischen Hintergrund von 5 000 fr heren Kunden enth lt behavior sav In einem klassischen Beispiel wurden 52 Sch ler Studenten gebeten die Kombinationen aus 15 Situationen und 15 Verhaltensweisen auf einer 10 Punkte Skala von 0 ausgesprochen angemessen bis 9 ausgesprochen unangemessen zu bewerten Die Werte werden ber die einzelnen Personen gemittelt und als Un hnlichkeiten verwendet behavior_ini sav Diese Datendatei enth lt eine Ausgangskonfiguration f r eine zweidimensionale L sung f r behavior zou brakes sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Fabrik geht die Scheibenbremsen f r Hochleistungsautomobile herstellt Die Datendatei enth lt Messungen des Durchmessers von 16 Scheiben aus 8 Produktionsmaschinen Der Zieldurchmesser f r die Scheiben ist 322 Millimeter breakfast sav In einer klassischen Studie wurden 21 MBA Studenten der Wharton School
71. ei dem auch PASW Statistics 18 ber cksichtigt wird erscheint demn chst Das Handbuch SPSS Statistics Guide to Data Analysis f r PASW Statistics 18 wird ebenfalls derzeit erstellt Ank ndigungen f r Ver ffentlichungen die ausschlie lich ber Prentice Hall verf gbar sind finden Sie auf der Website unter http www spss com estore w hlen Sie Ihr Land aus und klicken Sie auf Books Inhalt Teil I Benutzerhandbuch 1 Erstellen von Entscheidungsb umen 1 Ausw hlen von Kategorien 6 ValidierUng WEE 7 Kriterien f r den Aufbau des Baumzs e 8 Aufbaubegrenzungen H ER lD keterten A delen 06 a ENSCH ea da eat aan 10 RUE d d TT EEN 12 DUEST Kriterien Zo 23224 2 0 ae HI la Lan 14 Beschneiden von B umen 15 S rrogate ert d pyeta AELK dE E aaea a dati KK dr d SES EE AH 16 Optionen EE 16 Feblklasstftzierungskosten 2 2222 anaana 17 PLOT On ee Dee A ee ee 18 A priori Wahrscheinlichkeit 2 22 22 2nenenener nennen een en 20 Werte vn hr a a Bei u a a el 21 Fehlende Werte definieren 222 cceooneeneeseeeeeenenneeeeeeeeeenennn 23 Speichern der Modelldaten 24 Ausgabe sc ee a ke a ke ae Ale 25 GEI EIER 26 ET 28 Diagramme au c AR ee a ee 32 Auswahl und Bewertungsregeln 22 2n2nenenerereenenenen een en 38 2 Baumeditor 41 Arbeiten mit umfangreichen B umen 43 Baumstrl ktun rasen a da er an ne ge a eg a 43 Skalieren der Baumanzege 2 co oooeesneeeeeeneneeneneeeeeeneerenennn 44 Knoten bersichtsfens
72. ein gutes Kreditrating auf Das bedeutet dass fast die H lfte der F lle in diesem Knoten 44 die falsche vorhergesagte Kategorie aufweisen Wenn das Hauptziel darin besteht das Risiko f r schlechtes Kreditrating zu ermitteln leistet dieser Knoten keinen guten Beitrag Ausw hlen der F lle in Knoten Betrachten wir die F lle in Knoten 9 um zu ermitteln ob die Daten irgendwelche zus tzlichen Informationen bieten die von Nutzen sein k nnten gt Doppelklicken Sie auf den Baum im Viewer um den Baum Editor zu ffnen Klicken Sie auf Knoten 9 um ihn auszuw hlen Mehrere Knoten k nnen Sie ausw hlen indem Sie beim Klicken die STRG Taste gedr ckt halten W hlen Sie die folgenden Men befehle des Baum Editors aus Regeln F lle filtern 75 Verwenden von Entscheidungsb umen zur Bewertung des Kreditrisikos Abbildung 4 16 Dialogfeld F lle filtern F lle filtern Geben Sie einen Namen f r die neue Filtervariable im nachstehenden Feld ein Yariablenname S ox Engen oee me Das Dialogfeld F lle filtern erstellt eine Filtervariable und wendet eine Filtereinstellung auf der Grundlage der Werte der betreffenden Variablen an Standardm ig lautet der Name der Filtervariablen filter_ m Die F lle aus den ausgew hlten Knoten erhalten f r die Filtervariable den Wert 1 m Alle anderen F lle erhalten den Wert O und werden aus den nachfolgenden Analysen ausgesc
73. eine Weile auf hohem Niveau bleiben und dann steil auf 100 absinken Bei einem Modell das keine Informationen bietet bleibt die Linie im gesamten Diagramm bei ca 100 Risikosch tzer und Klassifizierung Abbildung 4 14 Tabellen f r Risiko und Klassifizierung Risiko Standardfe Sch tzer hler Aufbaumethode CHAID Abh ngige Variable Kreditrating Klassifikation vorhergesagt Prozent Beobachtet schlecht out korrekt schlecht 665 355 65 2 gut 149 1295 89 7 Gesamtprozentsatz 33 0 67 0 79 5 Aufbaumethode CHAID Abhang ge Variable Kreditrating 73 Verwenden von Entscheidungsb umen zur Bewertung des Kreditrisikos Die Tabellen f r Risiko und Klassifizierung erm glichen eine schnelle Einsch tzung der G te des Modells m Der Risikosch tzer 0 205 zeigt an dass die vom Modell vorhergesagte Kategorie gutes oder schlechtes Kreditrating in 20 5 der F lle falsch ist Das Risiko der Fehlklassifizierung eines Kunden liegt also bei etwa 21 m Die Ergebnisse in der Klassifikationstabelle sind mit dem Risikosch tzer konsistent Die Tabelle zeigt dass das Modell ca 79 5 der Kunden richtig klassifiziert Die Klassifikationstabelle zeigt jedoch ein potenzielles Problem bei diesem Modell bei den Kunden mit schlechtem Kreditrating sagt es nur f r 65 eine schlechte Bewertung voraus was bedeutet dass 35 der Kunden mit schlechtem Kreditrating f lschlicherweise bei den guten Kunden eingeordnet
74. eitere Informationen zu den F llen in einem bestimmten Knoten oder einer Knotengruppe ben tigen k nnen Sie eine Untergruppe mit F llen f r die weitere Analyse auf der Grundlage der ausgew hlten Knoten ausw hlen W hlen Sie die gew nschten Knoten im Baumeditor aus Sollen mehrere Knoten ausgew hlt werden halten Sie beim Klicken die STRG Taste gedr ckt W hlen Sie die folgenden Befehle aus den Men s aus Regeln F lle filtern gt Geben Sie einen Namen f r die Filtervariable an Die F lle aus den ausgew hlten Knoten erhalten den Wert 1 f r diese Variable Alle anderen F lle erhalten den Wert 0 und werden aus der weiteren Analyse ausgeschlossen bis der Filterstatus ge ndert wird Klicken Sie auf OK Abbildung 2 9 Dialogfeld F lle filtern F lle filtern Geben Sie einen Namen f r die neue Filtervariable im nachstehenden Feld ein Yariablenname a Le eem Ce Speichern von Auswahl und Bewertungsregeln Sie k nnen die Auswahl und Bewertungsregeln in einer externen Datei speichern und dann auf eine andere Datenquelle anwenden Die Regeln beruhen auf den ausgew hlten Knoten im Baumeditor 50 Kapitel 2 Syntax Steuert die Form der Auswahlregeln sowohl f r die Ausgabe im Viewer als auch beim Speichern in einer externen Datei m PASW Statistics Befehlssyntax Sprache Die Regeln werden als Befehle ausgedr ckt die eine Filterbedingung zum Ausw hlen von Untergr
75. ell deutlich h her 81 6 im Vergleich zu nur 64 3 im CHAID Modell m Die Rate f r die korrekte Klassifizierung der F lle mit gutem Kreditrating ist allerdings von 82 8 beim CHAID Modell auf 74 8 beim CRT Modell gefallen 102 Kapitel 6 Surrogate Die Unterschiede zwischen CHAID und CRT Modell liegen teilweise an der Verwendung von Surrogaten im CRT Modell Die Tabelle der Surrogate zeigt wie die Surrogate im Modell genutzt wurden Abbildung 6 10 Tabelle der Surrogate bergeordneter Knoten _ Unabh ngige Variable Verbesserung Assoziation Prim r Anzahl an Kreditkarten 090 Surrogate Autodarlehen 052 43 Alter 001 004 Prim r inkommen in en Surrogate 001 Prim r inkommen in EH Surrogate 3 93E 005 Dependent Yariable Kreditrating Growing Method CRT m Am Stammknoten Knoten 0 ist Anzahl an Kreditkarten die beste unabh ngige Variable Einflussvariable m Bei allen F llen mit fehlenden Werten f r Anzahl an Kreditkarten wird Autodarlehen als Surrogat Einflussvariable herangezogen weil diese Variable relativ stark 0 643 mit Anzahl an Kreditkarten verbunden ist m Weist ein Fall auch einen fehlenden Wert f r Autodarlehen auf wird Alter als Surrogat verwendet auch wenn hier nur ein u erst geringer Wert von 0 004 f r den Zusammenhang besteht m Alter wird au erdem als Surrogat f r Einkommen in Kategorien in den Knoten 1 und 5 verwendet Zusammenfassung Bei
76. en Signifikanzniveau f r die Aufteilung von Knoten Zum Aufteilen eines Knotens kann keine unabh ngige Variable verwendet werden es sei denn ihr Signifikanz wert ist kleiner oder gleich dem von Ihnen angegebenen Niveau Bei der QUEST Methode k nnen Sie das Signifikanzniveau f r das Aufteilen von Knoten festlegen Die Knoten k nnen nur dann mit einer unabh ngigen Variablen aufgeteilt werden wenn das Signifikanzniveau kleiner oder gleich dem angegebenen Wert ist Der Wert muss gr er als O und kleiner als 1 sein Der Standardwert ist 0 05 Bei kleineren Werten werden mehr unabh ngige Variablen aus dem endg ltigen Modell ausgeschlossen So legen Sie die QUEST Kriterien fest W hlen Sie im Hauptdialogfeld Entscheidungsbaum eine nominale abh ngige Variable aus W hlen Sie als Aufbaumethode die Option QUEST Klicken Sie auf Kriterien Klicken Sie auf die Registerkarte QUEST 15 Erstellen von Entscheidungsb umen Beschneiden von B umen Abbildung 1 10 Dialogfeld Kriterien Registerkarte Beschneidung GH Entscheidungsbaum Kriterien _ Aufbaubegrenzungen QUEST idung surrogate E Baum beschneiden um eine beranpassung zu vermeiden Maximale Differenz beim Risiko in Standardfehlern Nachdem der Baum auf seine vollst ndige Tiefe erweitert wurde wird er durch Beschneiden auf den kleinsten Teilbaum reduziert der einen akzeptablen Risikowert aufweist Geben Sie die h chste
77. en Baummodelle erzeugt dabei werden nacheinander die Daten der einzelnen Stichproben ausgeschlossen Der erste Baum beruht auf allen F llen mit Ausnahme der F lle in der ersten Stichprobenaufteilung der zweite Baum auf allen F llen mit Ausnahme der F lle in der zweiten Stichprobenaufteilung usw Bei jedem Baum wird jeweils das Fehlklassifizierungsrisiko gesch tzt Hierzu wird der Baum auf die Teilstichprobe angewendet die beim Erstellen des Baums ausgeschlossen war m Sie k nnen bis zu 25 Stichprobenaufteilungen angeben Je h her der Wert desto weniger F lle werden in den einzelnen Baummodellen ausgeschlossen m Bei der Kreuzvalidierung entsteht ein einziges endg ltiges Baummodell Die kreuzvalidierte Risikosch tzung f r den fertigen Baum wird als Durchschnitt des Risikos bei allen B umen berechnet Split Sample Validierung Bei der Split Sample Validierung wird das Modell mithilfe einer Trainingsstichprobe erzeugt und dann mit einer Teststichprobe berpr ft m Sie k nnen eine Trainingsstichprobe angeben als Prozentsatz der gesamten Stichprobengr e oder auch eine Variable mit der die Stichprobe in Trainings und Teststichproben aufgeteilt wird m Wenn Sie die Trainings und Teststichproben mithilfe einer Variablen festlegen werden F lle mit dem Wert 1 f r die Variable in die Trainingsstichprobe bernommen alle anderen F lle in die Teststichprobe Die abh ngige Variable die Gewichtungsvariable die Einflussvariab
78. en von Entscheidungsb umen zur Bewertung des Kreditrisikos Abbildung 4 1 Dialogfeld Entscheidungsbaum LG Entscheidungsbaum Yariablen Abh ngige Variable Le ve Kreditrating Kredit_rati Unabh ngige variablen ater Alter 4 Einkommen in Kategori Anzahl an Kreditkarten amp Ausbildung Ausbildung amp Autodarlehen Darlehen E Erste Variable erzwingen vo Einflussvariable Klicken Sie mit der rechten Maustaste auf eine Yariable um ihr Messniveau in der Variablenliste zu ndern Lal geen Lage gen 1 mm Aufbaumethode W hlen Sie Kreditrating als abh ngige Variable aus W hlen Sie alle verbleibenden Variablen als unabh ngige Variablen aus Die Prozedur schlie t automatisch alle Variablen aus die keinen signifikanten Beitrag zum endg ltigen Modell leisten Zu diesem Zeitpunkt k nnten Sie die Prozedur ausf hren und ein grundlegendes Baummodell erstellen doch wir w hlen weitere Ausgaben aus und nehmen einige kleinere Anpassungen an den Kriterien vor die f r die Erstellung des Modells verwendet wurden Auswahl der Zielkategorien Klicken Sie auf die Schaltfl che Kategorien unmittelbar unterhalb der ausgew hlten abh ngigen Variablen 62 Kapitel 4 Dadurch wird das Dialogfeld Kategorien ge ffnet in dem Sie die relevanten Zielkategorien der abh ngigen Variablen angeben k nnen Zielkategorien betreffen nicht das Baummodell selbst sondern besti
79. erstellen und andere Aktionen ausf hren So w hlen Sie mehrere Knoten aus Klicken Sie auf einen Knoten Halten Sie die STRG Taste gedr ckt und klicken Sie auf die weiteren Knoten Sie k nnen mehrere Knoten auf derselben Ebene und oder bergeordnete Knoten in einer Verzweigung ausw hlen und untergeordnete Knoten in einer anderen Verzweigung Es ist allerdings nicht m glich gleichzeitig einen bergeordneten Knoten und einen untergeordneten Knoten bzw einen Nachfolger in derselben Knotenverzweigung auszuw hlen 43 Baumeditor Arbeiten mit umfangreichen B umen Baummodelle enthalten manchmal so viele Knoten und Verzweigungen dass der gesamte Baum nur schwer oder auch gar nicht vollst ndig und in der vollen Gr e angezeigt werden kann Beim Arbeiten mit umfangreichen B umen steht eine Reihe n tzlicher Funktionen bereit m Baumstruktur Mithilfe der Baumstruktur eine stark verkleinerte vereinfachte Version des Baums k nnen Sie im Baum navigieren und Knoten ausw hlen F r weitere Informationen siehe Baumstruktur auf S 43 m Skalierung Zum Vergr ern und Verkleinern ndern Sie den Skalierungsprozentsatz f r die Baumanzeige F r weitere Informationen siehe Skalieren der Baumanzeige auf S 44 m Knoten und Verzweigungsanzeige Um einen Baum kompakter zu gestalten k nnen Sie nur Tabellen oder nur Diagramme in den Knoten anzeigen lassen und oder die Anzeige von Knotenbeschriftungen oder Informationen zu una
80. finieren von Wertelabels f r die Variable dependent abh ngig Pi Wertelabels rWvertelabels e O 1 00 Ja 2 00 Nein Geben Sie zun chst 1 als Wert und Ja als Wertelabel ein und klicken Sie dann auf Hinzuf gen Geben Sie danach 2 als Wert und Nein als Wertelabel ein und klicken Sie dann auf Hinzuf gen Klicken Sie anschlie end auf OK 58 Kapitel 3 ffnen Sie noch einmal das Dialogfeld Entscheidungsbaum Im Dialogfeld sollte noch immer abh ngig als abh ngige Variable mit nominalem Messniveau ausgew hlt sein Klicken Sie auf OK um die Prozedur noch einmal auszuf hren Abbildung 3 6 Baum f r nominale abh ngige Variable teilweise mit Wertelabels abh ngig Knoten 0 Kategorie n m Ja 75 5287 500 m Nein 24 4713 162 Gesamt 100 0000 662 nee ey 1B Nein 1 unabh ngig Adj P value 0 000 Chi square 662 0000 df 1 4 0000 1 0000 3 0000 Knoten 1 Knoten 2 Kategorie Ki n Kategorie Ki n S Ja 100 0000 500 m Ja 0 0000 0 m Nein 0 0000 0 75 5287 500 m Nein 100 0000 162 Gesamt 24 4713 162 Gesamt Nun sind nur die beiden abh ngigen Variablenwerte mit definierten Variablenlabels im Baummodell enthalten Alle F lle mit dem Wert 3 f r die abh ngige Variable wurden ausgeschlossen was Ihnen m glicherweise nicht sofort auff llt wenn Sie mit den Daten nicht vertraut sind Zuweisen von Wertel
81. gesagte Werte 73 Verfeinern des Modells 74 Ausw hlen der F lle in Knoten nuanua anaana a 74 Untersuchung der ausgew hlten F lle n n annn anaaanaa aaa 76 Zuweisen von Kosten zu den Ergebnissen anana 78 Zusammenfassung saosa niasa ana aai a hika ahn a i a ar a aa a a aLe n a aa aea a a a a a CE a EE a a 82 vi 5 Konstruieren eines Bewertungsmodells 83 Konstruieren des Modell 83 Bewertung des Modells nennen nnnn 85 Modell bersicht 2 cc nennen 86 Baummodelldiagramm con oneneeeeeenereneneren een 87 Ris KOSCh tZEr eege a ne ann ee 88 Anwenden des Modells auf eine andere Datenda tei cc cc nn nn 89 ZUSAMMENFASSUNG EE 2 6 Fehlende Werte in Baummodellen 93 Fehlende Werte bei CHAID 22 cc 94 HAD Ergebnisse 96 Fehlende Werte bei CRT 97 ERT Ergebnisse suidae hiaai aa EEN nl nnd au 100 Zusammenfassung 222m oneeeeeeenenen en 102 Anhang A Beispieldateien 103 Index 115 vii Teil I Benutzerhandbuch Kapitel Erstellen von Entscheidungsb umen Abbildung 1 1 Entscheidungsbaum Kreditrating Knoten O Kategorie n E schlecht 41 4 1020 B gut 58 6 1444 Gesamt 100 0 2454 Einkommen in Kategorien lt niedrig niedrig mittel gt mittel Knoten 3 Kategorie n m schlecht 115 90 Knoten 2 Kategorie n E schlecht 420 476 E gut 58 0 658 Gesamt 45 0 1134 Knoten 1 Kategorie n E schlecht 82 1 454 g
82. gsbaum Kriterien rIntervalle f r metrische unabh ngige variablen Feste Zahl Anpassen Intervalle Variable Intervalle 12 Kapitel 1 Bei der CHAID Analyse werden metrische unabh ngige Variablen Einflussvariablen vor der Analyse stets in diskrete Gruppen eingeteilt z B 0 10 11 20 21 30 usw Sie k nnen die anf ngliche und maximale Anzahl der Gruppen steuern unter Umst nden werden aufeinander folgende Gruppen nach der urspr nglichen Aufteilung jedoch wieder zusammengef hrt m Feste Zahl Alle metrischen unabh ngigen Variablen werden zun chst in dieselbe Anzahl an Gruppen eingeteilt Der Standardwert ist 10 m Benutzerdefiniert Jede metrische unabh ngige Variable wird zun chst in die Anzahl der Gruppen eingeteilt die f r die betreffende Variable angegeben sind So legen Sie die Intervalle f r metrische unabh ngige Variablen fest W hlen Sie im Hauptdialogfeld Entscheidungsbaum mindestens eine metrische unabh ngige Variable aus W hlen Sie als Aufbaumethode die Option CHAID oder Exhaustive CHAID Klicken Sie auf Kriterien Klicken Sie auf die Registerkarte Intervalle Bei der CRT und QUEST Analyse werden nur bin re Aufteilungen verwendet und die metrischen und ordinalen unabh ngigen Variablen werden auf dieselbe Weise behandelt Es ist also nicht m glich eine Intervallanzahl f r die metrischen unabh ngigen Variablen festzulegen CRT Kriterien Abbildu
83. h tzungen des Werts von Immobilien auf dem aktuellsten Stand zu halten Die F lle entsprechen den Immobilien in dem betreffenden Bundesstaat Jeder Fall in der Datendatei enth lt das County die Gemeinde und das Wohnviertel in dem sich die Immobilie befindet die seit der letzten Bewertung verstrichene Zeit sowie zu diesem Zeitpunkt ermittelten Wert 111 Beispieldateien property_assess_cs_sample sav Diese hypothetische Datendatei enth lt eine Stichprobe der in property_assess_cs sav aufgef hrten Immobilien Die Stichprobe wurde gem dem in der Plandatei property_assess csplan angegebenen Stichprobenplan gezogen und in dieser Datendatei sind die Einschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst Die zus tzliche Variable Current value Aktueller Wert wurde nach der Ziehung der Stichprobe erfasst und zur Datendatei hinzugef gt recidivism sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Strafverfolgungsbeh rde geht einen Einblick in die R ckfallraten in ihrem Zust ndigkeitsbereich zu gewinnen Jeder Fall entspricht einem fr hren Straft ter und erfasst Daten zu dessen demografischen Hintergrund einige Details zu seinem ersten Verbrechen sowie die Zeit bis zu seiner zweiten Festnahme sofern diese innerhalb von zwei Jahren nach der ersten Festnahme erfolgte recidivism_cs_sample sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem
84. h Fotokopieren Aufzeichnen oder sonstige Mittel reproduziert in einem Datenabfragesystem gespeichert oder bertragen werden Vorwort PASW Statistics 18 ist ein umfassendes System zum Analysieren von Daten Das optionale Zusatzmodul Decision Trees Entscheidungsb ume bietet die zus tzlichen Analyseverfahren die in diesem Handbuch beschrieben sind Die Prozeduren im Zusatzmodul Decision Trees Entscheidungsb ume m ssen zusammen mit PASW Statistics 18 Core verwendet werden Sie sind vollst ndig in dieses System integriert Installation Zur Installation von Decision Trees Entscheidungsb ume Erweiterungsmodul f hren Sie den Lizenzautorisierungsassistenten mit dem Autorisierungscode aus den Sie von SPSS Inc erhalten haben Weitere Informationen finden Sie in den Installationsanweisungen im Lieferumfang von Decision Trees Entscheidungsb ume Erweiterungsmodul Kompatibilit t PASW Statistics kann auf vielen Computersystemen ausgef hrt werden Mindestanforderungen an das System und Empfehlungen finden Sie in den Unterlagen die mit Ihrem System geliefert werden Seriennummern Die Seriennummer des Programms dient gleichzeitig als Identifikationsnummer bei SPSS Inc Sie ben tigen diese Seriennummer wenn Sie sich an SPSS Inc wenden um Informationen zum Kundendienst zu Zahlungen oder zu Aktualisierungen des Systems zu erhalten Die Seriennummer wird mit dem Core System ausgeliefert Kundendienst Wenden Sie sich bei
85. hlossen bis Sie den Filterstatus ndern In diesem Beispiel bedeutet dies dass die F lle die sich nicht in Knoten 9 befinden vorerst herausgefiltert jedoch nicht gel scht werden Klicken Sie auf OK um die Filtervariable zu erstellen und die Filterbedingung anzuwenden Abbildung 4 17 Gefilterte F lle im Daten Editor BI tree_credit sav DatenSet1 Daten Editor Datei Bearbeiter Ansicht Daten Transformiere Analysierer Grafiker Extras Add Ons Fenster Hilfe Sichtbar 11 von 11 Variablen Ausbildung Darlehen 2 00 2 00 2 00 2 00 1 00 2 00 2 00 1 00 2 00 2 00 2 00 2 00 2 00 2 00 1 00 2 00 1 00 2 00 2 00 2 00 Er OD Oo O OO ON Variablenansicht Im Daten Editor werden F lle die herausgefiltert wurden mit einem diagonalen Strich durch die Zeilennummer gekennzeichnet Die F lle die sich nicht in Knoten 9 befinden werden herausgefiltert Die F lle in Knoten 9 werden nicht gefiltert daher enthalten alle nachfolgenden Analysen nur F lle aus Knoten 9 76 Kapitel 4 Untersuchung der ausgew hlten F lle Als ersten Schritt bei der Untersuchung der F lle in Knoten 9 sollten Sie die Variablen betrachten die nicht im Modell verwendet wurden In diesem Beispiel wurden alle Variablen in der Datendatei in die Analyse aufgenommen zwei davon wurden jedoch nicht in das endg ltige Modell aufgenommen Ausbildung und Autodarlehen Da es vermutlich einen guten Grund
86. ht 747 174 Ip schlecht H schlecht 32 9 153 schlecht 15 3 33 E schech 34 5 128 schlecht SI 11 schlecht 13 3 39 m gut 25 3 59 m gut V gut 67 1 312 m gut 847 183 m gut 65 4 242 m gut 949 203 m gut 86 7 255 Gesamt DA 233 Gesamt Gesamt 18 9 455 Gesamt 88 216 Gesamt 15 0 370 Gesamt 87 214 Gesamt 11 9 294 Bei Knoten 3 wird der Wert f r Einkommen in Kategorien als gt Mittel lt fehlend gt aufgef hrt Der Knoten enth lt also F lle in der Kategorie mit hohem Einkommen und au erdem F lle mit fehlenden Werten f r Einkommen in Kategorien 97 Fehlende Werte in Baummodellen Der Endknoten 10 enth lt F lle mit fehlenden Werten f r Anzahl an Kreditkarten Bei der Ermittlung risikoloser Kredite ist dieser Endknoten am zweitbesten geeignet wenn dieses Modell zur Vorhersage risikoloser Kredite dienen soll kann dies zu Problemen f hren Ein Modell das einen risikolosen Kredit vorhersagt ist nutzlos wenn nicht bekannt ist wie viele Kreditkarten der Kunde besitzt und wom glich auch die Angaben zur Einkommensh he in einigen F llen fehlen Abbildung 6 5 Risiko und Klassifizierungstabellen f r das CHAID Modell Risiko Standardfe Sch tzer hler 2498 om Aufbaumethode CHAID Abh ngige Variable Kreditrating Klassifikation vorhergesat Prozent Beobachtet schlecht korrekt schlecht 656 Er 64 3 gut 249 1195 82 8 Gesamtprozentsatz 36 7 63 3 75 1 Aufbaumethode CHAID Abh ngige Yariable
87. iche Expansion auszuw hlen Das Unternehmen beauftragte zwei Berater unabh ngig voneinander mit der Bewertung der Standorte Neben einem umfassenden Bericht gaben die Berater auch eine zusammenfassende Wertung f r jeden Standort als good gut fair mittelm ig oder poor schlecht ab siteratings sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Betatests der neuen Website eines E Commerce Unternehmens geht Jeder Fall entspricht einem Beta Tester der die Brauchbarkeit der Website auf einer Skala von 0 bis 20 bewertete smokers sav Diese Datendatei wurde aus der Umfrage National Household Survey of Drug Abuse aus dem Jahr 1998 abstrahiert und stellt eine Wahrscheinlichkeitsstichprobe US amerikanischer Haushalte dar Daher sollte der erste Schritt bei der Analyse dieser Datendatei darin bestehen die Daten entsprechend den Bev lkerungstrends zu gewichten smoking sav Hierbei handelt es sich um eine von Greenacre vorgestellte hypothetische Tabelle Die relevante Tabelle wird durch eine Kreuztabelle der Rauchgewohnheiten und der Berufskategorie gebildet Die Variable Berufsgruppe enth lt die Berufskategorien Senior Manager Junior Manager Angestellter mit Erfahrung Angestellter ohne Erfahrung und Sekretariat sowie die Kategorie National Average die als Erg nzung der Analyse dienen kann Die Variable Rauchen enth lt die Rauchgewohnheiten Nichtraucher Leicht Mittel und Stark sowie
88. ie zu anderen Merkmalen beispielsweise welcher Betrag in der betreffenden Woche f r Lebensmittel ausgegeben wurde guttman sav Bell legte eine Tabelle zur Darstellung m glicher sozialer Gruppen vor Guttman verwendete einen Teil dieser Tabelle bei der f nf Variablen die Aspekte beschreiben wie soziale Interaktion das Gef hl der Gruppenzugeh rigkeit die physische N he der Mitglieder und die Formalit t der Beziehung mit sieben theoretischen sozialen Gruppen gekreuzt wurden crowds Menschenmassen beispielsweise die Zuschauer eines Fu ballspiels audience Zuh rerschaften beispielsweise die Personen im Theater oder bei einer Vorlesung public ffentlichkeit beispielsweise Zeitungsleser oder Fernsehzuschauer mobs Mobs wie Menschenmassen jedoch mit wesentlich st rkerer Interaktion primary groups Prim rgruppen vertraulich secondary groups Sekund rgruppen freiwillig und modern community die moderne Gesellschaft ein lockerer Zusammenschluss der aus einer engen physischen N he und dem Bedarf an spezialisierten Dienstleistungen entsteht healthplans sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Versicherungsgruppe geht vier verschiedene Pl ne zur Gesundheitsvorsorge f r Kleinbetriebe zu evaluieren Zw lf Inhaber von Kleinbetrieben Arbeitgeber wurden gebeten die Pl ne danach in eine Rangfolge zu bringen wie gern
89. iesem Modell erkl rten Varianz betr gt 1 0 147 0 853 bzw 85 3 was anzeigt dass es sich um ein ziemlich gutes Modell handelt Eine hnliche Interpretation wie die Gesamtquote f r die korrekte Klassifizierung f r eine abh ngige kategoriale Variable Anwenden des Modells auf eine andere Datendatei Nachdem wir festgestellt haben dass das Modell eine angemessene Qualit t aufweist k nnen wir das Modell nun auf andere Datendateien mit hnlichen Variablen vom Typ alter einkomme und ausbildu anwenden und eine neue Variable erstellen die f r jeden Fall in dieser Datei den vorhergesagten Kaufpreis angibt Dieser Prozess wird h ufig als Bewertung bezeichnet Bei der Erstellung des Modells haben wir angegeben dass Regeln f r die Zuweisung von Werten zu F llen in einer Textdatei in Form von Befehlssyntax gespeichert werden sollen Wir verwenden nun die Befehle in dieser Datei um Werte in einer anderen Datei zu erstellen gt ffnen Sie die Daten Datei ee score cat zou F r weitere Informationen siehe Beispieldateien in Anhang A in PASW Decision Trees Entscheidungsb ume 18 W hlen Sie die folgenden Befehle aus den Men s aus Datei Neu Syntax gt Geben Sie im Fenster f r die Befehlssyntax Folgendes ein INSERT FILE temp car_scores sps 90 Kapitel 5 Wenn Sie einen anderen Dateinamen oder einen anderen Speicherort verwendet haben m ssen Sie die Eingabe entsprechend abwandeln Abbildung 5
90. igen Variablen definiert wurde m Messniveau Das Messniveau beeinflusst die Baumberechnungen S mtlichen Variablen sollte daher das geeignete Messniveau zugewiesen werden Standardm ig wird angenommen dass numerische Variablen metrisch und String Variablen nominal sind dies spiegelt ggf nicht das tats chliche Messniveau wider Der Variablentyp ist durch ein Symbol neben der jeweiligen Variablen in der Variablenliste gekennzeichnet E Skalierung da Nominal SR Ordinal Sie k nnen das Messniveau f r eine Variable vor bergehend ndern Klicken Sie hierzu mit der rechten Maustaste auf die Variable in der Liste der Quellvariablen und w hlen Sie das gew nschte Messniveau im Kontextmen aus m Wertelabels In den Dialogfeldern f r diese Prozedur wird angenommen dass entweder alle der nichtfehlenden Werte einer kategorialen nominalen ordinalen abh ngigen Variablen ber definierte Wertelabels verf gen oder keiner dieser Werte Einige Funktionen sind nicht verf gbar wenn nicht mindestens zwei nichtfehlende Werte der kategorialen abh ngigen Variablen Wertelabels aufweisen Wenn f r mindestens zwei nichtfehlende Werte Wertelabels definiert sind werden alle F lle mit anderen Werten die keine Wertelabels aufweisen aus der Analyse ausgeschlossen So erhalten Sie Entscheidungsb ume W hlen Sie die folgenden Befehle aus den Men s aus Analysieren Klassifizieren Baum 4 Kapitel 1 Abbildung 1 2 Dialogfeld
91. iken der unabh ngigen Variablen Einflussvariablen der Knotendefinitionen und andere Einstellungen Ein Gro teil der Einstellungen kann auch ber die Symbolleiste gesteuert werden Einstellung Auswahl im Men Optionen Vorhergesagte Kategorie hervorheben kategoriale Vorhergesagten Wert abh ngige Variable hervorheben Tabellen und oder Diagramme in Knoten Knoteninhalt Signifikanztestwerte und p Werte Statistik f r unabh ngige Variablen Namen von unabh ngigen Variablen Einflussvariablen Unabh ngige Variablen Unabh ngige r Wert e Einflusswert e f r Knoten Knotendefinitionen Ausrichtung von oben nach unten von links nach Ausrichtung rechts von rechts nach links Diagrammlegende Legende Abbildung 2 5 Baumelemente Kreditrating Knoten 0 Kategorie n Legende E schlecht 41 4 1020 Tabelle E gut 58 6 1444 poar n Gesamt 100 0 2464 Diagramm IS schlecht 4 E Einkommen in Kategorien Unabh ngige Variable Adj P value 0 000 Chi square 662 457 df 2 Statistik f r unabh ngige Knoten Fan S Yariable definition lt niedrig gt niedrig Knoten 1 Knoten 2 Kategorie n _Kategorie n E schlecht 82 1 454 schlecht 29 6 566 vorhergesagte B gut 179 alles gut 704 1345 Kategorie Gesamt 22 4 553 Gesamt 77 5 1911 I Lk ndern der Farben und Schriftarten im Baum Die folgenden Farben im Baum k nnen ge ndert werden m Rahmen Hintergr
92. in F r weitere Informationen siehe Surrogate in Kapitel 1 auf S 16 So speichern Sie Auswahl oder Bewertungsregeln f r F lle W hlen Sie die gew nschten Knoten im Baumeditor aus Sollen mehrere Knoten ausgew hlt werden halten Sie beim Klicken die STRG Taste gedr ckt W hlen Sie die folgenden Befehle aus den Men s aus Regeln Exportieren W hlen Sie den gew nschten Regeltyp aus und geben Sie einen Dateinamen ein Abbildung 2 10 Dialogfeld Regeln exportieren Exportiert die Regeln Exportiert die Regeln f r Knoten 0 Syntax Typ EI F lle ausw hlen PASSW Statistics Vorhergesagte Werte zu F llen zuweisen Osa Fi Ersatzwerte ber cksichtigen Name node_selection_rules sps 51 Baumeditor Hinweis Wenn Sie Regeln als Befehlssyntax auf eine andere Datendatei anwenden m ssen die Namen der Variablen in dieser Datendatei mit den Namen der unabh ngigen Variablen im fertigen Modell identisch sein Des Weiteren m ssen die Variablen mit derselben Ma einheit gemessen werden und dieselben benutzerdefiniert fehlenden Werte aufweisen falls vorhanden Teil II Beispiele Kapitel 3 Datenannahmen und anforderungen Die Prozedur Entscheidungsbaum geht von folgenden Annahmen aus m Allen Analysevariablen wurde das richtige Messniveau zugewiesen m Bei kategorialen nominalen ordinalen abh ngigen Variablen wurden f r alle Kategorien
93. in denen der Wert f r die betreffende Variable fehlt werden andere unabh ngige Variablen die einen hohen Grad an Zusammenhang mit der urspr nglichen Variable besitzen zur Klassifizierung herangezogen Diese alternativen Einflussvariablen werden als Surrogate bezeichnet Dieses Beispiel verdeutlicht die Unterschiede zwischen CHAID und CRT wenn Werte f r unabh ngige Variablen im Modell fehlen In diesem Beispiel wird die Datendatei free_missing_data sav verwendet F r weitere Informationen siehe Beispieldateien in Anhang A in PASW Decision Trees Entscheidungsb ume 18 Hinweis Bei nominalen unabh ngigen Variablen und nominalen abh ngigen Variablen k nnen Sie angeben dass benutzerdefiniert fehlende Werte als g ltige Werte behandelt werden sollen Die Werte werden somit wie andere nichtfehlende Werte behandelt F r weitere Informationen siehe Fehlende Werte definieren in Kapitel 1 auf S 23 93 94 Kapitel 6 Fehlende Werte bei CHAID Abbildung 6 1 Kreditdaten mit fehlenden Werten SH tree_missing_data sav DatenSet3 Daten Editor Datei Bearbeiten Ansicht Daten Transformierer Analysierer Grafiken Extras Add Ons Fenster Hilfe Sichtbar 6 von 6 Variablen Kredit_rating Einkommen Kreditkarten 0 00 2 00 0 00 2 00 0 00 0 00 0 00 2 00 0 00 2 00 0 00 2 00 0 00 i 0 00 1 00 0 00 2 00 0 00 riese variablenansicht Wie beim Beispiel f r das Kreditrisiko weitere Informa
94. innwerte Informationen zu Zielkategorien bieten ist diese Tabelle nur verf gbar wenn mindestens eine Zielkategorie angegeben wurde In diesem Beispiel gibt es nur eine einzige Zielkategorie und damit nur eine einzige Tabelle f r die Gewinne f r die Knoten m Knoten N ist die Anzahl der F lle in den einzelnen Endknoten und Knoten Prozent ist der Prozentsatz der Gesamtzahl der F lle in den einzelnen Knoten m Gewinn N ist die Anzahl der F lle in jedem Endknoten in der Zielkategorie und Gewinn Prozent ist der Prozentsatz der F lle in der Zielkategorie bezogen auf die Gesamtzahl der F lle in der Zielkategorie in diesem Beispiel die Anzahl und der Prozentsatz der F lle mit schlechtem Kreditrating m Bei kategorialen abh ngigen Variablen ist Antwort der Prozentsatz der F lle im Knoten der angegebenen Zielkategorie In diesem Beispiel handelt es sich hierbei um dieselben Prozents tze die im Baumdiagramm f r die Kategorie Schlecht angezeigt wurden m Bei kategorialen abh ngigen Variablen ist Index das Verh ltnis des Antwortprozentsatzes f r die Zielkategorie im Vergleich zum Antwortprozentsatz f r die gesamte Stichprobe 71 Verwenden von Entscheidungsb umen zur Bewertung des Kreditrisikos Indexwerte Der Indexwert zeigt an wie weit der beobachtete Prozentsatz f r die Zielkategorie bei diesem Knoten von dem erwarteten Prozentsatz f r die Zielkategorie abweicht Der Prozentsatz f r die Zielkategorie im Stammknoten steh
95. isierte Log transformierte Variablen ersetzt telco_missing sav Diese Datendatei ist eine Untermenge der Datendatei telco sav allerdings wurde ein Teil der demografischen Datenwerte durch fehlende Werte ersetzt testmarket sav Diese hypothetische Datendatei bezieht sich auf die Pl ne einer Fast Food Kette einen neuen Artikel in ihr Men aufzunehmen Es gibt drei m gliche Kampagnen zur Verkaufsf rderung f r das neue Produkt Daher wird der neue Artikel in Filialen in mehreren zuf llig ausgew hlten M rkten eingef hrt An jedem Standort wird eine andere Form der Verkaufsf rderung verwendet und die w chentlichen Verkaufszahlen f r das neue Produkt werden f r die ersten vier Wochen aufgezeichnet Jeder Fall entspricht einer Standort Woche testmarket_1month sav Bei dieser hypothetischen Datendatei handelt es sich um die Datendatei restmarket sav wobei die w chentlichen Verkaufszahlen zusammengefasst sind sodass jeder Fall einem Standort entspricht Dadurch entfallen einige der Variablen die w chentlichen nderungen unterworfen waren und die verzeichneten Verkaufszahlen sind nun die Summe der Verkaufszahlen w hrend der vier Wochen der Studie tree_car sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zum Kaufpreis von Fahrzeugen enth lt tree_credit sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zu fr heren Bankkrediten enth l
96. kkunden in dieser Kategorie haben 82 Kredite nicht zur ckgezahlt Da unterhalb dieses Knotens keine untergeordneten Knoten weniger als 5 Knoten 5 Kategorie n E schlecht 138 54 B gut 86 2 336 Gesamt 15 83 390 43 7 211 5 oder mehr Knoten 6 Kategorie n E schlecht 17 6 80 B gut 82 4 375 Gesamt 1385 455 vorhanden sind wird dieser Knoten als Endknoten betrachtet m Bei der mittleren und der hohen Einkommensklasse ist die n chstbeste Einflussvariable Anzahl an Kreditkarten m Bei Kunden mit mittlerem Einkommen und mindestens f nf Kreditkarten enth lt das Modell eine weitere Einflussvariable Alter ber 80 dieser Kunden die 28 Jahre oder j nger waren hatten ein schlechtes Kreditrating wohingegen nur knapp die H lfte der Kunden ber 28 aus dieser Gruppe ein schlechtes Kreditrating aufwiesen weniger als 5 Knoten 7 Kategorie n E schlecht 31 10 gut 96 9 312 Gesamt 13 1 322 69 Verwenden von Entscheidungsb umen zur Bewertung des Kreditrisikos Mit dem Baumeditor k nnen Sie ausgew hlte Zweige aus und einblenden Farben und Schriftarten ndern und Untergruppen von F llen auf der Grundlage der ausgew hlten Knoten ausw hlen F r weitere Informationen siehe Ausw hlen der F lle in Knoten auf S 74 Baumtabelle Abbildung 4 9 Baumtabelle f r das Kreditrating schlecht Knoten Prozent O OO 4 OO ZS GA H zz OH gut Gesamt Vorhergesag bergeordn N Prozent N te Kategori
97. klassifizierungskosten EH Entscheidungsbaum Optionen In allen Kategorien gleich Anpassen vYorhergesagte Kategorie schlecht Tats chich gemeet 5 Kategorie gut 1 es Bei kategorialen nominalen ordinalen abh ngigen Variablen k nnen Sie mit den Fehlklassifizierungskosten die relative Strafe f r die fehlerhafte Klassifizierung angeben Beispiel Die Kosten wenn einem kreditw rdigen Kunden ein Darlehen verweigert wird unterscheiden sich in der Regel von den Kosten wenn ein Kunde ein Darlehen erh lt und dann damit in Verzug ger t Die Kosten f r die Fehlklassifizierung einer Person mit einem hohen Risiko f r Herzerkrankungen als Person mit niedrigem Risiko sind wahrscheinlich deutlich h her als wenn eine Person mit niedrigem Risiko f lschlicherweise mit einem hohen Risiko klassifiziert w rde Die Kosten f r den Versand einer Werbesendung an eine Person die wahrscheinlich nicht reagieren wird sind relativ gering die Kosten wenn die Werbesendung nicht an eine Person geht die wahrscheinlich reagiert h tte sind dagegen deutlich h her was den entgangenen Umsatz angeht Fehlklassifizierungskosten und Wertelahbels Dieses Dialogfeld ist erst dann verf gbar wenn mindestens zwei Werte der kategorialen abh ngigen Variablen ein Wertelabel besitzen So legen Sie die Fehlklassifizierungskosten fest W hlen Sie im Hauptdialogfeld Entscheidungsbaum ei
98. l in den Zellen stutzen Fallgewichte stutzen keine Korrekturen Ge na im Aktivieren Sie im Gruppenfeld Prozentwerte die Option Zeilenweise gt Klicken Sie anschlie end auf Weiter und danach im Hauptdialogfeld von Kreuztabellen auf OK um die Prozedur auszuf hren Bei der Untersuchung der Kreuztabellen wird ersichtlich dass f r die beiden nicht im Modell enthaltenen Variablen kein gro er Unterschied zwischen den F llen in den Kategorien f r gutes und schlechtes Kreditrating besteht Abbildung 4 20 Kreuztabellen f r die F lle im ausgew hlten Knoten Kreditrating Ausbildung Kreuztabelle Ausbildung chlu sabschlu Gesamt Kreditrating schlecht Anzahl 513 507 1020 Anzahl 717 727 1444 Gesamt Anzahl 1230 1234 2464 Kreditrating Autodarlehen Kreuztabelle Autodarlehen 0 oder 1 2 oder mehr Gesamt Kreditrating schlecht Anzahl 178 842 1020 von Kreditrating 17 5 82 5 100 0 Anzahl 715 729 1444 von Kreditrating 49 5 50 5 100 0 Anzahl von Kreditrating 893 1571 2464 36 2 63 8 100 0 78 Kapitel 4 m Was Ausbildung betrifft so besitzt etwas mehr als die H lfte der F lle mit schlechtem Kreditrating nur einen Schulabschluss w hrend etwas mehr als die H lfte mit gutem Kreditrating einen Universit tsabschluss vorzuweisen hat doch dieser Unterschied ist nicht statistisch signifikant m Was Autodarlehen betrifft so ist der Prozentsatz der F lle mi
99. le sowie erzwungene unabh ngige Variablen sind hier als Variable nicht zul ssig m Die Ergebnisse k nnen wahlweise f r die Trainings und Teststichproben oder auch nur f r die Teststichprobe angezeigt werden m Bei kleinen Datendateien Dateien mit nur wenigen Dateien sollte die Split Sample Validierung nur nach sorgf ltiger Erw gung verwendet werden Kleine Trainingsstichproben k nnen zu mangelhaften Modellen f hren weil einige Kategorien unter Umst nden nicht gen gend F lle enthalten damit der Baum ordnungsgem wachsen kann Kriterien f r den Aufbau des Baums Die verf gbaren Aufbaukriterien k nnen von der Aufbaumethode und oder dem Messniveau der abh ngigen Variablen abh ngen 9 Erstellen von Entscheidungsb umen Aufbaubegrenzungen Abbildung 1 5 Dialogfeld Kriterien Registerkarte Aufbaubegrenzungen EB Entsc heidungsbaum Kriterien rMaximale Baumtiefe 7 2 rMindestanzahl der F lle Automatisch bergeordneter Knoten Die maximale Anzahl der Stufen ist 3 f r CHAID 5 f r CRT und QUEST Untergeordneter Knoten 1200 Anpassen Auf der Registerkarte Aufbaubegrenzungen k nnen Sie die Anzahl der Ebenen im Baum einschr nken und die Mindestanzahl der F lle f r ber und untergeordnete Knoten steuern Maximale Baumtiefe Steuert die maximale Anzahl der Aufbauebenen unterhalb des Stammknotens Mit der Einstellung Automatisch wird der Baum auf drei CHA
100. len Wert zuweisen aus vyv v Vv v y Aktivieren Sie Regeln in Datei exportieren und geben Sie einen Dateinamen und eine Verzeichnisposition ein Merken Sie sich den Dateinamen und die Verzeichnisposition oder schreiben Sie sie auf da Sie diese Angaben bald wieder ben tigen Wenn Sie keinen Verzeichnispfad angeben wissen Sie m glicherweise nicht wo die Datei gespeichert wurde Mit der Schaltfl che Durchsuchen k nnen Sie zu einer bestimmten g ltigen Verzeichnisposition wechseln Klicken Sie auf Weiter und anschlie end auf OK um die Prozedur auszuf hren und das Baummodell zu konstruieren Bewertung des Modells Bevor Sie das Modell auf andere Datendateien anwenden sollten Sie sicherstellen dass das Modell gut mit den urspr nglichen Daten die f r die Modellkonstruktion verwendet wurden arbeitet 86 Kapitel 5 Modell bersicht Abbildung 5 3 Modellzusammenfassungstabelle Spezifikationen Aufbaumethode CRT Abh ngige Variable Preis des Erstwagens Unabh ngige Variablen Alter in Jahren Geschlecht Einkommenskategorien in Tausend Ausbildung Familienstand Yalidierung NONE Maximale Baumtiefe Mindestanzahl der F lle im bergeordneten Knoten Mindestanzahl der F lle im untergeordneten 50 Knoten Ergebnisse Aufgenommene Einkommenskategorien in Tausend Alter in unabh ngige Yariablen Jahren Ausbildung Anzahl der Knoten 29 Anzahl der Endknoten 15 Tiefe 5 Die Modellzusammenfassungstabelle zeig
101. lig der f r den Endknoten 10 im urspr nglichen Modell angegebene Mittelwert Normalerweise w rden Sie zwar das Modell auf Daten anwenden bei denen der Wert der abh ngigen Variablen nicht bekannt ist in diesem Beispiel jedoch enth lt die Datendatei auf die das Modell angewendet wird diese Informationen sodass Sie die Modellvorhersagen mit den tats chlichen Werten vergleichen k nnen W hlen Sie die folgenden Befehle aus den Men s aus Analysieren Korrelation Bivariat gt W hlen Sie Preis des Erstwagens und pre_001 als abh ngige Variablen aus Abbildung 5 9 Dialogfeld Bivariate Korrelationen Hf Bivariate Korrelationen alter in Jahren Alter L Preis des Erstwagens d Einkommenskategorien E pre_001 A Ausbildung Ausbildung d Familienstand Familien L nod DH Variablen r Korrelationskoeffizienten M Pearson Kendall Tau b Spearman r Test auf Signifikanz Zweiseitig Einseitig 4 Signifikante Korrelationen markieren La noen Zuoeteetzen awerechen J Hure Klicken Sie auf OK um die Prozedur auszuf hren 92 Kapitel 5 Abbildung 5 10 Korrelation zwischen tats chlichem und vorhergesagtem Fahrzeugpreis Preis des Preis des Erstwagens Korrelation nach Pearson Signifikanz 2 seitig N pre_001 Korrelation nach Pearson Signifikanz 2 seitig N Die Korrelation ist auf dem Niveau von 0 01 2 seitig signifikant
102. lt die Aflatoxinmessungen aus jeder der 16 Stichproben aus den Ertr gen 4 und 8 der Datendatei aflatoxin sav 103 104 Anhang A anorectic sav Bei der Ausarbeitung einer standardisierten Symptomatologie anorektischen bulimischen Verhaltens f hrten Forscher eine Studie mit 55 Jugendlichen mit bekannten Ess St rungen durch Jeder Patient wurde vier Mal ber einen Zeitraum von vier Jahren untersucht es fanden also insgesamt 220 Beobachtungen statt Bei jeder Beobachtung erhielten die Patienten Scores f r jedes von 16 Symptomen Die Symptomwerte fehlen f r Patient 71 zum Zeitpunkt 2 Patient 76 zum Zeitpunkt 2 und Patient 47 zum Zeitpunkt 3 wodurch 217 g ltige Beobachtungen verbleiben autoaccidents sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Versicherungsanalysten geht ein Modell zur Anzahl der Autounf lle pro Fahrer unter Ber cksichtigung von Alter und Geschlecht zu erstellen Jeder Fall stellt einen Fahrer dar und erfasst das Geschlecht des Fahrers sein Alter in Jahren und die Anzahl der Autounf lle in den letzten f nf Jahren band sav Diese Datendatei enth lt die hypothetischen w chentlichen Verkaufszahlen von CDs f r eine Musikgruppe Daten f r drei m gliche Einflussvariablen wurden ebenfalls aufgenommen bankloan sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Bank geht den Anteil der nicht zur ckgezahlten Kr
103. mmte Ausgaben und Optionen sind nur verf gbar wenn Zielkategorien ausgew hlt wurden Abbildung 4 2 Dialogfeld Kategorien H Entsc heidungsbaum Kategorien r Kategorien der abh ngigen variablen Variable Kreditrating Bei der Analyse verwenden Ausschlie en Wi keine Kredit Historie W hlen Sie mithilfe der Kontrollk stchen eine Kategorie oder Kategorien aus der Ihr Hauptinteresse gilt Wenn Sie beispielsweise versuchen die Merkmale von Personen zu ermitteln die mit gro er Wahrscheinlichkeit auf eine Postsendung antworten so ist die Zielkategorie Antwort Ca an mm Aktivieren Sie das Kontrollk stchen Ziel f r die Kategorie Schlecht Kunden mit schlechtem Kreditrating ein Kredit wurde nicht zur ckgezahlt werden als relevante Zielkategorie behandelt Klicken Sie auf Weiter Angeben von Aufbaukriterien f r B ume In diesem Beispiel m chten wir den Baum ziemlich einfach halten Daher begrenzen wir den Aufbau des Baums durch Anhebung der Mindestanzahl der F lle f r ber und untergeordnete Knoten gt Klicken Sie im Hauptdialogfeld Entscheidungsbaum auf Kriterien 63 Verwenden von Entscheidungsb umen zur Bewertung des Kreditrisikos Abbildung 4 3 Dialogfeld Kriterien Registerkarte Aufbaubegrenzungen Ei Entscheidungsbaum Kriterien E Maximale Baumtiefe 7 r Mindestanzahl der F lle Automatisch bergeordneter Knoten Die ma
104. n H rKnotenleistung Iw Gewinn M Index E Treffer I nitteiwert Perzentil Inkrement Aktivieren Sie Gewinn und Index Hinweis Bei diesen Diagrammen ist eine Zielkategorie f r die abh ngige Variable erforderlich In diesem Beispiel kann die Registerkarte Diagramme erst aufgerufen werden nachdem Sie mindestens eine Zielkategorie angegeben haben Klicken Sie auf Weiter Speichern vorhergesagter Werte Sie k nnen Variablen speichern die Informationen ber Modellvorhersagen enthalten Sie k nnen beispielsweise das f r die einzelnen F lle vorhergesagte Kreditrating speichern und anschlie end diese Vorhersagen mit dem tats chlichen Kreditrating vergleichen gt Klicken Sie im Hauptdialogfeld Entscheidungsbaum auf Speichern 66 Kapitel 4 Abbildung 4 6 Dialogfeld Speichern SN E Entscheidungsbaum Speichern r Gespeicherte Variablen Endknotennummer Ei vVorhergesagter Wert EI Gesch tzte Wahrscheinlichkeiten rBaummodell als XML exportieren E Trainingsstichprobe W hlen Sie die Optionen Endknotennummer Vorhergesagter Wert und Vorhergesagte Wahrscheinlichkeiten aus Klicken Sie auf Weiter gt Klicken Sie im Dialogfeld Entscheidungsbaum auf OK um die Prozedur auszuf hren Bewertung des Modells In diesem Beispiel beinhalten die Modellergebnisse folgende Elemente m Tabellen mit Informationen ber das Mo
105. n recht komplex werden Wenn Sie nur konzeptuelle Daten zu Ihrem Baum ableiten m chten sollten Sie die Surrogate ausschlie en Wenn die Daten in den unabh ngigen Variablen Einflussvariablen in bestimmten F llen unvollst ndig sind und Regeln angelegt werden sollen die den Baum getreu nachbilden schlie en Sie die Surrogate ein F r weitere Informationen siehe Surrogate auf S 16 Knoten Steuert den Umfang der erzeugten Regeln F r jeden Knoten im Umfang wird eine separate Regel erzeugt m Alle Endknoten Erzeugt Regeln f r jeden Endknoten m Beste Endknoten Erzeugt Regeln f r die besten n Endknoten auf der Grundlage der Indexwerte Ist die Anzahl h her als die Anzahl der Endknoten im Baum werden Regeln f r alle Endknoten erzeugt Siehe nachstehende Anmerkung m Beste Endknoten bis zu einem angegebenen Prozentsatz der F lle Erzeugt Regeln f r Endknoten f r die oberen n Prozent der F lle auf der Grundlage der Indexwerte Siehe nachstehende Anmerkung m Endknoten deren Indexwert einen Trennwert erreicht oder bersteigt Erzeugt Regeln f r alle Endknoten deren Indexwert gr er oder gleich dem angegebenen Wert ist Ein Indexwert gr er als 100 bedeutet dass der Prozentsatz der F lle in der Zielkategorie in diesem Knoten gr er ist als der Prozentsatz im Stammknoten Siehe nachstehende Anmerkung m Alle Knoten Erzeugt Regeln f r alle Knoten Anmerkung 1 Die Knotenauswahl auf der Grundlage der Indexwerte is
106. nal Health Interview Survey NHIS ist eine gro e bev lkerungsbezogene Umfrage in unter der US amerikanischen Zivilbev lkerung Es werden pers nliche Interviews in einer landesweit repr sentativen Stichprobe von Haushalten durchgef hrt F r die Mitglieder jedes Haushalts werden demografische Informationen und Beobachtungen zum Gesundheitsverhalten und Gesundheitsstatus eingeholt Diese Datendatei enth lt eine Teilmenge der Informationen aus der Umfrage des Jahres 2000 National Center for Health Statistics National Health Interview Survey 2000 Datendatei und Dokumentation ffentlich zug nglich ftp ftp cde gov pub Health_Statistics NCHS Datasets NHIS 20007 Zugriff erfolgte 2003 ozone sav Die Daten enthalten 330 Beobachtungen zu sechs meteorologischen Variablen zur Vorhersage der Ozonkonzentration aus den brigen Variablen Bei fr heren Untersuchungen fanden Wissenschaftler einige Nichtlinearit ten unter diesen Variablen die die Standardverfahren bei der Regression behindern 110 Anhang A pain_medication sav Diese hypothetische Datendatei enth lt die Ergebnisse eines klinischen Tests f r ein entz ndungshemmendes Medikament zur Schmerzbehandlung bei chronischer Arthritis Von besonderem Interesse ist die Zeitdauer bis die Wirkung des Medikaments einsetzt und wie es im Vergleich mit bestehenden Medikamenten abschneidet patient_los sav Diese hypothetische Datendatei enth lt die Behandlungsaufzeichnungen zu P
107. ne kategoriale nominale ordinale abh ngige Variable mit mindestens zwei definierten Wertelabels aus 18 Kapitel 1 Profite Klicken Sie auf Optionen Klicken Sie auf die Registerkarte Fehlklassifizierungskosten Klicken Sie auf Benutzerdefiniert Geben Sie mindestens einen Wert f r die Fehlklassifizierungskosten in das Gitter ein Die Werte m ssen positiv oder gleich Null sein Richtige Klassifizierungen auf der Diagonalen dargestellt sind stets gleich 0 F llmatrix H ufig sollen die Kosten symmetrisch sein Die Kosten f r die Fehlklassifizierung von A als B sind genauso hoch wie die Kosten f r die Fehlklassifizierung von B als A Die folgenden Steuerungen erleichtern das Anlegen einer symmetrischen Kostenmatrix m Unteres Dreieck duplizieren Kopiert Werte aus dem unteren Dreieck der Matrix unterhalb der Diagonalen in die entsprechenden Zellen oberhalb des Dreiecks m Oberes Dreieck duplizieren Kopiert Werte aus dem oberen Dreieck der Matrix oberhalb der Diagonalen in die entsprechenden Zellen unterhalb des Dreiecks m Durchschnittliche Zellenwerte verwenden F r jede Zelle in beiden H lften der Matrix wird der Durchschnitt aus den beiden Werten im oberen und unteren Dreieck gebildet und anstelle der urspr nglichen beiden Werte eingesetzt Beispiel Die Fehlklassifizierung von A als B verursacht Kosten in H he von 1 und die Kosten f r die Fehlklassifizierung von B als A betragen 3 Beide Werte werden somit d
108. nelles Verfahren das die in anderen Verfahren auftretende Verzerrung zugunsten von Pr diktoren Einflussvariablen mit vielen Kategorien vermeidet QUEST kann nur dann gew hlt werden wenn die abh ngige Variable nominal ist Jede Methode hat ihre Vorteile und Einschr nkungen CHAID CRT QUEST Chi Quadrat basiert O Surrogate f r unabh ngige O O Variablen Einflussvariablen Beschneiden des Baums O O Aufteilen mehrdimensionaler O Knoten Aufteilen bin rer Knoten O O Einflussvariablen O O A priori Wahrscheinlichkeiten O O Fehlklassifizierungskosten O O O Schnelle Berechnung O O Mit Exhaustive CHAID Bei QUEST wird auch ein Chi Quadrat Ma f r nominale unabh ngige Variablen verwendet 6 Kapitel 1 Ausw hlen von Kategorien Abbildung 1 3 Dialogfeld Kategorien H Entsc heidungsbaum Kategorien rKategorien der abh ngigen Variablen variable Kreditrating Bei der Analyse verwenden Ausschlie en Kategorie W keine Kredit Historie E schlecht E gut W hlen Sie mithilfe der Kontrollk stchen eine Kategorie oder Kategorien aus der Ihr Hauptinteresse gilt Wenn Sie beispielsweise versuchen die Merkmale von Personen zu ermitteln die mit gro er WYahrscheinlichkeit auf eine Postsendung antworten so ist die Zielkategorie Antwort Le an m Bei kategorialen nominalen ordinalen abh ngigen Variablen stehen folgende
109. ng 1 8 Dialogfeld Kriterien Registerkarte CRT Bi Entscheidungsbaum Kriterien rUnreinheitsma Gini Es werden Aufteilungen gesucht die die Homogenit t der untergeordneten Knoten in Bezug auf den Wert der Zielvariablen maximieren Twoing Die Kategorien der abh ngigen Variablen werden in zwei Unterklassen aufgeteilt Es werden Aufteilungen gesucht die die beiden Gruppen am besten trennen Ahnlich wie Twoing au er dass nur nebeneinander liegende Kategorien gruppiert werden k nnen Dies eht nur f r ordinal abh ngige Yariablen zur Verf gung Mindest nderung bei der Verbesserung oo Gro e Werte ergeben tendenziell kleinere B ume eter _ Anrechen _Hite_ Bei der CRT Aufbaumethode wird die Homogenit t innerhalb der Knoten angestrebt Das Ausma in dem ein Knoten von einer homogenen Untergruppe von F llen abweicht ist ein Hinweis auf Unreinheit Beispiel Ein Endknoten in dem alle F lle denselben Wert f r die 13 Erstellen von Entscheidungsb umen abh ngige Variable aufweisen ist ein homogener Knoten Eine weitere Aufteilung ist nicht n tig weil der Knoten bereits rein ist Sie k nnen die Methode zum Messen der Unreinheit bestimmen und auch den R ckgang in der Unreinheit angeben der mindestens erreicht werden muss damit die Knoten aufgeteilt werden Unreinheitsma Bei metrischen abh ngigen Variablen wird das LSD Unreinheitsma Least Squared
110. ngeteilt Au erdem werden der Betrag des letzten Verkaufs die Zeit seit dem letzten Verkauf und die Gr e des Unternehmens in dem die Kontaktperson arbeitet aufgezeichnet creditpromo sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Kaufhauses geht die Wirksamkeit einer k rzlich durchgef hrten Kreditkarten Werbeaktion einzusch tzen Dazu wurden 500 Karteninhaber nach dem Zufallsprinzip ausgew hlt Die H lfte erhielt eine Werbebeilage die einen reduzierten Zinssatz f r Eink ufe in den n chsten drei Monaten ank ndigte Die andere H lfte erhielt eine Standard Werbebeilage customer_dbase sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Unternehmens geht das die Informationen in seinem Data Warehouse nutzen m chte um spezielle Angebote f r Kunden zu erstellen die mit der gr ten Wahrscheinlichkeit darauf ansprechen Nach dem Zufallsprinzip wurde eine Untergruppe des Kundenstamms ausgew hlt Diese Gruppe erhielt die speziellen Angebote und die Reaktionen wurden aufgezeichnet customer_information sav Eine hypothetische Datendatei mit Kundenmailingdaten wie Name und Adresse customers_model sav Diese Datei enth lt hypothetische Daten zu Einzelpersonen auf die sich eine Marketingkampagne richtete Zu diesen Daten geh ren demografische Informationen eine bersicht ber die bisherigen Eink ufe und die Angabe ob die einzelnen
111. ngig Adj P value 0 000 Chi square 1227 627 df 4 4 00 1 00 3 00 2 00 Knoten 1 Knoten 2 Knoten 3 Kategorie n Kategorie n Kategorie 100 0 500 0 0 0 0 0 0 D d 47 5 162 0 0 0 0 D SE 52 2 3 100 0 161 Gesamt 50 0 500 Gesamt 33 9 339 Gesamt 156 1 161 m Statt eines vorhergesagten Werts enth lt jeder Knoten eine H ufigkeitstabelle die die Anzahl und Prozentsatz der F lle f r jede Kategorie der abh ngigen Variablen anzeigt m Die vorhergesagte Kategorie die Kategorie mit der h chsten Anzahl in jedem Knoten ist markiert Die vorhergesagte Kategorie f r Knoten 2 beispielsweise ist Kategorie 3 m Anstelle von vier untergeordneten Knoten gibt es nur drei bei denen zwei Werte der unabh ngigen Variablen in einen einzelnen Knoten zusammengef hrt wurden Bei den beiden unabh ngigen Werten die im selben Knoten zusammengef hrt wurden handelt es sich um 1 und 4 Da nominale Werte definitionsgem keine nat rliche Reihenfolge aufweisen ist die Zusammenf hrung nicht aufeinander folgender Werte zul ssig Dauerhafte Zuweisung des Messniveaus Wenn Sie das Messniveau f r eine Variable im Dialogfeld Entscheidungsbaum ndern gilt diese nderung nur vor bergehend sie wird nicht zusammen mit der Datendatei gespeichert Au erdem ist nicht immer bekannt was das richtige Messniveau f r alle Variablen sein sollte 57 Datenannahmen und anforderungen Durch Variableneigenschaften definie
112. nitten da sie nur Patienten enth lt die bis zum Ende des Rehabilitationprogramms das nach dem Schlaganfall durchgef hrt wurde berlebten stroke_valid sav Diese hypothetische Datendatei enth lt den Zustand einer medizinischen Datenbank nachdem diese mithilfe der Prozedur Daten validieren berpr ft wurde Sie enth lt immer noch potenziell anomale F lle 113 Beispieldateien survey_sample sav Diese hypothetische Datendatei enth lt Umfragedaten einschlie lich demografischer Daten und verschiedener Meinungskennzahlen tastetest sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bewertung der Auswirkungen der Mulchfarbe auf den Geschmack von Pflanzenprodukten geht Der Geschmack von Erdbeeren die in rotem blauem und schwarzem Rindenmulch gezogen wurden wurde von Testpersonen auf einer ordinalen Skala weit unter bis weit ber dem Durchschnitt bewertet Jeder Fall entspricht einem Geschmackstester telco sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Telekommunikationsunternehmens geht die Kundenabwanderung zu verringern Jeder Fall entspricht einem Kunden und enth lt verschiedene Informationen zum demografischen Hintergrund und zur Servicenutzung telco_extra sav Diese Datendatei hnelt der Datei relco sav allerdings wurden die Variablen tenure und die Log transformierten Variablen zu den Kundenausgaben entfernt und durch standard
113. nplan gezogen und in dieser Datendatei sind die Einschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst Beachten Sie jedoch Folgendes Da im Stichprobenplan die PPS Methode PPS probability proportional to size Wahrscheinlichkeit proportional zur Gr e verwendet wird gibt es au erdem eine Datei mit den gemeinsamen Auswahlwahrscheinlichkeiten poll_jointprob sav Die zus tzlichen Variablen zum demografischen Hintergrund der W hler und ihrer Meinung zum vorgeschlagenen Gesetzentwurf wurden nach der Ziehung der Stichprobe erfasst und zur Datendatei hinzugef gt property_assess sav Hierbei handelt es sich um eine hypothetische Datendatei in der es um die Bem hungen eines f r einen Bezirk County zust ndigen Immobilienbewerters geht trotz eingeschr nkter Ressourcen die Einsch tzungen des Werts von Immobilien auf dem aktuellsten Stand zu halten Die F lle entsprechen den Immobilien die im vergangenen Jahr in dem betreffenden County verkauft wurden Jeder Fall in der Datendatei enth lt die Gemeinde in der sich die Immobilie befindet den Bewerter der die Immobilie besichtigt hat die seit dieser Bewertung verstrichene Zeit den zu diesem Zeitpunkt ermittelten Wert sowie den Verkaufswert der Immobilie property_assess_cs sav Hierbei handelt es sich um eine hypothetische Datendatei in der es um die Bem hungen eines f r einen US Bundesstaat zust ndigen Immobilienbewerters geht trotz eingeschr nkter Ressourcen die Einsc
114. onen steuern das anf ngliche Erscheinungsbild des Baumdiagramms im Viewer Diese Attribute k nnen au erdem ge ndert werden indem Sie den erzeugten Baum bearbeiten m Ausrichtung Der Baum kann wahlweise auf dem Kopf stehend mit dem Stammknoten an oberster Stelle von links nach rechts oder von rechts nach links angezeigt werden sm Knoteninhalte Die Knoten k nnen Tabellen und oder Diagramme enthalten Bei kategorialen abh ngigen Variablen zeigen die Tabellen die H ufigkeitsz hlungen und die Prozents tze die Diagramme bestehen dabei aus Balkendiagrammen Bei metrischen abh ngigen Variablen zeigen die Tabellen die Mittelwerte die Standardabweichungen die Anzahl der F lle und die vorhergesagten Werte Die Diagramme bestehen dabei aus Histogrammen m Skala Standardm ig werden gro e B ume so skaliert dass der gesamte Baum auf der Seite dargestellt werden kann Sie k nnen eine benutzerdefinierte Skalierung bis 200 angeben 27 Erstellen von Entscheidungsb umen m Statistik f r unabh ngige Variablen Bei CHAID und Exhaustive CHAID umfassen die Statistiken den F Wert metrische abh ngige Variablen bzw den Chi Quadrat Wert kategoriale abh ngige Variablen au erdem den Signifikanzwert und die Freiheitsgrade Bei CRT wird der Verbesserungswert angezeigt Bei QUEST werden der F Wert der Signifikanzwert und die Freiheitsgrade f r metrische und ordinale unabh ngige Variablen bzw der Chi Quadrat Wert der Signifikan
115. oten f r ein Ergebnis die Fehlklassifizierungsquoten f r andere Ergebnisse erh ht Kapitel Konstruieren eines Bewertungsmodells Eine der leistungsst rksten und n tzlichsten Funktionen der Prozedur Entscheidungsbaum ist die F higkeit Modelle zu konstruieren die dann auf andere Datendateien angewendet werden k nnen um Ergebnisse vorherzusagen Beispielsweise k nnen wir auf der Grundlage einer Datendatei die sowohl demografische Informationen als auch Informationen zu Fahrzeugverkaufspreisen enth lt ein Modell erstellen mit dem vorhergesagt werden kann welchen Betrag Personen mit hnlichen demografischen Merkmalen wahrscheinlich f r ein neues Auto ausgeben und das Modell anschlie end auf andere Datendateien anwenden in denen demografische Daten vorhanden sind jedoch keine Informationen ber fr here Fahrzeugk ufe In diesem Beispiel wird die Datendatei free_car sav verwendet F r weitere Informationen siehe Beispieldateien in Anhang A in PASW Decision Trees Entscheidungsb ume 18 Konstruieren des Modells gt Zum Erstellen einer Entscheidungsbaum Analyse w hlen Sie die folgenden Befehle aus den Men s aus Analysieren Klassifizieren Baum 83 84 Kapitel 5 Abbildung 5 1 Dialogfeld Entscheidungsbaum G a ES Entscheidungsbaum E Variablen Abh ngige Variable Ausgabe Le E Preis des Erstwagens Kategorien Unabh ngige Variablen g Alter in Jahren Alter
116. parate Tabelle erstellt Nicht verf gbar f r metrische abh ngige Variablen und kategoriale abh ngige Variablen bei denen jeweils keine Zielkategorien definiert sind F r weitere Informationen siehe Ausw hlen von Kategorien auf S 6 31 Erstellen von Entscheidungsb umen Abbildung 1 24 Zielkategoriegewinne f r Knoten und Perzentile Zielkategorie Schlecht Gewinne f r Knoten Knoten N Prozent m Prozent ren index 198 3 195 3 105 5 42 5 33 4 75 Gewinne f r Perzentile Perzertile Knoten N Prozent Treffer Index 1 19 8 198 3 1 39 7 198 3 1 8 59 3 197 6 8 9 72 6 181 3 g 831 1566 2 9 6 89 0 148 4 6 93 3 133 2 6 5 96 7 120 9 57 99 3 110 3 7 100 0 100 0 Zeilen Die Tabellen mit der Knotenleistung k nnen Ergebnisse nach Endknoten und oder nach Perzentilen aufnehmen Wenn Sie beide Elemente ausw hlen werden je zwei Tabellen f r jede Zielkategorie angelegt Die Perzentiltabellen zeigen kumulative Werte f r die einzelnen Perzentile auf der Grundlage der Sortierreihenfolge Perzentil Inkrement Bei Perzentiltabellen k nnen Sie das Perzentil Inkrement ausw hlen 1 2 5 10 20 oder 25 Kumulative Statistik anzeigen Bei Endknotentabellen werden zus tzliche Spalten mit kumulativen Ergebnissen in die einzelnen Tabellen aufgenommen 32 Kapitel 1 Diagramme Abbildung 1 25 Dialogfeld Ausgabe Registerkarte Diagramme E Entsc hei
117. peichern SmartScore und PASW StatisticsServer gesondertes Produkt k nnen anhand dieser Modelldatei die Modellinformationen zu Bewertungszwecken auf andere Datendateien anwenden Trainingsstichprobe Schreibt das Modell in die angegebene Datei Bei B umen mit Split Sample Validierung ist dies das Modell f r die Trainingsstichprobe Teststichprobe Schreibt das Modell f r die Teststichprobe in die angegebene Datei Nur verf gbar wenn die Split Sample Validierung ausgew hlt ist Ausgabe Die verf gbaren Ausgabeoptionen sind abh ngig von der Aufbaumethode dem Messniveau der abh ngigen Variablen und anderen Einstellungen 26 Kapitel 1 Baumanzeige Abbildung 1 18 Dialogfeld Ausgabe Registerkarte Baum E Entsc heidungsbaum Ausgabe d Baum rAnzeige Ausrichtung von oben nach unten von links nach rechts Yon rechts nach links Knoteninhalte Tabelle Diagramm Tabelle und Diagramm Skala Automatisch reduziert die Skala f r gro e B ume Benutzerdefiniert Fi Statistik f r unabh ngige variablen M Knotendefinitionen E Baum im Tabellenformat Le an mm Sie k nnen das anf ngliche Erscheinungsbild des Baums steuern oder auch die Baumanzeige ganz unterdr cken Baum Standardm ig wird das Baumdiagramm in der Ausgabe im Viewer dargestellt Soll das Baumdiagramm nicht in der Ausgabe angezeigt werden deaktivieren Sie diese Option Anzeigen Diese Opti
118. r Eigenschaften Registerkarte Farbe g Eigenschaften Farbe Text Knotendiagramme Rahmen verzweigungen Hintergrund f r Knoten vorhergesagte Kategorie Hintergrund f r Baum 239 51 56 GE on m 48 Kapitel 2 Abbildung 2 7 Fenster Eigenschaften Registerkarte Text Eigenschaften amp Hr E verzweigungstext BE E Schriftart Gr e Stil Seet fe zem 7 Abbildung 2 8 Fenster Eigenschaften Registerkarte Knotendiagramme Kategorien gut 49 Baumeditor Regeln f r die Auswahl oder Bewertung von F llen Der Baumeditor bietet die folgenden M glichkeiten m Teilgruppen von F llen auf der Grundlage des oder der ausgew hlten Knoten ausw hlen F r weitere Informationen siehe Filtern von F llen auf S 49 m Regeln f r die Auswahl oder Bewertung von F llen im PASW Statistics oder SQL Format erzeugen F r weitere Informationen siehe Speichern von Auswahl und Bewertungsregeln auf S 49 Wenn Sie das Baummodell mit der Prozedur Entscheidungsbaum erstellen k nnen Sie au erdem die Regeln automatisch nach bestimmten Kriterien speichern lassen F r weitere Informationen siehe Auswahl und Bewertungsregeln in Kapitel 1 auf S 38 Filtern von F llen Wenn Sie w
119. r sentativ f r die Verteilung in der Gesamtheit ist Bei der Split Sample Validierung wird die Verteilung der F lle in der Trainingsstichprobe herangezogen Hinweis Bei der Split Sample Validierung werden die F lle nach dem Zufallsprinzip in die Trainingsstichprobe aufgenommen Die eigentliche Verteilung der F lle in der Trainingsstichprobe ist daher im Voraus nicht bekannt F r weitere Informationen siehe Validierung auf S 7 In allen Kategorien gleich Aktivieren Sie diese Einstellung wenn die Kategorien der abh ngigen Variablen in der Gesamtheit gleichm ig repr sentiert sind Beispiel Es liegen vier Kategorien vor und auf jede Kategorie entfallen etwa 25 der F lle Benutzerdefiniert Geben Sie je einen positiven Wert oder den Wert 0 f r jede im Gitter aufgef hrte Kategorie der abh ngigen Variablen ein Die Werte k nnen Anteile Prozents tze oder H ufigkeitsz hlungen umfassen oder auch andere Werte die die Verteilung der Werte in den Kategorien wiedergeben 21 Werte Erstellen von Entscheidungsb umen A priori Wahrscheinlichkeiten anhand der Fehlklassifizierungskosten korrigieren Wenn Sie benutzerdefinierte Fehlklassifizierungskosten definieren k nnen Sie die A priori Wahrscheinlichkeiten anhand dieser Kosten anpassen F r weitere Informationen siehe Fehlklassifizierungskosten auf S 17 Profite und Wertelabels In diesem Dialogfeld sind definierte Wertelabels f r die abh ngige Variable erforde
120. reditrating Knoten 0 Kategorie m E schlecht 41 4 1020 E gut 58 6 1444 Gesamt 100 0 2464 Anzahl an Kreditkarten 5 oder mehr weniger als 5 Knoten 2 Kategorie n Em schlecht 13 8 113 S gut 86 2 705 Gesamt 332 818 Knoten 1 Kategorie n E schlecht 55 1 907 m gut 449 739 Gesamt 66 8 1645 Einkommen in Kategorien lt mittel gt mittel Knoten 3 Knoten 4 Kategorie n Kategorie n E schlecht 69 6 832 E schlecht 167 75 E gut 30 4 364 E gut 83 3 375 Gesamt 43 5 1196 Gesamt 18 3 450 Alter 33 18 gt 33 18 Knoten 5 Knoten 6 Kategorie n Kategorie n Em schlecht 82 1 581 E schlecht 51 4 251 m gut 179 127 m gut 48 6 237 Gesamt 28 7 708 Gesamt 19 8 488 Einkommen in Kategorien lt niedrig gt niedrig Knoten 8 Kategorie n E schlecht 75 4 347 E gut 246 113 Gesamt 18 77 460 Knoten 7 Kategorie n E schlecht 94 4 234 S out 56 14 Gesamt 10 1 248 Auf den ersten Blick ist ersichtlich dass dieser Baum keine gro e hnlichkeit mit dem CHAID Baum besitzt F r sich allein betrachtet hat dies noch nicht viel zu bedeuten In einem CRT Baummodell sind alle Aufteilungen bin r jeder bergeordnete Knoten wird also in nur zwei untergeordnete Knoten aufgeteilt In einem CHAID Modell k nnen die bergeordneten Knoten in zahlreiche untergeordnete Knoten aufgeteilt werden Die B ume sehen also h ufig anders aus auch wenn sie dasselbe zugrundeliegende Modell darstellen Es
121. ren k nnen Sie das richtige Messniveau f r die einzelnen Variablen bestimmen und das zugewiesene Messniveau dauerhaft ndern So verwenden Sie die Option Variableneigenschaften definieren W hlen Sie die folgenden Befehle aus den Men s aus Daten Variableneigenschaften definieren Auswirkungen der Wertelabels auf Baummodelle Die Benutzeroberfl che des Dialogfelds Entscheidungsbaum geht davon aus dass entweder f r alle nichtfehlenden Werte einer kategorialen nominalen ordinalen abh ngigen Variablen Wertelabels definiert sind oder f r keine Einige Funktionen sind nicht verf gbar wenn nicht mindestens zwei nichtfehlende Werte der kategorialen abh ngigen Variablen Wertelabels aufweisen Wenn f r mindestens zwei nichtfehlende Werte Wertelabels definiert sind werden alle F lle mit anderen Werten die keine Wertelabels aufweisen aus der Analyse ausgeschlossen Die urspr ngliche Datendatei in diesem Beispiel enth lt keine definierten Wertelabels und wenn die abh ngige Variable als nominal behandelt wird verwendet das Baummodell alle nichtfehlenden Werte in der Analyse In diesem Beispiel sind diese Werte 1 2 und 3 Was geschieht aber wenn wir Wertelabels f r einige jedoch nicht f r alle Werte der abh ngigen Variablen definieren gt Klicken Sie im Fenster Daten Editor auf die Registerkarte Variablenansicht Klicken Sie auf die Zelle Werte f r die Variable abh ngig Abbildung 3 5 De
122. rfasst demo_cs_2 sav Hierbei handelt es sich um eine hypothetische Datendatei f r den zweiten Schritt eines Unternehmens das eine Datenbank mit Umfrageinformationen zusammenstellen m chte Jeder Fall entspricht einem anderen Stadtteil aus den im ersten Schritt ausgew hlten St dten Au erdem sind IDs f r Region Provinz Landkreis Stadt Stadtteil und Wohneinheit erfasst Die Informationen zur Stichprobenziehung aus den ersten beiden Stufen des Stichprobenplans sind ebenfalls enthalten demo_cs sav Hierbei handelt es sich um eine hypothetische Datendatei die Umfrageinformationen enth lt die mit einem komplexen Stichprobenplan erfasst wurden Jeder Fall entspricht einer anderen Wohneinheit Es sind verschiedene Informationen zum demografischen Hintergrund und zur Stichprobenziehung erfasst dmdata sav Hierbei handelt es sich um eine hypothetische Datendatei die Informationen ber Demografie und Eink ufe f r ein Direktmarketing Unternehmen enth lt dietstudy sav Diese hypothetische Datendatei enth lt die Ergebnisse einer Studie der Stillman Di t Jeder Fall entspricht einem Teilnehmer und enth lt dessen Gewicht vor und nach der Di t in amerikanischen Pfund sowie mehrere Messungen des Triglyceridspiegels in mg 100 ml dischargedata sav Hierbei handelt es sich um eine Datendatei zum Thema Seasonal Patterns of Winnipeg Hospital Use Saisonale Muster der Belegung im Krankenhaus von Winnipeg vom Manitoba Centre for Heal
123. rlich Das Dialogfeld ist erst dann verf gbar wenn mindestens zwei Werte der kategorialen abh ngigen Variablen ein Wertelabel besitzen So legen Sie A priori Wahrscheinlichkeiten fest W hlen Sie im Hauptdialogfeld Entscheidungsbaum eine kategoriale nominale ordinale abh ngige Variable mit mindestens zwei definierten Wertelabels aus W hlen Sie als Aufbaumethode die Option CRT oder QUEST Klicken Sie auf Optionen Klicken Sie auf die Registerkarte A priori Wahrscheinlichkeiten Abbildung 1 15 Dialogfeld Optionen Registerkarte Werte GH Entscheidungsbaum Optionen F r jede Kategorie ordinalen Rang verwenden Anpassen Kategoriewerte Skilled manual Professional Die Werte m ssen kategorie bergreifend eindeutig sein Cee nn mm Bei CHAID und Exhaustive CHAID mit einer ordinalen abh ngigen Variablen k nnen Sie benutzerdefinierte Score Werte f r die einzelnen Kategorien der abh ngigen Werte zuweisen Die Score Werte definieren die Reihenfolge f r die Kategorien der abh ngigen Variablen und die 22 Kapitel 1 Distanz zwischen diesen Kategorien Mithilfe der Score Werte k nnen Sie die relative Distanz zwischen ordinalen Werten vergr ern oder verkleinern sowie die Reihenfolge der Werte ndern m F r jede Kategorie ordinalen Rang verwenden Die niedrigste Kategorie der abh ngigen Variablen erh lt den Score Wert 1 die n chsth her
124. s chlichen Einstufungen durch jeden der 10 Kunden Die Kunden wurden gebeten die 22 Produktprofile in der Reihenfolge ihrer Pr ferenzen einzustufen Die Variablen PREF bis PREF22 enthalten die IDs der zugeordneten Profile wie in carpet_plan sav definiert catalog sav Diese Datendatei enth lt hypothetische monatliche Verkaufszahlen f r drei Produkte die von einem Versandhaus verkauft werden Daten f r f nf m gliche Einflussvariablen wurden ebenfalls aufgenommen catalog_seasfac sav Diese Datendatei ist mit catalog sav identisch au er dass ein Set von saisonalen Faktoren die mithilfe der Prozedur Saisonale Zerlegung berechnet wurden sowie die zugeh rigen Datumsvariablen hinzugef gt wurden cellular sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Mobiltelefonunternehmens geht die Kundenabwanderung zu verringern Scores f r die Abwanderungsneigung von 0 bis 100 werden auf die Kunden angewendet Kunden mit einem Score von 50 oder h her streben vermutlich einen Anbieterwechsel an ceramics sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Herstellers geht der ermitteln m chte ob ein neue hochwertige Keramiklegierung eine gr ere Hitzebest ndigkeit aufweist als eine Standardlegierung Jeder Fall entspricht einem Test einer der Legierungen die Temperatur bei der das Keramikw lzlager versagte wurde erfasst 106
125. stperson sie erfolgreich ausf hren k nnte wheeze_steubenville sav Hierbei handelt es sich um eine Teilmenge der Daten aus einer Langzeitstudie zu den gesundheitlichen Auswirkungen der Luftverschmutzung auf Kinder Die Daten enthalten wiederholte bin re Messungen des Keuchens von Kindern aus Steubenville Ohio im Alter von 7 8 9 und 10 Jahren sowie eine unver nderlichen Angabe ob die Mutter im ersten Jahr der Studie rauchte oder nicht workprog sav Hierbei handelt es sich um eine hypothetische Datendatei zu einem Arbeitsprogramm der Regierung das versucht benachteiligten Personen bessere Arbeitspl tze zu verschaffen Eine Stichprobe potenzieller Programmteilnehmer wurde beobachtet Von diesen Personen wurden nach dem Zufallsprinzip einige f r die Teilnahme an dem Programm ausgew hlt Jeder Fall entspricht einem Programmteilnehmer Antwort Baummodelle 70 Ausblenden von Baumverzweigungen 41 Ausblenden von Knoten im Vergleich mit dem Beschneiden 15 B ume 1 A priori Wahrscheinlichkeit 20 abh ngige metrische Variablen 83 Anwenden von Modellen 83 Anzahl der Ebenen einschr nken 9 Ausw hlen der F lle in Knoten 74 Baum im Tabellenformat 69 Baumanzeige skalieren 44 Baumanzeige steuern 26 46 Baumausrichtung 26 Bauminhalt in einer Tabelle 26 Baumstruktur 43 bearbeiten 41 Bedeutung der Einflussgr en 28 benutzerdefinierte Kosten 78 beschneiden 15 Bewertung 83 CHAID Aufbaukriterien 10 CRT Methode
126. t tree_missing_data sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zu fr heren Bankkrediten enth lt und eine gro e Anzahl fehlender Werte aufweist tree_score_car sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zum Kaufpreis von Fahrzeugen enth lt tree_textdata sav Eine einfache Datendatei mit nur zwei Variablen die vor allem den Standardzustand von Variablen vor der Zuweisung von Messniveau und Wertelabels zeigen soll tv survey sav Hierbei handelt es sich um eine hypothetische Datendatei zu einer Studie die von einem Fernsehstudio durchgef hrt wurde das berlegt ob die Laufzeit eines erfolgreichen Programms verl ngert werden soll 906 Personen wurden gefragt ob sie das 114 Anhang A Programm unter verschiedenen Bedingungen ansehen w rden Jede Zeile entspricht einem Befragten jede Spalte entspricht einer Bedingung ulcer_recurrence sav Diese Datei enth lt Teilinformationen aus einer Studie zum Vergleich der Wirksamkeit zweier Therapien zur Vermeidung des Wiederauftretens von Geschw ren Es stellt ein gutes Beispiel f r intervallzensierte Daten dar und wurde an anderer Stelle vorgestellt und analysiert ulcer_recurrence_recoded sav In dieser Datei sind die Daten aus ulcer_recurrence sav so umstrukturiert dass das Modell der Ereigniswahrscheinlichkeit f r jedes Intervall der Studie berechnet werden kann un
127. t an dass nur drei der ausgew hlten unabh ngigen Variablen einen Beitrag leisteten der signifikant genug ist dass ihre Aufnahme in das endg ltige Modell gerechtfertigt ist einkomme alter und ausbildu Diese Informationen sind wichtig wenn Sie das Modell auf andere Datendateien anwenden m chten da die im Modell verwendeten unabh ngigen Variablen in allen Datendateien vorhanden sein m ssen auf die das Modell angewendet werden soll Die Zusammenfassungstabelle zeigt au erdem an dass das Baummodell selbst offenbar nicht besonders einfach ist da es 29 Knoten und 15 Endknoten aufweist Das ist m glicherweise kein Problem wenn Sie ein zuverl ssiges Modell w nschen das der praktischen Anwendung dienen soll und nicht ein einfaches Modell das einfach zu beschreiben oder zu erkl ren ist Nat rlich sollte sich das Modell aus Gr nden der Praktikabilit t nicht auf zu viele unabh ngige Einfluss Variablen st tzen In diesem Fall ist das kein Problem da nur drei unabh ngige Variablen im endg ltigen Modell enthalten sind 87 Konstruieren eines Bewertungsmodells Baummodelldiagramm Abbildung 5 4 Baummodelldiagramm im Baum Editor Baumeditor m 5 X Datei Ansicht Regeln Optionen Hilfe Preis des Erstwagens Knoten 0 Mittelwert 29 861 Std Abw 21 576 n 3110 Ki 100 0 Vorhergesagt 29 861 Einkommenskategorien in Tausend Verbesserung 347 833 Knoten 1 Knoten 2 Mittelwert 18 663 Mittelwert 60 928 Std Abw 8
128. t f r den erwarteten Prozentsatz vor der Ber cksichtigung der Effekte der unabh ngigen Variablen Ein Indexwert von mehr als 100 bedeutet dass die Zielkategorie mehr F lle aufweist als den Gesamtprozentsatz in der Zielkategorie Umgekehrt bedeutet ein Indexwert von weniger als 100 dass sich in der Zielkategorie weniger F lle befinden als der Gesamtprozentsatz Gewinndiagramm Abbildung 4 12 Gewinndiagramm f r die Zielkategorie f r schlechtes Kreditrating Zielkategorie schlecht 100 80 60 Gewinn 40 20 0 D 10 20 30 40 50 60 70 80 90 100 Perzentil Dieses Gewinndiagramm zeigt an dass das Modell ziemlich gut ist Kumulative Gewinndiagramme beginnen immer bei 0 und enden bei 100 Bei einem guten Modell steigt die Gewinntabelle steil in Richtung 100 an und flacht dann ab Ein Modell das keine Informationen bietet folgt der diagonalen Bezugslinie 72 Kapitel 4 Indexdiagramm Abbildung 4 13 Indexdiagramm f r die Zielkategorie f r schlechtes Kreditrating Zielkategorie schlecht 200 180 160 140 Index 120 100 SCH IER NEE Au Ve E IER E Sc Fa Ken O 10 20 30 40 50 60 70 80 90 100 Perzentil Das Indexdiagramm zeigt ebenfalls an dass das Modell gut ist Kumulative Indexdiagramme starten in der Regel bei ber 100 und fallen langsam bis auf 100 ab Bei einem guten Modell sollte der Indexwert deutlich oberhalb von 100 beginnen
129. t gutem Kreditrating die h chstens ein einziges Autodarlehen haben h her als der entsprechende Prozentsatz f r die F lle mit schlechtem Kreditrating doch die berw ltigende Mehrheit in beiden Gruppen hat mindestens zwei Autodarlehen Sie k nnen nun zwar besser nachvollziehen warum diese Variablen nicht in das endg ltige Modell aufgenommen wurden es ist jedoch leider nicht klarer geworden wie eine bessere Vorhersage f r Knoten 9 erzielt werden k nnte Wenn es andere Variablen g be die nicht f r die Analyse spezifiziert wurden sollten Sie diese eventuell untersuchen bevor Sie fortfahren Zuweisen von Kosten zu den Ergebnissen Wie zuvor angemerkt ist neben der Tatsache dass die F lle in Knoten 9 jeweils etwa zur H lfte in die beiden Kreditrating Kategorien fallen die Tatsache dass die vorhergesagte Kategorie gut lautet problematisch wenn das Hauptziel darin besteht ein Modell zu konstruieren mit dem das Risiko f r schlechtes Kreditrating korrekt identifiziert wird Sie k nnen zwar vielleicht nicht die Aussagekraft von Knoten 9 erh hen doch Sie k nnen das Modell so verfeinern dass die Quote f r die richtige Klassifizierung der F lle mit schlechtem Kreditrating erh ht wird Beachten Sie jedoch dass dies gleichzeitig zu einer h heren Fehlklassifizierungsquote f r die F lle mit gutem Kreditrating f hrt Zun chst m ssen Sie die Fallfilterung deaktivieren sodass wieder alle F lle in der Analyse verwendet
130. t nur f r kategoriale abh ngige Variablen verf gbar bei denen Zielkategorien definiert sind Wenn Sie mehrere Zielkategorien angegeben haben wird je ein Regelsatz f r die einzelnen Zielkategorien erzeugt Anmerkung 2 Bei PASW Statistics und SQL Regeln zum Ausw hlen von F llen nicht bei Regeln zum Zuweisen von Werten wird mit den Optionen Alle Knoten und Alle Endknoten eine Regel erzeugt mit der alle F lle in der Analyse ausgew hlt werden Regeln in Datei exportieren Speichert die Regeln in einer externen Textdatei Alternativ k nnen Sie die Auswahl und Bewertungsregeln interaktiv anhand ausgew hlter Knoten im fertigen Baummodell erzeugen und speichern F r weitere Informationen siehe Regeln f r die Auswahl oder Bewertung von F llen in Kapitel 2 auf S 49 40 Kapitel 1 Hinweis Wenn Sie Regeln als Befehlssyntax auf eine andere Datendatei anwenden m ssen die Namen der Variablen in dieser Datendatei mit den Namen der unabh ngigen Variablen im fertigen Modell identisch sein Des Weiteren m ssen die Variablen mit derselben Ma einheit gemessen werden und dieselben benutzerdefiniert fehlenden Werte aufweisen falls vorhanden Kapitel Baumeditor Der Baumeditor bietet die folgenden M glichkeiten m Ausgew hlte Baumverzweigungen ein und ausblenden m Anzeige des Knoteninhalts der Statistiken an den Knotenaufteilungen und anderer Informationen steuern Farben f r Knoten Hintergrund Rahmen Diagramme und
131. t werden wenn ihre Kategorien sich nicht in eine nat rliche Reihenfolge bringen lassen z B die Firmenabteilung in der eine Person arbeitet Beispiele f r nominale Variablen sind Region Postleitzahl oder Religionszugeh rigkeit m Ordinal Eine Variable kann als ordinal behandelt werden wenn ihre Werte f r Kategorien stehen die eine nat rliche Reihenfolge aufweisen z B Grad der Zufriedenheit mit Kategorien von sehr unzufrieden bis sehr zufrieden Ordinale Variablen treten beispielsweise bei Einstellungsmessungen Zufriedenheit oder Vertrauen und bei Pr ferenzbeurteilungen auf m Metrisch Eine Variable kann als metrisch stetig behandelt werden wenn ihre Werte geordnete Kategorien mit einer sinnvollen Metrik darstellen sodass man sinnvolle Aussagen ber die Abst nde zwischen den Werten machen kann Metrische Variablen sind beispielsweise Alter in Jahren oder Einkommen in Geldeinheiten H ufigkeitsgewichtungen Wenn die Gewichtung aktiv ist werden die H ufigkeitsgewichtungen auf die n chstliegende Ganzzahl gerundet F lle mit einer Gewichtung unter 0 5 erhalten einen Gewichtungswert von 0 und werden daher aus der Analyse ausgeschlossen 3 Erstellen von Entscheidungsb umen Annahmen Bei dieser Prozedur wird angenommen dass allen Analysevariablen das entsprechende Messniveau zugewiesen wurde Bei einigen Funktionen wird vorausgesetzt dass ein Wertelabel f r alle Werte der in der Analyse ber cksichtigten abh ng
132. ter 222 con eeeeeenenneeneeeeeeeneeeneeenenn 44 Steuern der im Baum angezeigten Daten 46 ndern der Farben und Schriftarten im Baum 46 Regeln f r die Auswahl oder Bewertung von F llen 49 Filtern von F llen 4 Deg SE MEN ee A EEN ee en 49 Speichern von Auswahl und Bewertungsregeln 2 222 cecneneereeenene nn 49 Teil Il Beispiele 3 Datenannahmen und anforderungen 53 Auswirkungen des Messniveaus auf Baummodelle 2 22 22 2ereneren ern 53 Dauerhafte Zuweisung des Messniveaus 2 22 2nneeneeeneneeeene nenn 56 Auswirkungen der Wertelabels auf Baummodelle 57 Zuweisen von Wertelabels zu allen Werten nunn naan nannaa 58 4 Verwenden von Entscheidungsb umen zur Bewertung des Kreditrisikos 60 Erstellen des Modells 60 Erstellen des CHAID Baummodells 60 Auswahl der Zelkategorten n n nunana aana 61 Angeben von Aufbaukriterien f r B ume 62 Auswahl zus tzlicher Ausgaben 63 Speichern vorhergesagter Werte 65 Bewertung des Modells nnana naana aaa 66 Modellzusammenfassungstabelle 67 Baumdiagi mMM s s s icea te mai ara iaaii a i ada ade aira a a aaa an aiaa I ade aoa ADEA A aLi 68 Baumtabelle nu i reagis ei te Ee e de NEE dea en 69 Gewinne f r Knoten 2 2csmseenenenenenennennen rer een 70 Gewinndiagramm 71 Indexdiagr mm 23 2 242 ae a kein 72 Risikosch tzer und Klassifizierung 2 2 22 22 nananana 72 Vorher
133. th Policy dvdplayer sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Entwicklung eines neuen DVD Spielers geht Mithilfe eines Prototyps hat das Marketing Team Zielgruppendaten erfasst Jeder Fall entspricht einem befragten Benutzer und enth lt demografische Daten zu dem Benutzer sowie dessen Antworten auf Fragen zum Prototyp flying sav Diese Datendatei enth lt die Flugmeilen zwischen zehn St dten in den USA german_credit sav Diese Daten sind aus dem Daten Set German credit im Repository of Machine Learning Databases an der Universit t von Kalifornien in Irvine entnommen grocery_1month sav Bei dieser hypothetischen Datendatei handelt es sich um die Datendatei grocery_coupons sav wobei die w chentlichen Eink ufe zusammengefasst sind sodass jeder Fall einem anderen Kunden entspricht Dadurch entfallen einige der Variablen die w chentlichen nderungen unterworfen waren und der verzeichnete ausgegebene Betrag ist nun die Summe der Betr ge die in den vier Wochen der Studie ausgegeben wurden 108 Anhang A grocery_coupons sav Hierbei handelt es sich um eine hypothetische Datendatei die Umfragedaten enth lt die von einer Lebensmittelkette erfasst wurden die sich f r die Kaufgewohnheiten ihrer Kunden interessiert Jeder Kunde wird ber vier Wochen beobachtet und jeder Fall entspricht einer Kundenwoche und enth lt Informationen zu den Gesch ften in denen der Kunde einkauft sow
134. tionen finden Sie unter Kapitel 4 wird auch in diesem Beispiel ein Modell erstellt mit dem hohe und niedrige Kreditrisiken ermittelt werden sollen Der wichtigste Unterschied liegt darin dass diese Datendatei fehlende Werte f r einige unabh ngige Variablen im Modell aufweist Zum Erstellen einer Entscheidungsbaum Analyse w hlen Sie die folgenden Befehle aus den Men s aus Analysieren Klassifizieren Baum 95 Abbildung 6 2 Dialogfeld Entscheidungsbaum Maustaste auf eine Yariable um ihr Messniveau in der Variablenliste zu ndern E Cl Entscheidungsbaum X Yariablen Abh ngige Variable Le ve Kreditrating Kredit_rati Unabh ngige variablen ater Alter A Einkommen in Kategori Anzahl an Kreditkarten amp Ausbildung Ausbildung ve Autodarlehen Darlehen Erste Variable erzwingen E Einflussvariable Klicken Sie mit der rechten Aufbaumethode Lal geen Lage gen 1 mm W hlen Sie Kreditrating als abh ngige Variable aus Fehlende Werte in Baummodellen W hlen Sie alle verbleibenden Variablen als unabh ngige Variablen aus Die Prozedur schlie t automatisch alle Variablen aus die keinen signifikanten Beitrag zum endg ltigen Modell leisten W hlen Sie als Aufbaumethode die Option CHAID Der Baum soll in diesem Beispiel relativ einfach gehalten werden Der Aufbau des Baums wird daher eingeschr nkt indem eine h here Mindestanzahl der F lle f r di
135. tscheidungsb umen Modellsch tzung Bei nominalen und ordinalen abh ngigen Variablen k nnen Sie Folgendes festlegen m Die maximale Anzahl von Iterationsschritten Der Standardwert ist 100 Wenn der Baum nicht mehr weiter aufgebaut wird weil die maximale Anzahl an Iterationen erreicht ist k nnen Sie den Maximalwert erh hen oder auch ein oder mehrere Kriterien ndern die den Aufbau des Baums steuern m Mindest nderung bei den erwarteten Zellh ufigkeiten Der Wert muss gr er als O und kleiner als 1 sein Der Standardwert ist 0 05 Bei niedrigeren Werten entstehen B ume mit weniger Knoten Signifikanzwerte mit der Bonferroni Methode anpassen Bei Mehrfachvergleichen werden die Signifikanzwerte f r die Zusammenf hrungs und Aufteilungskriterien mithilfe der Bonferroni Methode angepasst Dies ist die Standardeinstellung Erneute Aufteilung zusammengef hrter Kategorien innerhalb eines Knotens zulassen Sofern Sie das Zusammenf hren von Kategorien nicht explizit unterbinden werden Kategorien mit unabh ngigen Variablen Einflussvariablen nach M glichkeit zusammengef hrt um so den einfachsten Baum zu bilden der das Modell beschreibt Bei dieser Option k nnen zusammengef hrte Kategorien eigenst ndig durch die Prozedur erneut aufgeteilt werden wenn hierdurch eine bessere L sung entst nde Metrische Intervalle f r die CHAID Analyse Abbildung 1 7 Dialogfeld Kriterien Registerkarte Intervalle GH Entscheidun
136. twagens 89 Konstruieren eines Bewertungsmodells Keines der Ergebnisse die wir bisher untersucht haben deutet darauf hin dass dies ein besonders gutes Modell ist Ein Indikator f r die Leistungsf higkeit eines Modells ist der Risikosch tzer Bei einer abh ngigen metrischen Variablen ist der Risikosch tzer ein Ma f r die Varianz innerhalb des Knotens was f r sich genommen noch nicht sehr aussagekr ftig ist Eine niedrigere Varianz weist auf ein besseres Modell hin doch die Varianz ist relativ zur Ma einheit Wenn der Preis beispielsweise nicht in Tausend angegeben worden w re w re der Risikosch tzer um ein Tausendfaches gr er Um bei einer abh ngigen metrischen Variablen eine sinnvolle Interpretation f r den Risikosch tzer zu erarbeiten muss ein gewisser Aufwand betrieben werden m Die Gesamtvarianz ist gleich der Fehler Varianz innerhalb der einzelnen Knoten plus der erkl rten Varianz zwischen den Knoten Die Varianz innerhalb der Knoten ist der Wert f r den Risikosch tzer 68 485 Die Gesamtvarianz ist die Varianz f r die abh ngigen Variablen vor der Ber cksichtigung von unabh ngigen Variablen n mlich die Varianz am Stammknoten m Die am Stammknoten angezeigte Standardabweichung betr gt 21 576 also ist die Gesamtvarianz das Quadrat dieses Werts 465 524 m Der Anteil der Varianz der auf Fehler zur ckzuf hren ist unerkl rte Varianz betr gt 68 485 465 524 0 147 m Der Anteil der von d
137. und und Textfarbe f r Knoten Farbe und Textfarbe f r Verzweigungen Farbe f r den Baumhintergrund Hervorhebungsfarbe f r vorhergesagte Kategorien kategoriale abh ngige Variablen Farben in Knotendiagrammen 47 Baumeditor Des Weiteren k nnen Sie die Schriftart den Schriftschnitt und die Schriftgr e f r den gesamten Text im Baum ndern Hinweis Es ist nicht m glich die Farbe oder die Schriftattribute f r einzelne Knoten oder Verzweigungen zu ndern Farb nderungen gelten f r s mtliche Elemente desselben Typs nderungen an der Schriftart mit Ausnahme der Farben gelten f r alle Diagrammelemente So ndern Sie die Farben und die Schriftattribute ndern Sie die Schriftattribute f r den gesamten Baum bzw die Farben f r verschiedene Elemente ber die Symbolleiste Wenn Sie mit der Maus auf eine Steuerung in der Symbolleiste zeigen wird eine QuickInfo mit einer Beschreibung f r diese Steuerung eingeblendet oder ffnen Sie das Fenster Eigenschaften Doppelklicken Sie hierzu auf eine beliebige Stelle im Baumeditor oder w hlen Sie die folgenden Befehle aus den Men s aus Ansicht Eigenschaften Rahmen Verzweigung Knotenhintergrund vorhergesagte Kategorie Baumhintergrund Klicken Sie auf die Registerkarte Farbe Schriftfarbe und Schriftattribute Klicken Sie auf die Registerkarte Text Farben in Knotendiagrammen Klicken Sie auf die Registerkarte Knotendiagramme Abbildung 2 6 Fenste
138. uppen mit F llen definieren oder auch als COMPUTE Anweisungen mit denen F lle bewertet werden k nnen m SOL Um Datens tze auszuw hlen oder aus einer Datenbank zu extrahieren oder um Werte f r diese Datens tze zuzuweisen werden Standard SQL Regeln erzeugt Die erzeugten SQL Regeln enthalten keine Tabellennamen oder andere Informationen zur Datenquelle Typ Sie k nnen Auswahl oder Bewertungsregeln erstellen m F lle ausw hlen Mit den Regeln k nnen F lle ausgew hlt werden die die Kriterien f r die Knotenzugeh rigkeit erf llen Bei PASW Statistics und SQL Regeln wird eine einzige Regel erzeugt mit der alle F lle ausgew hlt werden die den Auswahlkriterien entsprechen m F llen Werte zuweisen Mit den Regeln k nnen die Vorhersagen aus dem Modell F llen zugewiesen werden die die Kriterien f r die Knotenzugeh rigkeit erf llen F r jeden Knoten der den Kriterien f r die Knotenzugeh rigkeit entspricht wird eine separate Regel erzeugt Ersatzwerte ber cksichtigen Bei CRT und QUEST k nnen Sie ersatzweise Einflussvariablen aus dem Modell in die Regeln aufnehmen Regeln mit Surrogaten k nnen recht komplex werden Wenn Sie nur konzeptuelle Daten zu Ihrem Baum ableiten m chten sollten Sie die Surrogate ausschlie en Wenn die Daten in den unabh ngigen Variablen Einflussvariablen in bestimmten F llen unvollst ndig sind und Regeln angelegt werden sollen die den Baum getreu nachbilden schlie en Sie die Surrogate e
139. urch den Durchschnitt 1 3 2 2 ersetzt Abbildung 1 13 Dialogfeld Optionen Registerkarte Profite GH Entscheidungsbaum Optionen Keine Anpassen Werte f r Ertrag und Ausgaben Geben Sie f r jede Kategorie Werte f r Ertrag und Ausgaben ein Die Profite werden automatisch berechnet Les se ms 19 vv v y Erstellen von Entscheidungsb umen Bei kategorialen abh ngigen Variablen k nnen Sie den verschiedenen Ebenen jeweils Werte f r Verkaufserl se und Aufwendungen zuweisen Der Profit ergibt sich aus der Berechnung Verkaufserl se minus Aufwendungen Die Profitwerte beeinflussen die Werte f r den durchschnittlichen Profit und den Anlageertrag ROD in den Gewinntabellen Die grundlegende Baummodellstruktur bleibt unver ndert Die Werte f r Verkaufserl se und Aufwendungen m ssen numerisch sein und m ssen f r alle im Gitter angezeigten Kategorien der abh ngigen Variablen festgelegt werden Profite und Wertelabels In diesem Dialogfeld sind definierte Wertelabels f r die abh ngige Variable erforderlich Das Dialogfeld ist erst dann verf gbar wenn mindestens zwei Werte der kategorialen abh ngigen Variablen ein Wertelabel besitzen So geben Sie die Gewinne an W hlen Sie im Hauptdialogfeld Entscheidungsbaum eine kategoriale nominale ordinale abh ngige Variable mit mindestens zwei definierten Wertelabels aus Klicken Sie auf Optionen Klicken
140. ut 179 99 Gesamt 22 4 553 B gut 88 4 687 Gesamt 315 777 Anzahl an Kreditkarten Anzahl an Kreditkarten 5 oder mehr Knoten 4 Kategorie n E schlecht 56 7 422 gut 33 322 weniger als5 Knoten 5 Kategorie n E schlecht 138 54 B gut 86 2 336 5 oder mehr Knoten 6 Kategorie n E schlecht 17 6 80 B gut 82 4 375 weniger als 5 Knoten 7 Kategorie n E schlecht 31 10 B gut 96 9 312 Gesamt 30 2 744 Gesamt 15 8 390 Gesamt 18 5 455 Gesamt 13 1 322 Alter 28 08 gt 28 08 Knoten 9 Kategorie n E schlecht 43 7 211 B gut 56 3 272 Gesamt 19 6 483 Knoten 8 Kategorie n 80 8 211 E schlecht E gut 192 50 Gesamt 10 5 261 Mit der Prozedur Entscheidungsbaum wird ein baumbasiertes Klassifizierungsmodell erstellt Die F lle werden in Gruppen klassifiziert oder es werden Werte f r eine abh ngige Variable Zielvariable auf der Grundlage der Werte von unabh ngigen Variablen Einflussvariablen vorhergesagt Die Prozedur umfasst Validierungswerkzeuge f r die explorative und die best tigende Klassifikationsanalyse Die Prozedur eignet sich f r folgende Situationen Segmentierung Ermitteln Sie Personen die wahrscheinlich zu einer bestimmten Gruppe geh ren 2 Kapitel 1 Schichtung Weisen Sie F lle zu einer von mehreren Kategorien zu z B Gruppen mit hohem mittlerem oder niedrigem Risiko Vorhersage Erstellen Sie Regeln und lassen Sie damit zuk nftige Ereignisse
141. werden W hlen Sie die folgenden Befehle aus den Men s aus Daten F lle ausw hlen 79 W hlen Sie im Dialogfeld F lle ausw hlen die Option Alle F lle aus und klicken Sie anschlie end auf OK Abbildung 4 21 Verwenden von Entscheidungsb umen zur Bewertung des Kreditrisikos Dialogfeld F lle ausw hlen ve Kreditrating Kredit_rati L Alter Atter dd Einkommen in Kategori P Anzahl an Kreditkarten d Ausbildung Ausbildung EA Autodarlehen Darlehen amp Terminal Node Identifie d Predicted Value Predii L titer_ il F lle ausw hlen X Ausw hlen alle F lle Falls Bedingung zutrifft Falls Zufallsstichprobe Stichprobe Nach Zeit oder Fallbereich Bereich Fittervariable verwenden So rAusgabe Nicht ausgew hlte F lle filtern gew hlte F lle in neues Datenblatt kopieren Datenblatt Name ffnen Sie noch einmal das Dialogfeld Entscheidungsbaum und klicken Sie auf Optionen nicht ausgew hlte F lle l schen Aktueller Status F lle filtern anhand der YVerte vonfiter_ 80 Kapitel 4 gt Klicken Sie auf die Registerkarte Fehlklassifizierungskosten Abbildung 4 22 Dialogfeld Optionen Registerkarte Fehlklassifizierungskosten Kal Entscheidungsbaum Optionen X In allen Kategorien gleich Anpassen Yorhergesagte Kategorie schlecht gut Tats chlich Gene o oo
142. werden Vorhergesagte Werte Abbildung 4 15 Neue Variablen f r vorhergesagte Werte und Wahrscheinlichkeiten BI tree_textdata sav DatenSet1 Daten Editor BAX Datei Bearbeite Ansict Dater Transformier Analysiere Grafike Extras Add On Fenste Hilfe Sichtbar 6 von 6 Yariablen Predicted PredictedProbability_ PredictedProbability_ NodelD I Variablenansicht In der Arbeitsdatei wurden vier neue Variablen erstellt NodelD Die Nummer des Endknotens f r jeden Fall PredictedValue Der vorhergesagte Wert der abh ngigen Variablen f r jeden Fall Da die abh ngige Variable als 0 Schlecht und 1 Gut kodiert ist bedeutet ein vorhergesagter Wert 0 dass f r den Fall ein schlechtes Kreditrating vorhergesagt wird PredictedProbability Die Wahrscheinlichkeit dass der Fall in die einzelnen Kategorien der abh ngigen Variablen geh rt Da es nur zwei m gliche Werte f r die abh ngige Variable gibt werden zwei Variablen erstellt m PredictedProbability_1 Die Wahrscheinlichkeit dass der Fall in die Kategorie f r schlechtes Kreditrating geh rt m PredictedProbability_2 Die Wahrscheinlichkeit dass der Fall in die Kategorie f r gutes Kreditrating geh rt 74 Kapitel 4 Die vorhergesagte Wahrscheinlichkeit ist einfach der Anteil der F lle in den einzelnen Kategorien der abh ngigen Variablen f r den Endknoten der den jeweiligen Fall enth lt In Knoten 1 beispielsweise befinden sich 82
143. ximale Anzahl der Stufen ist 3 f r CHAID 5 f r CRT und QUEST Untergeordneter Knoten 1200 Anpassen Wert gt Geben Sie im Gruppenfeld Mindestanzahl der F lle den Wert 400 f r den bergeordneten und den Wert 200 f r den untergeordneten Knoten ein Klicken Sie auf Weiter Auswahl zus tzlicher Ausgaben gt Klicken Sie im Dialogfeld Entscheidungsbaum auf Ausgabe 64 Kapitel 4 Dadurch wird ein Dialogfeld mit Registerkarten ge ffnet in dem verschiedene Typen von zus tzlichen Ausgaben ausgew hlt werden k nnen Abbildung 4 4 Dialogfeld Ausgabe Registerkarte Baum e Cl Entscheidungsbaum Ausgabe KE Statistiken Diagramme Regen Baum Anzeige Ausrichtung von oben nach unten von links nach rechts von rechts nach links Knoteninhafte Tabelle Diagramm Tabelle und Diagramm Automatisch reduziert die Skala f r gro e B ume Benutzerdefiniert Prozent 1100 E Statistik f r unabh ngige Variablen wl Knstendefinitionen e Baum im Tabellenformat Less Josee me Aktivieren Sie auf der Registerkarte Baum die Option Baum im Tabellenformat Klicken Sie anschlie end auf die Schaltfl che Diagramme 65 Verwenden von Entscheidungsb umen zur Bewertung des Kreditrisikos Abbildung 4 5 Dialogfeld Ausgabe Registerkarte Diagramme Ga Entscheidungsbaum Ausgabe Baum Statistiken Di Regel
144. zuw hlen Skalieren der Baumanzeige Standardm ig werden B ume so skaliert dass sie vollst ndig im Viewer Fenster dargestellt werden k nnen Bei bestimmten B umen sind die Angaben daher unter Umst nden nur schwer lesbar W hlen Sie eine vordefinierte Einstellung f r die Skalierung aus oder geben Sie einen benutzerdefinierten Wert zwischen 5 und 200 ein So ndern Sie die Skalierung des Baums W hlen Sie einen Skalierungsprozentsatz in der Dropdown Liste in der Symbolleiste aus oder geben Sie einen benutzerdefinierten Wert ein oder W hlen Sie die folgenden Men befehle des Baum Editors aus Ansicht Skala Abbildung 2 3 Dialogfeld Skala Skala 25 50 100 150 200 An Fenster anpassen Benutzerdefiniert Prozent 47 Des Weiteren k nnen Sie einen Skalierungswert angeben noch bevor Sie das Baummodell erstellen F r weitere Informationen siehe Ausgabe in Kapitel 1 auf S 25 Knoten bersichtsfenster Das Knoten bersichtsfenster erm glicht einen genaueren Blick auf die ausgew hlten Knoten Im bersichtsfenster k nnen Sie au erdem Auswahl und Bewertungsregeln auf der Grundlage der ausgew hlten Knoten anzeigen lassen anwenden und speichern 45 Baumeditor m Mit dem Men Ansicht im Knoten bersichtsfenster wechseln Sie zwischen einer bersichtstabelle einem Diagramm und den Regeln m Im Men Regeln im Knoten bersi
145. zwert und die Freiheitsgrade f r nominale unabh ngige Variablen angezeigt sm Knotendefinitionen Die Knotendefinitionen zeigen den Wert oder die Werte der unabh ngigen Variablen bei jeder Knotenaufteilung Baum im Tabellenformat Zusammenfassende Angaben f r jeden Knoten im Baum Nummer des bergeordneten Knotens Statistik f r unabh ngige Variablen Wert e der unabh ngigen Variablen f r den Knoten Mittelwert und Standardabweichung f r metrische abh ngige Variablen bzw Z hlungen und Prozents tze f r kategoriale abh ngige Variablen Abbildung 1 19 Baum im Tabellenformat schlecht gut Gesamt Prim re unabh ngige Variable Vorhergesag bergeordn Aufteilungw Knoten Prozent Prozent Prozent te Kategorie eter Knoten Variable EEN Chi Quadrat erte gut schlecht Einkommen in Kategorien d 662 457 lt niedrig niedrig mittel gut Einkommen in Kategorien d 662 457 gt mittel 5 oder mehr weniger als 5 gut Einkommen in Kategorien l 662 457 schlecht Anzahl an Kreditkarten d 193 113 gut Anzahl an Kreditkarten d 193 113 5 oder mehr weniger als 5 gut Anzahl an Kreditkarten d 38 587 gut Anzahl an Kreditkarten 38 587 schlecht Alter E 95 299 28 0792058 18990676 gt gut d 95 299 28 0792058 18990676 28 Kapitel 1 Statistik Abbildung 1 20 Dialogfeld Optionen Registerkarte Statistik ES Entscheidungsbaum Ausgabe KE pe _Statistken Diagr
Download Pdf Manuals
Related Search
Related Contents
Inspect, Drain, Refill, and Flush a Manual Transmission/Transaxle autoradio pioneer DEH AXE User Manual manuel - Direction des Elections 第Ⅴ編 資料集 Mitsubishi Electronics SERIES 742 Projection Television User Manual Excellent! セキセイブランドをチョイス! Digitus DK-300108-030-S USB cable 取扱説明書 - アプライドパワージャパン Netzwerk-Vorverstärker Der Letzte ist der Beste - E Copyright © All rights reserved.
Failed to retrieve file