Home

IBM SPSS Neural Networks 20

1. r Maximale Anzahl an Trainingsepochen Automatisch berechnen Benutzerdefinierte Werte festlegen Maximale Anzahl an Epochen Minimale relative nderung beim Trainingsfehler 0 0001 Minimale relative nderung beim Trainingsfehlerquotienten 9 001 Maximale Anzahl der im Arbeitsspeicher zu speichernden F lle La 1 a zeen apen 1 tte gt W hlen Sie Einschlie en f r benutzerdefinierte Variablen aus Patienten bei denen kein chirurgischer Eingriff vorgenommen wurde weisen benutzerdefiniert fehlende Werte bei der Variablen Surgical complications chirurgische Komplikationen auf Dadurch wird sichergestellt dass die betreffenden Patienten in die Analyse aufgenommen werden Klicken Sie auf OK Warnungen Abbildung 4 31 Warnungen Folgende unabh ngige Variablen sind in der Trainingsstichprobe konstant und werden aus der Analyse ausgeschlossen doa der In der Warnungstabelle ist vermerkt dass die Variablen doa bereits tot bei Ankunft und der in Notaufnahme verstorben in der Trainingsstichprobe konstant sind Patienten die bereits beim Eintreffen tot waren oder in der Notaufnahme verstarben weisen benutzerdefiniert fehlende 67 Mehrschichtiges Perzeptron Werte f r Length of stay Aufenthaltsdauer auf Da wir Length of stay Aufenthaltsdauer als metrische Variable f r diese Analyse behandeln und F lle mit benutzerdefiniert fehlenden Werten bei metrischen Variablen au
2. W hlen Sie Age in years age Alter in Jahren bis Number of people in household reside Haushaltsgr e als Kovariaten aus W hlen Sie Angepasst normalisiert als Methode f r die Neuskalierung von Kovariaten aus gt Klicken Sie auf die Registerkarte Partitionen 78 Kapitel 5 Abbildung 5 3 Radiale Basisfunktion Registerkarte Partitionen HH Radiate Basisfunktion E Im Frtonen mme zem Seen Fraen Optinen Variablen rPartitions Datenblatt d Geographic indicator region F lle auf der Grundlage der relativen Anzahl an F llen zuf llig zuweisen 8 Months with service tenure amp Toll free service tollfree Partitionen d Enurmentrertl ec Partion LL revez amp Calling card service callcard init amp Wireless service wireless L Long distance last month longmon L Toll free last month tollmon L Equipment last month equipmon L Calling card last month cardmon E Wireless last month wiremon Ne Long distance over tenure longten E Partitionsvariable E Toll free over tenure tollten E Equipment over tenure equipten E Calling card over tenure cardten E Wireless over tenure wireten d Multiple lines muttiine amp Voice mail voice amp Paging service pager amp Internet internet amp Caller ID callic amp Call waiting callwait amp Call forwarding forward amp 3 way calling confer amp Electronic billing ebill Partitionsv
3. Da die Zielvariable mehr als zwei Kategorien enth lt sind die ersten vier Boxplots weder bez glich der horizontalen Linie bei 0 5 noch auf irgendeine andere Weise symmetrisch Daher kann die Interpretation dieses Plots f r Ziele mit mehr als zwei Kategorien schwierig sein da es unm glich ist aus der Betrachtung eines Teils der F lle in einem Boxplot die entsprechende Lage dieser F lle in einem anderen Poxplot zu bestimmen 85 Radiale Basisfunktion ROC Kurve Abbildung 5 11 ROC Kurve 10 Basic service E service Plus service Total service 8 K 6 2 E w Ha D 2 A 6 8 1 0 1 Spezifit t Abhangige Variable Customer category Eine ROC Kurve bietet eine grafische Anzeige von Sensitivit t gegen ber Spezifit t f r alle m glichen Klassifikationstrennwerte Das hier dargestellte Diagramm enth lt vier Kurven eine f r jede Kategorie der Zielvariablen Beachten Sie dass dieses Diagramm auf der Kombination aus Trainings und Teststichprobe beruht Um ein ROC Diagramm f r die Holdout Stichprobe zu erstellen m ssen Sie die Datei an der Partitionsvariablen aufteilen und die Prozedur ROC Kurve f r die vorhergesagten Pseudo Wahrscheinlichkeiten ausf hren Abbildung 5 12 Fl che unter der Kurve I Ehe Customer category Basic service E service Plus service Total service Die Flache unter der Kurve ist eine numerische Zusammenfassung der ROC Kurve und die Werte in der Tabelle
4. Einnahme von Gerinnungshemmern und Time to hospital time Zeit bis Krankenhaus und Surgical complications comp chirurgische Komplikationen als Faktoren aus Um die unten angegebenen Modellergebnisse exakt zu reproduzieren m ssen Sie unbedingt die Reihenfolge der Variablen in der Faktorenliste beibehalten Dazu kann es hilfreich sein die einzelnen Einflussvariablen Sets auszuw hlen und sie mithilfe der Schaltfl che also nicht durch Ziehen und Ablegen in die Faktorenliste zu verschieben Alternativ l sst sich durch eine nderung der Reihenfolge der Variablen leichter die Stabilit t der L sung einsch tzen gt Klicken Sie auf die Registerkarte Partitionen 62 Kapitel 4 Abbildung 4 26 Mehrschichtiges Perzeptron Registerkarte Partitionen Lorton Dm mme Traing Ausgabe men rte eer Variablen Partitions Datenblatt Age in years age F lle auf der Grundlage der relativen Anzahl an F llen zuf llig zuweisen d Hospital ID site amp Attending physician attphys Partitionen al Surgery result result Relative Zahl 4 Partitionsvariable zum Zuweisen von F llen verwenden Partitionsvariable Ee gt Geben Sie 2 als relative Anzahl der F lle ein die der Teststichprobe zugewiesen werden sollen gt Geben Sie 1 als relative Anzahl der F lle ein die der Holdout Stichprobe zugewiesen werden sollen Klicken Sie auf die Registerkarte Architektur 63 Abbildung 4 27
5. Radiale Basisfunktion Bishop C M 1995 Neural Networks for Pattern Recognition 3rd Hg Oxford Oxford University Press Fine T L 1999 Feedforward Neural Network Methodology 3rd Hg New York Springer Verlag Haykin S 1998 Neural Networks A Comprehensive Foundation 2nd Hg New York Macmillan College Publishing Ripley B D 1996 Pattern Recognition and Neural Networks Cambridge Cambridge University Press 88 Kapitel 5 Tao K K 1993 A closer look at the radial basis function RBF networks In Conference Record of the Twenty Seventh Asilomar Conference on Signals Systems and Computers A Singh Hg Los Alamitos Kalifornien IEEE Comput Soc Press Uykan Z C Guzelis M E Celebi als auch H N Koivo 2000 Analysis of input output clustering for determining centers of RBFN IEEE Transactions on Neural Networks 11 Anhang A Beispieldateien Die zusammen mit dem Produkt installierten Beispieldateien finden Sie im Unterverzeichnis Samples des Installationsverzeichnisses F r jeder der folgenden Sprachen gibt es einen eigenen Ordner innerhalb des Unterverzeichnisses Samples Englisch Franz sisch Deutsch Italienisch Japanisch Koreanisch Polnisch Russisch Vereinfachtes Chinesisch Spanisch und Traditionelles Chinesisch Nicht alle Beispieldateien stehen in allen Sprachen zur Verf gung Wenn eine Beispieldatei nicht in einer Sprache zur Verf gung steht enth
6. Ver ffentlichungen Die Handb cher SPSS Statistics Guide to Data Analysis SPSS Statistics Statistical Procedures Companion und SPSS Statistics Advanced Statistical Procedures Companion die von Marija Noru is geschrieben und von Prentice Hall ver ffentlicht wurden werden als Quelle f r Zusatzinformationen empfohlen Diese Ver ffentlichungen enthalten statistische Verfahren in den Modulen Statistics Base Advanced Statistics und Regression von SPSS Diese B cher werden Sie dabei unterst tzen die Funktionen und M glichkeiten von IBM SPSS Statistics optimal zu nutzen Dabei ist es unerheblich ob Sie ein Neuling im Bereich der Datenanalyse sind oder bereits ber umfangreiche Vorkenntnisse verf gen und damit in der Lage sind auch die erweiterten Anwendungen zu nutzen Weitere Informationen zu den Inhalten der Ver ffentlichungen sowie Ausz ge aus den Kapiteln finden Sie auf der folgenden Autoren Website http www norusis com Inhalt Teil I Benutzerhandbuch 1 Einf hrung in Neural Networks Neuronale Netzwerke Was ist ein neuronales Netzwerk cc onen Struktur neuronaler Netzwerke 2 2 2 come 2 Mehrschichtiges Perzeptron Partitionen sisa ne Kaen a kare ak ee nn a en endet Architektur sa RES a ee en ICH le WEE Ausgabe u ENNEN ann na a ee SDEICHEFN Aere en dedia aa h aaea at Bia ae baa ech ee EX DO EE Optionen 4 deco Re an ee ee ee ae 3 Radiale Basisfunktion Part
7. Dieses Kodierungsschema erh ht die Anzahl der synaptischen Gewichtungen und kann zu einer Verlangsamung des Trainings f hren kompaktere Kodierungsmethoden f hren jedoch in der Regel zu neuronalen Netzwerken mit geringer Anpassungsg te Wenn das Training des Netzwerks sehr langsam vorangeht k nnen Sie versuchen die Anzahl der Kategorien der kategorialen Einflussvariablen zu verringern indem Sie hnliche Kategorien zusammenfassen oder F lle ausschlie en die extrem seltene Kategorien aufweisen Jegliche Eins aus c Kodierung beruht auf den Trainingsdaten selbst wenn eine Test bzw Holdout Stichprobe definiert wurde siehe Partitionen auf S 9 Wenn also die Test bzw Holdout Stichproben F lle mit Einflussvariablen Kategorien enthalten die in den Trainingsdaten nicht vorhanden sind werden diese F lle nicht in der Prozedur bzw beim Scoring verwendet Wenn die Test bzw Holdout Stichproben F lle mit Kategorien abh ngiger Variablen enthalten die in den Trainingsdaten nicht vorhanden sind werden diese F lle zwar nicht in der Prozedur jedoch m glicherweise beim Scoring verwendet Neuskalierung Metrische abh ngige Variablen und Kovariaten werden standardm ig neu skaliert um das Training des Netzwerks zu verbessern Jegliche Neuskalierung beruht auf den Trainingsdaten selbst wenn eine Test bzw Holdout Stichprobe definiert wurde siehe Partitionen auf S 9 Das bedeutet dass je nach Neuskalierungstyp Mittelwert St
8. IBM SPSS Neural Networks 20 In yu Hinweis Lesen Sie zun chst die allgemeinen Informationen unter Hinweise auf S 100 bevor Sie dieses Informationsmaterial sowie das zugeh rige Produkt verwenden Diese Ausgabe bezieht sich auf IBM SPSS Statistics 20 und alle nachfolgenden Versionen sowie Anpassungen sofern dies in neuen Ausgaben nicht anders angegeben ist Screenshots von Adobe Produkten werden mit Genehmigung von Adobe Systems Incorporated abgedruckt Screenshots von Microsoft Produkten werden mit Genehmigung der Microsoft Corporation abgedruckt Lizenziertes Material Eigentum von IBM Copyright IBM Corporation 1989 2011 Eingeschr nkte Rechte f r Benutzer der US Regierung Verwendung Vervielf ltigung und Ver ffentlichung eingeschr nkt durch GSA ADP Schedule Contract mit der IBM Corp Vorwort IBM SPSS Statistics ist ein umfassendes System zum Analysieren von Daten Das optionale Zusatzmodul Neural Networks bietet die zus tzlichen Analyseverfahren die in diesem Handbuch beschrieben sind Die Prozeduren im Zusatzmodul Neural Networks m ssen zusammen mit SPSS Statistics Core verwendet werden Sie sind vollst ndig in dieses System integriert Informationen zu IBM Business Analytics Die Software IBM Business Analytics liefert umfassende einheitliche und korrekte Informationen mit denen Entscheidungstr ger die Unternehmensleistung verbessern k nnen Ein umfassendes Portfolio aus Business Intel
9. Anfangs Sigma Der urspr ngliche Wert des Sigma Parameters f r den Algorithmus mit skaliertem konjugiertem Gradienten Geben Sie einen Wert gr er als 0 und kleiner als 0 0001 ein Intervallzentrum und Intervall Offset Intervallzentrum ag und Intervall Offset a definieren das Intervall ag a agta in dem bei Verwendung der simulierten Abk hlung Gewichtungsvektoren nach dem Zufallsprinzip erstellt werden Die simulierte Abk hlung wird verwendet um w hrend der Anwendung des Optimierungsalgorithmus aus einem lokalen Minimum ausbrechen zu k nnen um das globale Minimum zu finden Dieser Ansatz wird bei der Gewichtungsinitialisierung und bei der automatischen Architekturauswahl verwendet Geben Sie den Wert f r das Intervallzentrum und einen Wert gr er 0 f r das Intervall Offset an 16 Kapitel 2 Folgende Trainingsoptionen stehen f r den Gradientenabstiegsalgorithmus zur Verf gung Anf ngliche Lernrate Der urspr ngliche Wert der Lernrate f r den Gradientenabstiegsalgorithmus Bei einer h heren Lernrate erfolgt das Training des Netzwerks schneller kann jedoch m glicherweise instabil werden Geben Sie einen Wert gr er 0 an Untergrenze der Lernrate Die Untergrenze der Lernrate f r den Gradientenabstiegsalgorithmus Diese Einstellung gilt nur f r Online Training und Mini Batch Training Geben Sie einen Wert ein der gr er als 0 und kleiner als die anf ngliche Lernrate ist Momentum Der urspr ngliche M
10. Architektur k nnen Sie die Struktur des Netzwerks angeben Die Prozedur kann automatisch die beste Architektur ausw hlen Sie k nnen aber auch eine benutzerdefinierte Architektur angeben Mit der automatischen Architekturauswahl wird ein Netzwerk mit genau einer verborgenen Schicht erstellt Geben Sie die Mindest und die H chstzahl an Einheiten an die in der verborgenen Schicht zul ssig sein sollen Die automatische Architekturauswahl berechnet daraus die beste Anzahl an Einheiten in der verborgenen Schicht Die automatische Architekturauswahl verwendet die standardm igen Aktivierungsfunktionen f r die verborgene Schichten und Ausgabeschichten Mit der benutzerdefinierten Architekturauswahl verf gen Sie ber umfassende Kontrolle ber die verborgenen Schichten und Ausgabeschichten Dies ist insbesondere dann von Vorteil wenn Sie im Voraus wissen welche Architektur Sie w nschen oder um eine Feinabstimmung der Ergebnisse der automatischen Architekturauswahl vorzunehmen 12 Kapitel 2 Verborgene Schichten Die verborgene Schicht enth lt nicht sichtbare Netzwerkknoten Einheiten Jede verborgene Schicht ist eine Funktion der gewichteten Summe der Eingaben Bei der Funktion handelt es sich um die Aktivierungsfunktion und die Werte der Gewichte richten sich nach dem Sch tzungsalgorithmus Wenn das Netzwerk eine zweite verborgene Schicht enth lt ist jede verborgene Einheit in der zweiten Schicht eine Funktion der
11. Cambridge University Press Rosenberg S als auch M P Kim 1975 The method of sorting as a data gathering procedure in multivariate research Multivariate Behavioral Research 10 Tao K K 1993 A closer look at the radial basis function RBF networks In Conference Record of the Twenty Seventh Asilomar Conference on Signals Systems and Computers A Singh Hg Los Alamitos Kalifornien IEEE Comput Soc Press Uykan Z C Guzelis M E Celebi als auch H N Koivo 2000 Analysis of input output clustering for determining centers of RBFN IEEE Transactions on Neural Networks 11 Copyright IBM Corporation 1989 2011 103 104 Bibliografie Van der Ham T J J Meulman D C Van Strien als auch H Van Engeland 1997 Empirically based subgrouping of eating disorders in adolescents A longitudinal perspective British Journal of Psychiatry 170 Verdegaal R 1985 Meer sets analyse voor kwalitatieve gegevens in niederl ndischer Sprache Leiden Department of Data Theory Universit t Leiden Ware J H D W Dockery A Spiro III F E Speizer als auch B G Ferris Jr 1984 Passive smoking gas cooking and respiratory health of children living in six cities American Review of Respiratory Diseases 129 Abbruchregeln in Mehrschichtiges Perzeptron 23 Aktivierungsfunktion in Mehrschichtiges Perzeptron 11 in Radiale Basisfunktion 30 Architektur Neuronale Netzwer
12. Mehrschichtiges Perzeptron Mehrschichtiges Perzeptron Registerkarte Architektur Automatische Architekturauswahl Minimale Anzahl an Einheiten in verborgener Schicht 1 Maximale Anzahl an Einheiten in verborgener Schicht 50 Benutzerdefinierte Architektur r verborgene Schichten r Anzahl der verborgenen Schichten Eine Zwei rAktivierungsfunktion Hyperbeltangens Sigmoic Ausgabeschicht E Mehrschichtiges Perzeptron OOOO M orton egen Achter Traing Ausgabe men Exporteren er Anzahl der Einheiten Automatisch berechnen Anpassen verborgene Schicht 1 verborgene Schicht 2 rAktivierungsfunktion Identit t Softmax Hyperbeltangens Sigmoial r Erneute Skalierung von abh ngigen metrischen Yariablen Standardisiert Normalisiert Korrektur 0 02 Angepasst normalisiert Die f r die Ausgabeschicht ausgew hlte Aktivierungsfunktion kd bestimmt welche Methoden f r die erneute Skalierung verf gbar sind Korrektur 0 02 Keine W hlen Sie Benutzerdefinierte Architektur W hlen Sie Zwei als Anzahl der verborgenen Schichten aus W hlen Sie Hyperbeltangens als Aktivierungsfunktion f r die Ausgabeschicht aus Beachten Sie dass dadurch die Methode f r die erneute Skalierung der abh ngigen Variablen automatisch auf Angepasst normalisiert gesetzt wird Klicken Sie auf die Registerkarte Training 64 Kapit
13. Nach Messniveau sortieren Variablenbeschreibung soma 000 Zutetsetzen Abtreehen tite Ordinal Length of stay los Aufenthaltsdauer weist ein ordinales Messniveau auf Sie m chten jedoch dass das Netzwerk diese Variable als metrisch behandelt Klicken Sie mit der rechten Maustaste auf Length of stay los Aufenthaltsdauer und w hlen Sie im Kontextmen die Option Skala Metrisch aus 61 Mehrschichtiges Perzeptron Abbildung 4 25 Mehrschichtiges Perzeptron Registerkarte Variablen mit abh ngigen Variablen und augew hlten Faktoren al Mehrschichtiges Perzeptron X Yan egen mme Traing Ausgabe Spschem rte eer Variablen Abhangige Variablen E Age in years age amp Length of stay los amp Hospital ID site amp Treatment costs cost amp Attending physician attphys al Surgery result result Faktoren fll Age category agecat o Gender gender amp History of diabetes diabetes amp Blood pressure bp Smoker smoker gt Cholesterol choles ic Ss Ber were Kovariaten La Klicken Sie in der Liste variablen mit der rechten Maustaste auf Erneute Skalierung von Kovariaten eine Variable um deren Messniveau zu ndern W hlen Sie Length of stay los Aufenthaltsdauer und Treatment costs cost Behandlungskosten als abh ngige Variablen aus W hlen Sie Age category agecat Alterskategorie bis Taking anti clotting drugs anticlot
14. Null Modell in dem die Mittelwerte der abh ngigen Variablen als vorhergesagte Werte f r die einzelnen F lle verwendet werden In diesem Beispiel liegt der durchschnittliche Gesamtfehler zuf lligerweise nahe bei dem Durchschnitt der relativen Fehler Dies ist jedoch keineswegs immer der Fall 70 Kapitel 4 Der durchschnittliche relative Gesamtfehler und die relativen Fehler sind in der Trainigs Test und Holdout Stichprobe relativ konstant wodurch Sie mit einer gewissen Zuversicht davon ausgehen k nnen dass das Modell nicht bertrainiert ist und der Fehler in zuk nftigen F llen die vom Netzwerk gescort werden im Bereich des in dieser Tabelle angegebenen Fehlers liegt m Der Sch tzalgorithmus wurde angehalten da der Fehler nach einem Schritt im Algorithmus nicht kleiner wurde Diagramme vom Typ Vorhergesagt Beobachtet Abbildung 4 35 Diagramm Vorhergesagt Beobachtet f r Length of stay Aufenthaltsdauer o o SC o o 8 o o 5 E Me o re t 8 a 9 8 o o d o 98 u D o a KI H 8 CO gt o e OO e o gt OO o o 0 0 25 5 0 75 10 0 125 Length of stay Bei metrischen abh ngigen Variablen zeigt das Diagramm Vorhergesagt Beobachtet f r die Kombination aus Trainings und Teststichprobe ein Streudiagramm der vorhergesagten Werte auf der y Achse in Abh ngigkeit von den beobachteten Werten auf der x Achse an Idealerweise sollten die Werte ungef hr entlang einer 45 G
15. cardmon E Wireless last month wiremon wi Long distance over tenure longten gt Partitionsvariable E Toll free over tenure tollten 8E Equipment over tenure equipten E Calling card over tenure cardten E Wireless over tenure wireten amp Multiple lines multline amp Voice mail voice amp Paging service pager amp Internet internet F lle auf der Grundlage der relativen Anzahl an F llen zuf llig zuweisen Partitionsvariable zum Zuweisen von F llen verwenden d Caller ID callic amp Call waiting callwait amp Call forwarding forward amp 3 way calling confer amp Electronic billing ebill Partitions Daten Set Diese Gruppe gibt die Methode zur Partitionierung der Arbeitsdatei in eine Trainings eine Test und eine Holdout Stichprobe an Die Trainingsstichprobe umfasst die Datens tze die zum Trainieren des neuronalen Netzwerks verwendet wurden ein gewisser Prozentsatz der F lle im Daten Set muss der Trainingsstichprobe zugewiesen werden um ein Modell zu erhalten Die Teststichprobe ist ein unabh ngiges Set von Datens tzen die verwendet werden um den Fehler w hrend des Trainings aufzuzeichnen und dadurch ein bertrainieren zu vermeiden Es wird dringend empfohlen eine Trainingsstichprobe zu erstellen Das Netzwerktraining ist in der Regel am effizientesten wenn die Teststichprobe kleiner ist als die Trainingsstichprobe Die Holdout Stichprobe ist
16. lt der jeweilige Sprachordner eine englische Version der Beispieldatei Beschreibungen Im Folgenden finden Sie Kurzbeschreibungen der in den verschiedenen Beispielen in der Dokumentation verwendeten Beispieldateien m accidents sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die alters und geschlechtsabh ngige Risikofaktoren f r Autounf lle in einer bestimmten Region untersucht Jeder Fall entspricht einer Kreuzklassifikation von Alterskategorie und Geschlecht m adl sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bem hungen geht die Vorteile einer vorgeschlagenen Therapieform f r Schlaganfallpatienten zu ermitteln rzte teilten weibliche Schlaganfallpatienten nach dem Zufallsprinzip jeweils einer von zwei Gruppen zu Die erste Gruppe erhielt die physische Standardtherapie die zweite erhielt eine zus tzliche Emotionaltherapie Drei Monate nach den Behandlungen wurden die F higkeiten der einzelnen Patienten bliche Alltagsaktivit ten auszuf hren als ordinale Variablen bewertet m advert sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Einzelh ndlers geht die Beziehungen zwischen den in Werbung investierten Betr gen und den daraus resultierenden Ums tzen zu untersuchen Zu diesem Zweck hat er die Ums tze vergangener Jahre und die zugeh rigen Werbeausgaben zusammengestellt m afl
17. zuweisen Au erdem k nnen Sie in der Variablenansicht des Daten Editors ein Messniveau zuweisen Da das Messniveau f r diese Prozedur bedeutsam ist k nnen Sie erst dann auf das Dialogfeld zur Ausf hrung dieser Prozedur zugreifen wenn f r alle Felder ein Messniveau definiert wurde 9 Mehrschichtiges Perzeptron Partitionen Abbildung 2 3 Mehrschichtiges Perzeptron Registerkarte Partitionen GI Mehrschichtiges Perzeptron x Varsien Po tonen Arcelie Ting Aue men ren Optionen variablen rPartitions Datenblatt Ka Predicted dete moda preddert F lle auf der Grundlage der relativen Anzahl an F llen zuf llig zuweisen L Predicted default model 2 preddef2 E Predicted default model 3 preddef3 Partitionen Test Pr fung Holdout 100 Partitionsvariable zum Zuweisen von F llen verwenden Le Partitionsvariable amp partition a Czntanen_ zuzuetentzen averecnen 1 ms Partitions Daten Set Diese Gruppe gibt die Methode zur Partitionierung der Arbeitsdatei in eine Trainings eine Test und eine Holdout Stichprobe an Die Trainingsstichprobe umfasst die Datens tze die zum Trainieren des neuronalen Netzwerks verwendet wurden ein gewisser Prozentsatz der Falle im Daten Set muss der Trainingsstichprobe zugewiesen werden um ein Modell zu erhalten Die Teststichprobe ist ein unabh ngiges Set von Datens tzen die verwendet werden um den Fehler w h
18. 40 50 60 70 80 90 100 Prozentsatz Abhangige Variable Previously defaulted Der Lift Chart wird aus dem kumulativen Gewinndiagramm abgeleitet die Werte auf der y Achse entsprechen dem Quotienten aus dem kumulativen Gewinn ftir jede Kurve und der Basis Der Lift bei 10 f r die Kategorie Ja betr gt somit 30 10 3 0 Er bietet eine alternative M glichkeit zur Analyse der Informationen im kumulativen Gewinndiagramm Anmerkung Das kumulative Gewinndiagramm und der Lift Chart beruhen auf der Kombination aus Trainings und Teststichprobe 57 Mehrschichtiges Perzeptron Wichtigkeit der unabh ngigen Variablen Abbildung 4 21 Wichtigkeit der unabh ngigen Variablen Wichtigkeit Wichtigkeit Level of education Age in years Years with current employer Years at current address Household income in thousands Debt to income ratio 100 Credit card debtin thousands Other debt in thousands Die Wichtigkeit einer unabh ngigen Variablen ist ein Ma daf r wie stark sich der vom Modell vorhergesagte Wert des Netzwerks f r verschiedene Werte der unabh ngigen Variablen ndert Die normalisierte Wichtigkeit berechnet sich einfach indem die Wichtigkeitswerte durch die gr ten Wichtigkeitswerte dividiert und als Prozents tze ausgedr ckt werden Abbildung 4 22 Wichtigkeitsdiagramm f r die unabh ngigen Variablen Normalisierte Wichtigkeit 40 60 0 10 0 15 Wichtigkeit Das Wichtigkeitsd
19. Bei den letzten 150 F llen handelt es sich um potenzielle Kunden deren Kreditrisiko die Bank als gering oder hoch einstufen m chte bankloan_binning sav Hierbei handelt es sich um eine hypothetische Datendatei die Informationen zum Finanzstatus und demografischen Hintergrund von 5 000 fr heren Kunden enth lt behavior sav In einem klassischen Beispiel Price als auch Bouffard 1974 wurden 52 Sch ler Studenten gebeten die Kombinationen aus 15 Situationen und 15 Verhaltensweisen auf einer 10 Punkte Skala von 0 ausgesprochen angemessen bis 9 ausgesprochen unangemessen zu bewerten Die Werte werden ber die einzelnen Personen gemittelt und als Un hnlichkeiten verwendet behavior_ini sav Diese Datendatei enth lt eine Ausgangskonfiguration f r eine zweidimensionale L sung f r behavior sav brakes sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Fabrik geht die Scheibenbremsen f r Hochleistungsautomobile herstellt Die Datendatei enth lt Messungen des Durchmessers von 16 Scheiben aus 8 Produktionsmaschinen Der Zieldurchmesser f r die Scheiben ist 322 Millimeter breakfast sav In einer klassischen Studie Green als auch Rao 1972 wurden 21 MBA Studenten der Wharton School mit ihren Lebensgef hrten darum gebeten 15 Fr hst cksartikel in der Vorzugsreihenfolge von 1 am meisten bevorzugt bis 15 am wenigsten bevorzugt zu ordnen Die Be
20. Beobachtet Diagramm WBasic service BE service OPlus service W Total service Vorhergesagte Pseudo Wahrscheinlichkeit Basic service E service Plus service Total service Customer category 84 Kapitel 5 F r kategoriale abh ngige Variablen zeigt das Diagramm Vorhergesagt Beobachtet gruppierte Boxplots vorhergesagter Pseudo Wahrscheinlichkeiten f r die Kombination aus Trainings und Teststichprobe an Die x Achse entspricht den beobachteten Antwortkategorien und die Legende entspricht vorhergesagten Kategorien Somit gilt Der Boxplot ganz links zeigt f r F lle mit der beobachteten Kategorie Basic service die vorhergesagte Pseudo Wahrscheinlichkeit f r die Kategorie Basic service Der n chste Boxplot zeigt f r F lle mit der beobachteten Kategorie Basic service die vorhergesagte Pseudo Wahrscheinlichkeit f r die Kategorie E service Der dritte Boxplot zeigt f r F lle mit der beobachteten Kategorie Basic service die vorhergesagte Pseudo Wahrscheinlichkeit f r die Kategorie Plus service Aus der Klassifikationsmatrix wissen wir dass ungef hr so viele Basic service Kunden als Plus service fehlklassifiziert wurden wie korrekt als Basic service Kunden klassifiziert wurden daher entspricht dieser Boxplot ungef hr dem Boxplot ganz links Der vierte Boxplot zeigt f r F lle mit der beobachteten Kategorie Basic service die vorhergesagte Pseudo Wahrscheinlichkeit f r die Kategorie Total service
21. Beziehung zwischen abh ngigen und unabh ngigen Variablen verwenden Verwenden eines mehrschichtigen Perzeptrons zur Absch tzung von Behandlungskosten und Aufenthaltsdauer Ein Krankenhaussystem m chte die Kosten und die Aufenthaltsdauer f r Patienten aufzeichnen die zur Behandlung eines Herzinfarkts aufgenommen wurden Durch genaue Sch tzer dieser Messwerte kann die Krankenhausverwaltung die verf gbare Bettenkapazit t w hrend der Behandlung der Patienten besser verwalten Die Datendatei patient_los sav enth lt die Behandlungsaufzeichnungen zu Patienten die wegen eines Herzinfarkts behandelt wurden F r weitere Informationen siehe Thema Beispieldateien in Anhang A auf S 89 Erstellen Sie mithilfe von Mehrschichtiges Perzeptron ein Netzwerk zur Vorhersage der Kosten und der Aufenthaltsdauer im Krankenhaus Vorbereiten der Daten f r die Analyse Durch die Festlegung des Startwerts k nnen sie die Analyse exakt reproduzieren Zur Festlegung des Startwerts w hlen Sie die folgenden Men befehle aus Transformieren gt Zufallszahlengeneratoren 59 Mehrschichtiges Perzeptron Abbildung 4 23 Dialogfeld Zufallszahlengenerator La Zufallszahlengenerator Aktiver Generator _ Initialisierung des aktiven Generators E Aktiven Generator festlegen Iw Anfangswert festlegen 5 Zuf llig Fester Wert Wert 9191972 Derzeit aktiver Generator Mit SPSS 12 kompatibel
22. Diese Felder k nnen manuell zugewiesen werden Alternativ k nnen sie automatisch ber das Durchsuchen der Daten zugewiesen werden m Le Lafe Daten durchsuchen Liest die Daten im aktiven Datenblatt Arbeitsdatei und weist allen Feldern deren Messniveau zurzeit nicht bekannt ist das Standardmessniveau zu Bei gro en Datenbl ttern kann dieser Vorgang einige Zeit in Anspruch nehmen m Manuell zuweisen ffnet ein Dialogfeld in dem alle Felder mit unbekanntem Messniveau aufgef hrt werden Mit diesem Dialogfeld k nnen Sie diesen Feldern ein Messniveau zuweisen Au erdem k nnen Sie in der Variablenansicht des Daten Editors ein Messniveau zuweisen Da das Messniveau f r diese Prozedur bedeutsam ist k nnen Sie erst dann auf das Dialogfeld zur Ausf hrung dieser Prozedur zugreifen wenn f r alle Felder ein Messniveau definiert wurde 29 Radiale Basisfunktion Partitionen Abbildung 3 3 Radiale Basisfunktion Registerkarte Partitionen FH Radiale Basisfunktion jem rr mme emm men Er Ontonen variablen rPartitions Datenblatt amp Geographic indicator region E Months with service tenure amp Toll free service tollfree Partitionen Eimert rental es Patton Rete Zan amp Calling card service callcard ini amp Wireless service wireless E Long distance last month longmon E Toll free last month tollmon E Equipment last month equipmon E Calling card last month
23. Fr hst ckgewohnheiten befragt wurden Au erdem wurden Alter Geschlecht Familienstand und Vorliegen bzw Nichtvorliegen eines aktiven Lebensstils auf der Grundlage von mindestens zwei Trainingseinheiten pro Woche erfasst Jeder Fall entspricht einem Teilnehmer clothing_defects sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Bekleidungsfabrik geht Aus jeder in der Fabrik produzierten Charge entnehmen die Kontrolleure eine Stichprobe an Bekleidungsartikeln und z hlen die Anzahl der Bekleidungsartikel die inakzeptabel sind ER Anhang A coffee sav Diese Datendatei enth lt Daten zum wahrgenommenen Image von sechs Eiskaffeemarken Kennedy Riquier als auch Sharp 1996 Bei den 23 Attributen des Eiskaffee Image sollten die Teilnehmer jeweils alle Marken ausw hlen die durch dieses Attribut beschrieben werden Die sechs Marken werden als AA BB CC DD EE und FF bezeichnet um Vertraulichkeit zu gew hrleisten contacts sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Kontaktlisten einer Gruppe von Vertretern geht die Computer an Unternehmen verkaufen Die einzelnen Kontaktpersonen werden anhand der Abteilung in der sie in ihrem Unternehmen arbeiten und anhand ihrer Stellung in der Unternehmenshierarchie in Kategorien eingeteilt Au erdem werden der Betrag des letzten Verkaufs die Zeit seit dem letzten
24. Internet Dienstanbieters geht der die Auswirkungen eines Virus auf seine Netzwerke ermitteln m chte Dabei wurde vom Moment der Virusentdeckung bis zu dem Zeitpunkt zu dem die Virusinfektion unter Kontrolle war der ungef hre prozentuale Anteil infizierter E Mail in den Netzwerken erfasst wheeze_steubenville sav Hierbei handelt es sich um eine Teilmenge der Daten aus einer Langzeitstudie zu den gesundheitlichen Auswirkungen der Luftverschmutzung auf Kinder Ware Dockery Spiro III Speizer als auch Ferris Jr 1984 Die Daten enthalten wiederholte bin re Messungen des Keuchens von Kindern aus Steubenville Ohio im Alter von 7 8 9 und 10 Jahren sowie eine unver nderlichen Angabe ob die Mutter im ersten Jahr der Studie rauchte oder nicht workprog sav Hierbei handelt es sich um eine hypothetische Datendatei zu einem Arbeitsprogramm der Regierung das versucht benachteiligten Personen bessere Arbeitspl tze zu verschaffen Eine Stichprobe potenzieller Programmteilnehmer wurde beobachtet Von diesen Personen wurden nach dem Zufallsprinzip einige f r die Teilnahme an dem Programm ausgew hlt Jeder Fall entspricht einem Programmteilnehmer worldsales sav Diese hypothetische Datendatei enth lt Verkaufserl se nach Kontinent und Produkt Anhang Hinweise Diese Informationen wurden f r weltweit angebotene Produkte und Dienstleistungen erarbeitet IBM bietet die in diesem Dokument behandelten Produkte Dienstleistungen oder
25. Kapitel 4 m Ebenso wird f r jede Kategorie von Previously defaulted vorherige Nichtzahlung eine separate Ausgabeeinheit erstellt f r insgesamt zwei Einheiten in der Ausgabeschicht m Die automatische Architekturauswahl hat vier Einheiten in der verborgenen Schicht ausgew hlt m Bei allen anderen Netzwerkinformationen werden die Standardwerte f r die Prozedur verwendet Modellzusammenfassung Abbildung 4 8 Modellzusammenfassung Training Kreuzentropiefehler 156 606 Prozentsatz der falschen Vorhersagen 15 6 Verwendete Abbruchregel Maximale Anzahl an Epochen 100 berschritten Trainingszeit 00 00 00 081 Holdout Prozentsatz der falschen Vorhersagen 25 4 Abh ngige Variable Previously defaulted In der Modellzusammenfassung werden Informationen zu den Ergebnissen des Trainings und der Anwendung des endg ltigen Netzwerks auf die Holdout Stichprobe angezeigt m Der Kreuzentropiefehler wird angezeigt da in der Ausgabeschicht die Aktivierungsfunktion Softmax verwendet wird Dies ist die Fehlerfunktion die das Netzwerk w hrend des Trainings zu minimieren versucht m Der Prozentsatz der falschen Vorhersagen wird aus der Klassifikationsmatrix entnommen und in dem zugeh rigen Thema eingehender er rtert m Der Sch tzalgorithmus wurde angehalten da die maximale Anzahl an Epochen erreicht war Im Idealfall sollte das Training beendet werden da der Fehler konvergiert hat Dies wirft die Frage auf
26. Pr ferenzen einzustufen Die Variablen PREF bis PREF22 enthalten die IDs der zugeordneten Profile wie in carpet_plan sav definiert catalog sav Diese Datendatei enth lt hypothetische monatliche Verkaufszahlen f r drei Produkte die von einem Versandhaus verkauft werden Daten f r f nf m gliche Einflussvariablen wurden ebenfalls aufgenommen catalog_seasfac sav Diese Datendatei ist mit catalog sav identisch au er dass ein Set von saisonalen Faktoren die mithilfe der Prozedur Saisonale Zerlegung berechnet wurden sowie die zugeh rigen Datumsvariablen hinzugef gt wurden cellular sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Mobiltelefonunternehmens geht die Kundenabwanderung zu verringern Scores f r die Abwanderungsneigung von 0 bis 100 werden auf die Kunden angewendet Kunden mit einem Score von 50 oder h her streben vermutlich einen Anbieterwechsel an ceramics sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Herstellers geht der ermitteln m chte ob ein neue hochwertige Keramiklegierung eine gr ere Hitzebest ndigkeit aufweist als eine Standardlegierung Jeder Fall entspricht einem Test einer der Legierungen die Temperatur bei der das Keramikw lzlager versagte wurde erfasst cereal sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Umfrage geht bei der 880 Personen nach ihren
27. a Die Einstellung f r den aktiven Generator wird sofort bernommen und gilt auch f r zuk nftige Sitzungen CE ern ann seem m W hlen Sie Anfangswert festlegen W hlen Sie Fester Wert und geben Sie 9191972 als Wert ein Klicken Sie auf OK Durchf hren der Analyse gt Zum Ausf hren einer Analyse vom Typ Mehrschichtiges Perzeptron w hlen Sie die folgenden Men befehle aus Analysieren gt Neuronale Netzwerke gt Mehrschichtiges Perzeptron 60 Kapitel 4 Abbildung 4 24 Mehrschichtiges Perzeptron Registerkarte Variablen und Kontextmen f r Length of stay Aufenthaltsdauer Yon Prien mme Traing Ausgabe Spschem rte eer Variablen Abhangige variablen See EES Secret amp Prescribed nitroglycerin nitro amp Taking anti clotting drugs anticlot amp Hospital ID site amp Attending physician attphys amp Time to hospital time amp Dead on arrival doa EKG resut ekg d CPK blood result cpk amp Troponin T blood result tropt amp Clot dissolving drugs clotsolv amp Hemorrhaging bleed amp Magnesium magnes Digitalis digi d Beta blockers betabik d Died in ER der amp Surgical treatment proc amp Surgical complications comp al Surgery result result Yariablennamen anzeigen it Variablenlabels anzeigen Erneute Skalierung von Kovariaten Alphabetisch sortieren Nach Reihenfolge in Datei sortieren
28. angezeigt wobei die Kategorie der 19 Mehrschichtiges Perzeptron beobachteten Antworten als Klumpenvariable fungiert Bei metrischen abh ngigen Variablen wird ein Streudiagramm angezeigt Diagramm Residuum Vorhergesagt Zeigt f r jede metrische abh ngige Variable ein Diagramm an das die Residuen in Abh ngigkeit von den vorhergesagten Werten angibt Es sollte kein Muster zwischen Residuen und vorhergesagten Werten zu beobachten sein Dieses Diagramm wird nur bei metrischen abh ngigen Variablen erstellt Zusammenfassung der Fallverarbeitung Zeigt die Tabelle mit der Zusammenfassung der Fallverarbeitung an die die Anzahl der in der Analyse ein und ausgeschlossenen F lle zusammenfasst insgesamt und nach Trainings Test und Holdout Stichprobe geordnet Wichtigkeitsanalyse f r unabh ngige Variablen F hrt eine Sensitivit tsanalyse durch mit der die Wichtigkeit der einzelnen Einflussvariablen f r die Bestimmung des neuronalen Netzwerks berechnet wird Die Analyse beruht auf der Kombination aus Trainings und Teststichprobe bzw nur auf der Trainingsstichprobe wenn keine Teststichprobe vorhanden ist Dadurch werden eine Tabelle und ein Diagramm erstellt die die Wichtigkeit und die normalisierte Wichtigkeit f r die einzelnen Einflussvariablen anzeigen Beachten Sie dass die Sensitivit tsanalyse rechenintensiv und zeitaufwendig ist wenn eine gro e Anzahl an Einflussvariablen oder F llen vorliegt 20 Kapitel
29. bei der es um die Qualit tskontrolle in einer Fabrik f r Haarpflegeprodukte geht In regelm igen Zeitabst nden werden Messwerte von sechs separaten Ausgangschargen erhoben und ihr pH Wert erfasst Der Zielbereich ist 4 5 5 5 ships sav Ein an anderer Stelle McCullagh et al 1989 vorgestelltes und analysiertes Daten Set bezieht sich auf die durch Wellen verursachten Sch den an Frachtschiffen Die Vorfallsh ufigkeiten k nnen unter Angabe von Schiffstyp Konstruktionszeitraum und Betriebszeitraum gem einer Poisson Rate modelliert werden Das Aggregat der Betriebsmonate f r jede Zelle der durch die Kreuzklassifizierung der Faktoren gebildeten Tabelle gibt die Werte f r die Risikoanf lligkeit an site sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Unternehmens geht neue Standorte f r die betriebliche Expansion auszuw hlen Das Unternehmen beauftragte zwei Berater unabh ngig voneinander mit der Bewertung der Standorte Neben einem umfassenden Bericht gaben die Berater auch eine zusammenfassende Wertung f r jeden Standort als good gut fair mittelm ig oder poor schlecht ab smokers sav Diese Datendatei wurde aus der Umfrage National Household Survey of Drug Abuse aus dem Jahr 1998 abstrahiert und stellt eine Wahrscheinlichkeitsstichprobe US amerikanischer Haushalte dar Attp dx doi org 10 3886 ICPSR02934 Daher sollte der erste Schritt bei der
30. berechneten Bereichs finden Die Prozedur berechnet automatisch den Mindest und H chstwert des Bereichs und ermittelt die beste Anzahl an verborgenen Einheiten innerhalb des Bereichs Wenn eine Teststichprobe definiert wurde verwendet die Prozedur das Testdatenkriterium Die beste Anzahl an verborgenen Einheiten ist diejenige die zum kleinsten Fehler bei den Testdaten f hrt Wenn keine Teststichprobe definiert wurde verwendet die Prozedur das Bayes Informationskriterium BIC Die beste Anzahl an verborgenen Einheiten ist diejenige die auf der Grundlage der Trainingsdaten zum kleinsten BIC f hrt Beste Anzahl an Einheiten innerhalb eines angegebenen Bereichs finden Sie k nnen selbst einen Bereich angeben und die Prozedur ermittelt die beste Anzahl an verborgenen Einheiten innerhalb dieses Bereichs Wie zuvor wird auch hier die beste Anzahl an verborgenen Einheiten im Bereich mithilfe des Testdatenkriteriums bzw des Bayes Informationskriteriums BIC ermittelt Eine vorgegebene Anzahl an Einheiten verwenden Sie k nnen die Verwendung eines Bereichs au er Kraft setzen und stattdessen direkt eine bestimmte Anzahl an Einheiten eingeben Aktivierungsfunktion f r verborgene Schicht Die Aktivierungsfunktion f r die verborgene Schicht ist die radiale Basisfunktion die die Einheiten in einer Schicht mit den Werten der Einheiten in der vorhergehenden Schicht verkn pft Bei der Ausgabeschicht dient die Identit tsfunktion als Akti
31. die tats chlich in die Kategorie Total service fallen Ebenso enthalten die obersten 20 ungef hr 30 der zahlungsunf higen Personen die obersten 30 der F lle 50 der zahlungsunf higen Personen usw Bei Auswahl von 100 des gescorten Daten Sets erfassen Sie alle zahlungsunf higen Personen im Daten Set Die diagonale Linie ist die Basis Kurve Wenn Sie nach dem Zufallsprinzip 10 der F lle aus dem gescorten Daten Set ausw hlen ist zu erwarten dass Sie ungef hr 10 der F lle gewinnen die tats chlich in eine bestimmte Kategorie fallen Je h her ber der Basis eine Kurve liegt desto gr er ist der Gewinn 87 Radiale Basisfunktion Abbildung 5 14 Lift Chart Index Basic service E service OPlus service Total service 1 0 H H 7 i aa Ep 0 10 20 30 40 50 60 70 80 90 100 Prozentsatz Abh ngige Variable Customer category Der Lift Chart wird aus dem kumulativen Gewinndiagramm abgeleitet die Werte auf der y Achse entsprechen dem Quotienten aus dem kumulativen Gewinn f r jede Kurve und der Basis Der Lift bei 10 f r die Kategorie Total service betr gt somit 20 10 2 0 Er bietet eine alternative M glichkeit zur Analyse der Informationen im kumulativen Gewinndiagramm Anmerkung Das kumulative Gewinndiagramm und der Lift Chart beruhen auf der Kombination aus Trainings und Teststichprobe Empfohlene Literatur In folgenden Texten finden Sie weitere Informationen zu
32. ein weiterer unabh ngiger Satz von Datens tzen der zur Bewertung des endg ltigen neuronalen Netzwerks verwendet wird der Fehler f r die Houldout Stichprobe bietet eine ehrliche Sch tzung der Vorhersagekraft des Modells da die Pr ff lle die F lle in der Holdout Stichprobe nicht zur Erstellung des Modells verwendet wurden m F lle auf der Grundlage der relativen Anzahl an F llen zuf llig zuweisen Geben Sie die relative Anzahl Verh ltnis der F lle an die den einzelnen Stichproben Training Test und Holdout nach dem Zufallsprinzip zugewiesen werden sollen Die Spalte gibt auf der Grundlage der 20 Kapitel 3 von Ihnen angegebenen Werte f r die relative Anzahl den Prozentsatz der F lle an die den einzelnen Stichproben zugewiesen werden Die Angabe von 7 3 0 als relative Anzahl f r Training Test und Holdout Stichprobe entspricht 70 30 und 0 Die Angabe von 2 1 1 als Werte f r die relative Anzahl entspricht 50 25 und 25 1 1 1 entspricht der Aufteilung des Daten Sets in drei gleich gro e Teile f r Training Test und Holdout m Partitionsvariable zum Zuweisen von F llen verwenden Geben Sie eine numerische Variable an die jeden Fall in der Arbeitsdatei der Trainings Test bzw Holdout Stichprobe zuweist F lle mit einem positiven Wert f r die Variable werden der Trainingsstichprobe zugewiesen F lle mit dem Wert 0 der Teststichprobe und F lle mit einem negativen Wert der Holdout St
33. h ufige Aktualisierung der Gewichtungen erforderlich sein bis eine der Abbruchregeln erf llt ist sodass sehr viele Datendurchl ufe notwendig sein k nnen Es eignet sich vor allem f r kleinere Daten Sets Online Aktualisiert die synaptischen Gewichtungen nach jedem einzelnen Trainingsdatensatz Beim Online Training werden also jeweils immer nur die Daten aus einem einzigen Datensatz verwendet Das Online Training ruft st ndig einen Datensatz ab und aktualisiert die 15 Mehrschichtiges Perzeptron Gewichtungen bis eine der Abbruchregeln erf llt ist Wenn alle Datens tze einmal verwendet wurden und keine der Abbruchregeln erf llt ist wird der Prozess mit einem erneuten Durchlauf der Datens tze fortgesetzt Online Training ist dem Batch Training bei gr eren Daten Sets mit zugeordneten Einflussvariablen vorzuziehen Wenn also viele Datens tze und viele Eingaben vorliegen und ihre Werte nicht voneinander unabh ngig sind kann das Online Training schneller zu einer brauchbaren Antwort f hren als das Batch Training Mini Batch Unterteilt die Trainingsdatens tze in ungef hr gleich gro e Gruppen und aktualisiert dann die synaptischen Gewichtungen jeweils nach dem Durchlauf einer Gruppe Beim Mini Batch Training werden also Informationen aus einer Gruppe von Datens tzen verwendet Anschlie end wird die Datengruppe falls erforderlich erneut verwendet Mini Batch Training stellt einen Kompromiss zwischen Batch Traini
34. income inth E Debt to income ratio x Funktionsguppe 9 Credit card debt in tho Lal Le 8E Other debt in thousand amp Previously defaulted d Yerteilungsfunktionen L Predicted default mod Umwandlung E Predicted default mod Aktuelles Datum aktuelle Uhre gt Predicted default mod E partition Funktionen und Sondervariablen W hlen Sie Fall einschlie en wenn Bedingung erf llt ist aus Geben Sie Partition gt O in das Textfeld ein Klicken Sie auf Weiter Klicken Sie im Dialogfeld Variable berechnen auf OK Dadurch werden die Werte von Partition die gr er waren als 0 zur ckgesetzt sodass ungef hr 20 den Wert 0 annehmen und 80 weiterhin den Wert aufweisen Insgesamt befinden sich nun 100 0 7 0 8 56 der Kunden die zuvor Kredite erhalten haben in der Trainings Stichprobe und 14 in der Teststichprobe Kunden die urspr nglich der Holdout Stichprobe zugewiesen wurden verbleiben dort Durchf hren der Analyse gt Rufen Sie das Dialogfeld Mehrschichtiges Perzeptron erneut auf und klicken Sie auf die Registerkarte Speichern W hlen Sie die Option F r jede abh ngige Variable vorhergesagte Pseudo Wahrscheinlichkeit speichern Klicken Sie auf OK 50 Kapitel 4 Zusammenfassung der Fallverarbeitung Abbildung 4 12 Zusammenfassung der Fallverarbeitung f r Modell mit Teststichprobe LL H Prozent Beispiel Training Testing
35. ist eine eingetragene Marke von Linus Torvalds in den USA anderen L ndern oder beidem Microsoft Windows Windows NT und das Windows Logo sind Marken der Microsoft Corporation in den USA anderen L ndern oder beidem UNIX ist eine eingetragene Marke der The Open Group in den USA und anderen L ndern In diesem Produkt wird WinWrap Basic verwendet Copyright 1993 2007 Polar Engineering and Consulting http www winwrap com Andere Produkt und Servicenamen k nnen Marken von IBM oder anderen Unternehmen sein Screenshots von Adobe Produkten werden mit Genehmigung von Adobe Systems Incorporated abgedruckt Screenshots von Microsoft Produkten werden mit Genehmigung der Microsoft Corporation abgedruckt rerargnt Bibliografie Bell E H 1961 Social foundations of human behavior Introduction to the study of sociology New York Harper amp Row Bishop C M 1995 Neural Networks for Pattern Recognition 3rd Hg Oxford Oxford University Press Blake C L als auch C J Merz 1998 UCI Repository of machine learning databases Available at http www ics uci edu mlearn MLRepository html Breiman L als auch J H Friedman 1985 Estimating optimal transformations for multiple regression and correlation Journal of the American Statistical Association 80 Collett D 2003 Modelling survival data in medical research 2 Hg Boca Raton Chapman amp Hall CRC Fine T L 1999 Feedforward Neural Network
36. mit steigender Anzahl an Einflussvariablen und F llen immer zeitaufwendiger Deaktivieren Sie die Option Diagramm Durch die vielen Eingaben w rde das Diagramm un berschaubar Wahlen Sie im Gruppenfeld Netzwerkleistung die Optionen Diagramm Vorhergesagt Beobachtet und Diagramm Residuum Vorhergesagt aus Die Klassifikationsergebnisse die ROC Kurve das kumulative Gewinndiagramm und der Lift Chart sind nicht verf gbar da keine der abh ngigen Variablen als kategorial nominal oder ordinal behandelt wird W hlen Sie die Option Wichtigkeitsanalyse f r unabh ngige Variablen Klicken Sie auf die Registerkarte Optionen 66 Kapitel 4 Abbildung 4 30 Registerkarte Optionen al Mehrschichtiges Perzeptron X orien egen mme Traing Ausgabe men Emtee mmer rBenutzerdefiniert fehlende Verte Geben Sie an wie F lle mit benutzerdefiniert fehlenden WVerten bei Faktoren und abh ngigen kategorialen Variablen behandelt werden sollen Ausschlie en Einschlie en F lle mit benutzerdefinierten Werten bei Kovariaten und abh ngigen metrischen Variablen sind immer ausgeschlossen r amp bbruchregeln Abbruchregeln werden in der unten angegebenen Reihenfolge getestet Maximale Anzahl an Schritten ohne Verringerung des Fehlers rBei der Berechnung des Yorhersagefehlers zu verwendende Daten Automatisch ausw hlen Trainings und Testdaten Maximale Trainingszeit Minuten
37. month longmon E Toll free last month tollmon E Equipment last month equipmon E Calling card last month cardmon 8E Wireless last month wiremon E Long distance over tenure longten E Toll free over tenure toliten E Equipment over tenure equipten E Calling card over tenure cardten E Wireless over tenure wireten amp Multiple lines multline amp Voice mail voice amp Paging service pager amp Internet internet en Klicken Sie in der Liste Variablen mit der rechten Maustaste auf eine Variable um deren Messniveau zu ndern Variablen EZ Radiale Basisfunktion X um Pantonen mm Ausgabe Speichern Exporteren Se Abhangige Variablen amp Customer category custcat Erneute Skalierung von abhangigen metrischen Variablen Standardisiert Faktoren amp Marital status marital N Level of education ed o Retired retire Gender gender Kovariaten Age in years age Years at current address address amp Household income in thousands income E Years with current employer employ amp Number of people in household reside Erneute Skalierung von Kovariaten La 1 sw Izeg ap 1 ms W hlen Sie Customer category custcat Kundenkategorie als abh ngige Variable aus W hlen Sie Marital status marital Familienstand Level of education ed Bildungsniveau Retired retire Im Ruhestand und Gender gender Geschlecht als Faktoren aus
38. nnen Sie die Modellinformationen zu Bewertungszwecken auf andere Datendateien anwenden Diese Option ist nicht verf gbar wenn aufgeteilte Dateien definiert wurden 23 Mehrschichtiges Perzeptron Optionen Abbildung 2 9 Mehrschichtiges Perzeptron Registerkarte Optionen Ei Mehrschichtiges Perzeptron Veen oe Artur Ting Ausgabe Speichen ren De rBenutzerdefiniert fehlende Werte Geben Sie an wie F lle mit benutzerdefiniert fehlenden Werten bei Faktoren und abh ngigen kategorialen Yariablen behandelt werden sollen Ausschlie en Einschlie en F lle mit benutzerdefinierten Werten bei Kovariaten und abh ngigen metrischen Variablen sind immer ausgeschlossen rAbbruchregeln Abbruchregeln werden in der unten angegebenen Reihenfolge getestet Maximale Anzahl an Schritten ohne Verringerung des Fehlers k Bei der Berechnung des Vorhersagefehlers zu verwendende Daten Automatisch ausw hlen i jat Traini ind Testdater e Maximale Trainingszeit Minuten Maximale Anzahl an Trainingsepochen Automatisch berechnen Benutzerdefinierte Werte festlegen Minimale relative nderung beim Trainingsfehler 0 0001 Minimale relative nderung beim Trainingstehlerquotienten Maximale Anzahl der im Arbeitsspeicher zu speichernden Falle a lengen Zuzuetentzen apen 1 ms Benutzerdefinierte fehlende Werte Faktoren m ssen g ltige Werte f r einen Fall aufweise
39. nur dieselben Einstellungen f r die Prozedur sondern auch denselben Initialisierungswert f r den Zufallszahlengenerator und dieselbe Datenreihenfolge verwenden Weitere Details zu diesem Problem folgen m Generierung von Zufallszahlen Die Prozedur verwendet Zufallszahlengenerierung w hrend der Zufallszuweisung von Partitionen Um zu einem sp teren Zeitpunkt dieselben randomisierten Ergebnisse zu reproduzieren m ssen Sie vor jeder Ausf hrung der Prozedur Radiale Basisfunktion denselben Initialisierungswert f r den Zufallszahlengenerator verwenden Einzelschrittanweisungen hierzu finden Sie unter Vorbereiten der Daten f r die Analyse auf S 76 Fallreihenfolge Au erdem h ngen die Ergebnisse von der Datenreihenfolge ab da der Two Step Cluster Algorithmus zur Ermittlung der radialen Basisfunktionen verwendet wird Um die Auswirkungen der Reihenfolge zu minimieren mischen Sie die F lle in zuf lliger Reihenfolge Pr fen Sie daher die Stabilit t einer bestimmten L sung indem Sie verschiedene L sungen abrufen bei denen die F lle in einer unterschiedlichen zuf llig ausgew hlten Reihenfolgen sortiert sind In Situationen mit extrem umfangreichen Dateien k nnen 27 Radiale Basisfunktion mehrere Durchg nge mit jeweils einer Stichprobe von F llen durchgef hrt werden die in unterschiedlicher zuf llig ausgew hlter Reihenfolge sortiert ist Erstellen eines Netzwerks mit radialen Basisifunktionen Wahlen Sie di
40. ob w hrend des Trainings etwas schief gelaufen ist und sollte bei der weiteren Analyse der Daten im Hinterkopf behalten werden Klassifikation Abbildung 4 9 Klassifikation Percent p Benhachte No Yes Correct DIE GE Training No Yes Overall Percent No Yes Overall Percent Abhangige Variable Previously defaulted 47 Mehrschichtiges Perzeptron Die Klassifikationsmatrix zeigt die praktischen Ergebnisse der Verwendung des Netzwerks In jedem Fall ist die vorhergesagte Antwort Ja wenn die vorhergesagte Pseudo Wahrscheinlichkeit der F lle gr er als 0 5 ist F r jede Stichprobe gilt m Zellen auf der Diagonale der Kreuzklassifikation der F lle stellen korrekte Vorhersagen dar m Zellen abseits der Diagonale der Kreuzklassifikation der F lle stellen falsche Vorhersagen dar Von den f r die Modellerstellung verwendeten F llen wurden 74 von 124 Personen die zuvor Zahlungsunf hig waren korrekt klassifiziert 347 der 375 zahlungsf higen Personen wurden korrekt klassifiziert Insgesamt wurden 84 4 der F lle korrekt klassifiziert Dies entspricht den 15 6 der falsch klassifizierten F lle die aus der Modellzusammenfassungstabelle ersichtlich sind Das Modell ist umso besser je h her der Prozentsatz der korrekt klassifizierten F lle ist Die Klassifizierung anhand der F lle mit denen das Modell erstellt wurde ger t jedoch leicht zu optimistisch da die Klassifizierungsrate aufgebl ht ist Die
41. size Wahrscheinlichkeit proportional zur Gr e verwendet wird gibt es au erdem eine Datei mit den gemeinsamen Auswahlwahrscheinlichkeiten recidivism_cs_jointprob sav rfm_transactions sav Eine hypothetische Datendatei mit Kauftransaktionsdaten wie Kaufdatum gekauften Artikeln und Geldbetrag f r jede Transaktion salesperformance sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bewertung von zwei neuen Verkaufsschulungen geht 60 Mitarbeiter die in drei Gruppen unterteilt sind erhalten jeweils eine Standardschulung Zus tzlich erh lt Gruppe 2 eine technische Schulung und Gruppe 3 eine Praxisschulung Die einzelnen Mitarbeiter wurden am Ende der Schulung einem Test unterzogen und die erzielten Punkte wurden erfasst Jeder Fall in der Datendatei stellt einen Lehrgangsteilnehmer dar und enth lt die Gruppe der der Lehrgangsteilnehmer zugeteilt wurde sowie die von ihm in der Pr fung erreichte Punktzahl satisf sav Hierbei handelt es sich um eine hypothetische Datendatei zu einer Zufriedenheitsumfrage die von einem Einzelhandelsunternehmen in 4 Filialen durchgef hrt wurde Insgesamt wurden 582 Kunden befragt Jeder Fall gibt die Antworten eines einzelnen Kunden wieder 97 Beispieldateien screws sav Diese Datendatei enth lt Informationen zu den Eigenschaften von Schrauben Bolzen Muttern und Rei n geln Hartigan 1975 shampoo_ph sav Hierbei handelt es sich um eine hypothetische Datendatei
42. stellen fiir jede Kategorie die Wahrscheinlichkeit dar dass die vorhergesagte Wahrscheinlichkeit in diese Kategorie zu geh ren f r einen zuf llig ausgew hlten Fall in der betreffenden Kategorie gr er ist als f r einen zuf llig ausgew hlten Fall der nicht in diese Kategorie eingeteilt wurde So besteht beispielsweise bei einem zuf llig ausgew hlten Kunden in Plus service und einem zuf llig ausgew hlten Kunden in Basic service E Service 86 Kapitel 5 oder Total service eine Wahrscheinlichkeit von 0 668 dass die vom Modell vorhergesagte Pseudo Wahrscheinlichkeit der Zahlungsunf higkeit f r den Kunden in Plus service h her ist Kumulatives Gewinndiagramm und Lift Chart Abbildung 5 13 Kumulatives Gewinndiagramm Basic service E service OPlus service Total service 0 0 10 20 30 40 50 60 70 80 90 100 Prozentsatz Abhangige Variable Customer category Das kumulative Gewinndiagramm zeigt den Prozentsatz der F lle in einer bestimmten Kategorie die gewonnen werden indem ein bestimmter Prozentsatz der Gesamtzahl der F lle anvisiert wird Beispiel Der erste Punkt auf der Kurve f r die Kategorie Total service liegt ungef hr bei 10 20 Dies bedeutet Folgendes Wenn Sie ein Daten Set mit dem Netzwerk scoren und alle F lle nach der vorhergesagten Pseudo Wahrscheinlichkeit von Total service sortieren ist zu erwarten dass die obersten 10 ungef hr 20 aller F lle enthalten
43. um eine hypothetische Datendatei in der es um die Bem hungen eines f r einen Bezirk County zust ndigen Immobilienbewerters geht trotz eingeschr nkter Ressourcen die Einsch tzungen des Werts von Immobilien auf dem aktuellsten Stand zu halten Die F lle entsprechen den Immobilien die im vergangenen Jahr in dem betreffenden County verkauft wurden Jeder Fall in der Datendatei enth lt die Gemeinde in der sich die Immobilie befindet den Bewerter der die Immobilie besichtigt hat 96 Anhang A die seit dieser Bewertung verstrichene Zeit den zu diesem Zeitpunkt ermittelten Wert sowie den Verkaufswert der Immobilie property_assess_cs sav Hierbei handelt es sich um eine hypothetische Datendatei in der es um die Bem hungen eines f r einen US Bundesstaat zust ndigen Immobilienbewerters geht trotz eingeschr nkter Ressourcen die Einsch tzungen des Werts von Immobilien auf dem aktuellsten Stand zu halten Die F lle entsprechen den Immobilien in dem betreffenden Bundesstaat Jeder Fall in der Datendatei enth lt das County die Gemeinde und das Wohnviertel in dem sich die Immobilie befindet die seit der letzten Bewertung verstrichene Zeit sowie zu diesem Zeitpunkt ermittelten Wert property_assess_cs_sample sav Diese hypothetische Datendatei enth lt eine Stichprobe der in property_assess_cs sav aufgef hrten Immobilien Die Stichprobe wurde gem dem in der Plandatei property_assess csplan angegebenen Stichprobenplan gezogen un
44. verschiedener Meinungskennzahlen Sie beruht auf einer Teilmenge der Variablen aus der NORC General Social Survey aus dem Jahr 1998 Allerdings wurden zu Demonstrationszwecken einige Daten abge ndert und weitere fiktive Variablen hinzugef gt 93 Anhang A telco sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Telekommunikationsunternehmens geht die Kundenabwanderung zu verringern Jeder Fall entspricht einem Kunden und enth lt verschiedene Informationen zum demografischen Hintergrund und zur Servicenutzung telco_extra sav Diese Datendatei hnelt der Datei telco sav allerdings wurden die Variablen tenure und die Log transformierten Variablen zu den Kundenausgaben entfernt und durch standardisierte Log transformierte Variablen ersetzt telco_missing sav Diese Datendatei ist eine Untermenge der Datendatei telco sav allerdings wurde ein Teil der demografischen Datenwerte durch fehlende Werte ersetzt testmarket sav Diese hypothetische Datendatei bezieht sich auf die Pl ne einer Fast Food Kette einen neuen Artikel in ihr Men aufzunehmen Es gibt drei m gliche Kampagnen zur Verkaufsf rderung f r das neue Produkt Daher wird der neue Artikel in Filialen in mehreren zuf llig ausgew hlten M rkten eingef hrt An jedem Standort wird eine andere Form der Verkaufsf rderung verwendet und die w chentlichen Verkaufszahlen f r das neue Produkt werden f r die ersten vier Wochen a
45. von den Kosten f r Fehler erster und zweiter Art Typ I und Typ II ab Wie hoch sind die Kosten der Einstufung einer zahlungsunf higen Person in die Gruppe der nicht zahlungsunf higen Personen Fehler erster Art Wie hoch sind die Kosten der Einstufung einer nicht zahlungsunf higen Person in die Gruppe der zahlungsunf higen Personen Fehler zweiter Art Wenn die Vermeidung uneinbringlicher Forderungen das Hauptanliegen ist sollte der Fehler erster Art Typ D m glichst niedrig gehalten werden Beim kumulativen 56 Kapitel 4 Gewinndiagramm k nnte dies damit erreicht werden dass Antragstellern aus den obersten 40 der Pseudo Wahrscheinlichkeit von Ja keine Kredite gew hrt werden Damit sind fast 90 der Personen die voraussichtlich zahlungsunf hig werden erfasst Allerdings wird damit auch fast die H lfte der Antragsteller abgelehnt Wenn die Erweiterung des Kundenstamms oberste Priorit t hat sollte der Fehler zweiter Art Typ II minimiert werden in diesem Diagramm entspricht dies einer Ablehnung der obersten 10 wodurch 30 der zahlungsunf higen Personen erfasst werden und die Menge der Antragsteller nahezu gleich bleibt Normalerweise sind beide Punkte von gro er Bedeutung sodass Sie eine Entscheidungsregel f r die Klassifizierung von Kunden aufstellen m ssen die die beste Mischung aus Sensitivit t und Spezifit t bietet Abbildung 4 20 Lift Chart Index No yes 3 0 2 5 l 20 1 0 0 10 20 30
46. 0 cc ccc eee eens 74 AUSWEFUNG 20 cee eee teen eee teen nents 74 Empfohlene Literatur 75 5 Radiale Basisfunktion 76 Verwenden der radialen Basisfunktion zum Klassifizieren von Telekommunikationskunden 76 Vorbereiten der Daten f r die Analyse 2 0 0 0 nennen 76 Durchf hren der Analyse 0 0 ee nent eee n eens 71 Zusammenfassung der Fallverarbeitung 000 cece eee eee 80 Netzwerkinformationen 00 cee teeta 81 Modellzusammenfassung 82 Klassifikation e eee ed ea NEEN nn de eee eet 82 Diagramm Vorhergesagt Beobachtet 0 cece eee ee 83 RU kung 85 Kumulatives Gewinndiagramm und Lift Chart 86 Empfohlene Literatur 87 vi Anh nge A Beispieldateien 89 B Hinweise 100 Bibliografie 103 Index 105 Teil I Benutzerhandbuch Kapitel Einf hrung in Neural Networks Neuronale Netzwerke Neuronale Netzwerke sind aufgrund ihrer Leistungsf higkeit Flexibilit t und Benutzerfreundlichkeit das bevorzugte Werkzeug f r zahlreiche Anwendungen auf dem Gebiet des pr diktiven Data Mining Pr diktive neuronale Netzwerke sind besonders n tzlich bei Anwendungen denen ein komplexer Prozess zugrunde liegt wie beispielsweise m Prognose der Verbrauchernachfrage zur Rationalisierung von Produktions und Lieferkosten m Vorhersage der Antwortwahrscheinlichkeit bei Marketingaktionen mit Postsendungen um zu ermitteln an welche Haushalte im Verteiler ein Angebot gesendet werden so
47. 2 Speichern Abbildung 2 7 Mehrschichtiges Perzeptron Registerkarte Speichern Cl Mehrschichtiges Perzeptron Veen Palmen mme Ting Ausgabe Spaten rte mm E F r jede abh ngige Variable vorhergesagten Wert bzw Kategorie speichern E F r jede abh ngige Variable vorhergesagte Pseudo VVYahrscheinlichkeit speichern Variablen Abh ngige Variable r Namen der gespeicherten Variablen Automatisch eindeutige Namen generieren W hlen Sie diese Option wenn Sie bei jeder Ausf hrung eines Modells ein neues Set gespeicherter Variablen zu Ihrem Datenblatt hinzuf gen m chten Benutzerdefinierte Namen Geben Sie Namen f r die Variablen an Bei Auswahl dieser Option werden bei jeder Ausf hrung eines Modells alle bestehenden Variablen mit demselben Namen bzw Stammnamen ersetzt La 1 sw J ap 1 rare Auf der Registerkarte Speichern k nnen Vorhersagen im Daten Set als Variablen gespeichert werden m F r jede abh ngige Variable vorhergesagten Wert bzw Kategorie speichern Damit wird bei metrischen abh ngigen Variablen der vorhergesagte Wert und bei kategorialen abh ngigen Variablen die vorhergesagte Kategorie gespeichert m F r jede abh ngige Variable vorhergesagte Pseudo Wahrscheinlichkeit bzw Kategorie speichern Damit werden bei kategorialen abh ngigen Variablen die vorhergesagten Pseudo Wahrscheinlichkeiten gespeichert F r die ersten n Kategorien wird eine separate Variable
48. 4 Shimotsuruma Yamato shi Kanagawa 242 8502 Japan Der folgende Abschnitt findet in Gro britannien und anderen L ndern keine Anwendung in denen solche Bestimmungen nicht mit der rtlichen Gesetzgebung vereinbar sind INTERNATIONAL BUSINESS MACHINES STELLT DIESE VER FFENTLICHUNG IN DER VERF GBAREN FORM OHNE GARANTIEN BEREIT SEIEN ES AUSDR CKLICHE ODER STILLSCHWEIGENDE EINSCHLIESSLICH JEDOCH NICHT NUR DER GARANTIEN BEZ GLICH DER NICHT RECHTSVERLETZUNG DER G TE UND DER EIGNUNG F R EINEN BESTIMMTEN ZWECK Manche Rechtsprechungen lassen den Ausschluss ausdr cklicher oder implizierter Garantien bei bestimmten Transaktionen nicht zu sodass die oben genannte Ausschlussklausel m glicherweise nicht f r Sie relevant ist Diese Informationen k nnen technische Ungenauigkeiten oder typografische Fehler aufweisen An den hierin enthaltenen Informationen werden regelm ig nderungen vorgenommen Diese nderungen werden in neuen Ausgaben der Ver ffentlichung aufgenommen IBM kann jederzeit und ohne vorherige Ank ndigung Optimierungen und oder nderungen an den Produkten und oder Programmen vornehmen die in dieser Ver ffentlichung beschrieben werden Copyright IBM Corporation 1989 2011 100 101 Hinweise Jegliche Verweise auf Drittanbieter Websites in dieser Information werden nur der Vollst ndigkeit halber bereitgestellt und dienen nicht als Bef rwortung dieser Das Material auf diesen Websites ist kein Bestandteil des Mat
49. Analyse dieser Datendatei darin bestehen die Daten entsprechend den Bev lkerungstrends zu gewichten stocks sav Diese hypothetische Datendatei umfasst B rsenkurse und volumina f r ein Jahr stroke_clean sav Diese hypothetische Datendatei enth lt den Zustand einer medizinischen Datenbank nachdem diese mithilfe der Prozeduren in der Option Data Preparation bereinigt wurde stroke_invalid sav Diese hypothetische Datendatei enth lt den urspr nglichen Zustand einer medizinischen Datenbank der mehrere Dateneingabefehler aufweist stroke_survival In dieser hypothetischen Datendatei geht es um die berlebenszeiten von Patienten die nach einem Rehabilitationsprogramm wegen eines isch mischen Schlaganfalls mit einer Reihe von Problemen zu k mpfen haben Nach dem Schlaganfall werden das Auftreten von Herzinfarkt isch mischem Schlaganfall und h morrhagischem Schlaganfall sowie der Zeitpunkt des Ereignisses aufgezeichnet Die Stichprobe ist auf der linken Seite abgeschnitten da sie nur Patienten enth lt die bis zum Ende des Rehabilitationprogramms das nach dem Schlaganfall durchgef hrt wurde berlebten stroke_valid sav Diese hypothetische Datendatei enth lt den Zustand einer medizinischen Datenbank nachdem diese mithilfe der Prozedur Daten validieren berpr ft wurde Sie enth lt immer noch potenziell anomale F lle survey_sample sav Diese Datendatei enth lt Umfragedaten einschlie lich demografischer Daten und
50. Batch Training angewendet werden wenn eine Teststichprobe vorhanden ist Mit Trainings und Testdaten wird der Fehler f r jede dieser Stichproben gepr ft diese Option gilt nur wenn eine Teststichprobe vorhanden ist Hinweis Nach jedem vollst ndigen Datendurchlauf ist beim Online und Mini Batch Training ein zus tzlicher Datendurchlauf zur Berechnung des Trainingsfehlers erforderlich Dieser zus tzliche Datendurchlauf kann das Training erheblich verlangsamen Daher wird allgemein empfohlen in jedem Fall eine Teststichprobe anzugeben und Automatisch ausw hlen zu verwenden Maximale Trainingszeit W hlen Sie aus ob eine maximale Anzahl von Minuten f r die Ausf hrung des Algorithmus angegeben werden soll Geben Sie einen Wert gr er 0 an Maximale Anzahl an Trainingsepochen Die maximal zul ssige Anzahl an Epochen Datendurchl ufen Wenn die maximale Anzahl an Epochen berschritten ist wird das Training beendet Geben Sie eine ganze Zahl gr er 0 an Minimale relative nderung beim Trainingsfehler Das Training wird beendet wenn die relative nderung beim Trainingfehler im Vergleich zum vorherigen Schritt kleiner ist als der Kriterienwert Geben Sie eine Zahl gr er 0 an Beim Online und Mini Batch Training wird dieses Kriterium ignoriert wenn zur Berechnung des Fehlers ausschlie lich Testdaten verwendet werden Minimale relative nderung beim Trainingsfehlerquotienten Das Training wird beendet wenn der Quotient aus
51. Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die ein Modell zur Kennzeichnung verd chtiger potenziell betr gerischer Anspr che erstellen m chte Jeder Fall entspricht einem Anspruch insure sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die die Risikofaktoren untersucht die darauf hinweisen ob ein Kunde die Leistungen einer mit einer Laufzeit von 10 Jahren abgeschlossenen Lebensversicherung in Anspruch nehmen wird Jeder Fall in der Datendatei entspricht einem Paar von Vertr gen je einer mit Leistungsforderung und der andere ohne wobei die beiden Versicherungsnehmer in Alter und Geschlecht bereinstimmen judges sav Hierbei handelt es sich um eine hypothetische Datendatei mit den Wertungen von ausgebildeten Kampfrichtern sowie eines Sportliebhabers zu 300 Kunstturnleistungen Jede Zeile stellt eine Leistung dar die Kampfrichter bewerteten jeweils dieselben Leistungen kinship_dat sav Rosenberg und Kim Rosenberg als auch Kim 1975 haben 15 Bezeichnungen f r den Verwandtschaftsgrad untersucht Tante Bruder Cousin Tochter Vater Enkelin Gro vater Gro mutter Enkel Mutter Neffe Nichte Schwester Sohn Onkel Die beiden Analytiker baten vier Gruppen von College Studenten zwei weibliche und zwei m nnliche Gruppen diese Bezeichnungen auf der Grundlage der hnlichkeiten zu sortieren Zwei Grup
52. Holdout G ltig Ausgeschlossen Gesamt Von den 499 F llen die urspr nglich der Trainingsstichprobe zugewiesen wurden wurden 101 nun der Teststichprobe zugewiesen Netzwerkinformationen Abbildung 4 13 Netzwerkinformationen Eingabeschicht Factors 1 Level of education Covariates 1 Age in years 2 Years with current employer 3 Years at current address 4 Household income inthousands 5 Debtto income ratio 100 6 Credit card debt in thousands 7 Other debt in thousands Anzahl der Einheiten Rescaling Method for Covariates Standardisiert verborgene Schicht en Anzahl der verborgenen Schichten Anzahl der Einheiten in verborgener Schicht 1 Ausgabeschicht Aktivierungsfunktion Dependent Yariables 1 Anzahl der Einheiten Aktivierungsfunktion Fehlerfunktion a Ohne die Verzerrungseinheit Hyperbeltangens Previously defaulted 2 Softmax Kreuzentropi Die einzige Ver nderung an der Tabelle der Netzwerkinformationen besteht darin dass die automatische Architekturauswahl sieben Einheiten in der verborgenen Schicht ausgew hlt hat 51 Modellzusammenfassung Abbildung 4 14 Modellzusammenfassung Training Kreuzentropiefehler Prozentsatz der falschen Yorhersagen Verwendete Abbruchregel Trainingszeit 159 870 20 1 1 aufeinander folgendeir Schritte ohne Verringerung des Fehlers 00 00 00 905 Kreuzentropiefehler Prozentsatz der falschen Vorhersagen Pr fung Holdou
53. Holdout Stichprobe erleichtert die Validierung der Modells hier wurden 74 6 der F lle korrekt vom Modell klassifiziert Dies deutet darauf hin dass das Modell insgesamt in ungef hr drei von vier F llen richtig liegt Korrigieren von bertraining Beim R ckblick auf die zuvor durchgef hrte logistische Regressionsanalyse erinnert sich die Kreditsachbearbeiterin dass die Trainings und die Holdout Stichprobe einen hnlich hohen Prozentsatz der F lle korrekt vorhersagte n mlich ungef hr 80 Im Vergleich lag beim neuronalen Netzwerk ein h herer Prozentsatz korrekter F lle in der Trainingsstichprobe vor w hrend die Holdout Stichprobe bei der Vorhersage der Kunden die tats chlich zahlungsunf hig wurden wesentlich schlechter abschnitt 45 8 korrekt bei der Holdout Stichprobe gegen ber 59 7 bei der Trainingsstichprobe In Verbindung mit der in der Modellzusammenfassungstabelle angegebenen Abbruchregel l sst dies darauf schlie en dass das Netzwerk m glicherweise bertrainiert dass es also scheinbare Muster verfolgt die durch zuf llige Variation in den Trainingsdaten auftreten Gl cklicherweise ist die L sung f r dieses Problem relativ einfach Wir geben eine Teststichprobe an damit das Netzwerk nicht den Faden verliert Wir haben die Partitionsvariable so erstellt dass sie eine exakte Reproduktion der Trainings und der Holdout Stichprobe erstellt die in der logistischen Regressionsanalyse erstellt wurden bei
54. Kodierung beruht auf den Trainingsdaten selbst wenn eine Test bzw Holdout Stichprobe definiert wurde siehe Partitionen auf S 29 Wenn also die Test bzw Holdout Stichproben F lle mit Einflussvariablen Kategorien enthalten die in den Trainingsdaten nicht vorhanden sind werden diese F lle nicht in der Prozedur bzw beim Scoring verwendet Wenn die Test bzw Holdout Stichproben F lle mit Kategorien abh ngiger Variablen enthalten die in den Trainingsdaten nicht vorhanden sind werden diese F lle zwar nicht in der Prozedur jedoch m glicherweise beim Scoring verwendet Neuskalierung Metrische abh ngige Variablen und Kovariaten werden standardm ig neu skaliert um das Training des Netzwerks zu verbessern Jegliche Neuskalierung beruht auf den Trainingsdaten selbst wenn eine Test bzw Holdout Stichprobe definiert wurde siehe Partitionen auf S 29 Das bedeutet dass je nach Neuskalierungstyp Mittelwert Standardabweichung Mindestwert bzw H chstwert einer Kovariaten oder abh ngigen Variablen ausschlie lich anhand der Trainingsdaten berechnet werden Wenn Sie eine Variable zur Festlegung von Partitionen angeben m ssen diese Kovariaten bzw abh ngigen Variablen in der Trainings Test und Holdout Stichprobe hnliche Verteilungen aufweisen H ufigkeitsgewichtungen H ufigkeitsgewichtungen werden von dieser Prozedur ignoriert Reproduzieren der Ergebnisse Wenn Sie Ihre Ergebnisse exakt reproduzieren m chten m ssen Sie nicht
55. Merkmale m glicherweise nicht in anderen L ndern an Informationen zu den derzeit in Ihrem Land erh ltlichen Produkten und Dienstleistungen erhalten Sie bei Ihrem zust ndigen IBM Mitarbeiter vor Ort Mit etwaigen Verweisen auf Produkte Programme oder Dienste von IBM soll nicht behauptet oder impliziert werden dass nur das betreffende Produkt oder Programm bzw der betreffende Dienst von IBM verwendet werden kann Stattdessen k nnen alle funktional gleichwertigen Produkte Programme oder Dienste verwendet werden die keine geistigen Eigentumsrechte von IBM verletzen Es obliegt jedoch der Verantwortung des Benutzers die Funktionsweise von Produkten Programmen oder Diensten von Drittanbietern zu bewerten und zu berpr fen IBM verf gt m glicherweise ber Patente oder hat Patentantr ge gestellt die sich auf in diesem Dokument beschriebene Inhalte beziehen Durch die Bereitstellung dieses Dokuments werden Ihnen keinerlei Lizenzen an diesen Patenten gew hrt Lizenzanfragen k nnen schriftlich an folgende Adresse gesendet werden IBM Director of Licensing IBM Corporation North Castle Drive Armonk NY 10504 1785 U S A Bei Lizenzanfragen in Bezug auf DBCS Daten Double Byte Character Set wenden Sie sich an die f r geistiges Eigentum zust ndige Abteilung von IBM in Ihrem Land Schriftliche Anfragen k nnen Sie auch an folgende Adresse senden Intellectual Property Licensing Legal and Intellectual Property Law IBM Japan Ltd 1623 1
56. Methodology 3rd Hg New York Springer Verlag Green P E als auch V Rao 1972 Applied multidimensional scaling Hinsdale Ill Dryden Press Green P E als auch Y Wind 1973 Multiattribute decisions in marketing A measurement approach Hinsdale Ill Dryden Press Guttman L 1968 A general nonmetric technique for finding the smallest coordinate space for configurations of points Psychometrika 33 Hartigan J A 1975 Clustering algorithms New York John Wiley and Sons Hastie T als auch R Tibshirani 1990 Generalized additive models London Chapman and Hall Haykin S 1998 Neural Networks A Comprehensive Foundation 2nd Hg New York Macmillan College Publishing Kennedy R C Riquier als auch B Sharp 1996 Practical applications of correspondence analysis to categorical data in market research Journal of Targeting Measurement and Analysis for Marketing 5 McCullagh P als auch J A Nelder 1989 Generalized Linear Models 2nd Hg London Chapman amp Hall Price R H als auch D L Bouffard 1974 Behavioral appropriateness and situational constraints as dimensions of social behavior Journal of Personality and Social Psychology 30 Rickman R N Mitchell J Dingman als auch J E Dalen 1974 Changes in serum cholesterol during the Stillman Diet Journal of the American Medical Association 228 Ripley B D 1996 Pattern Recognition and Neural Networks Cambridge
57. Tabelle stellen f r jede Kategorie die Wahrscheinlichkeit dar dass die vorhergesagte Wahrscheinlichkeit in diese Kategorie zu geh ren f r einen zuf llig ausgew hlten Fall in der betreffenden Kategorie gr er ist als f r einen zuf llig ausgew hlten Fall der nicht in diese Kategorie eingeteilt wurde Wenn beispielsweise nach dem Zufallsprinzip eine zahlungsunf hige Person und eine zahlungsf hige Person ausgew hlt werden liegt die Wahrscheinlichkeit dass die vom Modell vorhergesagte Pseudo Wahrscheinlichkeit f r Zahlungsunf higkeit f r die zahlungsunf hige Person h her ist als f r die zahlungsf hige Person bei 0 853 Die Fl che unter der Kurve ist zwar eine n tzliche aus einem einzigen statistischen Wert bestehende Zusammenfassung f r die Genauigkeit des Netzwerks aber Sie m ssen in der Lage sein ein bestimmtes Kriterium auszuw hlen nach dem die Kunden klassifiziert werden sollen Das Diagramm Vorhergesagt Beobachtet bietet einen visuellen Ausgangspunkt f r diesen Vorgang Diagramm Vorhergesagt Beobachtet Abbildung 4 18 Vorhergesagt Beobachtet Diagramm Bue 10 Byes 0 8 0 6 0 4 Vorhergesagte Pseudo Wahrscheinlichkeit 0 0 No Yes Previously defaulted 54 Kapitel 4 F r kategoriale abh ngige Variablen zeigt das Diagramm Vorhergesagt Beobachtet gruppierte Boxplots vorhergesagter Pseudo Wahrscheinlichkeiten f r die Kombination aus Trainings und Teststichprobe an Die x Ach
58. Trainingfehler und Fehler des Nullmodells kleiner ist als der Kriterienwert Das Nullmodell sagt den Durchschnittswert f r alle abh ngigen Variablen voraus Geben Sie eine Zahl gr er 0 an Beim Online und Mini Batch Training wird dieses Kriterium ignoriert wenn zur Berechnung des Fehlers ausschlie lich Testdaten verwendet werden Maximale Anzahl der im Arbeitsspeicher zu speichernden F lle Dadurch werden folgende Einstellungen innerhalb der Algorithmen mit mehrschichtigem Perzeptron gesteuert Geben Sie eine ganze Zahl gr er 1 an Bei der automatischen Architekturauswahl betr gt die zur Bestimmung der Netzwerkarchitektur verwendete Stichprobe min 1000 memsize wobei memsize die maximale Anzahl der im Arbeitsspeicher zu speichernden F lle ist Beim Mini Batch Training mit automatischer Berechnung der Anzahl an Mini Batches betr gt die Anzahl der Mini Batches min max M 10 2 memsize wobei M die Anzahl der F lle in der Trainingsstichprobe ist Kapitel 3 Radiale Basisfunktion Die Prozedur Radiale Basisfunktion RBF erstellt ein Vorhersagemodell f r eine oder mehrere abh ngige Variablen Zielvariablen das auf den Werten der Einflussvariablen beruht Beispiel Ein Telekommunikationsanbieter hat seinen Kundenstamm nach Servicenutzungsmustern in vier Gruppen unterteilt hat Mithilfe eines RBF Netzwerks das demografische Daten zur Vorhersage der Gruppenzugeh rigkeit verwendet kann das Unternehmen speziell angepa
59. Treatment costs Behandlungskosten zu leisten Es scheint drei wichtige Patientencluster zu geben m Links unten befinden sich vor allem Patienten die nicht operiert wurden Die f r diese Patienten anfallenden Kosten sind relativ niedrig und sind nach der Art der in der Notaufnahme verabreichten Clot dissolving drugs clotsolv Gerinnungshemmer differenziert m Der n chste Patientencluster weist Behandlungskosten von ungef hr 30 000 Dollar auf Hierbei handelt es sich um Patienten die einer Ballondilatation Perkutane transluminale Coronarangioplastie PTCA unterzogen wurden m Der letzte Cluster schlie lich weist Behandlungskosten von mehr als 40 000 Dollar auf Hierbei handelt es sich um Patienten die einen Koronararterien Bypass CABG erhielten Diese Operation ist etwas teurer als PTCA und die Patienten m ssen nach der Operation l nger station r im Krankenhaus behandelt werden was die Kosten weiter in die H he treibt Au erdem gibt es eine Reihe von F llen mit Kosten von ber 50 000 Doller die das Netzwerk nicht gut vorhersagt Hierbei handelt es sich um Patienten bei denen w hrend der OP Komplikationen auftraten was zu h heren Operationskosten und l ngerer Aufenthaltsdauer f hren kann 72 Kapitel 4 Diagramme vom Typ Residuum Vorhergesagt Abbildung 4 37 Diagramm Residuum Vorhergesagt f r Length of stay Aufenthaltsdauer Residuum T T 4 6 o 3 On oO Vorhergesag
60. Verkauf und die Gr e des Unternehmens in dem die Kontaktperson arbeitet aufgezeichnet creditpromo sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Kaufhauses geht die Wirksamkeit einer k rzlich durchgef hrten Kreditkarten Werbeaktion einzusch tzen Dazu wurden 500 Karteninhaber nach dem Zufallsprinzip ausgew hlt Die H lfte erhielt eine Werbebeilage die einen reduzierten Zinssatz f r Eink ufe in den n chsten drei Monaten ank ndigte Die andere H lfte erhielt eine Standard Werbebeilage customer_dbase sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Unternehmens geht das die Informationen in seinem Data Warehouse nutzen m chte um spezielle Angebote f r Kunden zu erstellen die mit der gr ten Wahrscheinlichkeit darauf ansprechen Nach dem Zufallsprinzip wurde eine Untergruppe des Kundenstamms ausgew hlt Diese Gruppe erhielt die speziellen Angebote und die Reaktionen wurden aufgezeichnet customer_information sav Eine hypothetische Datendatei mit Kundenmailingdaten wie Name und Adresse customer_subset sav Eine Teilmenge von 80 F llen aus der Datei customer_dbase sav debate sav Hierbei handelt es sich um eine hypothetische Datendatei die gepaarte Antworten auf eine Umfrage unter den Zuh rern einer politischen Debatte enth lt Antworten vor und nach der Debatte Jeder Fall entspricht einem Befragten debate_aggreg
61. Werten angibt Es sollte kein Muster zwischen Residuen und vorhergesagten Werten zu beobachten sein Dieses Diagramm wird nur bei metrischen abh ngigen Variablen erstellt 34 Kapitel 3 Zusammenfassung der Fallverarbeitung Zeigt die Tabelle mit der Zusammenfassung der Fallverarbeitung an die die Anzahl der in der Analyse ein und ausgeschlossenen F lle zusammenfasst insgesamt und nach Trainings Test und Holdout Stichprobe geordnet Wichtigkeitsanalyse f r unabh ngige Variablen F hrt eine Sensitivit tsanalyse durch mit der die Wichtigkeit der einzelnen Einflussvariablen f r die Bestimmung des neuronalen Netzwerks berechnet wird Die Analyse beruht auf der Kombination aus Trainings und Teststichprobe bzw nur auf der Trainingsstichprobe wenn keine Teststichprobe vorhanden ist Dadurch werden eine Tabelle und ein Diagramm erstellt die die Wichtigkeit und die normalisierte Wichtigkeit f r die einzelnen Einflussvariablen anzeigen Beachten Sie dass die Sensitivit tsanalyse rechenintensiv und zeitaufwendig ist wenn eine gro e Anzahl an Einflussvariablen oder F llen vorliegt Speichern Abbildung 3 6 Radiale Basisfunktion Registerkarte Speichern mmm Pe 7 F Radiale Basisfunktion Ei F r jede abh ngige Variable vorhergesagten Wert bzw Kategorie speichern M F r jede abh ngige Variable vorhergesagte Pseudo Wahrscheinlichkeit speichern Variablen Ir vorhergesagter Wert bzw Kategorie Vorhergesagte Pse
62. able Previously defaulted Das kumulative Gewinndiagramm zeigt den Prozentsatz der Falle in einer bestimmten Kategorie die gewonnen werden indem ein bestimmter Prozentsatz der Gesamtzahl der F lle anvisiert wird Beispiel Der erste Punkt auf der Kurve f r die Kategorie Ja liegt bei 10 30 Dies bedeutet Folgendes Wenn Sie ein Daten Set mit dem Netzwerk scoren und alle F lle nach der vorhergesagten Pseudo Wahrscheinlichkeit von Ja sortieren ist zu erwarten dass die obersten 10 ungef hr 30 aller F lle enthalten die tats chlich in die Kategorie Ja zahlungsunf hige Personen fallen Ebenso enthalten die obersten 20 ungef hr 50 der zahlungsunf higen Personen die obersten 30 der F lle 70 der zahlungsunf higen Personen usw Bei Auswahl von 100 des gescorten Daten Sets erfassen Sie alle zahlungsunf higen Personen im Daten Set Die diagonale Linie ist die Basis Kurve Wenn Sie nach dem Zufallsprinzip 10 der F lle aus dem gescorten Daten Set ausw hlen ist zu erwarten dass Sie ungef hr 10 der F lle gewinnen die tats chlich in die Kategorie Ja fallen Je h her ber der Basis eine Kurve liegt desto gr er ist der Gewinn Das kumulative Gewinndiagramm erleichtert die Auswahl eines Trennwerts f r die Klassifizierung W hlen Sie einen Prozentsatz aus der dem angestrebten Gewinn entspricht und ordnen Sie dann diesen Prozentsatz dem entsprechenden Trennwert zu Welcher Gewinn angestrebt wird h ngt
63. an den Technischen Support wenden wenn sie Hilfe bei der Arbeit mit den Produkten von IBM Corp oder bei der Installation in einer der unterst tzten Hardware Umgebungen ben tigen Zur Kontaktaufnahme mit dem technischen Support besuchen Sie die Website von IBM Corp unter hitp www ibm com support Wenn Sie Hilfe anfordern halten Sie bitte Informationen bereit um sich Ihre Organisation und Ihren Supportvertrag zu identifizieren Technischer Support f r Studenten Wenn Sie in der Ausbildung eine Studenten Bildungs oder Grad Pack Version eines IBM SPSS Softwareprodukts verwenden informieren Sie sich auf unseren speziellen Online Seiten f r Studenten zu L sungen f r den Bildungsbereich Attp www ibm com spss rd students Wenn Sie in der Ausbildung eine von der Bildungsst tte gestellte Version der IBM SPSS Software verwenden wenden Sie sich an den IBM SPSS Produktkoordinator an Ihrer Bildungsst tte Copyright IBM Corporation 1989 2011 iii Kundendienst Bei Fragen bez glich der Lieferung oder Ihres Kundenkontos wenden Sie sich bitte an Ihre lokale Niederlassung Halten Sie bitte stets Ihre Seriennummer bereit Ausbildungsseminare Weitere IBM Corp bietet ffentliche und unternehmensinterne Seminare an Alle Seminare beinhalten auch praktische bungen Seminare finden in gr eren St dten regelm ig statt Weitere Informationen zu diesen Seminaren finden Sie unter Attp www ibm com software analytics spss training
64. andardabweichung Mindestwert bzw H chstwert einer Kovariaten oder abh ngigen Variablen ausschlie lich anhand der Trainingsdaten berechnet wird Wenn Sie eine Variable zur Festlegung von Partitionen angeben m ssen diese Kovariaten bzw abh ngigen Variablen in der Trainings Test und Holdout Stichprobe hnliche Verteilungen aufweisen H ufigkeitsgewichtungen H ufigkeitsgewichtungen werden von dieser Prozedur ignoriert 6 Kapitel 2 Reproduzieren der Ergebnisse Wenn Sie Ihre Ergebnisse exakt reproduzieren m chten m ssen Sie nicht nur dieselben Einstellungen f r die Prozedur sondern auch denselben Initialisierungswert f r den Zufallszahlengenerator dieselbe Datenreihenfolge und dieselbe Variablenreihenfolge verwenden Weitere Details zu diesem Problem folgen m Generierung von Zufallszahlen Die Prozedur verwendet Zufallszahlengenerierung w hrend der Zufallszuweisung von Partitionen zuf llige Ziehung von Teilstichproben f r die Initialisierung der synaptischen Gewichtungen zuf llige Ziehung von Teilstichproben f r die automatische Architekturauswahl und den Algorithmus der simulierten Abk hlung f r die Initialisierung der Gewichtungen und die automatische Architekturauswahl Um zu einem sp teren Zeitpunkt dieselben randomisierten Ergebnisse zu reproduzieren m ssen Sie vor jeder Ausf hrung der Prozedur Mehrschichtiges Perzeptron denselben Initialisierungswert f r den Zufallszahlengenerator verwenden Einzelsc
65. ariable vorhergesagten Wert bzw Kategorie speichern und F r jede abh ngige Variable vorhergesagte Pseudo Wahrscheinlichkeit speichern Klicken Sie auf OK Zusammenfassung der Fallverarbeitung Abbildung 5 6 Zusammenfassung der Fallverarbeitung In Prozent Beispiel Training 66 5 Test 22 4 Pr fung Holdout 11 1 G ltig 100 0 Ausgeschlossen Gesamt EN Radiale Basisfunktion Die Zusammenfassung der Fallverarbeitung zeigt dass der Trainingsstichprobe 665 der Teststichprobe 224 und der Holdout Stichprobe 111 F lle zugewiesen wurden Es wurden keine F lle aus der Analyse ausgeschlossen Netzwerkinformationen Abbildung 5 7 Netzwerkinformationen Eingabeschicht verborgene Schicht en Ausgabeschicht Factors Covariates Anzahl der Einheiten Rescaling Method for Covariates Anzahl der verborgenen Schichten Anzahl der Einheiten in verborgener Schicht 17 Aktivierungsfunktion Dependent Variables 1 Anzahl der Einheiten Aktivierungsfunktion Fehlerfunktion a Ohne die Verzerrungseinheit Marital status Level of education Retired Gender Age in years Years at current address Household income in thousands Years with current employer Number of people in household 16 Adjusted Normalized 1 5 Hyperbeltangens Customer category 4 Softmax Kreuzentropie In der Tabelle Netzwerkinformationen werden Informationen zum neuronalen Netzwerk ange
66. ariable zum Zuweisen von F llen verwenden Durch die Angabe von Werten f r die relative Anzahl der F lle ist es einfach fraktionale Partitionen zu erstellen f r die die Angabe von Prozents tzen schwierig w re Angenommen Sie m chten 2 3 des Daten Sets der Trainingsstichprobe zuweisen und 2 3 der brigen F lle der Teststichprobe gt Geben Sie 6 als relative Zahl f r die Trainingsstichprobe ein gt Geben Sie 2 als relative Zahl f r die Teststichprobe ein gt Geben Sie 1 als relative Zahl f r die Holdout Stichprobe ein Insgesamt wurden 9 relative F lle angegeben 6 9 2 3 also ca 66 67 werden der Trainingsstichprobe zugewiesen 2 9 also ca 22 22 der Teststichprobe 1 9 also ca 11 11 der Holdout Stichprobe Klicken Sie auf die Registerkarte Ausgabe 79 Radiale Basisfunktion Abbildung 5 4 Radiale Basisfunktion Registerkarte Ausgabe EZ Radiate Basisfunktion E orton Prien mme Auges een Fret Ontenen rNetzwerkstruktur Beschreibung Diagramm _ Synaptische Gewichtungen rNetzwerkleistung E Modellzusammenfassung Ei Klassifikationsergebnisse IM ROC Kurve EI Kumulative Gewinndiagramme IM Lift Chart Index E Diagramm Vorhergesagt Beobachtet A Diagramm Residuum Yorhergesagt Fi Zusammenfassung der Fallverarbeitung _ Wichtigkeitsanalyse f r unabh ngige Variablen rs Die Berechnung der Wichtigkeit der unabh
67. asst wurden Jeder Fall entspricht einer anderen Wohneinheit Es sind verschiedene Informationen zum demografischen Hintergrund und zur Stichprobenziehung erfasst dmdata sav Dies ist eine hypothetische Datendatei die demografische und kaufbezogene Daten f r ein Direktmarketingunternehmen enth lt dmdata2 sav enth lt Informationen f r eine Teilmenge von Kontakten die ein Testmailing erhalten dmdata3 sav enth lt Informationen zu den verbleibenden Kontakten die kein Testmailing erhalten dietstudy sav Diese hypothetische Datendatei enth lt die Ergebnisse einer Studie der Stillman Di t Rickman Mitchell Dingman als auch Dalen 1974 Jeder Fall entspricht einem Teilnehmer und enth lt dessen Gewicht vor und nach der Di t in amerikanischen Pfund sowie mehrere Messungen des Triglyceridspiegels in mg 100 ml dvdplayer sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Entwicklung eines neuen DVD Spielers geht Mithilfe eines Prototyps hat das Marketing Team Zielgruppendaten erfasst Jeder Fall entspricht einem befragten Benutzer und enth lt demografische Daten zu dem Benutzer sowie dessen Antworten auf Fragen zum Prototyp german_credit sav Diese Daten sind aus dem Daten Set German credit im Repository of Machine Learning Databases Blake als auch Merz 1998 an der Universit t von Kalifornien in Irvine entnommen grocery_1month sav Bei dieser hypothetischen Datendatei handelt es sich u
68. ate sav Hierbei handelt es sich um eine hypothetische Datendatei in der die Antworten aus debate sav aggregiert wurden Jeder Fall entspricht einer Kreuzklassifikation der bevorzugten Politiker vor und nach der Debatte demo sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Kundendatenbank geht die zum Zwecke der Zusendung monatlicher Angebote erworben wurde Neben verschiedenen demografischen Informationen ist erfasst ob der Kunde auf das Angebot geantwortet hat demo_cs_1 sav Hierbei handelt es sich um eine hypothetische Datendatei f r den ersten Schritt eines Unternehmens das eine Datenbank mit Umfrageinformationen zusammenstellen m chte Jeder Fall entspricht einer anderen Stadt Au erdem sind IDs f r Region Provinz Landkreis und Stadt erfasst demo_cs_2 sav Hierbei handelt es sich um eine hypothetische Datendatei f r den zweiten Schritt eines Unternehmens das eine Datenbank mit Umfrageinformationen zusammenstellen m chte Jeder Fall entspricht einem anderen Stadtteil aus den im ersten Schritt ausgew hlten St dten Au erdem sind IDs f r Region Provinz Landkreis Stadt Stadtteil und Wohneinheit ER Beispieldateien erfasst Die Informationen zur Stichprobenziehung aus den ersten beiden Stufen des Stichprobenplans sind ebenfalls enthalten demo_cs sav Hierbei handelt es sich um eine hypothetische Datendatei die Umfrageinformationen enth lt die mit einem komplexen Stichprobenplan erf
69. atoxin sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Tests von Maisernten auf Aflatoxin geht ein Gift dessen Konzentration stark zwischen und innerhalb von Ernteertr gen schwankt Ein Kornverarbeitungsbetrieb hat aus 8 Ernteertr gen je 16 Proben erhalten und das Aflatoxinniveau in Teilen pro Milliarde parts per billion PPB gemessen m anorectic sav Bei der Ausarbeitung einer standardisierten Symptomatologie anorektischen bulimischen Verhaltens f hrten Forscher Van der Ham Meulman Van Strien als auch Van Engeland 1997 eine Studie mit 55 Jugendlichen mit bekannten Ess St rungen durch Jeder Patient wurde vier Mal ber einen Zeitraum von vier Jahren untersucht es fanden also insgesamt 220 Beobachtungen statt Bei jeder Beobachtung erhielten die Patienten Scores f r jedes von 16 Symptomen Die Symptomwerte fehlen f r Patient 71 Copyright IBM Corporation 1989 2011 89 90 Anhang A zum Zeitpunkt 2 Patient 76 zum Zeitpunkt 2 und Patient 47 zum Zeitpunkt 3 wodurch 217 g ltige Beobachtungen verbleiben bankloan sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Bank geht den Anteil der nicht zur ckgezahlten Kredite zu reduzieren Die Datei enth lt Informationen zum Finanzstatus und demografischen Hintergrund von 850 fr heren und potenziellen Kunden Bei den ersten 700 F llen handelt es sich um Kunden denen bereits ein Kredit gew hrt wurde
70. bh ngigen und den unabh ngigen Variablen erforderlich sind Stattdessen wird die Form der Beziehungen im Laufe des Lernprozesses bestimmt Wenn eine lineare Beziehung zwischen abh ngigen und unabh ngigen Variablen angemessen ist sollten die Ergebnisse des neuronalen Netzwerks eine gro e hnlichkeit zu denen des linearen Regressionsmodells darstellen Wenn eine nichtlineare Beziehung angemessener ist hnelt das neuronale Netzwerk automatisch der richtigen Modellstruktur Der Preis f r diese Flexibilit t besteht darin dass die synaptischen Gewichte eines neuronalen Netzwerks nicht leicht zu interpretieren sind Wenn Sie also versuchen den zugrunde liegenden Prozess zu erkl ren der zu den Beziehungen zwischen den abh ngigen und den unabh ngigen Variablen f hrt sollten Sie lieber ein traditionelleres statistisches Modell verwenden Wenn jedoch die Interpretierbarkeit des Modells nicht von Belang ist k nnen Sie h ufig schneller mithilfe eines neuronalen Netzwerks zu guten Modellergebnissen kommen Struktur neuronaler Netzwerke Auch wenn neuronale Netzwerke nur minimale Anforderungen an die Modellstruktur und die geltenden Annahmen stellen ist es dennoch n tzlich einen Einblick in die allgemeine Netzwerkarchitektur zu haben Beim MLP bzw RBF Netzwerk handelt es sich um eine Funktion von Einflussvariablen auch als Pr diktoren Eingaben oder unabh ngige Variablen bezeichnet die den Vorhersagefehler der Zielvariablen auch al
71. d in dieser Datendatei sind die Einschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst Die zus tzliche Variable Current value Aktueller Wert wurde nach der Ziehung der Stichprobe erfasst und zur Datendatei hinzugef gt recidivism sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Strafverfolgungsbeh rde geht einen Einblick in die R ckfallraten in ihrem Zust ndigkeitsbereich zu gewinnen Jeder Fall entspricht einem fr hren Straft ter und erfasst Daten zu dessen demografischen Hintergrund einige Details zu seinem ersten Verbrechen sowie die Zeit bis zu seiner zweiten Festnahme sofern diese innerhalb von zwei Jahren nach der ersten Festnahme erfolgte recidivism_cs_sample sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Strafverfolgungsbeh rde geht einen Einblick in die R ckfallraten in ihrem Zust ndigkeitsbereich zu gewinnen Jeder Fall entspricht einem fr heren Straft ter der im Juni 2003 erstmals aus der Haft entlassen wurde und erfasst Daten zu dessen demografischen Hintergrund einige Details zu seinem ersten Verbrechen sowie die Daten zu seiner zweiten Festnahme sofern diese bis Ende Juni 2006 erfolgte Die Straft ter wurden aus per Stichprobenziehung ermittelten Polizeidirektionen ausgew hlt gem dem in recidivism_cs csplan angegebenen Stichprobenplan Da hierbei eine PPS Methode PPS probability proportional to
72. dektinc Ka Credit card debt in thousands creddekt Klicken Sie in der Liste Variablen mit der rechten Maustaste auf Erneute Skalierung von Kovariaten eine Variable um deren Messniveau zu ndern La 1 a zeen apen 1 rate W hlen Sie Previously defaulted default vorherige Nichtzahlung als abh ngige Variable aus gt W hlen Sie Level of education ed Ausbildung als Faktor aus W hlen Sie Age in years age Alter in Jahren bis Other debt in thousands othdebt Andere Schulden in Tausend als Kovariaten aus gt Klicken Sie auf die Registerkarte Partitionen 43 Abbildung 4 4 Mehrschichtiges Perzeptron Mehrschichtiges Perzeptron Registerkarte Partitionen Variablen E Predicted default model 1 preddef1 E Predicted default model 2 preddef2 L Predicted default model 3 preddef3 E Mehrschichtiges Perzeptron I Varien Paten mmm Wating pm men rte eer gars Doe Wit F lle auf der Grundlage der relativen Anzahl an F llen zuf llig zuweisen Partitionen Partition Relative Zahl EEE Partitionsvariable zum Zuweisen von F llen verwenden a4 Partitionsvariable amp partition W hlen Sie die Option Partitionierungsvariable zum Zuweisen von F llen verwenden aus W hlen Sie Partition als Partitionierungsvariable aus gt Klicken Sie auf die Registerkarte Ausgabe 44 Kapitel 4 Abbildung 4 5 Mehrschichtiges Perzeptron Registerkar
73. delt werden sollen ausschlie en Einschlie en F lle mit benutzerdefinierten Werten bei Kovariaten und abh ngigen metrischen Variablen sind immer ausgeschlossen Benutzerdefinierte fehlende Werte Faktoren m ssen g ltige Werte f r einen Fall aufweisen um in die Analyse aufgenommen zu werden Mit diesen Steuerelementen legen Sie fest ob benutzerdefiniert fehlende Werte bei den Faktoren und kategorialen abh ngigen Variablen als g ltige Werte behandelt werden sollen Teil II Beispiele Kapitel Mehrschichtiges Perzeptron Die Prozedur Mehrschichtiges Perzeptron Multilayer Perceptron MLP erstellt ein Vorhersagemodell f r eine oder mehrere abh ngige Variablen Zielvariablen das auf den Werten der Einflussvariablen beruht Verwenden eines mehrschichtigen Perzeptrons zur Bewertung des Kreditrisikos Eine Kreditsachbearbeiterin in einer Bank muss in der Lage sein Merkmale zu ermitteln die auf Personen hindeuten die mit hoher Wahrscheinlichkeit ihre Kredite nicht zur ckzahlen und diese Merkmale zur Feststellung eines guten bzw schlechten Kreditrisikos einzusetzen Angenommen Informationen ber 850 bisherige und potenzielle Kunden befinden sich in der Datei bankloan sav F r weitere Informationen siehe Thema Beispieldateien in Anhang A auf S 89 Bei den ersten 700 F llen handelt es sich um Kunden denen bereits ein Kredit gew hrt wurde Erstellen Sie anhand einer Zufallsstichprobe dieser 700 Ku
74. der logistischen Regression gibt es jedoch keine Teststichproben Wir nehmen daher einen Teil der Trainingsstichprobe und weisen ihn einer Teststichprobe zu 48 Kapitel 4 Erstellen der Teststichprobe Abbildung 4 10 Dialogfeld Variable berechnen Zielvariakle E Age in years age dd Level of education ed 8 Years with current em 8 Years at current addre E Household income in th E Debt to income ratio x E Credit card debt in tho E Other debt in thousand amp Previously defaulted d E Predicted default mod E Funktionen und Sondervariablen L Predicted default mod Predicted default mod 8 partition Funktionsguppe Alle Arithmetisch Yerteilungsfunktionen Umwandlung Aktuelles Datum aktuelle Uhr Eais rtionaie Fallauswahlbedingung Rufen Sie das Dialogfeld Variable berechnen auf gt Geben Sie partition rv bernoulli 0 2 in das Textfeld Numerischer Ausdruck ein Klicken Sie auf Falls 49 Yy v v y Mehrschichtiges Perzeptron Abbildung 4 11 Variable berechnen Dialogfeld Variable berechnen Falls Bedingung erf llt ist Hi Variable berechnen Falls Bedingung erf llt ist E Age in years age Alle F lle einschlie en JB Level of education ed Fall einschlie en wenn Bedingung erf lt ist E Years with current em PR partition 0 E Years at current addre amp E Household
75. des Netzwerks sodass er nicht unbedingt berm ig n tzlich f r den Vergleich konkurrierender Netzwerke ist Stattdessen sollten wir lieber einen Blick auf die ROC Kurve werfen ROC Kurve Abbildung 4 16 ROC Kurve 10 No Yes 8 8 2 2 E KI H 4 D T T T T 0 2 4 6 8 10 1 Spezifit t Abhangige Variable Previously defaulted Die ROC Kurve bietet eine grafische Darstellung der Sensitivit t und Spezifit t f r alle m glichen Trennwerte in einem einzelnen Diagramm Diese Darstellungsweise ist wesentlich bersichtlicher und aussagekr ftiger als eine Reihe von Tabellen Das hier gezeigte Diagramm enth lt zwei Kurven eine f r die Kategorie Nein und eine f r die Kategorie Ja Da es nur zwei Kategorien gibt sind die Kurven bez glich einer Linie im 45 Grad Winkel nicht angezeigt symmetrisch die von der linken oberen Ecke des Diagramms zur rechten unteren Ecke verl uft Beachten Sie dass dieses Diagramm auf der Kombination aus Trainings und Teststichprobe beruht Um ein ROC Diagramm f r die Holdout Stichprobe zu erstellen m ssen Sie die Datei an der Partitionsvariablen aufteilen und die Prozedur ROC Kurve f r die gespeicherten vorhergesagten Pseudo Wahrscheinlichkeiten ausf hren 53 Mehrschichtiges Perzeptron Abbildung 4 17 Fl che unter der Kurve PT Fl che Previously defaulted No 858 Yes 858 Die Fl che unter der Kurve ist eine numerische Zusammenfassung der ROC Kurve und die Werte in der
76. e 1 und 1 die in der unkorrigierten Formel vorkommen wenn x den Mindest bzw H chstwert annimmt zwar die Grenzen des Bereichs der Hyperbeltangens Funktion liegen jedoch nicht innerhalb dieses Bereichs Die korrigierte Formel lautet 2 amp min e max e min e 1 Geben Sie eine Zahl gr er oder gleich 0 an Keine Keine Neuskalierung metrischer abh ngiger Variablen 14 Kapitel 2 Training Abbildung 2 5 Mehrschichtiges Perzeptron Registerkarte Training Ei Mehrschichtiges Perzeptron Veen Portionen Ache Trang Ausgabe men Exporteren Optionen rArt des Trainings Batch Online Mini Batch r Optimierungsalgorithmus Gradientenabstieg Trainingsoptionen bebe Auf der Registerkarte Training k nnen Sie angeben wie das Netzwerk trainiert werden sollte Die Art des Trainings und der Optimierungsalgorithmus bestimmen welche Trainingsoptionen verf gbar sind Art des Trainings Die Art des Trainings bestimmt wie das Netzwerk die Datens tze verarbeitet W hlen Sie eine der folgenden Trainingsarten m Stapel Aktualisiert die synaptischen Gewichtungen erst nach dem Durchlauf s mtlicher Trainingsdatens tze Beim Batch Training werden also die Daten aus allen Datens tzen im Trainings Daten Set verwendet Batch Training wird h ufig bevorzugt da damit der Gesamtfehler unmittelbar minimiert wird Allerdings kann beim Batch Training eine sehr
77. e folgenden Befehle aus den Men s aus Analysieren gt Neural Networks Neuronale Netze gt Radiale Basisfunktion Abbildung 3 1 Radiale Basisfunktion Registerkarte Variablen al Radiale Basisfunktion X Variablen Teen mme Ausgabe Spechem Exporteren Open Variablen Abh ngige Variablen amp Geographic indicator region amp Customer category custcat E Months with service tenure amp Toll free service tollfree amp Equipment rental equip Calling card service calleard Erneute Skalierung von abh ngigen metrischen Variablen amp Wireless service wireless Stand 4 E Long distance last month longmon E Toll free last month tollmon E Equipment last month equipmon amp Marital status marital E Calling card last month cardmon A Level of education ed E Wireless last month wiremon amp Retired retire E Long distance over tenure longten GES amp Gender gender E Toll free over tenure toliten E Equipment over tenure equipten E Calling card over tenure cardten Kovariaten Faktoren E Wireless over tenure wireten amp Multiple lines muttline amp Voice mail voice amp Paging service pager 8 Age in years age E Years at current address address E Household income in thousands income oe Years with current employer employ amp Internet internet E Number of people in household reside DB 0 0m A Klicken Sie in der Liste Variablen m
78. e sav Diese hypothetische Datendatei enth lt die Behandlungsaufzeichnungen f r eine Stichprobe von Patienten denen w hrend der Behandlung eines Herzinfarkts Thrombolytika verabreicht wurden Jeder Fall entspricht einem Patienten und enth lt diverse Variablen in Bezug auf den Krankenhausaufenthalt poll_cs sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bem hungen geht die ffentliche Unterst tzung f r einen Gesetzentwurf zu ermitteln bevor er im Parlament eingebracht wird Die F lle entsprechen registrierten W hlern F r jeden Fall sind County Gemeinde und Wohnviertel des W hlers erfasst poll_cs_sample sav Diese hypothetische Datendatei enth lt eine Stichprobe der in poll_cs sav aufgef hrten W hler Die Stichprobe wurde gem dem in der Plandatei poll csplan angegebenen Stichprobenplan gezogen und in dieser Datendatei sind die Einschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst Beachten Sie jedoch Folgendes Da im Stichprobenplan die PPS Methode PPS probability proportional to size Wahrscheinlichkeit proportional zur Gr e verwendet wird gibt es au erdem eine Datei mit den gemeinsamen Auswahlwahrscheinlichkeiten poll_jointprob sav Die zus tzlichen Variablen zum demografischen Hintergrund der W hler und ihrer Meinung zum vorgeschlagenen Gesetzentwurf wurden nach der Ziehung der Stichprobe erfasst und zur Datendatei hinzugef gt property_assess sav Hierbei handelt es sich
79. eit beispielsweise Zeitungsleser oder Fernsehzuschauer mobs Mobs wie Menschenmassen jedoch mit wesentlich st rkerer Interaktion primary groups Prim rgruppen vertraulich secondary groups Sekund rgruppen freiwillig und modern community die moderne Gesellschaft ein lockerer Zusammenschluss der aus einer engen physischen N he und dem Bedarf an spezialisierten Dienstleistungen entsteht 94 Anhang A health_funding sav Hierbei handelt es sich um eine hypothetische Datei die Daten zur Finanzierung des Gesundheitswesens Betrag pro 100 Personen Krankheitsraten Rate pro 10 000 Personen der Bev lkerung und Besuche bei medizinischen Einrichtungen rzten Rate pro 10 000 Personen der Bev lkerung enth lt Jeder Fall entspricht einer anderen Stadt hivassay sav Hierbei handelt es sich um eine hypothetische Datendatei zu den Bem hungen eines pharmazeutischen Labors einen Schnelltest zur Erkennung von HIV Infektionen zu entwickeln Die Ergebnisse des Tests sind acht kr ftiger werdende Rotschattierungen wobei kr ftigeren Schattierungen auf eine h here Infektionswahrscheinlichkeit hindeuten Bei 2 000 Blutproben von denen die H lfte mit HIV infiziert war wurde ein Labortest durchgef hrt hourlywagedata sav Hierbei handelt es sich um eine hypothetische Datendatei zum Stundenlohn von Pflegepersonal in Praxen und Krankenh usern mit unterschiedlich langer Berufserfahrung insurance_claims sav
80. ekten Vorhersagen in der Klassifikationsmatrix dar Der Bereich unterhalb der Marke von 0 5 stellt die falschen Vorhersagen dar Wir erinnern uns aus der Klassifikationsmatrix dass das Netzwerk unter Verwendung eines Trennwerts von 0 5 etwas mehr als die H lfte der F lle mit der Kategorie Ja vorhersagt sodass ein relativ gro er Teil der Box falsch klassifiziert ist Eine Betrachtung des Plots ergibt dass durch eine Senkung des Trennwerts zur Klassifizierung eines Falls als Ja von 0 5 auf ungef hr 0 3 dies ist ungef hr der Wert bei dem die Oberkante der zweiten Box und die Unterkante der vierten Box liegen die Wahrscheinlichkeit Personen die sp ter zahlungsunf hig werden korrekt zu erfassen erh ht werden kann ohne dass dabei viele potenzielle gute Kunden verloren gehen Durch das Verschieben von 0 5 auf 0 3 entlang der zweiten Box werden also nur relativ wenige zahlungskr ftige Kunden entlang dem Whisker nun f lschlicherweise als vorhergesagte zahlungsunf hige Kunden klassifiziert w hrend durch diese Verschiebung entlang der vierten Box nun viele zahlungsunf hige Kunden innerhalb der Box korrekt als vorhergesagte zahlungsunf hige Kunden klassifiziert werden 55 Mehrschichtiges Perzeptron Kumulatives Gewinndiagramm und Lift Chart Abbildung 4 19 Kumulatives Gewinndiagramm 100 Kg No ves 90 80 70 60 50 Gewinn 40 0 10 20 30 40 50 60 70 80 90 100 Prozentsatz Abhangige Vari
81. el 4 Abbildung 4 28 Mehrschichtiges Perzeptron Registerkarte Training Lorton egen mme Ting zem Spschem rte eer rArt des Trainings Batch Online Mini Batch Anzahl der Date ze in jedem Mini Batch ch berechnen Anzahl der Datens tze rOptimierungsalgorithmus Skalierter konjugierter Gradient Gradientenabstieg Trainingsoptionen Ten baesltess U hg EE FC CR r W hlen Sie Online als Art des Trainings Online Training gilt als leistungsstark f r gr ere Daten Sets mit korrelierten Einflussvariablen Beachten Sie dass dadurch Gradientenabstieg automatisch als Optimierungsalgorithmus mit den entsprechenden Standardoptionen festgelegt wird gt Klicken Sie auf die Registerkarte Ausgabe 65 Mehrschichtiges Perzeptron Abbildung 4 29 Mehrschichtiges Perzeptron Registerkarte Ausgabe al Mehrschichtiges Perzeptron X Lem Prnen mme Tring D Speicher Exporteren Optinen rNetzwerkstruktur Beschreibung Diagramm Synaptische Gewichtungen rNetzwerkleistung Iw Modellzusammenfassung Al Klassifikationsergebnisse ROC Kurve Kumulative Gewinndiagramme E Lift Chart Index Iw Diagramm Vorhergesagt Beobachtet M Diagramm ResiduumYorhergesagt EI Zusammenfassung der Fallverarbeitung EI Wichtigkeitsanalyse f r unabh ngige Variablen kV Die Berechnung der Wichtigkeit der unabh ngigen Yariablen wird
82. en m Es wurden zwei verborgene Schichten angefordert und die Prozedur hat 12 Einheiten in der ersten verborgenen Schicht und 9 in der zweiten verborgenen Schicht ausgew hlt Age category Gender History of diabetes Blood pressure Smoker Cholesterol Physically active Obesity History of angina History of myocardial infarction Prescribed nitroglycerin Taking anti clotting drugs Time to hospital EKG result CPK blood result Troponin T blood result Clot dissolving drugs Hemorrhaging Magnesium Digitalis Beta blockers Surgical treatment Surgical complications Hyperbeltangens Length of stay Treatment costs 2 Adjusted Normalized Hyperbeltangens Quadratsumme 69 Mehrschichtiges Perzeptron F r jede der metrischen abh ngigen Variablen wurde eine separate Ausgabeeinheit erstellt Diese werden mit der Methode Angepasst normalisiert erneut skaliert Dazu muss die Aktivierungsfunktion Hyperbeltangens f r die Ausgabeschicht verwendet werden Ein Quadratsummenfehler wird gemeldet da die abh ngigen Variablen metrisch sind Modellzusammenfassung Abbildung 4 34 Modellzusammenfassung Training Quadratsummenfehler 91 812 Durchschnittlicher relativer Gesamtfehler 083 Relativer Fehler f r Length of stay 131 Variablen Je Treatment costs 033 Verwendete Abbruchregel 1 aufeinander folgendetr Schrittie ohne Verringerung des Fehlers Trainingszeit 00 00 18 055 Quadratsum
83. en F lle an Der Prozentsatz der Gesamtzahl der F lle die korrekt klassifiziert wurden wird ebenfalls angegeben ROC Kurve Zeigt eine ROC Kurve Receiver Operating Characteristic f r jede kategoriale abh ngige Variable an Au erdem wird eine Tabelle angezeigt die die Fl che unter den einzelnen Kurven angibt Bei jeder abh ngigen Variablen zeigt das ROC Diagramm jeweils genau eine Kurve f r jede Kategorie an Wenn die abh ngige Variable zwei Kategorien aufweist behandelt jede Kurve die fragliche Kategorie als positiven Zustand gegen ber der anderen Kategorie Wenn die abh ngige Variable mehr als zwei Kategorien aufweist behandelt jede Kurve die fragliche Kategorie als positiven Zustand gegen ber allen anderen Kategorien Kumulatives Gewinndiagramm Zeigt f r jede kategoriale abh ngige Variable ein kumulatives Gewinndiagramm an Die Anzeige einer Kurve f r jede Kategorie der abh ngigen Variablen verh lt sich wie bei ROC Kurven Lift Chart Index Zeigt f r jede kategoriale abh ngige Variable einen Lift Chart an Die Anzeige einer Kurve f r jede Kategorie der abh ngigen Variablen verh lt sich wie bei ROC Kurven Diagramm Vorhergesagt Beobachtet Zeigt f r jede abh ngige Variable ein Diagramm an das die vorhergesagten Werte in Abh ngigkeit von den beobachteten Werten angibt Bei kategorialen abh ngigen Variablen werden f r jede Antwortkategorie gruppierte Boxplots der vorhergesagten Pseudo Wahrscheinlichkeiten
84. en und seiner Bereitstellung Es hnelt dem Hirn in zwei Aspekten m Wissen wird vom Netzwerk durch einen Lernprozess erworben m Interneuronale Verbindungsst rken auch als synaptische Gewichte bekannt dienen zum Speichern des Wissens In Ripley 1996 finden Sie eine Diskussion dar ber warum diese Definition m glicherweise zu restriktiv ist Copyright IBM Corporation 1989 2011 1 2 Kapitel 1 Wenn wir neuronale Netzwerke mit dieser Definition von traditionellen statistischen Methoden unterscheiden m chten ist das was nicht gesagt wurde ebenso bedeutsam wie der Text der Definition selbst So kann beispielsweise das traditionelle lineare Regressionsmodell Wissen durch die Methode der kleinsten Quadrate erwerben und dieses Wissen in den Regressionskoeffizienten speichern In dieser Hinsicht handelt es sich dabei um ein neuronales Netzwerk In der Tat l sst sich die Auffassung vertreten dass die lineare Regression einen Sonderfall bestimmter neuronaler Netzwerke darstellt Allerdings weist die lineare Regression eine starre Modellstruktur und eine Menge von Annahmen auf die angewendet werden bevor aus den Daten gelernt wird Im Gegensatz dazu stellt die oben angegebene Definition nur minimale Anforderungen an Struktur und Annahmen Daher kann ein neuronales Netzwerk eine Ann herung an eine gro e Bandbreite statistischer Modelle bieten ohne dass von vornherein Hypothesen ber bestimmte Beziehungen zwischen den a
85. er Funktionen von Drittanbieter Produkten sollten an die Anbieter der jeweiligen Produkte gerichtet werden Diese Informationen enthalten Beispiele zu Daten und Berichten die im t glichen Gesch ftsbetrieb Verwendung finden Um diese so vollst ndig wie m glich zu illustrieren umfassen die Beispiele Namen von Personen Unternehmen Marken und Produkten Alle diese Namen sind fiktiv und jegliche hnlichkeit mit Namen und Adressen realer Unternehmen ist rein zuf llig Unter Umst nden werden Fotografien und farbige Abbildungen nicht angezeigt wenn Sie diese Informationen nicht in gedruckter Form verwenden Marken IBM das IBM Logo ibm com und SPSS sind Marken der IBM Corporation und in vielen L ndern weltweit registriert Eine aktuelle Liste der IBM Marken finden Sie im Internet unter http www ibm com legal copytrade shtml Adobe das Adobe Logo PostScript und das PostScript Logo sind eingetragene Marken oder Marken von Adobe Systems Incorporated in den USA und oder anderen Landern Intel das Intel Logo Intel Inside das Intel Inside Logo Intel Centrino das Intel Centrino Logo Celeron Intel Xeon Intel SpeedStep Itanium und Pentium sind Markten oder eingetragene Marken der Intel Corporation oder der Tochtergesellschaften des Unternehmens in den USA und anderen L ndern Java und alle Java basierten Marken sowie Logos sind Marken von Sun Microsystems Inc in den USA anderen L ndern oder beidem 102 Anhang B Linux
86. erials zu diesem IBM Produkt und die Verwendung erfolgt auf eigene Gefahr IBM kann die von Ihnen angegebenen Informationen verwenden oder weitergeben wie dies angemessen erscheint ohne Ihnen gegen ber eine Verpflichtung einzugehen Lizenznehmer dieses Programms die Informationen dazu ben tigen wie i der Austausch von Informationen zwischen unabh ngig erstellten Programmen und anderen Programmen und ii die gegenseitige Verwendung dieser ausgetauschten Informationen erm glicht wird wenden sich an IBM Software Group Attention Licensing 233 S Wacker Dr Chicago IL 60606 USA Derartige Informationen stehen ggf in Abh ngigkeit von den jeweiligen Gesch ftsbedingungen sowie in einigen F llen der Zahlung einer Geb hr zur Verf gung Das in diesem Dokument beschriebene lizenzierte Programm und s mtliche daf r verf gbaren lizenzierten Materialien werden von IBM gem dem IBM Kundenvertrag den Internationalen Nutzungsbedingungen f r Programmpakete der IBM oder einer anderen zwischen uns getroffenen Vereinbarung bereitgestellt Informationen zu Produkten von Drittanbietern wurden von den Anbietern des jeweiligen Produkts aus deren ver ffentlichten Ank ndigungen oder anderen ffentlich verf gbaren Quellen bezogen IBM hat diese Produkte nicht getestet und kann die Genauigkeit bez glich Leistung Kompatibilit t oder anderen Behauptungen nicht best tigen die sich auf Drittanbieter Produkte beziehen Fragen bez glich d
87. erks mit mehrschichtigen Perzeptronen W hlen Sie die folgenden Befehle aus den Men s aus Analysieren gt Neural Networks Neuronale Netze gt Mehrschichtiges Perzeptron H Mehrschichtiges Perzeptron Abbildung 2 1 Mehrschichtiges Perzeptron Registerkarte Variablen ES Mehrschichtiges Perzeptron X um armen mme Tring Ausgabe Speicher Exporteren Optinen variablen Abh ngige Variablen E Predicted default model 1 preddef1 amp Previously defaulted default E Predicted default model 2 preddef2 E Predicted default model 3 preddef3 E partition Faktoren a Level of education ed cy Kovariaten amp Age in years age E Years with current employer employ E Years at current address address amp Household income in thousands income amp Debt to income ratio x100 dektinc Ka Credit card debt in thousands creddekt Klicken Sie in der Liste Variablen mit der rechten Maustaste auf Erneute Skalierung von Kovariaten eine Variable um deren Messniveau zu ndern W hlen Sie mindestens eine abh ngige Variable aus gt Wahlen Sie mindestens einen Faktor oder eine Kovariate aus Optional k nnen Sie auf der Registerkarte Variablen die Methode zur Neuskalierung der Kovariaten ndern Folgende Optionen stehen zur Auswahl sm Standardisiert Subtraktion des Mittelwerts und Division durch die Standardabweichung x Mittelwert s m Normalisiert Subtraktion des Mittelwerts
88. eschriebenen Neuskalierung allen Pseudo Wahrscheinlichkeiten jeweils mit dem Betrag der niedrigsten Wahrscheinlichkeit addiert Wenn die Pseudo Wahrscheinlichkeiten beispielsweise 0 30 0 50 und 1 30 betragen m ssen Sie zun chst 0 30 zu jedem Wert addieren und erhalten somit die Werte 0 00 0 80 und 1 60 Als N chstes dividieren Sie die einzelnen neuen Werte durch die Summe 2 40 wodurch sich die Werte 0 00 0 33 und 0 67 ergeben 36 Kapitel 3 Export Abbildung 3 7 Radiale Basisfunktion Registerkarte Exportieren M Radiate Basisfunktion X orton fg mme Ausgabe men Pr mme EF Sch tzer f r die synaptische Gewichtung in XML Datei exportieren variablen und Dateinamen Abh ngige Variable Dateiname custcat Die Registerkarte Export dient zum Speichern der Sch tzer der synaptischen Gewichtungen f r die einzelnen abh ngigen Variablen in einer XML Datei PMML Datei Anhand dieser Modelldatei k nnen Sie die Modellinformationen zu Bewertungszwecken auf andere Datendateien anwenden Diese Option ist nicht verf gbar wenn aufgeteilte Dateien definiert wurden 37 Radiale Basisfunktion Optionen Abbildung 3 8 Radiale Basisfunktion Registerkarte Optionen ES Radiale Basisfunktion X Im Prtnen mme Ausgabe men Exporteren Den Benutzerdefiniert fehlende Verte Geben Sie an wie F lle mit benutzerdefiniert fehlenden Werten bei Faktoren und abh ngigen kategorialen Variablen behan
89. etzwerk das Kreditrisiko potenzieller Kunden als gering oder hoch einstufen Ein Krankenhaussystem m chte die Kosten und die Aufenthaltsdauer f r Patienten aufzeichnen die zur Behandlung eines Herzinfarkts aufgenommen wurden Durch genaue Sch tzer dieser Messwerte kann die Krankenhausverwaltung die verf gbare Bettenkapazit t w hrend der Behandlung der Patienten besser verwalten Mithilfe der Behandlungsakten einer Stichprobe von Patienten die wegen eines Herzinfarkts behandelt wurden kann die Verwaltung ein Netzwerk trainieren mit dem sich die Kosten und die Dauer des Aufenthalts vorhersagen lassen Abh ngige Variablen Die abh ngigen Variablen k nnen wie folgt gestaltet sein m Nominal Eine Variable kann als nominal behandelt werden wenn ihre Kategorien sich nicht in eine nat rliche Reihenfolge bringen lassen z B die Firmenabteilung in der eine Person arbeitet Beispiele f r nominale Variablen sind Region Postleitzahl oder Religionszugeh rigkeit m Ordinal Eine Variable kann als ordinal behandelt werden wenn ihre Werte f r Kategorien stehen die eine nat rliche Reihenfolge aufweisen z B Grad der Zufriedenheit mit Kategorien von sehr unzufrieden bis sehr zufrieden Ordinale Variablen treten beispielsweise bei Einstellungsmessungen Zufriedenheit oder Vertrauen und bei Pr ferenzbeurteilungen auf m Metrisch Eine Variable kann als metrisch stetig behandelt werden wenn ihre Werte geordnete Kategorien mit einer sinnv
90. f r unabh ngige Variablen kd Die Berechnung der Wichtigkeit der unabh ngigen variablen wird mit steigender Anzahl an Einflussvariablen und F llen immer zeitaufwendiger Netzwerkstruktur Zeigt zusammenfassende Informationen ber das neuronale Netzwerk an m Beschreibung Zeigt Informationen zum neuronalen Netzwerk an einschlie lich der folgenden abh ngige Variablen Anzahl von Eingabe und Ausgabeeinheiten Anzahl der verborgenen Schichten und Einheiten und Aktivierungsfunktionen Diagramm Zeigt das Netzwerkdiagramm als nicht bearbeitbares Diagramm an Beachten Sie Mit steigender Anzahl an Kovariaten und Faktorstufen wird das Diagramm schwerer zu interpretieren m Synaptische Gewichtungen Zeigt die Koeffizientensch tzer an die die Beziehung zwischen den Einheiten in einer bestimmten Schicht und den Einheiten in der n chsten Schicht anzeigen Die synaptischen Gewichtungen beruhen auf der Trainingsstichprobe selbst wenn die Arbeitsdatei in Trainings Test und Holdout Daten partitioniert ist Beachten Sie dass die Anzahl der synaptischen Gewichtungen recht gro werden kann und dass diese Gewichtungen im Allgemeinen nicht zur Interpretation der Netzwerkergebnisse verwendet werden 18 Kapitel 2 Netzwerkleistung Zeigt die Ergebnisse an die verwendet werden um zu bestimmen ob das Modell gut ist Hinweis Die Diagramme in dieser Gruppe beruhen auf der Kombination aus Trainings und Teststichprobe bzw nur au
91. f der Trainingsstichprobe wenn keine Teststichprobe vorhanden ist Modellzusammenfassung Zeigt eine Zusammenfassung der Ergebnisse des neuronalen Netzwerks nach Partition und insgesamt an einschlie lich der folgenden Werte Fehler Relativer Fehler bzw Prozentsatz der falschen Vorhersagen zum Beenden des Trainings verwendete Abbruchregel und Trainingszeit Bei Anwendung der Aktivierungsfunktion Identit t Sigmoid bzw Hyperbeltangens auf die Ausgabeschicht handelt es sich um den Quadratsummenfehler Bei Anwendung der Aktivierungsfunktion Softmax auf die Ausgabeschicht handelt es sich um den Kreuzentropiefehler Die relativen Fehler bzw Prozents tze der falschen Vorhersagen werden in Abh ngigkeit von den Messniveaus der abh ngigen Variablen angezeigt Wenn eine abh ngige Variable ein metrisches Messniveau aufweist wird der durchschnittliche relative Gesamtfehler relativ zum Mittelwertmodell angezeigt Wenn alle abh ngigen Variablen kategorial sind wird der durchschnittliche Prozentsatz der falschen Vorhersagen angezeigt Die relativen Fehler bzw Prozents tze der falschen Vorhersagen werden jeweils f r die einzelnen abh ngigen Variablen angezeigt Klassifikationsergebnisse Zeigt eine Klassifikationsmatrix f r die einzelnen kategorialen abh ngigen Variablen nach Partition und insgesamt an Jede Tabelle gibt f r jede Kategorie abh ngiger Variablen die Anzahl der korrekt und nicht korrekt klassifiziert
92. gespeichert Dabei wird n in der Spalte Zu speichernde Kategorien angegeben Namen der gespeicherten Variablen Durch eine automatische Generierung von Namen wird sichergestellt dass Ihre Arbeit nicht verloren geht Mit benutzerdefinierten Namen k nnen Sie Ergebnisse aus fr heren Durchg ngen verwerfen ersetzen ohne zuerst die gespeicherten Variablen im Daten Editor l schen zu m ssen 21 Mehrschichtiges Perzeptron Wahrscheinlichkeiten und Pseudo Wahrscheinlichkeiten Kategoriale abh ngige Variablen mit Softmax Aktivierung und Kreuzentropiefehler weisen einen vorhergesagten Wert f r jede Kategorie auf wobei die einzelnen vorhergesagten Werte jeweils die Wahrscheinlichkeit angeben dass der Fall zu der betreffenden Kategorie geh rt Kategoriale abh ngige Variablen mit Quadratsummenfehler weisen einen vorhergesagten Wert f r jede Kategorie auf die vorhergesagten Werte k nnen jedoch nicht als Wahrscheinlichkeiten interpretiert werden Die Prozedur speichert diese vorhergesagten Pseudo Wahrscheinlichkeiten selbst wenn sie kleiner als 0 oder gr er als 1 sind oder wenn die Summe f r eine abh ngige Variable nicht 1 ergibt ROC kumulative Gewinne und Lift Charts siehe Ausgabe auf S 17 werden auf der Grundlage von Pseudo Wahrscheinlichkeiten erstellt Falls Pseudo Wahrscheinlichkeiten kleiner als 0 oder gr er als 1 sind oder die Summe f r eine abh ngige Variable nicht 1 ergibt werden die Werte zun chst so neu skaliert das
93. gewichteten Summe der Einheiten in der ersten verborgenen Schicht In beiden Schichten wird dieselbe Aktivierungsfunktion verwendet Anzahl der verborgenen Schichten Ein mehrschichtiges Perzeptron kann eine oder zwei verborgene Schichten enthalten Aktivierungsfunktion Die Aktivierungsfunktion verkn pft die gewichteten Summen der Einheiten in einer Schicht mit den Werten der Einheiten in der nachfolgenden Schicht m Hyperbeltangens Diese Funktion weist folgende Form auf y c tanh c e e eC e Sie verwendet Argumente mit reellen Werten und transformiert sie in den Bereich 1 1 Bei Verwendung der automatischen Architekturauswahl wird diese Aktivierungsfunktion f r alle Einheiten in den verborgenen Schichten verwendet m Sigmoid Diese Funktion weist folgende Form auf y c 1 e Sie verwendet Argumente mit reellen Werten und transformiert sie in den Bereich 0 1 Anzahl der Einheiten Die Anzahl der Einheiten in den einzelnen verborgenen Schichten kann explizit festgelegt oder automatisch durch den Sch tzalgorithmus bestimmt werden Ausgabeschicht Die Ausgabeschicht enth lt die Zielvariablen abh ngigen Variablen Aktivierungsfunktion Die Aktivierungsfunktion verkn pft die gewichteten Summen der Einheiten in einer Schicht mit den Werten der Einheiten in der nachfolgenden Schicht m Identit t Diese Funktion weist folgende Form auf y c c Sie verwendet Argumente mit reellen Werten und gibt s
94. h sicher dass F lle mit positiven Werten f r die Partitionsvariable der Trainingsstichprobe zugewiesen werden F lle mit negativen Werten der Holdout Stichprobe und F lle mit dem Wert 0 der Teststichprobe Im Moment geben wir keine Teststichprobe an gt Klicken Sie im Dialogfeld Variable berechnen auf OK Ungef hr 70 der Kunden die zuvor Kredite erhalten haben weisen den Wert 1 f r Partition auf Anhand dieser Kunden wird das Modell erstellt Die restlichen Kunden die zuvor Kredite erhalten haben weisen den Wert 1 f r Partition auf und werden zur Validierung der Modellergebnisse verwendet 42 Kapitel 4 Durchf hren der Analyse gt Zum Ausf hren einer Analyse vom Typ Mehrschichtiges Perzeptron w hlen Sie die folgenden Men befehle aus Analysieren gt Neuronale Netzwerke gt Mehrschichtiges Perzeptron Abbildung 4 3 Mehrschichtiges Perzeptron Registerkarte Variablen Kal Mehrschichtiges Perzeptron X Yan egen mme Traing Ausgabe men rte eer variablen Abh ngige Variablen Predicted default model 1 preddef1 amp Previously defaulted defaut E Predicted default model 2 preddef2 E Predicted default model 3 preddef3 E partition Faktoren a Level of education ed al Kovariaten amp Age in years age E Years with current employer employ oe Years at current address address amp Household income in thousands income amp Debt to income ratio x100
95. hrittanweisungen hierzu finden Sie unter Vorbereiten der Daten f r die Analyse auf S 39 m Fallreihenfolge Die Trainingsmethoden Online und Mini Batch siehe Training auf S 14 sind explizit von der Fallreihenfolge abh ngig allerdings ist sogar Batch Training von der Fallreihenfolge abh ngig da die Initialisierung der synaptischen Gewichtungen die Ziehung einer Teilstichprobe aus dem Daten Set beinhaltet Um die Auswirkungen der Reihenfolge zu minimieren mischen Sie die F lle in zuf lliger Reihenfolge Pr fen Sie daher die Stabilit t einer bestimmten L sung indem Sie verschiedene L sungen abrufen bei denen die F lle in einer unterschiedlichen zuf llig ausgew hlten Reihenfolgen sortiert sind In Situationen mit extrem umfangreichen Dateien k nnen mehrere Durchg nge mit jeweils einer Stichprobe von F llen durchgef hrt werden die in unterschiedlicher zuf llig ausgew hlter Reihenfolge sortiert ist m Reihenfolge der Variablen Die Ergebnisse k nnen von der Reihenfolge der Variablen in der Faktorenliste und der Kovariatenliste beeinflusst werden da die zugewiesenen Anfangswerte ein anderes Muster aufweisen wenn die Reihenfolge der Variablen ge ndert wird Wie bei den Effekten der Fallreihenfolge k nnen Sie auch eine andere Reihenfolge der Variablen ausprobieren durch Ziehen und Ablegen in der Liste der Faktoren bzw Kovariaten um die Stabilit t einer bestimmten L sung einzusch tzen Erstellen eines Netzw
96. htigkeitsdiagramm f r die unabh ngigen Variablen Normalisierte Wichtigkeit Wichtigkeit Das Wichtigkeitsdiagramm zeigt dass die Ergebnisse vor allem vom durchgef hrten Operationsverfahren abh ngen gefolgt davon ob Komplikationen auftraten Die anderen Einflussvariablen folgen in weitem Abstand Die Bedeutung des Operationsverfahrens ist deutlich in den Diagrammen f r Treatment costs Behandlungskosten erkennbar und etwas weniger deutlich bei Length of stay Aufenthaltsdauer w hrend der Effekt von Komplikationen auf Length of stay Aufenthaltsdauer bei den Patienten mit den h chsten Werten f r die beobachtete Aufenthaltsdauer sichtbar zu sein scheint Auswertung Das Netzwerk scheint gute Arbeit bei der Vorhersage von Werten f r typische Patienten zu leisten erfasst jedoch keine Patienten die nach der Operation verstarben Eine M glichkeit dieses Problem anzugehen besteht darin mehrere Netzwerke zu erstellen Ein Netzwerk zur Vorhersage des Patientenergebnisses vielleicht einfach nur ob der Patient berlebte oder nicht und dann separate Netzwerke die abh ngig davon ob der Patient berlebte Treatment costs Behandlungskosten und Length of stay Aufenthaltsdauer vorhersagen Anschlie end k nnen Sie die Netzwerkergebnisse kombinieren um vermutlich bessere Vorhersagen zu erzielen Ein hnlicher Ansatz k nnte zur L sung des Problems der Untervorhersage von Kosten und Aufenthaltsdauer von Patienten mit Kompl
97. iagramm ist einfach ein Balkendiagramm der Werte in der Wichtigkeitstabelle nach absteigender Wichtigkeit sortiert Es sieht so aus dass Variablen die mit der Stabilit t eines Kunden employ Jahre der Besch ftigung beim derzeitigen Arbeitgeber address wohnhaft an gleicher Adresse in Jahren und Schulden creddebt Schulden auf Kreditkarte in Tausend 58 Kapitel 4 debtinc Relation Schulden zu Einkommen zu tun haben den gr ten Effekt darauf haben wie das Netzwerk Kunden klassifiziert was nicht abgelesen werden kann ist die Richtung der Beziehung zwischen diesen Variablen und der vorhergesagten Wahrscheinlichkeit der Nichtzur ckzahlung Man w rde annehmen dass ein h herer Schuldenstand auf eine gr ere Wahrscheinlichkeit der Nichtr ckzahlung hinweist aber um sicher zu sein m sste ein Modell mit leichter interpretierbaren Parametern verwendet werden bersicht Mit der Prozedur Mehrschichtiges Perzeptron haben Sie ein Netzwerk f r die Vorhersage der Wahrscheinlichkeit erstellt mit der ein bestimmter Kunde seinen Kredit nicht zur ckzahlen wird Die Modellergebnisse sind mit den Ergebnissen vergleichbar die mithilfe der logistischen Regression oder der Diskriminanzanalyse gewonnen werden Sie k nnen also recht zuversichtlich sein dass die Daten keine Beziehungen enthalten die sich nicht durch diese Modelle erfassen lassen Daher k nnen Sie diese Modelle f r die weitere Analyse der Eigenschaften der
98. ibt Bei jeder abh ngigen Variablen zeigt das ROC Diagramm jeweils genau eine Kurve f r jede Kategorie an Wenn die abh ngige Variable zwei Kategorien aufweist behandelt jede Kurve die fragliche Kategorie als positiven Zustand gegen ber der anderen Kategorie Wenn die abh ngige Variable mehr als zwei Kategorien aufweist behandelt jede Kurve die fragliche Kategorie als positiven Zustand gegen ber allen anderen Kategorien Kumulatives Gewinndiagramm Zeigt f r jede kategoriale abh ngige Variable ein kumulatives Gewinndiagramm an Die Anzeige einer Kurve f r jede Kategorie der abh ngigen Variablen verh lt sich wie bei ROC Kurven Lift Chart Index Zeigt f r jede kategoriale abh ngige Variable einen Lift Chart an Die Anzeige einer Kurve f r jede Kategorie der abh ngigen Variablen verh lt sich wie bei ROC Kurven Diagramm Vorhergesagt Beobachtet Zeigt f r jede abh ngige Variable ein Diagramm an das die vorhergesagten Werte in Abh ngigkeit von den beobachteten Werten angibt Bei kategorialen abh ngigen Variablen werden f r jede Antwortkategorie gruppierte Boxplots der vorhergesagten Pseudo Wahrscheinlichkeiten angezeigt wobei die Kategorie der beobachteten Antworten als Klumpenvariable fungiert Bei metrischen abh ngigen Variablen wird ein Streudiagramm angezeigt Diagramm Residuum Vorhergesagt Zeigt f r jede metrische abh ngige Variable ein Diagramm an das die Residuen in Abh ngigkeit von den vorhergesagten
99. ichprobe F lle mit einem systemdefiniert fehlenden Wert werden aus der Analyse ausgeschlossen Alle benutzerdefiniert fehlenden Werte f r die Partitionsvariable werden immer als g ltig behandelt Architektur Abbildung 3 4 Radiale Basisfunktion Registerkarte Architektur Ff Radiale Basisfunktion Lorton egen Ache Ausgabe men Er Ontonen rAnzahl der Einheiten in der verborgenen Schicht Beste Anzahl an Einheiten innerhalb eines Bereichs finden Bereich Bereich automatisch berechnen Angegebenen Bereich verwenden Minimum Maximum Eine vorgegebene Anzahl an Einheiten verwenden Anzahl rAktivierungsfunktion f r verborgene Schicht Normalisierte radiale Basisfunktion Gew hnliche radiale Basisfunktion Uberschneidung zwischen versteckten Einheiten Zuzulassende berlagerung automatisch berechnen vorgegebene berlagerung zulassen Uberschneidungstaktor La 1 sw J ap 1 ms 31 Radiale Basisfunktion Auf der Registerkarte Architektur k nnen Sie die Struktur des Netzwerks angeben Diese Prozedur erstellt ein neuronales Netzwerk mit genau einer verborgenen Schicht vom Typ Radiale Basisfunktion Normalerweise ist es nicht erforderlich diese Einstellungen zu ndern Anzahl der Einheiten in der verborgenen Schicht Es gibt drei M glichkeiten zur Auswahl der Anzahl der verborgenen Einheiten Beste Anzahl an Einheiten innerhalb eines automatisch
100. ie beste Anzahl verborgener Einheiten ist diejenige die den kleinsten Fehler in den Testdaten ergibt In der Modellzusammenfassung werden Informationen zu den Ergebnissen des Trainings des Tests und der Anwendung des endg ltigen Netzwerks auf die Holdout Stichprobe angezeigt m Der Quadratsummenfehler wird angezeigt da dieser immer f r RBF Netzwerke verwendet wird Dies ist die Fehlerfunktion die das Netzwerk w hrend des Training und Tests zu minimieren versucht m Der Prozentsatz der falschen Vorhersagen wird aus der Klassifikationsmatrix entnommen und in dem zugeh rigen Thema eingehender er rtert Klassifikation Abbildung 5 9 Klassifikation vorhergesagt Percent Beispiel Beobachtet ervice Correct Training Basic service 36 6 E service 7 Plus service 56 2 Total service 51 8 Overall Percent 38 2 Testing Basic service 0 30 5 E service 0 0 Plus service 0 60 0 Total service 0 55 3 Overall Percent 37 1 Holdout Basic service 0 34 4 E service 0 0 Plus service 0 61 3 Total service 0 60 0 Overall Percent 40 5 Abh ngige Variable Customer category Die Klassifikationsmatrix zeigt die praktischen Ergebnisse der Verwendung des Netzwerks F r jeden Fall ist die vorhergesagte Antwort die Kategorie mit der h chsten vorhergesagten Pseudo Wahrscheinlichkeit 83 Radiale Basisfunktion m Die Zellen auf der Diagonale stellen korrekte Vorhersagen dar m Die Zellen abseit
101. ie unver ndert wieder aus Bei Verwendung der automatischen Architekturauswahl wird diese Aktivierungsfunktion f r Einheiten in der Ausgabeschicht verwendet sofern metrische abh ngige Variablen vorliegen m Softmax Diese Funktion weist folgende Form auf y cy exp ex V 2jexp cj Sie verwendet einen Vektor von Argumenten mit reellen Werten und transformiert ihn in einen Vektor dessen Elemente in den Bereich 0 1 fallen und als Summe 1 ergeben Softmax ist nur verf gbar wenn alle abh ngigen Variablen kategorial sind Bei Verwendung der automatischen Architekturauswahl wird diese Aktivierungsfunktion f r Einheiten in der Ausgabeschicht verwendet sofern alle abh ngigen Variablen kategorial sind m Hyperbeltangens Diese Funktion weist folgende Form auf y c tanh c e e e e Sie verwendet Argumente mit reellen Werten und transformiert sie in den Bereich 1 1 m Sigmoid Diese Funktion weist folgende Form auf y c V 1 e Sie verwendet Argumente mit reellen Werten und transformiert sie in den Bereich 0 1 13 Mehrschichtiges Perzeptron Neuskalierung der metrischen abh ngigen Variablen Diese Steuerelemente sind nur verf gbar wenn mindestens eine metrische abh ngige Variable ausgew hlt wurde Standardisiert Subtraktion des Mittelwerts und Division durch die Standardabweichung x Mittelwert s Normalisiert Subtraktion des Mittelwerts und Division durch den Bereich x min max min N
102. ikationen f r verschiedene Fahrzeugfabrikate und modelle Die Listenpreise und physischen Spezifikationen wurden von edmunds com und Hersteller Websites entnommen car_sales_uprepared sav Hierbei handelt es sich um eine modifizierte Version der Datei car_sales sav die keinerlei transformierte Versionen der Felder enth lt carpet sav In einem beliebten Beispiel m chte Green als auch Wind 1973 einen neuen Teppichreiniger vermarkten und dazu den Einfluss von f nf Faktoren auf die Bevorzugung durch den Verbraucher untersuchen Verpackungsgestaltung Markenname Preis G tesiegel Good Housekeeping und Geld zur ck Garantie Die Verpackungsgestaltung setzt sich aus drei Faktorenebenen zusammen die sich durch die Position der Auftrageb rste unterscheiden Au erdem gibt es drei Markennamen K2R Glory und Bissell drei Preisstufen sowie je zwei Ebenen Nein oder Ja f r die letzten beiden Faktoren 10 Kunden stufen 22 Profile ein die durch diese Faktoren definiert sind Die Variable Preference enth lt den Rang der durchschnittlichen Einstufung f r die verschiedenen Profile Ein niedriger Rang bedeutet eine starke Bevorzugung Diese Variable gibt ein Gesamtma der Bevorzugung f r die Profile an carpet_prefs sav Diese Datendatei beruht auf denselben Beispielen wie f r carpet sav beschrieben enth lt jedoch die tats chlichen Einstufungen durch jeden der 10 Kunden Die Kunden wurden gebeten die 22 Produktprofile in der Reihenfolge ihrer
103. ikationen w hrend der Operation verfolgt werden 75 Mehrschichtiges Perzeptron Empfohlene Literatur In folgenden Texten finden Sie weitere Informationen zu neuronalen Netzwerken und mehrschichtigen Perzeptronen Bishop C M 1995 Neural Networks for Pattern Recognition 3rd Hg Oxford Oxford University Press Fine T L 1999 Feedforward Neural Network Methodology 3rd Hg New York Springer Verlag Haykin S 1998 Neural Networks A Comprehensive Foundation 2nd Hg New York Macmillan College Publishing Ripley B D 1996 Pattern Recognition and Neural Networks Cambridge Cambridge University Press Kapitel Radiale Basisfunktion Die Prozedur Radiale Basisfunktion RBF erstellt ein Vorhersagemodell f r eine oder mehrere abh ngige Variablen Zielvariablen das auf den Werten der Einflussvariablen beruht Verwenden der radialen Basisfunktion zum Klassifizieren von Telekommunikationskunden Ein Telekommunikationsanbieter hat seinen Kundenstamm in Muster der Servicenutzung eingeteilt und die Kunden in vier Gruppen kategorisiert Wenn demografische Daten zum Vorhersagen der Gruppenzugeh rigkeit verwendet werden k nnen sind angepasste Angebote f r die einzelnen potenziellen Kunden m glich Angenommen die Informationen ber die derzeitigen Kunden befinden sich in der Datei telco sav F r weitere Informationen siehe Thema Beispieldateien in Anhang A auf S 89 Verwenden Sie die radiale Basi
104. ionsanalyse wurden ungef hr 70 der fr heren Kunden der Trainingsstichprobe zugewiesen und 30 einer Holdout Stichprobe Es ist eine Partitionsvariable erforderlich um die in diesen Analysen verwendeten Stichproben exakt zu reproduzieren gt Um die Partitionsvariable zu erstellen w hlen Sie folgende Optionen in den Men s aus Transformieren gt Variable berechnen 41 Mehrschichtiges Perzeptron Abbildung 4 2 Dialogfeld Variable berechnen E Variable berechnen E Zielvariable Numerischer Ausdruck 2rv bernouli0 7 1 8 Age in years age al Level of education ed E Years with current em L Years at current addre 8E Household income in th E Debt to income ratio x E Credit card debt in tho Umwandlung E Other debt in thousand Atunes umag ae Uh amp Previously defaulted d E Predicted default mod Funktionen und Sondervariablen Predicted default mod E Predicted default mod Funktionsguppe Ale Arithmetisch Verteilungsfunktionen Fals ontionate Fallauswahlbedingung Geben Sie Partition in das Textfeld Zielvariable ein Geben Sie 2 rv bernoulli 0 7 1 in das Textfeld Numerischer Ausdruck ein Dadurch werden als Werte von PartitionBernoulli Zufallsvariablen mit einem Wahrscheinlichkeitsparameter von 0 7 verwendet die so ver ndert werden dass sie die Werte 1 oder 1 statt 1 bzw 0 annehmen Sie erinnern sic
105. ische Variable an die jeden Fall in der Arbeitsdatei der Trainings Test bzw Holdout Stichprobe zuweist F lle mit einem positiven Wert f r die Variable werden der Trainingsstichprobe zugewiesen F lle mit dem Wert 0 der Teststichprobe und F lle mit einem negativen Wert der Holdout Stichprobe F lle mit einem systemdefiniert fehlenden Wert werden aus der Analyse ausgeschlossen Alle benutzerdefiniert fehlenden Werte f r die Partitionsvariable werden immer als g ltig behandelt Hinweis Die Verwendung einer Partitionsvariablen garantiert keine identischen Ergebnisse bei sp teren Ausf hrungen der Prozedur Weitere Informationen finden Sie unter Reproduzieren der Ergebnisse im Thema Mehrschichtiges Perzeptron 11 Mehrschichtiges Perzeptron Architektur Abbildung 2 4 Mehrschichtiges Perzeptron Registerkarte Architektur E Mehrschichtiges Perzeptron orton egen Achter Traing Ausgabe men rte eer Automatische Architekturauswahl Minimale Anzahl an Einheiten in verborgener Schicht Maximale Anzahl an Einheiten in verborgener Schicht Benutzerdefinierte Architektur r verborgene Schichten enen Schichten zwe rAktivierungsfunktion E Hyperbeltangens verborgene Schicht 2 von abh ngigen metrischen variablen Standardisiert Normalisiert Korrektur Angepasst normalisiert ektur Auf der Registerkarte
106. it der rechten Maustaste auf eine Variable um deren Messniveau zu ndern Erneute Skalierung von Kovariaten La 1 sw zeen apen 1 rare _ gt Wahlen Sie mindestens eine abh ngige Variable aus W hlen Sie mindestens einen Faktor oder eine Kovariate aus Optional k nnen Sie auf der Registerkarte Variablen die Methode zur Neuskalierung der Kovariaten ndern Folgende Optionen stehen zur Auswahl sm Standardisiert Subtraktion des Mittelwerts und Division durch die Standardabweichung x Mittelwert s m Normalisiert Subtraktion des Mittelwerts und Division durch den Bereich x min max min Normalisierte Werte liegen im Bereich zwischen 0 und 1 28 Kapitel 3 m Angepasst normalisiert Angepasste Version der Subtraktion des Mittelwerts und Division durch den Bereich 2 x min max min 1 Angepasste normalisierte Werte liegen zwischen 1 und 1 m Keine Keine Neuskalierung der Kovariaten Felder mit unbekanntem Messniveau Die Messniveau Warnmeldung wird angezeigt wenn das Messniveau fiir mindestens eine Variable ein Feld im Datenblatt unbekannt ist Da sich das Messniveau auf die Berechnung der Ergebnisse fiir diese Prozedur auswirkt m ssen alle Variablen ein definiertes Messniveau aufweisen Abbildung 3 2 Messniveau Warnmeldung wy Messniveau Q Das richtige Messniveau ist f r diese Prozedur wichtig Das Messniveau ist f r mindestens ein Feld im Datenblatt nicht bekannt
107. itionen s euren an ae bade RE ee en ATChitekt n EE er Bond dafuer dh ra a Rene aon EA Ausgabe u ea DEN e ae e we eee ded NENNEN SNE EN Ne ee SDEICHhEFN Au edd das Set ns NN a E e kan ch EE va deed he he EXPORT Mat ae gege ee Ne le EE Teil Il Beispiele 4 Mehrschichtiges Perzeptron Verwenden eines mehrschichtigen Perzeptrons zur Bewertung des Kreditrisikos Vorbereiten der Daten f r die Analyse 1 eee eens Durchf hren der Analyse 0 0 eee eee e eens Zusammenfassung der Fallverarbeitung 0 0 0 0 ccc eee eens Sie H Netzwerkinformationen 2 2 cc nennen 45 Modellzusammenfassung 46 Klassifikation nennen rennen nenne 46 Korrigieren von bertraining 2222222 ccc e eee e cece eee ete e ee eeeeneeeees 47 bersicht d ER ae susanne EE dE wen ar AEN AN 58 Verwenden eines mehrschichtigen Perzeptrons zur Absch tzung von Behandlungskosten und Aufenthaltsdauer Ae 8 EE ek AEN dh ead na oa oe dare Oh dE ga es OE ah ee 58 Vorbereiten der Daten f r die Analyse 0 0 0 cece nennen 58 Durchf hren der Analyse 0 00sec eet tet een 59 Warnungen EE nei ei 66 Zusammenfassung der Fallverarbeitung 00 00 c eee eee 67 Netzwerkinformationen 0c cece teens 68 Modellzusammenfassung 69 Diagramme vom Typ Vorhergesagt Beobachtet 70 Diagramme vom Typ Residuum Vorhergesagt nunaa cece cece eee 72 Wichtigkeit der unabh ngigen Variablen 0 0 0
108. ke 2 Ausgabeschicht in Mehrschichtiges Perzeptron 11 in Radiale Basisfunktion 30 Batch Training in Mehrschichtiges Perzeptron 14 Beispieldateien Speicherort 89 Etwas in Radiale Basisfunktion 76 Fehlende Werte in Mehrschichtiges Perzeptron 23 Gewinndiagramm in Mehrschichtiges Perzeptron 17 in Radiale Basisfunktion 32 Holdout Stichprobe in Mehrschichtiges Perzeptron 9 in Radiale Basisfunktion 29 Klassifikation in Mehrschichtiges Perzeptron 46 51 in Radiale Basisfunktion 82 Kumulatives Gewinndiagramm in Mehrschichtiges Perzeptron 55 in Radiale Basisfunktion 86 Lift Chart Index in Mehrschichtiges Perzeptron 17 55 in Radiale Basisfunktion 32 86 Marken 101 Mehrschichtiges Perzeptron 4 39 Ausgabe 17 Klassifikation 46 51 Kumulatives Gewinndiagramm 55 Lift Chart Index 55 Modellexport 22 Modellzusammenfassung 46 51 69 Netzwerkarchitektur 11 Netzwerkinformationen 45 50 68 Optionen 23 Partitionen 9 Index Partitionsvariable 40 Residuum Vorhergesagt Diagramm 72 ROC Kurve 52 Speichern von Variablen in der Arbeitsdatei 20 Training 14 bertrainieren 47 Vorhergesagt Beobachtet Diagramm 53 70 Warnungen 66 Wichtigkeit der unabhangigen Variablen 57 74 Zusammenfassung der Fallverarbeitung 45 50 67 Mini Batch Training 173 in Mehrschichtiges Perzeptr
109. ldout Stichprobe 201 F lle zugewiesen wurden Bei den 150 aus der Analyse ausgeschlossenen F llen handelt es sich um die potenziellen Kunden Netzwerkinformationen Abbildung 4 7 Netzwerkinformationen Eingabeschicht verborgene Schichten Ausgabeschicht Factors 1 Covariates 1 Anzahl der Einheiten Rescaling Method for Covariates Anzahl der verborgenen Schichten Anzahl der Einheiten in verborgener Schicht 1 Aktivierungsfunktion Dependent Variables 1 Anzahl der Einheiten Aktivierungsfunktion Fehlerfunktion a Ohne die Verzerrungseinheit Level of education Age in years Years with current employer Years at current address Household income in thousands Debt to income ratio 100 Credit card debtin thousands Other debtin thousands Standardisiert Hyperbeltangens Previously defaulted 2 Softmax Kreuzentropie In der Tabelle Netzwerkinformationen werden Informationen zum neuronalen Netzwerk angezeigt Anhand dieser Tabelle k nnen Sie sich vergewissern dass die Spezifikationen korrekt sind Beachten Sie hier insbesondere Folgendes m Die Anzahl der Einheiten in der Eingabeschicht ist die Anzahl der Kovariaten plus die Gesamtzahl der Faktorstufen f r jede Kategorie von Level of education Ausbildung wird eine gesonderte Einheit erstellt und keine der Kategorien wird als redundante Einheit betrachtet wie dies bei vielen Modellierungsprozeduren blich ist 46
110. ligence Vorhersageanalyse Finanz und Strategiemanagement sowie Analyseanwendungen bietet Ihnen sofort klare und umsetzbare Einblicke in die aktuelle Leistung und gibt Ihnen die M glichkeit zuk nftige Ergebnisse vorherzusagen Durch umfassende Branchenl sungen bew hrte Vorgehensweisen und professionellen Service k nnen Unternehmen jeder Gr e die Produktivit t maximieren Entscheidungen automatisieren und bessere Ergebnisse erzielen Als Teil dieses Portfolios unterst tzt IBM SPSS Predictive Analytics Software Unternehmen dabei zuk nftige Ereignisse vorherzusagen und proaktiv Ma nahmen zu ergreifen um bessere Gesch ftsergebnisse zu erzielen Kunden aus Wirtschaft ffentlichem Dienst und dem Bildungsbereich weltweit nutzen IBM SPSS Technologie als Wettbewerbsvorteil f r Kundengewinnung Kundenbindung und Erh hung der Kundenums tze bei gleichzeitiger Eind mmung der Betrugsm glichkeiten und Minderung von Risiken Durch die Einbindung von IBM SPSS Software in ihre t glichen Operationen wandeln sich Organisationen zu Predictive Enterprises die Entscheidungen auf Gesch ftsziele ausrichten und automatisieren und einen messbaren Wettbewerbsvorteil erzielen k nnen Wenn Sie weitere Informationen w nschen oder Kontakt zu einem Mitarbeiter aufnehmen m chten besuchen Sie die Seite http fwww ibm com spss Technischer Support Kunden mit Wartungsvertrag k nnen den technischen Support in Anspruch nehmen Kunden k nnen sich
111. llte m Scoring eines Antragstellers um dessen Kreditrisiko zu ermitteln Aufdecken betr gerischer Transaktionen in einer Datenbank mit Versicherungsforderungen Die in Prognoseanwendungen wie Netzwerken vom Typ Mehrschichtiges Perzeptron MLP und Radiale Basisfunktion RBF verwendeten Prognoseanwendungen werden dahingehend berwacht dass die vom Modell vorhergesagten Ergebnisse mit bekannten Werten der Zielvariablen verglichen werden k nnen Mit der Option Neural Networks k nnen Sie MLP und RBF Netzwerke anpassen und die so entstehenden Modelle f r das Scoring speichern Was ist ein neuronales Netzwerk Der Begriff neuronales Netzwerk bezicht sich auf eine locker miteinander verwandte Modellfamilie die durch einen gro en Parameterraum und eine flexible Struktur gekennzeichnet ist die sich aus den Studien zur Funktionsweise des Gehirns herleitet Als die Modellfamilie wuchs wurden die meisten neuen Modelle f r Anwendungen au erhalb der Biologie entwickelt obwohl ein Gro teil der zugeh rigen Terminologie noch die Urspr nge erkennen l sst Die spezifischen Definitionen f r neuronale Netzwerke sind so vielf ltig wie ihre Einsatzgebiete Es gibt keine Definition die die gesamte Modellfamilie richtig erfassen w rde Wir verwenden jedoch vorl ufig folgende Beschreibung Haykin 1998 Ein neuronales Netzwerk ist ein verteilter massiv paralleler Prozessor mit einer nat rlichen Neigung zur Speicherung von experimentellem Wiss
112. m die Datendatei grocery_coupons sav wobei die w chentlichen Eink ufe zusammengefasst sind sodass jeder Fall einem anderen Kunden entspricht Dadurch entfallen einige der Variablen die w chentlichen nderungen unterworfen waren und der verzeichnete ausgegebene Betrag ist nun die Summe der Betr ge die in den vier Wochen der Studie ausgegeben wurden grocery_coupons sav Hierbei handelt es sich um eine hypothetische Datendatei die Umfragedaten enth lt die von einer Lebensmittelkette erfasst wurden die sich f r die Kaufgewohnheiten ihrer Kunden interessiert Jeder Kunde wird ber vier Wochen beobachtet und jeder Fall entspricht einer Kundenwoche und enth lt Informationen zu den Gesch ften in denen der Kunde einkauft sowie zu anderen Merkmalen beispielsweise welcher Betrag in der betreffenden Woche f r Lebensmittel ausgegeben wurde guttman sav Bell Bell 1961 legte eine Tabelle zur Darstellung m glicher sozialer Gruppen vor Guttman Guttman 1968 verwendete einen Teil dieser Tabelle bei der f nf Variablen die Aspekte beschreiben wie soziale Interaktion das Gef hl der Gruppenzugeh rigkeit die physische N he der Mitglieder und die Formalit t der Beziehung mit sieben theoretischen sozialen Gruppen gekreuzt wurden crowds Menschenmassen beispielsweise die Zuschauer eines Fu ballspiels audience Zuh rerschaften beispielsweise die Personen im Theater oder bei einer Vorlesung public ffentlichk
113. menfehler Durchschnittlicher relativer Gesamtfehler Relativer Fehler f r Length of stay abhangige metrische Varlablee Treatment costs Pr fung Holdout Durchschnittlicher relativer Gesamtfehler Relativer Fehler f r Length of stay abhangige metrische Variablen Treatment costs a Fehlerberechnungen beruhen auf der Teststichprobe In der Modellzusammenfassung werden Informationen zu den Ergebnissen des Trainings und der Anwendung des endg ltigen Netzwerks auf die Holdout Stichprobe angezeigt Ein Quadratsummenfehler wird angezeigt da die Ausgabeschicht metrische abh ngige Variablen aufweist Dies ist die Fehlerfunktion die das Netzwerk w hrend des Trainings zu minimieren versucht Beachten Sie dass die Quadratsummen und alle folgenden Fehlerwerte f r die neu skalierten Werte der abh ngigen Variablen berechnet werden Der relative Fehler f r die einzelnen metrischen abh ngigen Variablen ist jeweils der Quotient aus dem Quadratsummenfehler f r die abh ngige Variable und dem Quadratsummenfehler f r das Null Modell in dem der Mittelwert der abh ngigen Variablen als vorhergesagter Wert f r die einzelnen F lle verwendet wird In den Vorhersagen von Length of stay Aufenthaltsdauer scheint der Fehler gr er zu sein als in Treatment costs Behandlungskosten Der durchschnittliche Gesamtfehler ist der Quotient aus dem Quadratsummenfehler f r alle abh ngigen Variablen und dem Quadratsummenfehler f r das
114. mm in Radiale Basisfunktion 83 Warnungen in Mehrschichtiges Perzeptron 66 Wichtigkeit in Mehrschichtiges Perzeptron 57 74 Zusammenfassung der Fallverarbeitung in Mehrschichtiges Perzeptron 45 50 67 in Radiale Basisfunktion 80
115. n um in die Analyse aufgenommen zu werden Mit diesen Steuerelementen legen Sie fest ob benutzerdefiniert fehlende Werte bei den Faktoren und kategorialen abh ngigen Variablen als g ltige Werte behandelt werden sollen Abbruchregeln Dies sind die Regeln die festlegen wann das Training des neuronalen Netzwerks abgebrochen werden soll Das Training erfolgt ber mindestens einen Datendurchlauf Anschlie end kann das Training gem den folgenden Kriterien beendet werden die in der angegebenen Reihenfolge berpr ft werden In den folgenden Definitionen f r Abbruchregeln entspricht ein Schritt bei den Methoden Online und Mini Batch einem Datendurchlauf bei der Batch Methode einer Iteration m Maximale Anzahl an Schritten ohne Verringerung des Fehlers Die Anzahl der Schritte die zul ssig sind bevor eine Pr fung auf Verringerung des Fehlers erfolgt Wenn nach der angegebenen Anzahl an Schritten keine Verringerung des Fehlers zu verzeichnen ist wird das Training beendet Geben Sie eine ganze Zahl gr er 0 an Au erdem k nnen Sie angeben welche Datenstichprobe zur Berechnung des Fehlers verwendet werden soll Bei Automatisch 24 Kapitel 2 ausw hlen wird die Teststichprobe verwendet sofern vorhanden Anderenfalls wird die Trainingsstichprobe verwendet Beachten Sie dass beim Batch Training der Fehler bei der Trainingsstichprobe garantiert nach jedem Datendurchlauf kleiner wird daher kann diese Option nur auf das
116. n Da es sich bei den fr heren F llen von Zahlungsverzug um eine kategoriale Variable mit zwei Kategorien handelt wird sie als zwei Indikatorvariablen umkodiert Jede Ausgabeeinheit ist jeweils eine Funktion der verborgenen Einheiten Auch hier h ngt die genaue Form der Funktion zum Teil vom Netzwerktyp und zum Teil von den vom Benutzer festlegbaren Spezifikationen ab Beim MLP Netzwerk ist eine zweite verborgene Schicht zul ssig in diesem Fall ist jede Einheit der zweiten verborgenen Schicht eine Funktion der Einheiten in der ersten verborgenen Schicht und jede Antwort ist eine Funktion der Einheiten in der zweiten verborgenen Schicht Kapitel Mehrschichtiges Perzeptron Die Prozedur Mehrschichtiges Perzeptron Multilayer Perceptron MLP erstellt ein Vorhersagemodell f r eine oder mehrere abh ngige Variablen Zielvariablen das auf den Werten der Einflussvariablen beruht Beispiele Im Folgenden finden Sie zwei Szenarien die die Prozedur MLP verwenden Eine Kreditsachbearbeiterin in einer Bank muss in der Lage sein Merkmale zu ermitteln die auf Personen hindeuten die mit hoher Wahrscheinlichkeit ihre Kredite nicht zur ckzahlen und diese Merkmale zur Feststellung eines guten bzw schlechten Kreditrisikos einzusetzen Mithilfe einer Stichprobe von fr heren Kunden kann sie ein mehrschichtiges Perzeptron trainieren die Analysen anhand einer Pr f Holdout Stichprobe fr herer Kunden validieren und anschlie end mit dem N
117. nden ein mehrschichtiges Perzeptron und lassen Sie die verbleibenden Kunden zun chst au en vor um sp ter damit die Analyse zu bewerten Stufen Sie das Kreditrisiko der 150 zuk nftigen Kunden dann mit diesem Modell als gering oder hoch ein Au erdem hat die Kreditsachbearbeiterin die Daten zuvor mithilfe einer logistischen Regression in der Option Regression analysiert und fragt sich wie das mehrschichtige Perzeptron im Vergleich damit als Klassifizierungswerkzeug abschneidet Vorbereiten der Daten f r die Analyse Durch die Festlegung des Startwerts k nnen sie die Analyse exakt reproduzieren Zur Festlegung des Startwerts w hlen Sie die folgenden Men befehle aus Transformieren gt Zufallszahlengeneratoren Copyright IBM Corporation 1989 2011 39 40 Kapitel 4 Abbildung 4 1 Dialogfeld Zufallszahlengenerator L Zufallszahlengenerator Aktiver Generator _ rInitialisierung des aktiven Generators E Aktiven Generator festlegen Iw Anfangswert festlegen Zuf llig Fester Wert Wert 9191972 Derzeit aktiver Generator Mit SPSS 12 kompatibel a Die Einstellung f r den aktiven Generator wird sofort bernommen und gilt auch f r zuk nftige Sitzungen EI orten ars em m W hlen Sie Anfangswert festlegen W hlen Sie Fester Wert und geben Sie 9191972 als Wert ein Klicken Sie auf OK In der vorangegangenen logistischen Regress
118. ng und Online Training dar und eignet sich am besten f r mittelgro e Daten Sets Die Prozedur kann die Anzahl der Trainingsdatens tze pro Mini Batch automatisch festlegen Sie k nnen jedoch auch eine ganze Zahl gr er 1 und kleiner oder gleich der maximalen Anzahl der im Arbeitsspeicher zu speichernden F lle angeben Die maximale Anzahl der im Arbeitsspeicher zu speichernden F lle k nnen Sie auf der Registerkarte Optionen festlegen Optimierungsalgorithmus Diese Methode wird zur Sch tzung der synaptischen Gewichtungen verwendet Skalierter konjugierter Gradient Die Annahmen die eine Verwendung von Methoden mit konjugiertem Gradienten rechtfertigen gelten nur f r das Batch Training Diese Methode steht also f r Online und Mini Batch Training nicht zur Verf gung Gradientenabstieg Diese Methode muss nur beim Online bzw Mini Batch Training verwendet werden Auch beim Batch Training kann sie eingesetzt werden Trainingsoptionen Die Trainingsoptionen erm glichen eine Feinabstimmung des Optimierungsalgorithmus Im Allgemeinen m ssen Sie diese Einstellungen nur ndern wenn beim Netzwerk Probleme mit der Sch tzung auftreten Folgende Trainingsoptionen stehen f r den Algorithmus mit skaliertem konjugiertem Gradienten zur Verf gung Anfangs Lambda Der urspr ngliche Wert des Lambda Parameters f r den Algorithmus mit skaliertem konjugiertem Gradienten Geben Sie einen Wert gr er als 0 und kleiner als 0 000001 ein
119. ngigen variablen wird mit steigender Anzahl an Einflussvariablen und F llen immer zeitaufwendiger gt Heben Sie im Gruppenfeld Netzwerkstruktur die Auswahl der Option Diagramm auf W hlen Sie im Gruppenfeld Netzwerkleistung die Optionen ROC Kurve Kumulatives Gewinndiagramm Lift Chart Index und Diagramm Vorhergesagt Beobachtet Klicken Sie auf die Registerkarte Speichern 80 Kapitel 5 Abbildung 5 5 Radiale Basisfunktion Registerkarte Speichern Im Prien mme Ausgabe SPechern Exporteren Optenen E F r jede abh ngige Variable vorhergesagten Wert bzw Kategorie speichern E F r jede abh ngige Variable vorhergesagte Pseudo VVahrscheinlichkeit speichern variablen PY vorhergesagter Wert bzw Kategorie Vorhergesagte Pseudo Wahrscheinlichkeit Abhangige Yariable Name der gespeicherten Yariablen Stammname der gespeicherten Yariablen Zu speichernde Kategorien Namen der gespeicherten Yariablen Automatisch eindeutige Namen generieren W hlen Sie diese Option wenn Sie bei jeder Ausf hrung eines Modells ein neues Set gespeicherter Variablen zu Ihrem Datenblatt hinzuf gen m chten Benutzerdefinierte Namen Geben Sie Namen f r die Variablen an Bei Auswahl dieser Option werden bei jeder Ausf hrung eines Modells alle bestehenden Variablen mit demselben Namen bzw Stammnamen ersetzt La 1 sw zeen ap 1 rare Aktivieren Sie F r jede abh ngige V
120. nung der Wichtigkeit der unabh ngigen Variablen wird mit steigender Anzahl an Einflussvariablen und F llen immer zeitaufwendiger La 1 sw _ Zuractsetzen Antrechen 1 ms Netzwerkstruktur Zeigt zusammenfassende Informationen ber das neuronale Netzwerk an m Beschreibung Zeigt Informationen zum neuronalen Netzwerk an einschlie lich der folgenden abh ngige Variablen Anzahl von Eingabe und Ausgabeeinheiten Anzahl der verborgenen Schichten und Einheiten und Aktivierungsfunktionen Diagramm Zeigt das Netzwerkdiagramm als nicht bearbeitbares Diagramm an Beachten Sie Mit steigender Anzahl an Kovariaten und Faktorstufen wird das Diagramm schwerer zu interpretieren m Synaptische Gewichtungen Zeigt die Koeffizientensch tzer an die die Beziehung zwischen den Einheiten in einer bestimmten Schicht und den Einheiten in der n chsten Schicht anzeigen Die synaptischen Gewichtungen beruhen auf der Trainingsstichprobe selbst wenn die Arbeitsdatei in Trainings Test und Holdout Daten partitioniert ist Beachten Sie dass die Anzahl der synaptischen Gewichtungen recht gro werden kann und dass diese Gewichtungen im Allgemeinen nicht zur Interpretation der Netzwerkergebnisse verwendet werden 33 Radiale Basisfunktion Netzwerkleistung Zeigt die Ergebnisse an die verwendet werden um zu bestimmen ob das Modell gut ist Hinweis Die Diagramme in dieser Gruppe beruhen auf der Kombination aus Trainings und Teststichpr
121. obe bzw nur auf der Trainingsstichprobe wenn keine Teststichprobe vorhanden ist Modellzusammenfassung Zeigt eine Zusammenfassung der Ergebnisse des neuronalen Netzwerks nach Partition und insgesamt an einschlie lich der folgenden Werte Fehler Relativer Fehler bzw Prozentsatz der falschen Vorhersagen und Trainingszeit Der Fehler ist der Quadratsummenfehler Au erdem werden die relativen Fehler bzw Prozents tze der falschen Vorhersagen in Abh ngigkeit von den Messniveaus der abh ngigen Variablen angezeigt Wenn eine abh ngige Variable ein metrisches Messniveau aufweist wird der durchschnittliche relative Gesamtfehler relativ zum Mittelwertmodell angezeigt Wenn alle abh ngigen Variablen kategorial sind wird der durchschnittliche Prozentsatz der falschen Vorhersagen angezeigt Die relativen Fehler bzw Prozents tze der falschen Vorhersagen werden jeweils f r die einzelnen abh ngigen Variablen angezeigt Klassifikationsergebnisse Zeigt f r jede kategoriale abh ngige Variable eine Klassifikationsmatrix an Jede Tabelle gibt f r jede Kategorie abh ngiger Variablen die Anzahl der korrekt und nicht korrekt klassifizierten F lle an Der Prozentsatz der Gesamtzahl der F lle die korrekt klassifiziert wurden wird ebenfalls angegeben ROC Kurve Zeigt eine ROC Kurve Receiver Operating Characteristic f r jede kategoriale abh ngige Variable an Au erdem wird eine Tabelle angezeigt die die Fl che unter den einzelnen Kurven ang
122. ollen Metrik darstellen sodass man sinnvolle Aussagen ber die Abst nde zwischen den Werten machen kann Metrische Variablen sind beispielsweise Alter in Jahren oder Einkommen in Geldeinheiten Bei der Prozedur wird davon ausgegangen dass allen abh ngigen Variablen das richtige Messniveau zugewiesen wurde Sie k nnen das Messniveau f r eine Variable jedoch vor bergehend ndern Klicken Sie hierzu mit der rechten Maustaste auf die Variable in der Liste der Quellvariablen und w hlen Sie das gew nschte Messniveau im Kontextmen aus Copyright IBM Corporation 1989 2011 4 5 Messniveau und Datentyp sind durch ein Symbol neben der jeweiligen Variablen in der Variablenliste gekennzeichnet Mehrschichtiges Perzeptron Numerisch Zeichenfolge Datum Zeit Metrisch stetig E entf llt D sa hO pui de de a da a amp Einflussvariablen Einflussvariablen k nnen als Faktoren kategorial oder als Kovariaten metrisch angegeben werden Kodierung f r kategoriale Variablen Die Prozedur kodiert vor bergehend f r die Dauer des Verfahrens kategoriale Einflussvariablen und abh ngige Variablen mithilfe der Eins aus c Kodierung neu Wenn es c Kategorien f r eine Variable gibt wird die Variable als c Vektoren gespeichert Dabei wird die erste Kategorie als 1 0 0 angegeben die zweite Kategorie als 0 1 0 0 und die letzte Kategorie als 0 0 0 1
123. omentum Parameter f r den Gradientenabstiegsalgorithmus Der Momentum Term Impulsterm tr gt zur Vermeidung von Instabilit ten bei die durch eine zu hohe Lernrate verursacht werden Geben Sie einen Wert gr er 0 an Lernratenreduzierung in Epochen Die Anzahl der Epochen p bzw Datendurchl ufe der Trainingsstichprobe die zur Reduzierung der anf nglichen Lernrate auf die Untergrenze der Lernrate erforderlich sind wenn beim Online oder Mini Batch Training Gradientenabstieg verwendet wird Dadurch k nnen Sie den Faktor f r den Lernratenverfall B V pK In noMNniedrig Steuern Dabei ist no die anf ngliche Lernrate Nniedrig 1st die Untergrenze der Lernrate und X ist die Gesamtzahl der Mini Batches bzw beim Online Training die Anzahl der Trainingsdatens tze im Trainings Daten Set Geben Sie eine ganze Zahl gr er 0 an 17 Mehrschichtiges Perzeptron Ausgabe Abbildung 2 6 Mehrschichtiges Perzeptron Registerkarte Ausgabe E Mehrschichtiges Perzeptron eme Parttonen Archekur Training Ausgabe Sien Exporteren Optionen rNetzwerkstruktur IM Beschreibung e Diagramm m Synaptische Gewichtungen rNetzwerkleistung Iw Modellzusammenfassung EI Klassifikationsergebnisse 1 ROC Kurve F Kumulative Gewinndiagramme E Lift Chart Index E Diagramm Yorhergesagt Beobachtet Ei ram esiduum Yorhergesact Ei Zusammenfassung der Fallverarbeitung EI Wichtigkeitsanalyse
124. on 14 Netzwerkarchitektur in Mehrschichtiges Perzeptron 11 in Radiale Basisfunktion 30 Netzwerkdiagramm in Mehrschichtiges Perzeptron 17 in Radiale Basisfunktion 32 Netzwerkinformationen in Mehrschichtiges Perzeptron 45 50 68 in Radiale Basisfunktion 81 Netzwerktraining in Mehrschichtiges Perzeptron 14 Neuronale Netzwerke Architektur 2 Definition 1 Online Training in Mehrschichtiges Perzeptron 14 Partitionsvariable in Mehrschichtiges Perzeptron 40 Radiale Basisfunktion 25 76 Ausgabe 32 Etwas 76 Klassifikation 82 Kumulatives Gewinndiagramm 86 Lift Chart Index 86 Modellexport 36 Modellzusammenfassung 82 Netzwerkarchitektur 30 Netzwerkinformationen 81 Optionen 37 Partitionen 29 ROC Kurve 85 Speichern von Variablen in der Arbeitsdatei 34 Vorhergesagt Beobachtet Diagramm 83 Zusammenfassung der Fallverarbeitung 80 Rechtliche Hinweise 100 ROC Kurve in Mehrschichtiges Perzeptron 17 52 in Radiale Basisfunktion 32 85 105 106 Index Teststichprobe in Mehrschichtiges Perzeptron 9 in Radiale Basisfunktion 29 Trainingsstichprobe in Mehrschichtiges Perzeptron 9 in Radiale Basisfunktion 29 bertrainieren in Mehrschichtiges Perzeptron 47 Verborgene Schicht in Mehrschichtiges Perzeptron 11 in Radiale Basisfunktion 30 Vorhergesagt Beobachtet Diagra
125. ormalisierte Werte liegen zwischen 0 und 1 Dies ist die erforderliche Neuskalierungsmethode f r metrische abh ngige Variablen wenn bei der Ausgabeschicht die Aktivierungsfunktion Sigmoid verwendet wird Die Korrekturoption gibt eine kleinen Wert an der als Korrektur der Neuskalierungsformel verwendet wird Durch diese Korrektur wird sichergestellt dass alle neu skalierten Werte abh ngiger Variablen innerhalb des Bereichs der Aktivierungsfunktion liegen Insbesondere definieren die Werte 0 und 1 die in der unkorrigierten Formel vorkommen wenn x den Mindest bzw H chstwert annimmt zwar die Grenzen des Bereichs der Sigmoid Funktion liegen jedoch nicht innerhalb dieses Bereichs Die korrigierte Formel lautet x min e max e min e Geben Sie eine Zahl gr er oder gleich 0 ein Angepasst normalisiert Angepasste Version der Subtraktion des Mittelwerts und Division durch den Bereich 2 x min max min 1 Angepasste normalisierte Werte liegen zwischen 1 und 1 Dies ist die erforderliche Neuskalierungsmethode f r metrische abh ngige Variablen wenn bei der Ausgabeschicht die Aktivierungsfunktion Hyperbeltangens verwendet wird Die Korrekturoption gibt eine kleinen Wert an der als Korrektur der Neuskalierungsformel verwendet wird Durch diese Korrektur wird sichergestellt dass alle neu skalierten Werte abh ngiger Variablen innerhalb des Bereichs der Aktivierungsfunktion liegen Insbesondere definieren die Wert
126. pen eine weibliche und eine m nnliche Gruppe wurden gebeten die Bezeichnungen zweimal zu sortieren die zweite Sortierung sollte dabei nach einem anderen Kriterium erfolgen als die erste So wurden insgesamt sechs Quellen erzielt Jede Quelle entspricht einer hnlichkeitsmatrix mit 15 x 15 Elementen Die Anzahl der Zellen ist dabei gleich der Anzahl der Personen in einer Quelle minus der Anzahl der gemeinsamen Platzierungen der Objekte in dieser Quelle kinship_ini sav Diese Datendatei enth lt eine Ausgangskonfiguration f r eine dreidimensionale L sung f r kinship_dat sav kinship_var sav Diese Datendatei enth lt die unabh ngigen Variablen gender Geschlecht gener Generation und degree Verwandtschaftsgrad die zur Interpretation der Dimensionen einer L sung f r kinship_dat sav verwendet werden k nnen Insbesondere k nnen sie verwendet werden um den L sungsraum auf eine lineare Kombination dieser Variablen zu beschr nken marketvalues sav Diese Datendatei betrifft Hausverk ufe in einem Neubaugebiet in Algonquin Illinois in den Jahren 1999 2000 Diese Verk ufe sind in Grundbucheintr gen dokumentiert 95 Beispieldateien nhis2000_subset sav Die National Health Interview Survey NHIS ist eine gro e bev lkerungsbezogene Umfrage in unter der US amerikanischen Zivilbev lkerung Es werden pers nliche Interviews in einer landesweit repr sentativen Stichprobe von Haushalten durchgef hrt F r die Mi
127. rad Linie liegen die im Ursprung beginnt Die Punkte in diesem Diagramm bilden vertikale Linien an jeder beobachteten Anzahl von Tagen der Variablen Length of stay Aufenthaltsdauer Das Diagramm erweckt den Eindruck dass das Netzwerk recht gute Arbeit bei der Vorhersage von Length of stay Aufenthaltsdauer leistet Der allgemeine Trend des Streudiagramms liegt abseits der idealen 45 Grad Linie dahingehend dass die Vorhersagen f r eine beobachtete Aufenthaltsdauer von unter f nf Tagen dazu neigen die Aufenthaltsdauer zu bersch tzen wohingegen die Prognosen f r eine beobachtete Aufenthaltsdauer von mehr als sechs Tagen die Aufenthaltsdauer tendenziell untersch tzen 71 Mehrschichtiges Perzeptron Bei dem Patientencluster im linken unteren Bereich des Diagramms handelt es sich vermutlich um Patienten die nicht operiert wurden Au erdem befindet sich ein Cluster von Patienten im linken oberen Bereich des Diagramms wo die beobachtete Aufenthaltsdauer ein bis drei Tage betr gt die vorhergesagten Werte jedoch wesentlich h her liegen Bei diesen F llen handelt es sich wahrscheinlich um Patienten die nach der Operation im Krankenhaus verstarben Abbildung 4 36 Diagramm Vorhergesagt Beobachtet f r Treatment costs Behandlungskosten 60 50 D CH Vorhergesagter Wert w O N O T T T T T 20 40 60 80 100 o Treatment costs Das Netzwerk scheint auch recht gute Arbeit bei der Vorhersage der
128. rend des Trainings aufzuzeichnen und dadurch ein bertrainieren zu vermeiden Es wird dringend empfohlen eine Trainingsstichprobe zu erstellen Das Netzwerktraining ist in der Regel am effizientesten wenn die Teststichprobe kleiner ist als die Trainingsstichprobe Die Holdout Stichprobe ist ein weiterer unabh ngiger Satz von Datens tzen der zur Bewertung des endg ltigen neuronalen Netzwerks verwendet wird der Fehler f r die Houldout Stichprobe bietet eine ehrliche Sch tzung der Vorhersagekraft des Modells da die Pr ff lle die F lle in der Holdout Stichprobe nicht zur Erstellung des Modells verwendet wurden m F lle auf der Grundlage der relativen Anzahl an F llen zuf llig zuweisen Geben Sie die relative Anzahl Verh ltnis der F lle an die den einzelnen Stichproben Training Test und Holdout nach dem Zufallsprinzip zugewiesen werden sollen Die Spalte gibt auf der Grundlage der 10 Kapitel 2 von Ihnen angegebenen Werte f r die relative Anzahl den Prozentsatz der F lle an die den einzelnen Stichproben zugewiesen werden Die Angabe von 7 3 0 als relative Anzahl f r Training Test und Holdout Stichprobe entspricht 70 30 und 0 Die Angabe von 2 1 1 als Werte f r die relative Anzahl entspricht 50 25 und 25 1 1 1 entspricht der Aufteilung des Daten Sets in drei gleich gro e Teile f r Training Test und Holdout Partitionsvariable zum Zuweisen von F llen verwenden Geben Sie eine numer
129. s Ausgaben bezeichnet minimiert Betrachten Sie das Daten Set bankloan sav das im Lieferumfang des Produkts enthalten ist In diesem Daten Set sollen aus einem Pool von Kreditantragstellern die Personen ermittelt werden die mit gro er Wahrscheinlichkeit zahlungsunf hig werden Bei einem auf dieses Problem angewendeten MLP bzw RBF Netzwerk handelt es sich um eine Funktion von Messungen die den Fehler bei der Vorhersage der Zahlungsunf higkeit minimiert Folgende Abbildung dient zur Angabe der Form dieser Funktion 3 Einf hrung in Neural Networks Neuronale Netzwerke Abbildung 1 1 Feedforward Architektur mit einer verborgenen Schicht Synaptische Gewichtung gt 0 Synaptische Gewichtung lt 0 ER debtinc creddebt Aktivierungsfunktion fiir verborgene Schicht Hyperbeltangens Aktivierungsfunktion f r Ausgabeschicht Softmax Diese Struktur ist als Feedforward Architektur bekannt da die Verbindungen im Netzwerk ohne R ckkopplungsschleifen vorw rts von der Eingabeschicht zur Ausgabeschicht verlaufen In dieser Abbildung gilt m Die Eingabeschicht enth lt die Einflussvariablen m Die verborgene Schicht enth lt nicht sichtbare Knoten Einheiten Der Wert der verborgenen Einheiten ist jeweils eine Funktion der Einflussvariablen die genaue Form der Funktion h ngt zum Teil vom Netzwerktyp und zum Teil von den vom Benutzer festlegbaren Spezifikationen ab m Die Ausgabeschicht enth lt die Antworte
130. s der Diagonale stellen falsche Vorhersagen dar Mit den beobachteten Daten w rde das Nullmodell d h ein Modell ohne Einflussvariablen alle Kunden in die Modalgruppe einordnen Plus service Das Nullmodell w re daher in 281 1000 28 1 der F lle richtig Das RBF Netzwerk erfasst weitere 10 1 der Kunden also 38 2 Insbesondere ist das Modell beim Ermitteln von Plus service und Total service Kunden berlegen Bei der Klassifikation der Kunden in E service liegt dagegen ein au erordentlich schlechter Wert vor M glicherweise m ssen Sie eine weitere Einflussvariable finden um diese Kunden auseinanderzuhalten In Anbetracht der Tatsache dass diese Kunden am h ufigsten als Plus service und Total service Kunden fehlklassifiziert werden besteht eine weitere Alternative darin dass das Unternehmen einfach versucht potenziellen Kunden die normalerweise in die Kategorie E service fallen w rden h herwertige Dienstleistungen zu verkaufen Die Klassifizierung anhand der F lle mit denen das Modell erstellt wurde ger t jedoch leicht zu optimistisch da die Klassifizierungsrate aufgebl ht ist Die Holdout Stichprobe erleichtert die Validierung der Modells hier wurden 40 2 der F lle korrekt vom Modell klassifiziert Obwohl die Holdout Stichprobe relativ klein ist legt dies nahe dass Ihr Modell in der Tat in ungef hr zwei von f nf F llen korrekt ist Diagramm Vorhergesagt Beobachtet Abbildung 5 10 Vorhergesagt
131. s sie zwischen 0 und 1 liegen und als Summe 1 ergeben Die Pseudo Wahrscheinlichkeiten werden durch Division durch ihre Summe neu skaliert Wenn ein Fall beispielsweise f r eine abh ngige Variable mit drei Kategorien vorhergesagte Pseudo Wahrscheinlichkeiten von 0 50 0 60 und 0 40 aufweist wird jede Pseudo Wahrscheinlichkeit durch die Summe 1 50 dividiert woraus sich die Werte 0 33 0 40 und 0 27 ergeben Wenn negative Pseudo Wahrscheinlichkeiten vorliegen werden vor der oben beschriebenen Neuskalierung allen Pseudo Wahrscheinlichkeiten jeweils mit dem Betrag der niedrigsten Wahrscheinlichkeit addiert Wenn die Pseudo Wahrscheinlichkeiten beispielsweise 0 30 0 50 und 1 30 betragen m ssen Sie zun chst 0 30 zu jedem Wert addieren und erhalten somit die Werte 0 00 0 80 und 1 60 Als N chstes dividieren Sie die einzelnen neuen Werte durch die Summe 2 40 wodurch sich die Werte 0 00 0 33 und 0 67 ergeben 22 Kapitel 2 Export Abbildung 2 8 Mehrschichtiges Perzeptron Registerkarte Exportieren kal Mehrschichtiges Perzeptron IS Lorton egen mme Traing Ausgabe men ren ee Sch tzer f r die synaptische Gewichtung in XML Datei exportieren variablen und Dateinamen Abh ngige Variable Dateiname default Die Registerkarte Export dient zum Speichern der Sch tzer der synaptischen Gewichtungen f r die einzelnen abh ngigen Variablen in einer XML Datei PMML Datei Anhand dieser Modelldatei k
132. se entspricht den beobachteten Antwortkategorien und die Legende entspricht vorhergesagten Kategorien m Der Boxplot ganz links zeigt f r F lle mit der beobachteten Kategorie Nein die vorhergesagte Pseudo Wahrscheinlichkeit f r die Kategorie Nein Der Bereich des Boxplots ber der Marke 0 5 auf der y Achse stellt die korrekten Vorhersagen in der Klassifikationsmatrix dar Der Bereich unterhalb der Marke von 0 5 stellt die falschen Vorhersagen dar Wir erinnern uns aus der Klassifikationsmatrix dass das Netzwerk unter Verwendung eines Trennwerts von 0 5 sehr gute Ergebnisse bei der Vorhersage von F llen mit der Kategorie Nein erzielt sodass nur ein Teil des unteren Whiskers und einige Ausrei er falsch klassifiziert sind m Der n chste Boxplot zeigt f r F lle mit der beobachteten Kategorie Nein die vorhergesagte Pseudo Wahrscheinlichkeit f r die Kategorie Ja Da die Zielvariable nur zwei Kategorien enth lt sind die ersten beiden Boxplots bez glich der horizontalen Linie bei 0 5 symmetrisch m Der dritte Boxplot zeigt f r F lle mit der beobachteten Kategorie Ja die vorhergesagte Pseudo Wahrscheinlichkeit f r die Kategorie Nein Dieser Boxplot und der letzte Boxplot sind bez glich der horizontalen Linie bei 0 5 symmetrisch m Der letzte Boxplot zeigt f r F lle mit der beobachteten Kategorie Ja die vorhergesagte Pseudo Wahrscheinlichkeit f r die Kategorie Ja Der Bereich des Boxplots ber der Marke 0 5 auf der y Achse stellt die korr
133. sfunktion zum Klassifizieren von Kunden Vorbereiten der Daten f r die Analyse Durch die Festlegung des Startwerts k nnen sie die Analyse exakt reproduzieren Zur Festlegung des Startwerts w hlen Sie die folgenden Men befehle aus Transformieren gt Zufallszahlengeneratoren Abbildung 5 1 Dialogfeld Zufallszahlengenerator ty Zufallszahlengenerator Aktiver Generator Initialisierung des aktiven Generators Aktiven Generator festlegen Iw Anfangswert festlegen CH Zuf llig Fester Wert Wert 9191972 Derzeit aktiver Generator Mit SPSS 12 kompatibel a Die Einstellung f r den aktiven Generator wird sofort bernommen und gilt auch f r zuk nftige Sitzungen In W hlen Sie Anfangswert festlegen W hlen Sie Fester Wert und geben Sie 9191972 als Wert ein Copyright IBM Corporation 1989 2011 76 77 Klicken Sie auf OK Durchf hren der Analyse Radiale Basisfunktion gt Um eine Analyse vom Typ Radiale Basisfunktion durchzuf hren w hlen Sie folgende Optionen aus den Men s aus Analysieren gt Neuronale Netzwerke gt Radiale Basisfunktion Abbildung 5 2 Radiale Basisfunktion Registerkarte variablen amp Geographic indicator region E Months with service tenure amp Toll free service tollfree amp Equipment rental equip amp Calling card service callcard amp Wireless service wireless 8E Long distance last
134. sgeschlossen werden werden nur Patienten die nach Verlassen der Notaufnahme noch am Leben waren in die Stichprobe aufgenommen Zusammenfassung der Fallverarbeitung Abbildung 4 32 Zusammenfassung der Fallverarbeitung Beispiel Training Test Holdout G ltig Ausgeschlossen Gesamt Die Zusammenfassung der Fallverarbeitung zeigt dass der Trainingsstichprobe 5647 der Teststichprobe 1570 und der Holdout Stichprobe 781 F lle zugewiesen wurden Bei den 2002 F llen die aus der Analyse ausgeschlossen wurden handelt es sich um Patienten die auf dem Weg ins Krankenhaus oder in der Notaufnahme verstarben 68 Kapitel 4 Netzwerkinformationen Abbildung 4 33 Netzwerkinformationen Eingabeschicht Factors gt oo OO P UN Anzahl der Einheiten verborgene Schicht en Anzahl der verborgenen Schichten Anzahl der Einheiten in verborgener Schicht 1 Number of Units in Hidden Layer 2 Aktivierungsfunktion Ausgabeschicht Dependent Variables 1 2 Anzahl der Einheiten Rescaling Method for Scale Dependents Aktivierungsfunktion Fehlerfunktion a Ohne die Verzerrungseinheit In der Tabelle Netzwerkinformationen werden Informationen zum neuronalen Netzwerk angezeigt Anhand dieser Tabelle k nnen Sie sich vergewissern dass die Spezifikationen korrekt sind Beachten Sie hier insbesondere Folgendes m Die Anzahl der Einheiten in der Eingabeschicht ist die Gesamtzahl der Faktorstufen es gibt keine Kovariat
135. ssniveau und Datentyp sind durch ein Symbol neben der jeweiligen Variablen in der Variablenliste gekennzeichnet Numerisch Zeichenfolge Datum Zeit Metrisch stetig E entf llt D Ordinal ii Nominal oo de da Sa di a amp Einflussvariablen Einflussvariablen k nnen als Faktoren kategorial oder als Kovariaten metrisch angegeben werden Copyright IBM Corporation 1989 2011 25 26 Kapitel 3 Kodierung f r kategoriale Variablen Die Prozedur kodiert vor bergehend f r die Dauer des Verfahrens kategoriale Einflussvariablen und abh ngige Variablen mithilfe der Eins aus c Kodierung neu Wenn es c Kategorien f r eine Variable gibt wird die Variable als c Vektoren gespeichert Dabei wird die erste Kategorie als 1 0 0 angegeben die zweite Kategorie als 0 1 0 0 und die letzte Kategorie als 0 0 0 1 Dieses Kodierungsschema erh ht die Anzahl der synaptischen Gewichtungen und kann zu einer Verlangsamung des Trainings f hren kompaktere Kodierungsmethoden f hren jedoch in der Regel zu neuronalen Netzwerken mit geringer Anpassungsg te Wenn das Training des Netzwerks sehr langsam vorangeht k nnen Sie versuchen die Anzahl der Kategorien der kategorialen Einflussvariablen zu verringern indem Sie hnliche Kategorien zusammenfassen oder F lle ausschlie en die extrem seltene Kategorien aufweisen Jegliche Eins aus c
136. sste Angebote f r einzelne potenzielle Kunden entwickeln Abh ngige Variablen Die abh ngigen Variablen k nnen wie folgt gestaltet sein m Nominal Eine Variable kann als nominal behandelt werden wenn ihre Kategorien sich nicht in eine nat rliche Reihenfolge bringen lassen z B die Firmenabteilung in der eine Person arbeitet Beispiele f r nominale Variablen sind Region Postleitzahl oder Religionszugeh rigkeit m Ordinal Eine Variable kann als ordinal behandelt werden wenn ihre Werte f r Kategorien stehen die eine nat rliche Reihenfolge aufweisen z B Grad der Zufriedenheit mit Kategorien von sehr unzufrieden bis sehr zufrieden Ordinale Variablen treten beispielsweise bei Einstellungsmessungen Zufriedenheit oder Vertrauen und bei Pr ferenzbeurteilungen auf m Metrisch Eine Variable kann als metrisch stetig behandelt werden wenn ihre Werte geordnete Kategorien mit einer sinnvollen Metrik darstellen sodass man sinnvolle Aussagen ber die Abst nde zwischen den Werten machen kann Metrische Variablen sind beispielsweise Alter in Jahren oder Einkommen in Geldeinheiten Bei der Prozedur wird davon ausgegangen dass allen abh ngigen Variablen das richtige Messniveau zugewiesen wurde Sie k nnen das Messniveau f r eine Variable jedoch vor bergehend ndern Klicken Sie hierzu mit der rechten Maustaste auf die Variable in der Liste der Quellvariablen und w hlen Sie das gew nschte Messniveau im Kontextmen aus Me
137. t Prozentsatz der falschen Vorhersagen Abhangige Variable Previously defaulted 40 068 17 8 20 4 a Fehlerberechnungen beruhen auf der Teststichprobe Die Modellzusammenfassung weist eine Reihe positiver Merkmale auf Mehrschichtiges Perzeptron m Der Prozentsatz falscher Vorhersagen ist in der Training Test und Holdout Stichprobe jeweils ungef hr gleich gro m Der Sch tzalgorithmus wurde angehalten da der Fehler nach einem Schritt im Algorithmus nicht kleiner wurde Dies ist ein weiterer Hinweis darauf dass das urspr ngliche Modell tats chlich bertrainiert war und das Problem durch das Hinzuf gen einer Teststichprobe gel st wurde Freilich sind die Stichprobengr en relativ klein und wir sollten vielleicht die Verlagerung um einige wenige Prozentpunkte nicht berinterpretieren Klassifikation Abbildung 4 15 Klassifikation Get Tee pie S No Yes Correct Trainin Yes Overall Percent Holdout No Yes Overall Percent Abhangige Variable Previously defaulted Die Klassifikationsmatrix zeigt dass das Netzwerk bei Verwendung von 0 5 als Pseudo Wahrscheinlichkeits Trennwert fiir die Klassifikation wesentlich bessere Ergebnisse bei der Vorhersage von Personen erzielt die nicht in Zahlungsschwierigkeiten geraten als bei der Vorhersage von zahlungsunfahigen Personen Leider bietet der Trennwert als Einzelwert nur 52 Kapitel 4 einen sehr begrenzten Einblick in die Vorhersagekraft
138. te Ausgabe al Mehrschichtiges Perzeptron X Lorton Prien mme Traing Ausgabe men Exporteren Optenen rNetzwerkstruktur Beschreibung Diagramm Synaptische Gewichtungen rNetzwerkleistung Iw Modellzusammenfassung EI Klassifikationsergebnisse IM ROC Kurve Iw Kumulative Gewinndiagramme IM Lift Chart Index Ei Diagramm Vorhergesagt Beobachtet fo Diagramm Residuum orhergesagt EI Zusammenfassung der Fallverarbeitung EI Wichtigkeitsanalyse f r unabh ngige Variablen kV Die Berechnung der Wichtigkeit der unabh ngigen variablen wird mit steigender Anzahl an Einflussvariablen und F llen immer zeitaufwendiger gt Heben Sie im Gruppenfeld Netzwerkstruktur die Auswahl der Option Diagramm auf W hlen Sie im Gruppenfeld Netzwerkleistung die Optionen ROC Kurve Kumulatives Gewinndiagramm Lift Chart Index und Diagramm Vorhergesagt Beobachtet Das Diagramm Residuum Vorhergesagt ist nicht verf gbar da die abh ngige Variable nicht metrisch ist W hlen Sie die Option Wichtigkeitsanalyse f r unabh ngige Variablen Klicken Sie auf OK 45 Zusammenfassung der Fallverarbeitung Abbildung 4 6 Zusammenfassung der Fallverarbeitung SEET E Prozent Beispiel Training Holdout G ltig Ausgeschlossen Gesamt Mehrschichtiges Perzeptron Die Zusammenfassung der Fallverarbeitung zeigt dass der Trainingsstichprobe 499 und der Ho
139. ter Wert Abh ngige Variable Length of stay Das Diagramm Residuum Vorhergesagt zeigt ein Streudiagramm des Residuums beobachteter Wert minus vorhergesagter Wert auf der y Achse in Abh ngigkeit vom vorhergesagten Wert auf der x Achse an Jede diagonale Linie in diesem Diagramm entspricht einer vertikalen Linie im Diagramm Vorhergesagt Beobachtet und der Verlauf von bervorhersage zu Untervorhersage der Aufenthaltsdauer mit zunehmender beobachteter Aufenthaltsdauer wird deutlicher erkennbar 73 Mehrschichtiges Perzeptron Abbildung 4 38 Diagramm Vorhergesagt Beobachtet f r Treatment costs Behandlungskosten Residuum 0 10 20 30 40 50 60 Vorhergesagter Wert Abhangige Variable Treatment costs Ebenso zeigt das Diagramm Residuum Vorhergesagt f r jeden der drei im Diagramm Vorhergesagt Beobachtet f r Treatment costs Behandlungskosten ersichtlichen Patientencluster bei zunehmenden beobachteten Kosten einen Verlauf von bervorhersage zu Untervorhersage Die Patienten bei denen w hrend der CABG Komplikationen auftraten sind immer noch deutlich sichtbar aber nun lassen sich auch leichter die Patienten erkennen bei denen w hrend der PTCA Komplikationen auftreten sie erscheinen als Untercluster ein wenig rechts und oberhalb der Hauptgruppe der PTCA Patienten um die 30 000 Dollar Marke auf der x Achse 74 Kapitel 4 Wichtigkeit der unabh ngigen Variablen Abbildung 4 39 Wic
140. tglieder jedes Haushalts werden demografische Informationen und Beobachtungen zum Gesundheitsverhalten und Gesundheitsstatus eingeholt Diese Datendatei enth lt eine Teilmenge der Informationen aus der Umfrage des Jahres 2000 National Center for Health Statistics National Health Interview Survey 2000 Datendatei und Dokumentation ffentlich zug nglich ftp ftp cdc gov pub Health_Statistics NCHS Datasets NHIS 2000 Zugriff erfolgte 2003 ozone sav Die Daten enthalten 330 Beobachtungen zu sechs meteorologischen Variablen zur Vorhersage der Ozonkonzentration aus den brigen Variablen Bei fr heren Untersuchungen Breiman als auch Friedman 1985 Hastie als auch Tibshirani 1990 fanden Wissenschaftler einige Nichtlinearit ten unter diesen Variablen die die Standardverfahren bei der Regression behindern pain_medication sav Diese hypothetische Datendatei enth lt die Ergebnisse eines klinischen Tests f r ein entztindungshemmendes Medikament zur Schmerzbehandlung bei chronischer Arthritis Von besonderem Interesse ist die Zeitdauer bis die Wirkung des Medikaments einsetzt und wie es im Vergleich mit bestehenden Medikamenten abschneidet patient_los sav Diese hypothetische Datendatei enth lt die Behandlungsaufzeichnungen zu Patienten die wegen des Verdachts auf Herzinfarkt in das Krankenhaus eingeliefert wurden Jeder Fall entspricht einem Patienten und enth lt diverse Variablen in Bezug auf den Krankenhausaufenthalt patlos_sampl
141. udo Wahrscheinlichkeit Abhangige Variable Name der gespeicherten Yariablen Stammname der gespeicherten Variablen Zu speichernde Kategorien Namen der gespeicherten Yariablen Automatisch eindeutige Namen generieren W hlen Sie diese Option wenn Sie bei jeder Ausf hrung eines Modells ein neues Set gespeicherter Variablen zu Ihrem Datenblatt hinzuf gen m chten Benutzerdefinierte Namen Geben Sie Namen f r die Variablen an Bei Auswahl dieser Option werden bei jeder Ausf hrung eines Modells alle bestehenden Variablen mit demselben Namen bzw Stammnamen ersetzt La 1 sw J ap 1 rare Auf der Registerkarte Speichern k nnen Vorhersagen im Daten Set als Variablen gespeichert werden 35 Radiale Basisfunktion F r jede abh ngige Variable vorhergesagten Wert bzw Kategorie speichern Damit wird bei metrischen abh ngigen Variablen der vorhergesagte Wert und bei kategorialen abh ngigen Variablen die vorhergesagte Kategorie gespeichert m F rjede abh ngige Variable vorhergesagte Pseudo Wahrscheinlichkeit speichern Damit werden bei kategorialen abh ngigen Variablen die vorhergesagten Pseudo Wahrscheinlichkeiten gespeichert F r die ersten n Kategorien wird eine separate Variable gespeichert Dabei wird n in der Spalte Zu speichernde Kategorien angegeben Namen der gespeicherten Variablen Durch eine automatische Generierung von Namen wird sichergestellt dass Ihre Arbeit nicht verloren geht Mit ben
142. ufgezeichnet Jeder Fall entspricht einer Standort Woche testmarket_1month sav Bei dieser hypothetischen Datendatei handelt es sich um die Datendatei testmarket sav wobei die w chentlichen Verkaufszahlen zusammengefasst sind sodass jeder Fall einem Standort entspricht Dadurch entfallen einige der Variablen die w chentlichen nderungen unterworfen waren und die verzeichneten Verkaufszahlen sind nun die Summe der Verkaufszahlen w hrend der vier Wochen der Studie tree_car sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zum Kaufpreis von Fahrzeugen enth lt tree_credit sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zu fr heren Bankkrediten enth lt tree_missing_data sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zu fr heren Bankkrediten enth lt und eine gro e Anzahl fehlender Werte aufweist tree_score_car sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zum Kaufpreis von Fahrzeugen enth lt tree_textdata sav Eine einfache Datendatei mit nur zwei Variablen die vor allem den Standardzustand von Variablen vor der Zuweisung von Messniveau und Wertelabels zeigen soll tv survey sav Hierbei handelt es sich um eine hypothetische Datendatei zu einer Studie die von einem Fernsehstudio durchgef hrt wurde das berlegt ob die Lauf
143. und Division durch den Bereich x min max min Normalisierte Werte liegen im Bereich zwischen 0 und 1 m Angepasst normalisiert Angepasste Version der Subtraktion des Mittelwerts und Division durch den Bereich 2 x min max min 1 Angepasste normalisierte Werte liegen zwischen 1 und 1 m Keine Keine Neuskalierung der Kovariaten 8 Kapitel 2 Felder mit unbekanntem Messniveau Die Messniveau Warnmeldung wird angezeigt wenn das Messniveau f r mindestens eine Variable ein Feld im Datenblatt unbekannt ist Da sich das Messniveau auf die Berechnung der Ergebnisse f r diese Prozedur auswirkt m ssen alle Variablen ein definiertes Messniveau aufweisen Abbildung 2 2 Messniveau Warnmeldung wy Messniveau Q Das richtige Messniveau ist f r diese Prozedur wichtig Das Messniveau ist f r mindestens ein Feld im Datenblatt nicht bekannt Diese Felder k nnen manuell zugewiesen werden Alternativ k nnen sie automatisch ber das Durchsuchen der Daten zugewiesen werden reen 1 mm me m Daten durchsuchen Liest die Daten im aktiven Datenblatt Arbeitsdatei und weist allen Feldern deren Messniveau zurzeit nicht bekannt ist das Standardmessniveau zu Bei gro en Datenbl ttern kann dieser Vorgang einige Zeit in Anspruch nehmen m Manuell zuweisen ffnet ein Dialogfeld in dem alle Felder mit unbekanntem Messniveau aufgef hrt werden Mit diesem Dialogfeld k nnen Sie diesen Feldern ein Messniveau
144. utzerdefinierten Namen k nnen Sie Ergebnisse aus fr heren Durchg ngen verwerfen bzw ersetzen ohne zuerst die gespeicherten Variablen im Daten Editor l schen zu m ssen Wahrscheinlichkeiten und Pseudo Wahrscheinlichkeiten Vorhergesagte Pseudo Wahrscheinlichkeiten k nnen nicht als Wahrscheinlichkeiten interpretiert werden da die Prozedur Radiale Basisfunktion f r die Ausgabeschicht den Quadratsummenfehler und die Aktivierungsfunktion Identit t verwendet Die Prozedur speichert diese vorhergesagten Pseudo Wahrscheinlichkeiten selbst wenn sie kleiner als 0 oder gr er als 1 sind oder wenn die Summe f r eine abh ngige Variable nicht 1 ergibt ROC kumulative Gewinne und Lift Charts siehe Ausgabe auf S 32 werden auf der Grundlage von Pseudo Wahrscheinlichkeiten erstellt Falls Pseudo Wahrscheinlichkeiten kleiner als 0 oder gr er als 1 sind oder die Summe f r eine abh ngige Variable nicht 1 ergibt werden die Werte zun chst so neu skaliert dass sie zwischen 0 und 1 liegen und als Summe 1 ergeben Die Pseudo Wahrscheinlichkeiten werden durch Division durch ihre Summe neu skaliert Wenn ein Fall beispielsweise f r eine abh ngige Variable mit drei Kategorien vorhergesagte Pseudo Wahrscheinlichkeiten von 0 50 0 60 und 0 40 aufweist wird jede Pseudo Wahrscheinlichkeit durch die Summe 1 50 dividiert woraus sich die Werte 0 33 0 40 und 0 27 ergeben Wenn negative Pseudo Wahrscheinlichkeiten vorliegen werden vor der oben b
145. vierungsfunktion Die Ausgabeeinheiten sind also einfach gewichtete Summen der verborgenen Einheiten Normalisierte radiale Basisfunktion Verwendet die Aktivierungsfunktion Softmax sodass die Aktivierungen aller verborgenen Einheiten so normalisiert werden dass ihre Summe 1 ergibt Gew hnliche radiale Basisfunktion Verwendet die exponentielle Aktivierungsfunktion sodass die Aktivierung der verborgenen Einheit eine Gau glocke als Funktion der Eingaben darstellt berschneidung zwischen versteckten Einheiten Der berschneidungsfaktor ist ein Multiplikator der auf die Breite der radialen Basisfunktionen angewendet wird Der automatisch berechnete Wert des Uberschneidungsfaktors lautet 1 0 1d wobei d die Anzahl der Eingabeeinheiten ist die Summe aus der Anzahl an Kategorien in allen Faktoren und der Anzahl der Kovariaten 32 Kapitel 3 Ausgabe Abbildung 3 5 Radiale Basisfunktion Registerkarte Ausgabe Radiate Basisfunktion emm Tagen men Ausgabe Speichern Exporteren Oplonen rNetzwerkstruktur Beschreibung E Diagramm F Synaptische Gewichtungen rNetzwerkleistung EI Modellzusammenfassung E Klassifikationsergebnisse Iw ROC Kurve Iw Kumulative Gewinndiagramme IM Lift Chart Index T Diagramm Vorhergesagt Beobachtet iagramm Residuum orher gt A M Zusammenfassung der Fallyerarbeitung 7 Wichtigkeitsanalyse f r unabh ngige Variablen kV Die Berech
146. vorzugungen wurden in sechs unterschiedlichen Szenarien erfasst von Overall preference Allgemein bevorzugt bis Snack with beverage only Imbiss nur mit Getr nk breakfast overall sav Diese Datei enth lt die Daten zu den bevorzugten Fr hst cksartikeln allerdings nur f r das erste Szenario Overall preference Allgemein bevorzugt broadband_1 sav Hierbei handelt es sich um eine hypothetische Datendatei die die Anzahl der Abonnenten eines Breitband Service nach Region geordnet enth lt Die Datendatei enth lt die monatlichen Abonnentenzahlen f r 85 Regionen ber einen Zeitraum von vier Jahren broadband_2 sav Diese Datendatei stimmt mit broadband _1 sav berein enth lt jedoch Daten f r weitere drei Monate car_insurance_claims sav Ein an anderer Stelle McCullagh als auch Nelder 1989 vorgestelltes und analysiertes Daten Set bezieht sich auf Schadensanspr che f r Autos Die durchschnittliche H he der Schadensanspr che l sst sich mit Gamma Verteilung modellieren Dazu wird eine inverse Verkn pfungsfunktion verwendet um den Mittelwert der abh ngigen Variablen mit einer linearen Kombination aus Alter des Versicherungsnehmers Fahrzeugtyp und Fahrzeugalter in Bezug zu setzen Die Anzahl der eingereichten Schadensanspr che kann als Skalierungsgewicht verwendet werden EN Beispieldateien car_sales sav Diese Datendatei enth lt hypothetische Verkaufssch tzer Listenpreise und physische Spezif
147. zeigt Anhand dieser Tabelle k nnen Sie sich vergewissern dass die Spezifikationen korrekt sind Beachten Sie hier insbesondere Folgendes m Die Anzahl der Einheiten in der Eingabeschicht ist die Anzahl der Kovariaten plus die Gesamtzahl der Faktorstufen f r jede Kategorie von Marital status Familienstand Level of education Bildungsniveau Retired Ruhestand und Gender Geschlecht wird eine gesonderte Einheit erstellt und keine der Kategorien wird als redundante Einheit betrachtet wie dies bei vielen Modellierungsprozeduren blich ist m Ebenso wird f r jede Kategorie von Customer category Kundenkategorie eine separate Ausgabeeinheit erstellt f r insgesamt 4 Einheiten in der Ausgabeschicht Die Kovariaten werden mit der Methode Angepasst normalisiert neu skaliert Die automatische Architekturauswahl hat 9 Einheiten in der verborgenen Schicht ausgew hlt Bei allen anderen Netzwerkinformationen werden die Standardwerte f r die Prozedur verwendet ER Kapitel 5 Modellzusammenfassung Abbildung 5 8 Modellzusammenfassung Training Quadratsummenfehler 235 969 Prozentsatz der falschen Vorhersagen 61 8 Trainingszeit 00 00 04 297 Quadratsummenfehler 80 8513 Prozentsatz der falschen Vorhersagen 62 9 Pr fung Holdout Prozentsatz der falschen Vorhersagen 59 5 Abhangige Variable Customer category a Die Anzahl der verborgenen Einheiten wird durch das Testdatenkriterium bestimmt D
148. zeit eines erfolgreichen Programms verl ngert werden soll 906 Personen wurden gefragt ob sie das Programm unter verschiedenen Bedingungen ansehen w rden Jede Zeile entspricht einem Befragten jede Spalte entspricht einer Bedingung ulcer_recurrence sav Diese Datei enth lt Teilinformationen aus einer Studie zum Vergleich der Wirksamkeit zweier Therapien zur Vermeidung des Wiederauftretens von Geschw ren Es stellt ein gutes Beispiel f r intervallzensierte Daten dar und wurde an anderer Stelle Collett 2003 vorgestellt und analysiert 99 Beispieldateien ulcer_recurrence_recoded sav In dieser Datei sind die Daten aus ulcer_recurrence sav so umstrukturiert dass das Modell der Ereigniswahrscheinlichkeit f r jedes Intervall der Studie berechnet werden kann und nicht nur die Ereigniswahrscheinlichkeit am Ende der Studie Sie wurde an anderer Stelle Collett et al 2003 vorgestellt und analysiert verd1985 sav Diese Datendatei enth lt eine Umfrage Verdegaal 1985 Die Antworten von 15 Subjekten auf 8 Variablen wurden aufgezeichnet Die relevanten Variablen sind in drei Sets unterteilt Set 1 umfasst alter und heirat Set 2 besteht aus pet und news und in Set 3 finden sich music und live Die Variable pet wird mehrfach nominal skaliert und die Variable Alter ordinal Alle anderen Variablen werden einzeln nominal skaliert virus sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines

IBM SPSS Neural Networks 20

Contents

Download Pdf Manuals

Related Search

Related Contents