Home
Ein Fallschablonenzerteiler f ur Deutsch
Contents
1. stamm wort zu_infinitiv wort e geschlecht geschlecht wortfolge e person person wortfolge Steigerung steigerung wortfolge e Bei den Schliisselworten sind alternativ zu substantiv adjektiv und verb auch sub adi und vb zu verwenden Diese Grammatik bedarf zu ihrer korrekten Anwendung noch einiger Erl uterungen 1 name Der Name des W rterbucheintrags ist f r Substantive Adjektive Pronomen und Artikel im Prinzip willk rlich und wird zun chst als die Grundform angenommen Falls dort nicht die Grundform angegeben ist mu diese im allge meinen Teil mit stamm aufgef hrt sein Bei den ungebeugten Wortarten mu der Name das Wort selbst sein bei Verben der Infinitiv Pr sens _9 Ein in einer Wortfolge oder Wortliste ist ein Platzhalter Dieser hei t in einer Liste von Wortformen da die betreffende Form nicht erzeugt werden soll An anderen Stellen ist ein Platzhalter nicht erlaubt Eingeschachtelte Wortfolge Eine Wortfolge innerhalb einer Wortliste die im mer eine Liste von Wortformen ist bedeutet eine Menge von wahlweise m glichen Formen die alle eingetragen werden allgemeines Die Angaben im allgemeinen Teil eines W rterbucheintrags wer den wie folgt verwendet Vor der Analyse des allgemeinen Teils werden alle f r die jeweilige Wortart relevanten Eintr ge s unten auf ihre jeweiligen Standardwerte gesetzt In der Ana
2. 9 Attribut mit Dat Mit was Mit wem 10 Material aus Dat Aus was Woraus 11 Werkzeug mit Dat Mit was Womit durch Akk Durch was Wodurch mittels Gen Womit oder f lschlich mittels Dat Womit 12 Resultat effiziertes Objekt Akk Was e Rollen des Raums 13 Ort eine der Pr positionen in auf vor hinter neben bei an rechts links rechts von links von mit dem Dativ Frage unspezifiziert mit Wo oder teilspez ifiziert mit Worin Worauf Wovor Wohinter Woneben Wobei Woran Rechts wovon Links wovon 14 Startpunkt von Dat Von wo Von wo aus Von wo ab Von wo her 15 Zielpunkt oder Richtung selbe Konstruktion wie beim Ort Frage jedoch immer Wohin oder zu Dat Zu wem Zu was Wohin 16 Bahn ber Akk Wor ber Wo entlang durch Akk Wo durch Wo entlang entlang Gen Wo entlang Entlang wessen entlang Dat Wo ent lang 17 Erstreckung bis Dat Wohin Bis wohin entlang Gen Entlang wessen Wo entlang Wohin Wo entlang Dat Entlang wessen Wo entlang Wohin Wo e Rollen der Zeit 18 Zeitpunkt Zeitadverbien um mit Uhrzeitangabe am mit Tagesangabe im mit Monatsangabe Nebens tze mit nachdem bevor w hrend sobald sowie andere Konstruktionen wie im Jahr relative Angaben mit in etc Frage immer Wann 19 Beginn selbe Konstruktion wie beim Zeitpunkt jedoch mit den Pr posi tionen se
3. 116 Verweisstruktur der Fallschablonenmenge 117 Die Operationen des Moduls list 118 12 Vorbemerkungen Oh la es die Weisen doch verst ndlich sagen mir das Hirn nicht mit Erkenntnis plagen Crabbe Zum Aufbau dieser Arbeit Diese Diplomarbeit besteht aus zwei Teilen deren erster dies ist Der zweite Teil enth lt die Quellcodes des im Rahmen dieser Arbeit erstellten Programms sowie einige organ isatorische Erkl rungen dazu Der erste Teil ist wie folgt aufgebaut Das Kapitel 1 enth lt eine kurze Einf hrung in das Gebiet der Verarbeitung nat rlicher Sprache Dazu geh rt eine Formulierung der Problemstellung eine Beschreibung der Schwierigkeiten und eine kurze Beschreibung der popul ren Arbeitsans tze Im Kapitel 2 wird der Objektbereich beschrieben also die Sprache Deutsch Dies ist ein berblick ber die Grammatik der vom Rest der Arbeit weitgehend losgel st ist Das Kapitel 3 f hrt in den hier verwendeten Arbeitsansatz ein Fallschablonen und Chart Parsing Die Kapitel 4 und 5 beschreiben den konkreten Aufbau des Systems Dabei enth lt das Kapitel 4 die externe Sicht Architektur einschlie lich der Beschreibung der externen Datenformate f r die Wissensbasis w hrend Kapitel 5 grob die interne Sicht Modular isierung darstellt Weitere Beschreibung kann dem Teil II entnommen werden In Kapitel 6 wird die Teststrategie dargestellt Kapitel 7 enth lt das Benutzerhand
4. Rollen des Raums lt lt ort dativ in ich bin in einem Zimmer dativ im ich bin im Haus dativ auf etc dativ vor dativ hinter dativ hinterm dativ neben dativ unter dativ unterm dativ bei dativ beim dativ an dativ am genitiv rechts genitiv links nur_nominal genitiv frage worin frage worauf frage wovor frage wohinter frage woneben frage worunter frage wo frage woran frage rechts wovon frage links wovon rechts von koennen wir leider nicht es steht Links des Bahndammes die Tuer des Zimmers frage rechts wessen frage links wessen fragegenitiv rechts fragegenitiv links fragedativ rechts von fragedativ links von fragedativ in fragedativ auf fragedativ vor fragedativ neben fragedativ hinter fragedativ unter fragedativ bei fragedativ an gt gt lt lt startpunkt dativ ab dativ aus dativ von dativ vom frage woraus frage woher frage von wo frage von wo aus frage von wo ab frage von wo her fragedativ von fragedativ ab gt gt lt lt zielpunkt akkusativ in akkusativ ins akkusativ auf akkusativ aufs akkusativ vor akkusativ vors akkusativ hinter akkusativ hinters akkusativ neben akkusativ nebens akkusativ unter akkusativ unters akkusativ an akkusativ ans dativ zu dativ zum frage wohin frage zu wem frage zu was s
5. numerusangabe Ns f r Singular Np f r Plural Nsp f r Singular oder Plural oder personenangabe z B P1 f r erste Person P13 f r erste oder dritte Person oder wortart verb hilfsverb modalverb substantiv adjektiv artikel personalpronomen reflexivpronomen demonstrativpronomen possessivpronomen relativpronomen interrogativpronomen praeposition konjunktion lokaladverb modaladverb temporaladverb abtrennbares_praefix fragewort zahl zeitenliste e oder eine Teilmenge von praesens praeteritum konjunktivl konjunktivll imperativ partizipl partizipll infinitiv infinitiv_mit_zu wobei die einzelnen Elemente durch Kommas getrennt sind Kapitel 5 Implementation Auch auf l ngere Sicht wird der Teersumpf der Software Entwicklung eine klebrige Angelegenheit bleiben Frederick Brooks 1975 Dieses Kapitel geht auf die konkrete Realisiserung von SARA ein Es wird berblickshaft die Aufteilung des Progamms in Module angegeben und grob deren Aufbau erl utert F r Erl uterungen zu den Implementationsdetails verweise ich auf die Quelltexte des Pro gramms in denen sich dazu ausreichend Kommentare befinden 5 1 Allgemeines SARA wurde auf SUN 3 unter SUN UNIX 4 2 Release 3 5 ein BSD Unix implementiert Dabei wurde der C bersetzer von AT amp T in Release 1 2 verwendet sowie LEX und YACC und ein C Pr prozessor namens cccp von GNU Es wurden von C lediglic
6. Ich habe bei SARA beide Verfahren verwendet So ist es beispielsweise sinnvoll f r die komplexen Operationen auf den h heren Ebenen den normalen Kommandointerpretierer der die sp tere Benutzerschnittstelle bildet als Treiber zu verwenden so da dieser Top Down getestet wird w hrend andererseits sich f r die Bottom Up Teile ein Bottom Up Test schon aus Gr nden des Aufwands aufdr ngt und zudem n tig ist um eine ausre ichende Abdeckung zu gew hrleisten 6 6 Codeinspektionen und Walkthroughs Eine Codeinspektion ist eine Veranstaltung mit etwa 3 oder 4 Personen darunter der Programmierer und der Entwerfer des Programms in der der Programmierer den brigen Personen die Logik des zu untersuchenden Moduls oder Programms erkl rt Dabei ergeben sich R ckfragen dieser anderen Mitglieder deren Diskussion vielfach zur Entdeckung von Fehlern f hrt h ufig werden auch spontan vom Programmierer beim Sprechen Fehler entdeckt Ein Walkthrough funktioniert ganz hnlich jedoch wird nicht irgendwie die Logik des Pro gramms erkl rt sondern man spielt gemeinsam Computer d h es werden einige einfache Testf lle Schritt f r Schritt durchgespielt Der Nutzen beider Verfahren kommt vor allem aus der Kommunikation durch den Austausch ber die Schwierigkeiten beim Erkl ren Verstehen oder Durchf hren des 6 7 FEHLERLOKALISIERUNG 123 Programmablaufs ergeben sich Einsichten in die Fehleranf lligkeit von Programmteilen m gliche Feh
7. bei nominalen Instanzen von aus Verben abgeleiteten Substantiven Gen Wessen Koagent mit Dat Mit wem Patient Dat Wem Nutznie er Dat Wem f r Akk F r wen an Akk An wen Eigent mer Gen Wessen meist vorangestellt oder von Dat Wessen stets nachgestellt e Allgemeine Rollen 6 Thema oder Betroffenes affiziertes Objekt Akk Wen 7 Genitiv Gen Wessen F r die genaueren grammatikalischen Daten sei verwiesen auf den Abschnitt 2 5 ber die Satzglieder und dort vor allem die Abs tze ber Objekte ab Seite 52 und ber adverbial gebrauchte Satzglieder ab Seite 53 den Abschnitt 2 1 6 ber die Konjunktionen ab Seite 35 und den Abschnitt 2 6 2 ber Nebens tze ab Seite 58 Diese Abk rzungen sollen verhindern da die Aufz hlung durch st ndige langatmige Wiederholungen unlesbar wird Die Tatsache da sich diese Rollen an einem grammatikalischen Fall festmachen sollte Signal genug sein sie so sparsam wie irgend m glich einzusetzen Diese Konstruktion einem grammatikalischen Fall direkt eine Rolle zu vergeben ist zwar sehr unbe friedigend l t sich jedoch leider kaum umgehen Die Konstruktionen mit dem Genitiv sind n mlich nicht in eine kleine Zahl von Rollenbeziehungen einzuordnen 72 KAPITEL 3 ANALYSE MIT FALLSCHABLONEN 8 Definition Nom Was Gleichsetzungsnominativ e Rollen von Sachen physikalischen Sachen oder Sachen im bertragenen Sinn
8. Das System ist portabel und wird zur Zeit eingesetzt um nat rlichsprachliche Hilfssysteme zu gestalten bislang z B f r IATpX Abstract This work describes a system for processing german natural language input that is based on the grammar formalism of case frames and uses an active chart parser A dedicated knowledge base is given to the system it does not use any other program or data It interactively accepts natural language user input and returns its results within less than one second The results are instantiated case frames a kind of normalized form of the input that is easy to process further The syntactic power of the parser includes the discrimination of declarative and imperative sentences yes no questions and wh questions all without a need of any punctuation Further features are the handling of modal verbs nominal phrases with prepositions articles pronouns and adjectives adverbs relative clauses and subclauses that start with a conjunction The system is portable and is currently being used for the implementation of natural language help systems e g for Dr i Inhalt Vorbemerkungen Zum Aufbau dieser Arbete Zu den Definitionen 2 CC on ee Zur Rolle der Linguistik 2 2 2 oo Connor Zur Verwendung von Fremdw rtern und Fachausdr cken 2 2 2 Zum Saul Zum Layout oo 1 Verarbeitung nat rlicher Sprache 1 1 Aufgabe 1 2 Probleme 1 2 1 Exkurs Syntax Semantik und Pragmatik 2 2
9. e den einfachen Satz der in der Regel um ein einziges Verb gebildet wird Ich be trachte meinen Fu Zum einfachen Satz kann man sinnvollerweise auch bestimmte Konstruktionen mit mehreren Verben rechnen zumeist einer finiten und einer in finiten Form Dazu z hlen vor allem S tze mit Modalverb Ich m chte meinen Fu betrachten e die Satzverbindung oder Nebenordnung Parataxe die aus aneinandergereihten S tzen besteht die jeder auch einzeln stehen k nnten und etwa gleichen Rang haben Der Mann war schlaff er hatte eine gr nliche Gesichtsfarbe und er sah die Welt durch die viereckigen Augen eines Informatikers Eine solche Verbindung ist recht lose e das Satzgef ge Hypotaxe einem mehrteiligen Satz bei dem die einzelnen Be standteile ineinander verfugt sind Sie bestehen aus mindestens einem Hauptsatz und einem Nebensatz der nicht allein stehen kann Eine andere Unterteilung die nicht nur vom grammatikalischen sondern auch vom se mantischen Standpunkt aus von Interesse ist D1008 ist jene nach der Satzart e Die h ufigste Satzart in der deutschen Sprache ist der Aussagesatz D1009 er wird darum als Standardform aufgefa t Ein Aussagesatz behauptet einen Sachverhalt oder teilt ihn mit Das Finitum steht an zweiter Stelle Er betrachtet seinen Fu e Damit verwandt ist der Ausrufesatz D1009 Er hat im Prinzip den gleichen se mantischen Grundton es wird jedoch zus tzlich eine starke innere Bewegung aus gedr c
10. f r eine der Per sonen X und Y sagen wir X die gemeinsam verwendete Sprache eine Fremdsprache ist die nicht gut beherrscht wird so da zwar X ein Sprechpartner f r Y ist denn er kann verstehen und reagieren jedoch nicht umgekehrt weil X nicht in der Lage ist die Initiative zu ergreifen 18 KAPITEL 1 VERARBEITUNG NAT RLICHER SPRACHE e es ist keine unbedingte Handlungsf higkeit gefordert die Verstehensf higkeit darf die Handlungsf higkeit bersteigen Das bedeutet da die Sprechpartnereigenschaft nicht verletzt ist wenn ein S eine u erung von A zwar versteht jedoch nicht in der gew nschten Weise reagieren kann Dies bedeutet eine Trennung der geistigen von der physikalischen Welt e es ist auch keine unbedingte Handlungsbereitschaft gefordert Eine Handlung darf auch unterbleiben ohne da die Sprechpartnereigenschaft dadurch verletzt wird wenn die zugeh rige u erung verstanden wurde und die Handlung durchf hrbar w re Dies erm glicht einen freien Willen Nun l t sich die Aufgabe von Verarbeitung nat rlicher Sprache wie folgt definieren Definition System zur Verarbeitung nat rlicher Sprache Ein System zur Verarbeitung nat rlicher Sprache ist ein technisches System das als Sprechpartner mit den Eigenschaften eines Fachidioten f r einen men schlichen Benutzer bereitsteht Ziel dieser Arbeit ist es ein System zur Verarbeitung der nat rlichen Sprache Deutsch zu beschreiben und zu implementi
11. setze zustand neu aktiv if keine mehrdeutigkeit zu befuerchten setze zustand k inaktiv lese nominalphrase neu end end Etwas genauer gesagt geht lese nominalphrase so Sammle vom Substantiv aus nach vorne vorgehend Paare von Adverb Adjektiv oder einzelne Adjektive Zahlen dann ggf einen Artikel und dann ggf eine Pr position auf Dies behandelt auch Demon strativpronomen und Possessivpronomen Bei Wortmehrdeutigkeiten wird die Kante entsprechend kopiert so da mehr als eine Kante als Ergebnis entstehen kann Das Auf sammeln ist beendet wenn eine Pr position gefunden ist oder ein Wort einer nicht oder nicht mehr passenden Wortart auftaucht oder durch den vermeintlichen Artikel die Kon gruenz verletzt wird In der Kante wird Fall und Pr position vermerkt diese Information dient zusammen mit dem Konzept zu dem das Substantiv geh rt dazu festzulegen welche Rollen sie f llen kann Der G tewert der Kante wird auf die Anzahl von Worten in der Phrase gesetzt f r Phrasen die bei Knoten Null beginnen und solche die eine Pr position enthalten wird der G tewert nochmals um 1 erh ht 4 8 3 5 Das Startpunktproblem Bei der Instanziierung der Fallschablonen besteht ein Problem darin den Punkt im Eingabesatz zu finden an dem die Instanz der gerade betrachteten Fallschablone beginnt und den Punkt wo sie endet Der Endpunkt kann bei nominalen Instanziierungen dadurch festgestellt werden da alle Rollen gef llt si
12. 3 Nullplural P Sch ler 4 Nullplural mit Umlautung PU M tter T chter 5 n Plural Pn Kammern 6 en Plural Pen Menschen 7 er Plural Per Bilder 8 er Plural mit Umlautung PUer W lder 9 s Plural Ps Omas Opas Der Nullplural hei t zwar auch endungsloser Plural hat aber im Dativ dennoch eine Endung n wenn nicht das Wort ohnehin so endet den Sch ler n aber den M dchen Man beachte hier liegt keine Umlautung vor da das Wort Sch ler schon im Singular einen Umlaut aufweist 2 2 BEUGUNG 43 10 s Plural mit Verdopplung Pss Bildnisse 11 i Plural Pi Soli 12 u e Fremdwortplural Pue Konsilien Textilien 13 unregelm iger Plural ohne Klasse f r manche Fremdw rter z B Atlanten Kakteen Lexika Textilien Au er beim unregelm igen Fremdwortplural der deshalb auch keine Kurzbezeichnung tr gt lassen sich f r alle diese Klassen vollst ndige Regeln zur Formenbildung angeben siehe Tabelle 2 6 und folgende e Plural Nullplural Pe PUe P PU Nominativ die Tag e die S hn e die M dchen die T chter Genitiv der Tag e der S hn e der M dchen der T chter Dativ den Tag en den S hn en den M dchen den T chter n Akkusativ die Tag e die S hn e die M dchen die T chter Die Endung n im Dativ des Nullplurals steht dann wenn der Stamm nicht auf n s oder Vokal endet Beachte da bei M dchen keine Umlautung vorliegt da das Wort bereits in seinem Stamm ei
13. Auch loft auch als Parser bezeichnet 5 2 MODULARISIERUNG TOP DOWN 115 die Operationen aller vier Teile werden zusammengefa t dies geschieht in der Datei wis sen h die daten h mit einschlie t Die beiden Dateien daten h und wissen h sind also allen Teilen der Wissensbasis gemeinsam und wissen h stellt die Schnittstelle der Wissensbasis dar Diese vier Wissensbasisteile haben jeder eine nochmals unterteilte Struktur der erste Teil enth lt die die Datentypen selbst und deren Grundoperationen der zweite den eigentlichen Hauptteil also die h heren Operationen 5 2 2 W rterbuch Das W rterbuch ist in drei Teilen implementiert e wortliste in den Dateien daten h und wortliste C das lineare und einfach ver schachtelte Listen von Zeichenketten realisiert e wort daten h wort C das die zur Repr sentation des W rterbuches notwendi gen Datentypen enth lt sowie deren Grundoperationen wortliste und wort stellen zusammen den Grundteil des W rterbuches dar e woerterbuch wissen h woerter C das das W rterbuch selbst realisiert Das W rterbuch enth lt intern zwei Hashtabellen die alle Information beherbergen Die eine Hashtabelle enth lt alle Oberfldchenformen also diejenigen Zeichenketten die in der Benutzereingabe sp ter als Wort erkannt werden k nnen Jeder solche Hasheintrag enth lt eine Menge von Interpretationen dieser Oberfl chenform Zu einer Interpretation geh rt Beugungsinformation und ein Verweis a
14. Betrachten wir als Beispiel den einfachen Satz Wo ist der bl de Meier Dieser Satz liefert v llig unterschiedliche implizite Information je nachdem was wir ber die Person wissen die ihn ausspricht und ber den Kontext in dem er ausgesprochen wird Anscheinend wird hier ein Herr Meier gesucht es k nnte sich aber auch um einen Kater handeln Nehmen wir an das sei nicht der Fall Wei man vom Sprecher da er oder sie das Wort bl d als ein Lieblingswort gebraucht dann enth lt der Satz keinerlei Beleidigung und keine zus tzliche Information Wissen wir vom Sprecher da er w tend ist per Beobachtung festzustellen oder da es sich um einen sehr f rmlichen und h flichen Menschen handelt so k nnen wir schlie en da Meier anscheinend gro en Mist gemacht hat Andernfalls liegt offenbar eine allgemeine Antipathie des Sprechers gegen ihn vor Die Subjektivit t hat beim Umgang mit dem Computer keine Bedeutung weil die Mas chine keine Pers nlichkeit hat und der Mensch daraufhin seine eigene in den Hintergrund stellt Da jemand einem Computer die Anfrage eingibt K nnen Sie mir bitte sagen wie 24 KAPITEL 1 VERARBEITUNG NAT RLICHER SPRACHE sp t es ist ist schwer vorstellbar zumindest solange die Eingabe per Tastatur erfolgt Dagegen ist die Herstellung und Fortschreibung eines Dialogkontexts eines der gro en Probleme bei der Verarbeitung nat rlicher Sprache So mu als Hauptschwierigkeit die Handhabung von
15. Der Grund daf r ist einerseits psychologischer Art denn Menschen gehen an einen Computer nicht mit der selben Kom munikationshaltung heran wie an einen anderen Menschen und andererseits sachlicher Art denn die Dialoge die mit dem Computer gef hrt werden sollen ber hren seltener solche Gebiete auf denen pragmatische Aspekte die ber die unmittelbare Anwendung des semantischen hinausgehen von Bedeutung sind 1 2 2 Mehrdeutigkeit Betrachte folgendes Beispiel Susi f hrt Motorrad Sie berholt gerade ihre Maschine Sie hat n mlich zu lange in der Garage gestanden Drei einfache S tze deren Sinn v llig klar ist und sehr einfach erkennbar zu sein scheint Das einzige Problem k nnte sein herauszufinden wer oder was mit dem zweiten Sie gemeint ist Susi oder ihre Maschine syntaktisch ist n mlich beides m glich Nun 1 2 PROBLEME 21 f r den Menschen ist das gar kein Problem es ist v llig klar die Maschine gemeint Aber woher wei man das Das ist jedoch tats chlich gar nicht das einzige Problem Wie kompliziert die Lage in Wirklichkeit ist wird klarer wenn man noch das folgende Beispiel dazunimmt Susi f hrt Motorrad Sie berholt gerade Martins Maschine Sie hat n mlich zu lange in der Garage gestanden Jetzt wird eine zweite v llig ver nderte Interpretation m glich obwohl die Konstruktion der S tze gleich ist und nur ein einziges Wort ausgetauscht wurde Das Problem basiert hier off
16. Ss s Singular Sn n Singular S Nullsingular Nominativ der Mann der Mensch die Frau Genitiv des Mann e s des Mensch en der Frau Dativ dem Mann e dem Mensch en der Frau Akkusativ den Mann den Mensch en die Frau Bei den Sn Endungen entf llt das e immer dann wenn das Wort ohnehin auf e endet Tabelle 2 5 Beugung der Substantive in der Einzahl Substantive die nicht in die Klasse 52 fallen und viele Fremdw rter F r das Auftreten oder Nichtauftreten des e in den Endungen von Genitiv und Dativ gibt es eine ganze Reihe von Regeln D379 380 in sehr vielen F llen ist beides erlaubt Allerdings hat mit Ausnahme einiger formelhafter Wendungen wie im Grunde genom men das Dativ e heute einen altmodischen Klang e Die Klasse 2 Sn der n Singular enth lt als Ausnahme das Wort der Fels und ferner alle m nnlichen Substantive die im Plural nach der Form P3 dekliniert werden und ein Lebewesen bezeichnen sowie einige Fremdw rter e In 53 S dem Nullsingular sind genau alle weiblichen Substantive Auch hier gibt es wie berall einige Extraw rste D382 396 398 die jedoch kaum ins Gewicht fallen 2 2 2 2 Plural Es gibt im Deutschen nach meiner Z hlung basierend auf D383 mit den Klassen P1 P5 jedoch pr zisiert und um Fremdwortplurale und die unregelm ige Pluralbilgung erweitert folgende Methoden der Pluralbildung bei Substantiven 1 e Plural Pe Tage 2 e Plural mit Umlautung PUe S hne
17. der Anzahl von Rollen in den instanziierten Fallschablonen und der H ufigkeit von Mehrdeutigkeiten bei der Zuweisung der Teile in den Instanziierungen Die L nge der Eingabe und die Gr e der Wissensbasis gehen dar ber nur mittelbar in die Laufzeit ein Das theoretische Zeitverhalten dieses Zerteilungsalgorithmus l t sich damit wie folgt beschreiben e Der optimale Fall liegt dann vor wenn ein langer Eingabesatz mit O n Worten die n Rollenf ller bilden nur so instanziiert werden kann da sich jeder Rollenf ller sofort nur in genau eine Rolle einf llen l t und die zugeh rige Fallschablone auch genau n Rollen aufweist In diesem Fall mu f r n F ller die Vertr glichkeit mit im Mittel n 2 Rollen gepr ft werden Eine solche Pr fung verlangt im Idealfall nur eine konstante Zahl von Operationen Dazu kommt der Aufwand f r das Aufbauen des Chart Dieser ist im optimalen Fall proportional zur L nge der Eingabe Daraus ergibt sich eine Zeitkomplexit t im besten Fall von O n wobei n die Zahl von Rollenf llern in der Eingbe ist Genauer Falls es mindestens eine Kante gibt die die gesamte Eingabe abdeckt so werden nur Kanten dieser Art ausgegeben ansonsten alle 4 9 DIE AUSGABE 109 e Im mittleren Fall enth lt bei einem Fallschablonensystem die Fallschablone verein barungsgem starke semantische Einschr nkungen so da die Zahl von zu verfolgen den Instanziierungen nur um einen konstanten Faktor anstei
18. die den Hauptteil der Instanziierung bildet Kopfphrase Dazu geh rt die grammatikalis che Gesamterscheinungsform Beugungsinformation in wi und ggf eine Pr position in praeposition das zentrale Substantiv ebenfalls in wi und die Liste vorworte der dem Substantiv vorangehenden Worte Artikel Adverben Adjektive Zahlen Schlie lich findet sich hier die Information ob die Instanz das nachgefragte Objekt in einer Frage formel sein kann Dies ist der Fall wenn das zentrale Substantiv ein Interrogativpronomen vor sich hat was durch hat_fragepronomen angegeben wird 4 8 3 3 Initialisierung und Kantenauswahl Die aktiven Kanten werden mit einigen Ausnahmen nach Art eines Stapels verwaltet Es wird immer die zuletzt in den Zustand aktiv versetzte Kante als n chste weiterbearbeitet Beim Weiterbearbeiten erh lt die Kante zun chst automatisch den Zustand aktuell Sie kann jedoch im Zuge der Bearbeitung wieder aktiv gesetzt werden Werden danach jedoch vor Abschluss der Bearbeitung dieser Kante noch eine oder mehrere andere Kanten aktiv gesetzt seien es nun neue oder bereits existierende oder auch solche die bereits aktiv sind so werden also diese nach Abschlu des gerade laufenden Arbeitsschrittes als erste bearbeitet Es kann auch sein da keine Kante aktiv gesetzt wird was dazu f hrt da die n chst ltere aktive Kante als n chste bearbeitet wird Um mit diesem Prozess beginnen zu k nnen
19. die Konsili en F r Pi und Pue ist es einfacher den W rtern einzeln einen Singular und einen Pluralstamm zuzuordnen Solo Soli Konsilium Konsilien und diese dann in s Singular und Nullplural einzuordnen so da die Klassen Pi und Pue wegfallen Andernfalls mu der Stamm zwischen Singular und Plural modifiziert werden und zwar durch Streichen der Endung o bei Pi bzw um bei Pue Tabelle 2 8 Beugung der Substantive in der Mehrzahl Ps Pss Pi Pue 2 2 3 Adjektiv Das Adjektiv tritt gebeugt auf wenn es attributiv bei einem Substantiv steht des roten Pullovers und wenn es als Gleichsetzungsglied verwendet wird Die Gefahr war eine unge heure Nicht gebeugt wird es hingegen bei der Verwendung als Satzadjektiv Die Gefahr war ungeheuer oder als Attribut bei einem anderen Adjektiv oder einem Adverb Er war ein unangenehm ordentlicher Mensch Bei der Beugung richtet sich das Adjektiv nach den Eigenschaften des Substantivs zu dem es in Beziehung steht also nach dessen Geschlecht Zahl und Fall D474 Zahl Fall m nnlich weiblich s chlich Nominativ es e es Singluar Genitiv er en en en Dativ er en en em en en Akkusativ e es e es Nominativ e en en e en en e en en Plural Genitiv er en en er en en er en en Dativ en en en Akkusativ e en en e en en e en en Tabelle 2 9 Beugung der Adjektive Typ I II III Die dabei verwendeten Endungen h nge
20. llt von einer nominalen Instanziierung der L nge 1 und G te 2 zu dem Quasi Konzept PRONOMEN das in der Form Ich auftrat Das Wortinfo zu dieser Wortform besagt Geschlecht m nnlich Fall Nominativ Numerus Singular erste Person Wortart Person alpronomen Wortname personalpronomen Es blieben in dieser Instanziierung 0 Rollen ungef llt es gibt n mlich gar keine Fallschablone zu Pronomen Die zweite gef llte Rolle mit L nge 2 und G tewert 3 ist die Rolle Ort Sie wird gef llt von einer nominalen Instanziierung der L nge 2 und G te 3 zu dem Konzept haus das in der Form Haus auftrat eingeleitet von der Pr position im Das Wortinfo zur Wortform Haus besagt Geschlecht s chlich Fall Nominativ oder Dativ oder Akkusativ Numerus Singular dritte Person Wortart Substantiv Wortname Haus Es blieb in dieser Instanzi ierung eine Rolle ungef llt und zwar wie man der Wissensbasis entnehmen kann ort Die Form dieser Instanziierungen wird durch die folgende Grammatik beschrieben Einige Teile werden in verbaler Form nachgereicht instanziierungen instanziierung instanziierungen e instanziierung TI TI laenge_und_guete kopfkonzeptname wortform globalinfo offene_rollen rollen H globalinfo verbalinfo nominalinfo verbalinfo satzart konjunktion modalverb praefix zeitenliste numerusangabe personenangabe satzart deklarativ 4 9 DIE AUSGABE Satz imp
21. un regelm ige Substantive eingetragen jedoch mit eigener Wortart um dem Zerteiler eine Unterscheidung zu erm glichen Hier kommt die M glichkeit zum Tragen im allgemeinen Teil eine Person angeben zu k nnen Interrogativpronomen Die Interrogativpronomen werden eingetragen wie un regelm ige Adjektive jedoch mit eigener Wortart um eine spezielle Behandlung 4 5 DIE KONZEPTHIERARCHIE 85 im Zerteiler zu erm glichen 17 Demonstrativpronomen Das Demonstrativpronomen der die das kann im Prinzip als Substantiv eingetragen werden Es empfiehlt sich jedoch sehr das nicht zu tun da die gro e Menge von Mehrdeutigkeiten durch Zusammenfallen mit dem bestimmten Artikel die sich dabei ergibt beim Zerteilen einen stark erh hten Aufwand und schlechtere Ausgaben nach sich zieht Die Demonstrativpronomen dieser jener derselbe derjenige und ihre weiblichen und s chlichen Gegenst cke k nnen sowohl als Artikel als auch als Substantive gebraucht werden und werden entsprechend f r beide Wortarten eingetragen 18 Possessivpronomen Die Possessivpronomen kommen ebenfalls im Gebrauch als Artikel und als Substantive vor allerdings in unterschiedlich gebeugter Form und werden dementsprechend f r beide Wortarten eingetragen Siehe oben bei Adjek tiven Zur Veranschaulichung siehe die Standardwissensbasis Seite 135ff und die Beispielwis sensbasis Seite 144ff 4 5 Die Konzepthierarchie 4 5 1 Grundgedanke Ein Fallschablon
22. was m glicherweise erheblich Zeit kostet SARA verwendet an folgenden Stellen die Philosophie des toleranten Zerteilens 1 Die Kongruenzpr fung bei Adjektiven entf llt v llig Es wird nur zwischen berhaupt gebeugten und ungebeugten Formen unterschieden Diese Ma nahme verkleinert auch das W rterbuch 2 Folgen von Modal Adverben und Adjektiven werden auch nicht auf ihre seman tische Plausibilit t gepr ft sondern nur aufgereiht als Attribute eines Substantivs angegeben 3 Die Stellung von Wortgruppen unterliegt nur sehr wenigen Einschr nkungen die allerdings unvermeidlich sind z B um Frage und Imperativs tze von Aussages tzen unterscheiden zu k nnen Dies ist ein relativer Begriff Korrektheit l t sich erst auf der pragmatischen Ebene sinnvoll festlegen Hier ist eine Inkorrektheit in Bezug auf eine strenge syntaktische Analyse gemeint t Angesichts des geringen Weltwissens das Systeme zur Verarbeitung nat rlicher Sprache heute haben sind falsche Interpretationen von Eingaben nicht zu vermeiden Der Ansatz der milden Zerteilung ist also insofern geschickt da eine Plausibilit tspr fung der Analyseergebnisse ohnehin notwendig ist Eine nachtr gliche Pr fung ist auch aus dem Grunde sinnvoll weil man damit das nicht sachgebundene syntak tische Wissen besser von dem sachgebundenen semantischen trennt 3 3 ROLLEN 71 4 Die Zuordnung von abgetrennten Pr fixen zu Verben unterliegt keinen Beschr nkun gen
23. wollen und wissen ein Siehe dazu D216 2 2 2 Substantiv Artikel und Pronomen Die bei der Beugung des Substantivs Deklination ver nderlichen Merkmale sind e Zahl Numerus D362 mit den Werten Einzahl Singular und Mehrzahl Plural 2 2 BEUGUNG 41 e Fall Kasus D372 mit den Werten Nominativ Wer Fall Genitiv Wessen Fall Dativ Wem Fall und Akkusativ Wen Fall Als eine weitere die Beugung wesentlich bestimmende Eigenschaft haben Substantive ein Geschlecht Genus n mlich m nnlich maskulinum weiblich femininum oder s chlich neutrum Das Geschlecht unterliegt jedoch nicht der Beugung das hei t es ist f r jedes einzelne Wort immer gleich Allerdings gibt es Substantive die in mehreren Geschlechtern gebraucht werden D346 350 In diesem Fall sollte jeder Sprecher einmal das von ihm verwendete festlegen Beispiel der das Gummi Es gibt zwar eine Reihe von Regeln die das Geschlecht in bestimmten F llen festlegen im Allgemeinen handelt es sich jedoch um eine weitgehend willk rlich festgelegte Eigenschaft Ein System zur Verarbeitung nat rlicher Sprache mu also die Geschlechter der Substantive mit im W rterbuch f hren Dem Geschlecht zugeordnet gibt es verschiedene Artikel diese werden gem Tabelle 2 4 mitgebeugt D352 Eine spezielle Rolle nehmen dabei die unbestimmten Artikel ein sie sind im Plural das leere Wort das hei t die Verwendung eines unbestimmten Artikels im Plural besteht darin d
24. 1 Komparativ e 45 2 2 3 2 Superlativ 22 2 oo on 45 2 24 Sonstige ee 46 Kongruenz 2 oo on 46 2 3 1 Subjekt Pr dikat 2 2 22 Co oo onen 46 2 3 1 1 Nichtkongruenz der Person 46 2 3 1 2 Nichtkongruenz der Zahl e 47 2 3 2 Nominalphrasen 2 2 2 0 0 0 0 0000 ee ee ee eee 48 2 3 3 Glotchsetzungseatz a 48 2 3 4 Substantivisches Attribut Apposition 2 2 2 2222 49 Pr dikat 222 Co oo oo 49 2 41 Zeitenbildung 49 2 4 2 Modale F rbung 20 0 0 002 002 0004 50 2 4 3 modifizierende Verben 51 Satzteile oo oo oo 51 2 5 1 Subjekt 2 0 0 0 0 0000 00 0 2 ee ee ee 51 2 5 2 Objekte naaa ee ee 52 2 5 2 1 Akkusativobjekt 52 2 5 2 2 Dativobjekt 2 22 2 2 Coon nn 52 2 5 2 3 Prapositionalobjekt 2 22 Comm nenn 53 2 5 2 4 Genitivobjekt 2 222 2 Como nn 53 2 5 2 5 Gleichsetzungsnominativ e 53 2 5 3 Adverbial gebrauchte Satzglieder 2 2 2 ee ee 53 2 5 3 1 Adverbiales Pr positionalgef ge 2 22 0 2020 54 2 5 3 2 Adverbialgenitiv e 55 2 5 3 3 Adverbialakkusativ 2 222222 Conan 55 2 5 4 Zugeordnete Glieder 2 2 onen 55 2 5 5 Satzadjektiv 2 2 oo oo on 56 2 5 6 Satzpartikel oaa 56 Satz oaa a 57 2 6 1 Grunds tzliches 2 2 ee ee 57 2 6 2 Nebensdtze 2 2 2 onen 58 2 6 3 Satzzeit o aaa 61 2 6 4 Satzmodus aoaaa ee 61 2 6 5 Satzgenus 62 2 6 6 Aussagesatz aoaaa ee 62 2 6 7 W Frage 2 oo ee 63 Inhalt 9 2 6 8 Ja Nein Frage aoaaa ee 63 2
25. 352 unbestimmter_artikel artikel maennlich ein eines einem einen weiblich eine einer einer eine saechlich ein eines einem ein plural gemaess Duden 551 demonstrativartikel artikel maennlich dieser dieses diesen diesem diesen weiblich diese dieser dieser diese saechlich dies dieses dieses diesem dies dieses plural diese dieser diesen diese gemaess Duden 551 demonstrativartikel artikel maennlich jener jenes jenen jenem jenen weiblich jene jener jener jene saechlich jenes jenes jenem jenes plural jene jener jenen jene gemaess Duden 554 demonstrativartikel artikel maennlich derjenige desjenigen demjenigen denjenigen weiblich diejenige derjenigen derjenigen diejenige saechlich dasjenige desjenigen demjenigen dasjenige plural diejenigen derjenigen denjenigen diejenigen gemaess Duden 555 demonstrativartikel artikel maennlich derselbe desselben demselben denselben weiblich dieselbe derselben derselben dieselbe saechlich dasselbe desselben demselben dasselbe plural dieselben derselben denselben dieselben Man beachte dass bei den Possessivpronomen in der Verwendung als Artikel das Geschlecht und der Numerus zweimal auftauchen Einmal fuer das Substantiv mit dem sie stehen und einmal fuer die Person auf die sie sich beziehen Die Bezugsperson wird hier n
26. 6 9 Befehlssatz 2 22 Co Con 63 2 7 Besondere Themen 63 2 7 1 Ellipsen 2 2222 o Coon 63 2 7 2 Negation 2 2 non 64 2 7 3 Zahlen und Zahlw rter 2 2 oo mon 65 3 Analyse mit Fallschablonen 67 3 1 Fallschablonen und Zerteiler 2 2 on nn 67 3 1 1 Was ist eine Fallschablone 2 2 2 Eon En 67 3 1 2 Was ist der Zweck von Fallschablonen e 68 3 1 3 Was ist ein Zerteiler 2 2 oo Coon 69 3 1 4 Was ist ein Fallschablonenzerteiler 2 0 69 3 2 Tolerante Zerteilung e 69 3 3 Rollen 71 3 4 Chart Parsing 2 2222 ee 73 4 Architektur 75 4 1 Generelle 75 4 2 Ein Ausgabekategorien 76 4 3 Die Wissensbasis 22 Co Connor 77 4 4 Das W rterbuch 2 2 Co moon 78 4 4 1 Grundgedanke 2 22 oo onen 78 4 4 2 Vortiberlegungen und Entwurfsentscheidungen 79 4 4 3 Aufbau saaana aaa 80 4 5 Die Konzepthierarchie aooaa ee 85 4 5 1 Grundgedanke 2 enn 85 4 5 2 Vortiberlegungen und Entwurfsentscheidungen 85 4 5 3 Aufbau 2 2 ee 86 4 6 Das Rollenverzeichnis 2 2 oo onen 87 4 6 1 Grundgedanke 2 2 2 Con nn 87 4 6 2 Vortiberlegungen und Entwurfsentscheidungen 88 4 6 3 Aufbau aoaaa aaa aaa 88 4 7 Die Fallschablonen 2 ee 90 4 7 1 Vortiberlegungen und Entwurfsentscheidungen 90 4 7 2 Aufbau 2 22 Coon 91 4 8 Der Zerteiler 2 2 ee 93 4 8 1 Leistungsumfang 2 2 ee ee 93 4 8 2 Zerteilungsphasen 2 Co ee ee 94 4
27. 97 Es gibt also eine Korrespondenz zwischen Instanzen Benutzereingabe externe Form und Fallschablonen Wissensbasis interne Form Diese Korrespondenz wird beschrieben von einer Instanziierung jene aufzufinden ist die Aufgabe des Zerteilers 4 8 3 2 Information in den Kanten Ein Chart besteht haupts chlich aus einer Liste von Verweisen auf die aktiven Kanten und einer Reihung von Knoten wobei jeder Knoten eine Liste von Verweisen auf Kanten ist Von zentraler Bedeutung f r die Arbeitsweise des Zerteilers ist die in den Kanten darstell bare Information Eine Kante enth lt im Wesentlichen folgende Information e einen Kantenzustand zustand Also einen der Werte erfolgreich aktiv fehlgeschla gen aktuell inaktiv e einen Verweis eigner auf das Chart in das die Kante geh rt e eine Knotennummer start die den Knoten in diesem Chart angibt an dem die Kante beginnt Der erste Knoten hat die Nummer 0 e eine Zahl laenge die angibt wieviele Worte die Kante berspannt e eine Typkennzeichnung typ und ein Informationsobjekt el f r Element die die eigentliche Information der Kante enthalten Der Kantentyp typ gibt an welche Art von Kante vorliegt Es gibt insbesondere z B die Werte wort rollenfueller und instanziierung In el befindet sich die eigentliche kantenspezifische Information Diese ist abh ngig vom Kantentyp Bei wort Kanten steht hier das Wort selbst und die zugeh rige Beugungsinformation je nach Wo
28. Bestandteil der Frage ist Worauf Auf was wartet er 2 5 2 4 Genitivobjekt D1037 Das Genitivobjekt ist relativ selten geworden Es ist durch ein Glied im Genitiv besetzt und kann mit Wessen erfragt werden Er erinnerte sich seiner Schulzeit 2 5 2 5 Gleichsetzungsnominativ Der Gleichsetzungsnominativ entspringt der semantischen Sonderstellung von Verben wie sein scheinen bleiben werden Diese setzen n mlich etwas dem Subjekt gleich Dieser Begriff der Gleichsetzung darf allerdings nicht zu eng verstanden werden Meist wird hier nur eine Klasse oder Gattung angegeben zu der das Subjekt geh rt Dieses gleichgesetzte Etwas steht grammatikalisch im Gleichsetzungsnominativ D1033 Die Lage bleibt ein Drama Sie ist ein Genie Sie wird Erfinderin Im Sinne der oben erw hnten Einteilung wird der Gleichsetzungsnominativ in die Gruppe der Objekte gerechnet 2 5 3 Adverbial gebrauchte Satzglieder D1053 1057 Adverbiale Bestimmungen beziehen sich nicht immer wie der Name ver muten lie e auf das Verb Sie kommen vielmehr in zwei semantisch unterschiedlichen Verwendungsarten vor Sie k nnen sich gewisserma en von au en also ohne direkt dazuzugeh ren auf die Aussage als Ganzes beziehen z B Wahrscheinlich Meines Erachtens Nach meinem Eindruck ist das falsch Oder sie beziehen sich von innen also als Bestandteil der Aussage auf das Verb oder die Aussage als Ganzes z B Sie trug das Paket vorsichtig Heute bin ich dabei Di
29. Dabei ist der Oberflachenkasus die bliche meist Kasus genannte grammatikalische Kategorie w hrend der Tiefenkasus eine semantische Kategorie ist n mlich die Beschreibung einer semantischen Relation Er schl gt vor das Verb als die zentrale Komponente des Satzes aufzufassen um die herum mehrere Substantivphrasen angeordnet sind von denen jede zu dem Verb eben in einer bestimmten semantischen Beziehung steht Tiefenkasus diese Beziehung nennt er eine Rolle Er bietet in seinem urspr nglichen Aufsatz ber dieses Thema dabei die folgenden Rollen an Agent Counter Agent Object Result Instrument Source Goal Experiencer Man bildet dann zu jedem Verb eine Fallschablone die angibt welche Rollen mit welcher Priorit t bei diesem Verb vorkommen Dies definiert eine Menge von semantischen Ein schr nkungen f r die Interpretation von W rtern Fallschablonen sind also ein Gram matikformalismus 28 KAPITEL 1 VERARBEITUNG NAT RLICHER SPRACHE Es sind sp ter von Fillmore selbst und von anderen Autoren unterschiedliche Sammlun gen von Rollen angegeben worden als ein Beispiel siehe Winston81 Manchmal wird die Theorie auch dahingehend ver ndert da man den Standpunkt verl t eine kleine und feste Menge von Rollen haben zu m ssen und statt dessen Rollen auffasst als eine irgendwie geartete und im Analysezusammenhang wichtige Relation bei einem Ereignis Eine konservative Anwendung ist auch m glich man betrachte die F lle n
30. Person erste singular meins meines meines meinem meins meines plural meine meiner meinen meine ossessivpronomen possessivpronomen geschlecht m w s person zweite singular deins deines deines deinem deins deines plural deine deiner deinen deine possessivpronomen possessivpronomen geschlecht m s person dritte singular seins seines seines seinem seins seines plural seine seiner seinen seine possessivpronomen possessivpronomen geschlecht w person dritte singular ihrs ihres ihres ihrem ihrs ihres plural ihre ihrer ihren ihre rt E kk kk ka Interrogativpronomen tt E kk Ft kkk gemaess Duden 558ff interrogativpronomen interrogativpronomen maskulinum welcher wessen welchem welchen femininum welche wessen welcher welche neutrum welches wessen welchem welches plural welche wessen welchen welche oO Roo oe Personal pronomen Zktktktkkktktkttk personalpronomen personalpronomen Person erste singular ich meiner mir mich plural wir unser uns uns personalpronomen personalpronomen person zweite singular du sie deiner ihrer dir ihnen dich sie plural ihr sie euer ihrer euch ihnen euch sie personalpronomen personalpronomen geschlecht maennlich person dritte singular er seiner ihm ihn plural sie ihrer ihnen sie personalpronomen pers
31. Pue saechlich sonst maennlich Aufgrund dieser Festlegungen findet zwar nur f r m nnliche und weibliche Substantive immer eine richtige Festlegung des Geschlechts statt leider ist aber im Deutschen eine automatische Unterscheidung von Maskulina und Neutra nur selten m glich so da diese Einschr nkung unvermeidlich ist au erdem gibt es ja auch mehrgeschlechtliche W rter F r diese F lle mu also eine Geschlechtsangabe erfolgen Die automatische Bestimmung des Geschlechts legt aber schon mit diesen simplen Methoden in etwa drei Vierteln der F lle den richti gen Wert fest Eine Geschlechtsangabe ist eine beliebige Auswahl aus den W rtern maennlich weiblich saechlich maskulinum femininum und neutrum die jeweils durch ihren Anfangsbuchstaben abgek rzt werden k nnen Ist mehr als ein Geschlecht angegeben so behandelt der Zerteiler das Wort als mehrgeschlechtlich und reagiert entsprechend gro z giger bei der Kontrolle der Kongruenz person relevant f r Substantive insbesondere Pronomen Standardwert dritte Eine Geschlechtsangabe ist eine beliebige Folge der W rter erste zweite und dritte die jeweils durch ihren Anfangsbuchstaben abgek rzt werden k nnen steigerung relevant f r Adjektive Standardwert ist positiv Die Steigerungsangabe ist eine beliebige Auswahl der W rter positiv Komparativ und superlativ die jeweils durch ihren Anfangsbuchstaben abgek rzt werden k nnen In
32. Reihe bestand aus Enten Corollas und Bambinos alles fahrbare Unters tze statt alles fahrbaren Unters tzen aus richtigem Blech Manchmal wird die Apposition f lschlich in den Dativ gesetzt Dies geschieht vor allem anstatt des Genitivs Am Beispiel der Ente dem erfolgreichsten statt des erfolgreichsten der kleinen Flitzer e Appositionelle Glieder mit als die ohne Artikel verwendet werden stehen nach Bezugsworten im Genitiv oft im Nominativ Der Einflu der Ente als Flugtier statt als Flugtiers e Appositionelle Glieder mit wie werden oft als Ellipsen empfunden und deshalb mit dem Nominativ konstruiert An einem Tag wie jeder andere statt jedem anderen 2 4 Pr dikat D1024 1026 Das Pr dikat bildet den Kern des Satzes und wird blicherweise nicht als ein Satzglied betrachtet Ein Pr dikat kann einteilig sein und enth lt dann eine gebeugte finite Form eines Verbs das sogenannte Finitum In vielen F llen ist es jedoch mehrteilig und kann dann enthalten finite und infinite Formen von Hilfsverben und Vollverben finite Formen von Modalverben und abgetrennte Pr fixe von Vollverben Solche zusammengesetzten Formen haben Futur I und II Perfekt Plusquamperfekt die Infinitive au er im Pr sens modale Formen und das Passiv 2 4 1 Zeitenbildung Die Formenbildung bei den nicht modalen Formen erfolgt in gleicher Weise f r regelm ige wie f r unregelm ige Verben so D197 12 Kein Wunder Im Prinzip
33. SARA k nnte durch nderungen bei der Formenerzeugung des W rterbuchs leicht noch toleranter gemacht werden 3 3 Rollen In diesem Abschnitt werden nun die typischen Rollen zusammengestellt die zur Bildung gt Diese Sammlung kann im Bedarfsfall nat rlich durchaus ver ndert oder erweitert werden der Fallschablonen verwendet werden Die Aufstellung hat folgende Form Zuerst steht immer der Name der Rolle diese Namen sind zudem teilweise in Gruppen sortiert Hinter einem Trennstrich folgt die Aufz hlung der grammatikalischen Konstruktionen die f r einen F ller dieser Rolle vorkommen k nnen Dabei werden die grammatikalischen F lle Nominativ Genitiv Dativ und Akkusativ in der Regel mit Nom Gen Dat und Akk abgek rzt Eine Pr position alkonstruktion wird zum Beispiel in der Form f r Akk f r wen geschrieben das hei t die Rolle kann gef llt werden von der Pr position f r gefolgt von einem Glied im Akkusativ und wird erfragt mit der Frageformel f r wen In Klammern folgt jeweils die Angabe wie die Rolle erfragt werden kann Dabei kann die angegebene unspezifizierte Frage auch durch eine spezifizierte mit Welcher Welche Welches ersetzt werden Andere grammatikalische Konstruktionen sind gegebenenfalls ausformuliert beschrieben Die Rollen sind e Personen oder wie Personen beteiligte Objekte 1 Agent im aktiven Satz Nom Wer Was im passiven Satz von Dat Von wem oder durch Akk Durch wen
34. Tisch ist Das Akkusativobjekt kann mit Wen oder Was erfragt werden im Fall des Teilsatzes ist die Frage als Welchen Sachverhalt zu verstehen 2 5 2 2 Dativobjekt D1036 Ein Dativobjekt ist meist von einem Glied im Dativ besetzt Das geh rt mir Alternativ kann ein Teilsatz n mlich ein Relativsatz stehen Er hilft wem er kann Das Erfragen eines Dativobjektes ist mit Wem m glich 2 5 SATZTEILE 53 2 5 2 3 Pr positionalobjekt D1038 1039 Ein Pr positionalobjekt besteht aus einer Substantivgruppe oder einem Pronomen und einer vorangestellten Pr position Welche Pr positionen stehen k nnen wird vom Verb des Satzes bestimmt stehen auf hoffen auf stehen zu aber z B nicht hoffen zu Die Pr position und das Verb zusammen wiederum legen fest in welchem Fall die Substantivgruppe steht es l t sich danach ein Pr positionalobjekt im Akkusativ und eines im Dativ unterscheiden stehen auf wem hoffen auf wen Im Genitiv kommt es nicht vor Kennzeichnend f r Pr positionalobjekte gegen ber den adverbialen Pr positionalgef gen ist da die Pr position bei letzteren beliebig mit entsprechender Bedeutungs nderung aus einer ganzen Gruppe ausgew hlt werden kann Er wartet auf das Rendezvous gegen ber Er wartet auf neben hinter vor dem Denkmal Ein Pr positionalgef ge kann auch ohne die Verwendung einer Pr position erfragt werden Wo wartet er wohingegen bei Pr positionalobjekten die Pr position zwingend
35. aber das klang schon an vor allem in der Linguistik verwendet Ihre Bedeutung im Bereich der Verarbeitung nat rlicher Sprache ist eher gering Dies r hrt vor allem daher da zu diesem Grammatikformalismus keine effizienten Zerteilungsverfahren gefunden wurden 1 3 5 Erweiterte bergangsnetze Ein erweitertes bergangsnetz augmented transition net ATN basiert auf zwei Er weiterungen von endlichen Automaten Man stelle sich zun chst ein bergangsdiagramm eines endlichen Automaten vor an dem die Kanten mit W rtern oder Wortarten markiert sind und den Knoten Semantik zugeordnet wird Ein solcher endlicher Automat kann regul re Sprachen erkennen Erweiterung 1 Die Kanten d rfen nun zus tzlich mit den Namen von untergeordneten bergangsdia grammen diese repr sentieren h here syntaktische Kategorien gekennzeichnet sein Die Benutzung einer solchen Kante bewirkt den bergang in den Eingangsknoten des unter geordneten bergangsdiagramms wobei die Position im bergeordneten gespeichert wird und die Verarbeitung nach Abschlu des untergeordeten an dieser Stelle wieder aufsetzt Dieser Proze kann verschachtelt wiederholt werden weshalb die Diagramme oder Maschinen mit dieser Erweiterung recursive transition nets RTNs genannt werden RTNs haben die M chtigkeit von Kellerautomaten k nnen also kontextfreie Sprachen erkennen Erweiterung 2 Um aus einem RTN ein ATN zu machen werden folgende drei Elemente hinzugef
36. allem Satzart fuege praedikatsteil p in k ein if p ist hilfsverb kann ich nicht else modalverb oder vollverb if p ist vollverb aber nicht das zur fallschablone gehoerende return if k beginnt bei noten 0 if p hat imperativinterpretation und eingabesatz hat kein fragezeichen am schluss neu kopie von k setze neu auf imperativinterpretation trage p als modalverb oder vollverb in neu ein setze zustand neu aktiv end if p hat nicht nur imperativinterpretation und eingabesatz hat kein ausrufezeichen am schluss neu kopie von k setze neu auf ja nein frage interpretation trage p als modalverb oder vollverb in neu ein setze zustand neu aktiv end else p ist nicht ab knoten 0 d h nicht erstes Eingabewort neu kopie von k if k hat nicht schon w frage interpretation setze neu auf deklarativsatz interpretation end trage p als modalverb oder vollverb in neu ein setze zustand neu aktiv end end Eine Kante vom Typ unbekannt kennzeichnet ein Wort das nicht im W rterbuch aufgefunden werden konnte Es ist klar da es daf r keine sinnvolle Einbaum glichkeit geben kann Aus diesem Grund werden solche Kanten einfach an die Instanziierung drangepappt fuelle unbekannte kante u in k ein neu kopie von k fuege u zu neu subkanten hinzu verlaengere neu um u setze zustand neu aktiv 4 8 DER ZERTEILER 107 Eine Fragekante wird genauso als F ller einer Rolle einzu
37. beiden Richtungen so da sich die in Abbildung 5 4 gezeigte Struktur ergibt Rollen werden anhand ihres Namens identifiziert Rollenformen anhand ihres gram matikalischen Typs und ggf ihrer einleitenden Pr position oder Konjunktion und Frage formen anhand ihres Typs und der Folge ihrer Fragew rter 5 2 5 Fallschablonen kopf a 7 hat_f ller a hat_rolle l l fallschablone i l D nne Pfeile bedeuten einen Verweis dicke Pfeile bedeuten mehrere Verweise Abbildung 5 5 Verweisstruktur der Fallschablonenmenge Die Fallschablonen werden ebenfalls in einer Hashtabelle gehalten und durch ihren Na men identifiziert Dies ist der Name ihres Kopfkonzeptes Sie haben Verweise auf das Konzept das ihren Kopf bildet auf Fallschablonen von denen ausdr cklich Rollen geerbt werden auf die Rollen die in ihnen direkt vorkommen sowie auf die Konzepte die als F ller bei diesen Rollen zugelassen sind Soweit ergibt sich die in Abbildung 5 5 gezeigte Verweisstruktur Dazu kommen nun noch implizite Verweise die dadurch entstehen da die Konzepthierarchie verwendet wird um implizit Rollen von denjenigen Fallschablonen zu vererben die zu den Oberbegriffen des Kopfkonzeptes geh ren diese Verweise und ihre transitive H lle werden dynamisch beim Ablaufen des Zerteilers berechnet 5 2 6 Chart Das Modul Chart realisiert zwei Datentypen die f r den Zerteiler von zentraler Bedeu tung sind kante und chart Es wird aus Gr nden der
38. beliebigen Verbpr fixen zu beliebigen Verben f hrt manchmal zu unsinnigen zus tzlichen Ausgaben bei der Analyse Dies gilt insbesondere sobald das Pr fix ein definiert ist das mit dem unbestimmten Artikel kollidiert 2 Die Wortartbindung der Konzepte ist eine unn tige Einschr nkung Dadurch lassen sich Rollen die wahlweise durch verschiedene Klassen grammatikalischer Konstruk tionen beschrieben werden k nnen nur mittels mehrerer Konzepte in Fallschablo nen einbauen auch wenn die Konzepte sich semantisch gar nicht unterscheiden Man br uchte stattdessen vollpolymorphe Konzepte d h solche mit beliebig unter schiedlichen Erscheinungsformen 3 Die rein manuelle Handhabung unregelm iger Verben ist doch etwas umst ndlich 4 Das Einlesen einer Wissensbasis dauert recht langet 5 Die Fehlermeldungen des Parsers auf syntaktische Fehler beim Einlesen der Wissens basis sind d rftig 8 1 3 Messungen Leider erwies sich die Verwendung des Profiling Utilities gprof als nicht ohne Weiteres durchf hrbar weil die dabei verwendete Bibliotheksroutine _exit mit einer gleichnamigen von C kollidiert Deshalb kann hier leider keine detailierte Auswertung des Zeitverhal tens erfolgen die auch feststellt wo im Innern des Zerteilers die meiste Zeit verbraucht wird Es werden deshalb nur einige simple Messungen anhand der Beispiel Wissensbasis angegeben Diese erfolgten auf einem Rechner SUN 3 60M 8 Alle Messungen wur den mehrfac
39. beschrieben vor Zur Abgrenzung siehe den Abschnitt 2 5 2 3 ber die Pr po sitionalobjekte auf Seite 53 Man kann die adverbialen Pr positionalgef ge einteilen nach dem Kasus mit dem sie stehen e am h ufigsten ist der Dativ Seit dem Essen habe ich nichts mehr gegessen e ebenfalls recht h ufig kommt es mit dem Akkusativ vor Dieser Zustand bleibt nur f r kurze Zeit 2 5 SATZTEILE 55 e seltener steht es mit Genitiv Dies gilt wegen meines Hungers Die Verwendung des Genitivs ist heute auch deshalb selten weil mit den Pr positionen die eigentlich mit Genitiv stehen m ssen oft der Dativ verwendet wird Dies gilt wegen meinem Hunger Dies ist aber genaugenommen falsch 2 5 3 2 Adverbialgenitiv D1042 Der Adverbialgenitiv ist wie das Genitivobjekt von einem Glied im Genitiv be setzt Dieses ist jedoch nicht durch ein Pronomen ersetzbar und also auch nicht erfragbar Sein Kasus ist auch nicht durch ein Elemend seiner Umgebung bestimmt sondern als feste Wendung vorgegeben Eines Abends sah ich es Im Gegensatz zum Genitivobjekt kann ein Adverbialgenitiv durch ein Glied ersetzt werden das nicht im Fall bestimmt ist Neulich sah ich es Es nur wenige solche Wendungen von denen die meisten eine Zeit angeben Eine Ausnahme ist z B meines Erachtens 2 5 3 3 Adverbialakkusativ D1041 Ganz hnliches gilt f r den Adverbialakkusativ Auch er ist ein im Fall bes timmtes Glied das nicht pronominal ersetzbar ist und auch nicht
40. damit verbunden von Aufz hlungen der Art A B und C Diese sind zwar im Datentyp kante und den Ausgabefunktionen des Zerteilers bereits vorgesehen werden aber im Zerteilungsal gorithmus bisher in keiner Weise ber cksichtigt Ich vermute da die Erweiterung des Algorithmus um diese F higkeit recht weitreichender nderungen bedarf und deshalb verh ltnism ig aufwendig ist 2 Ein zweiter wichtiger Punkt w re die Behandlung von Verneinungen Zur Zeit kann man lediglich das Wort nicht zum Modaladverb erkl ren so da es als Rollenf ller auftreten kann oder als Modifizierer in einer Nominalphrase Eine vollst ndige Be handlung sollte aber automatisch stattfinden also insbesondere auf Satzebene ohne eine Rolle vorzusehen d h den richtigen Bezug auffinden und versteckte Vernei nungen wie zum Beispiel in dem Wort kein in explizite Umwandeln Dazu sind aber sowohl erhebliche nderungen im Zerteiler als auch eine Erweiterung der in der Wissensbasis dargestellten Information notwendig 3 Die Beschreibungsm glichkeiten f r Rollen die Formen in mehr als einer der Klassen nominal verbal adverbial zulassen sind etwas unzufriedenstellend Zwar kann man mit dem Substantivquerverweis bei Verbkonzepten die h ufigsten dieser F lle ab decken jedoch nicht die adverbialen Formen Die saubere L sung w re die sich 134 KAPITEL 8 AUSWERTUNG UND AUSBLICK von der Wortartbindung der Konzepte vollst ndig zu l sen so da ein
41. der Regel wird nur einer dieser Werte angegeben Verben Die meisten Vollverben sind regelm ig und ben tigen berhaupt keine zus tzlichen Angaben zur Erzeugung ihrer Formen diese werden gem Tabelle 2 1 Seite 39 aus dem Verbstamm gebildet Hilfs und Modalverben sind im mer unregelm ig Bei unregelm igen Verben sind folgende Formen anzugeben Die Wortlisten f r Pr sens Pr teritum und Konjunktiv I II bestehen immer aus 6 Eintr gen erst f r 1 2 3 Person Singular dann Plural Die Wortliste partizip enth lt Partizip I und Partizip I diese werden als Singular und Plural und erste bis dritte Person eingetragen Die Wortliste imperativ enth lt die Formen f r Imperativ Singular und Imperativ Plural Als Infinitiv wird der Name des W rter bucheintrags benutzt Bei unregelm igen Verben mit abtrennbarem Pr fix kann der Infinitiv mit zu an der Stelle einer Stammangabe angegeben werden er wird dann als einteilige Form mit in das W rterbuch aufgenommen Die Partizipien m ssen zur Verwendung als Adjektiv falls gew nscht einzeln als solche eingetragen werden Substantive Substantive sind fast immer in eine aus einer Reihe von Klassen einzuordnen Dazu wird bei typ die Art der Singularbildung und die Art der 84 11 12 13 14 15 16 KAPITEL 4 ARCHITEKTUR Pluralbildung angegeben Bei Substantiven die nicht im Singular oder nicht im Plu ral auftreten k nnen oder teilweise unregelm
42. des Teils an den Verwendungsstellen Dennoch findet sich oft auch in diesen F llen f lschlich eine Auslassung im Falle des Bedeutungsunterschieds oft bewu t angewandt um eine komische Wirkung zu erzielen Die Einsparung von Attributen umfa t Adjektive vor Substantivzusammenset zungen Franz sisches Essen und Trinken Adverben vor Verbzusammensetzungen Franz sisch essen und trinken und gleiche Pronomina Sein Schnarchen und R cheln verhinderte meinen Schlaf Auch hier kommen in hnlicher Weise Regelverletzungen vor Genau umgekehrt erfolgt auch eine Kinsparung von Attributiertem Franz sisches und deutsches Essen Franz sisch oder deutsch essen Sein und ihr Schnarchen verhinderte meinen Schlaf Schlie lich gibt es die Teilworteinsparung bei sich wiederholenden Teilen von Sub stantiven oder Verben Gro und Kleinbauern m ssen an Privatzugang und fahrt ihres Hofs ein Hinweisschild ankleben oder nageln um Besucher ein oder abzuweisen Diese Konstruktion betrifft also Sinnteile von zusammengesetzten Substantiven sowie Pr fixe von Verben wird jedoch auch oft f lschlich z B f r Suffixe von Substantiven gebraucht Wahr und Falschheit Mutter und Vaterschaft 2 7 2 Negation Die elementarste logische Operation die Verneinung ist verst ndlicherweise ein sprachlich recht vielgestaltiges Ph nomen und birgt erhebliche Schwierigkeiten was die Erkennung und korrekte Interpretation in der deutschen Sprache anbelang
43. durch seine Beliebigkeit denn ein solches System ist nur u erst schwierig in irgendeiner Weise zu ndern oder zu erweitern und eine bertragung auf einen anderen Objektbereich ist geradezu unm glich Das liegt auch daran da sich ohne eine geordnete Darstellung des syntaktischen und semantischen Wissens die Komplexit t eines Systems zur Verarbeitung nat rlicher Sprache nur auf einem niedrigen Niveau beherrschen l t 1 3 3 Kontextfreie Ersetzungsregeln Die fr hen Versuche zur Formalisierung nat rlicher Sprachen in der Linguistik st tzten sich zum gro en Teil auf die sogenannte simple phrase structure grammar kontextfreie Produktionensysteme als Grammatikformalismus Auch in der Informatik wurde dieser Ansatz aufgegriffen und w hrend er im Bereich der k nstlichen Sprache gro e Fortschritte und ein festes theoretisches Strukturgeb ude hervorbrachte mit zahlreichen eflizienten Zerteilungsverfahren f r k nstliche Sprachen mit gewissen Eigenschaften waren die Er folge bei der Verarbeitung nat rlicher Sprache gering Daf r gibt es verschiedene Gr nde e Um der Vielf ltigkeit nat rlicher Sprachen Herr zu werden w rde man gigantische Produktionensysteme ben tigen e Solche Grammatiken lassen auch nicht die geringsten Abweichungen von der vorgeschriebenen Form der Eingaben zu e Kontextfreie Regeln sind f r manche Konstruktionen nat rlicher Sprachen vermut lich nicht m chtig genug e Die Form der Beschre
44. feststellbar kann aber manchmal aus dem Zusammenhang hervorgehen vor allem bei alle brige und andere Kapitel 3 Analyse mit Fallschablonen Es ist nur nat rlich sich eine Methode vorzunehmen und sie auszuprobieren Wenn es schiefgeht gib es offen zu und versuche etwas anderes Franklin D Roosevelt In diesem Kapitel werden einige allgemeine Aspekte von SARA besprochen n mlich der Be griff der Fallschablone und des Fallschablonenzerteilers und im Zusammenhang damit ein Gro teil der Terminologie die bei der Beschreibung der Architektur und Implementation verwendet wird Dann die Philosophie der sogenannten toleranten Zerteilung die bei SARA zur Anwendung kommt die Menge der Rollen aus denen f r die Beschreibung von Fallsch ablonen typischerweise ausgew hlt wird und schlie lich das Verfahren des Chart Parsing das dem Zerteiler zugrundeliegt 3 1 Fallschablonen und Zerteiler 3 1 1 Was ist eine Fallschablone 1 Eine Fallschablone ist ein Datenobjekt das eine Klasse von u erungen in einer nat rlichen Sprache beschreibt Das kann zum Beispiel so aussehen Fallschablone geben Rolle wer_gibt ein_Mensch Rolle wem_wird_gegeben ein_Mensch Rolle was_wird_gegeben physikalisches_Objekt Diese Beschreibung erfasst beispielsweise alle folgenden S tze Ich gebe dir ein Buch Du gibst Sara das Buch Sara gibt das Buch ihrer Oma Die Oma gibt das Buch an ihre Vermieterin 67 68 KAPITEL 3 ANALYSE MIT F
45. ging unter Es ging ein Mann unter In diesem Falle handelt es sich bei es im zweiten Satz nicht um ein Pronomen Es wird nicht gebeugt und kongruiert nicht oder nur scheinbar mit dem Pr dikat Es ging ein Mann unter Aber Es gingen zwei M nner unter In der automatischen Analyse ist dieser Platzhalter nur dann von einem Pronomen zu unterscheiden wenn eben keine scheinbare Kongruenz vorliegt Die Lage wird dadurch noch weiter kompliziert da es noch eine dritte Verwendung hat Es kann n mlich auch noch ein Quasi Subjekt f r unpers nliche Verben sein Es regnet In dieser Verwendung ist es zwar erfragbar kann aber nur schwer ersetzt werden es stellt jedoch grammatikalisch ein echtes Subjekt dar Im aktiven Satz ist das Subjekt im weitesten Sinne immer in der Rolle des Agenten Im passiven Satz ist es ein affiziertes Subjekt 2 5 2 Objekte D1035 Die Objekte lassen sich als die Zielpunkte des verbalen Geschehens auffassen Sie sind in ihrem Kasus direkt durch das Verb oder seltener durch ein Satzadjektiv bestimmt und ihre Stelle kann immer durch ein Pronomen besetzt sein Bei Pr positionalobjekten bleibt nat rlich die Pr position mit dem Pronomen stehen 2 5 2 1 Akkusativobjekt D1035 Das h ufigste Objekt ist nun das Akkusativobjekt Seine Stelle ist meist durch ein Glied im Akkusativ besetzt Ich sehe den Tisch Es kann jedoch auch ein Teilsatz an der Stelle eines Akkusativobjektes stehen Ich sehe da dort ein
46. gt e frei verf gbarer Speicher die sogenannten Register e Tests an Kanten deren Erf llung Voraussetzung daf r ist da die Kante benutzt wird und e Aktionen an Kanten die bei Benutzung der Kante durchgef hrt werden und den Speicherinhalt ver ndern Als eine linguistische Theorie beschreibt die generative Transformationsgrammatik nicht die Analyse sprachlicher u erungen sondern deren Erzeugung Das Rahmenwerk ist aber auf die Analyse bertragbar Das System der generativen Transformationsgrammatik wie es in der Linguistik verwendet wird ist sehr umfangreich Es enth lt eine phonologische eine morphologische eine syntaktische und eine semantische Komponente 1 3 L SUNGSANS TZE 27 ATNs haben damit die M chtigkeit von Turing Maschinen Sie vereinigen Grammatik und Zerteilungsverfahren Ein Beispiel f r ein ATN basiertes System ist LUNAR Woods73 das chemische Anal ysedaten ber das von der Apollo 11 Mission mitgebrachte Mondgestein verarbeiten hilft indem es die Eingaben in eine formale Abfragesprache bersetzt Einige Zeit galt der ATN Ansatz als eine sehr vielversprechende Technik auf dem Ge biet Es hat sich jedoch gezeigt da gerade die gro e M chtigkeit von ATNs zu einer unsystematischen Verarbeitung ver f hrt und deshalb diesem Ansatz hnliche Nachteile wie bei einer ad hoc Methode verschafft Ein zus tzlicher Nachteil der auf der massiven Syntaxorientierung beruht ist die geringe Robusth
47. leichten Ver nderlichkeit der Schnittstelle nicht ganz von der Implementation abstrahiert so da die Bezeichnung Re alisierung eines abstrakten Datentyps nicht ganz auf dieses Modul zutrifft Es wurde jedoch eine saubere Trennung zwischen den Elementaroperationen auf Charts und Kanten im Chart und den strategischen Operationen des Zerteilers erreicht Das Modul Chart enth lt nur Operationen zum Initialisieren und L schen von Charts zum Ausgeben von Charts Kanten oder Teilen von Kanten zum Erzeugen und Manipulieren von Kanten in einem Chart und zum Starten des Zerteilers Die eigentliche Zerteilungsfunktion wird dabei aus dem Chart Modul heraus aufgerufen obwohl die Benutzungshierarchie andersherum ist der Zerteiler benutzt das Chart Modul die Ankopplung der Zerteilerfunktion erfolgt dabei ber die Zuweisung eines Funktionszeigers 118 KAPITEL 5 IMPLEMENTATION 5 2 7 Zerteiler Der Zerteiler ist aus Gr nden der einfacheren Handhabung in vier Dateien aufgetrennt Dieses Modul verwendet ein Datenobjekt vom Typ chart das in alle Funktionen die darauf zugreifen m ssen als Parameter bergeben wird Diese Ma nahme soll zuk nftige Erweiterungen erleichtern bei denen es notwendig wird mehr als ein Chart zu handhaben insbesondere um fr here Charts zur Bearbeitung von R ckw rtsreferenzen aufzuheben F r eine Beschreibung der internen Organisation dieses Moduls siehe den Abschnitt 4 8 und die Programmquellen 5 3 Sons
48. nun die Untersuchung darauf was in der obigen Schleife geschehen ist und die entsprechende Reaktion if ich wollte verlaengern und konnte nicht versuche nebensatz anzustossen elsif wollte nicht mehr verlaengern bearbeite instanziierung k nach else habe verlaengert setze zustand k inaktiv Kopien werden weitergefuehrt end Hier nun die genauere Beschreibung der oben erw hnten Operationen Zuerst das Bilden von Fragekanten und das Lesen der Nominalphrasen bilde fragekante in k while naechstes wort w ist fragewort Mehrdeutigkeiten gibts keine verlaengere k um 1 und nimm w mit auf end if es folgt nominalphrase np mit hat_fragepronomen verlaengere k um np und nimm np mit auf end lese pronominalphrase k for jede kante v am knoten vor dem startknoten von k do if v typ wortkante und v wi wortart praeposition neu kopie von k nimm v mit in neu auf setze zustand neu aktiv end end if mindestens eine neue kante erzeugt setze zustand k inaktiv end Das Lesen von Nominalphrasen wird hier nur sehr ungenau angegeben Es folgt unten eine verbale Erl uterung lese nominalphrase k n startknoten von k if n 0 return mehr geht nicht 4 8 DER ZERTEILER 103 for jede kante w beim knoten n do genaueres siehe untenstehenden Text if w ist wortkante und wortart ist passend und kongruenz nicht verletzt neu kopie von k fuege wort w vorn zu neu hinzu
49. rterbuches ermitteln Dieses enth lt ferner auch noch eine Reihe weiterer Angaben zum Wort die f r die weitere Verarbeitung notwendig sind insbesondere Beugungsinformation Aus diesem Grund nimmt das W rterbuch eine sehr wichtige Position ein Die Wortarten und deren Unterwortarten k nnen auch zur Bildung und Beschreibung semantischer Kategorien herangezogen werden sie haben deshalb f r ein Fallschablonensystem eine Bedeutung die ber blo e grammatikalische Aspekte hinausgeht 2 1 1 Verb Verben bilden das Pr dikat eines Satzes das nach den meisten Grammatiktheorien so auch in der Fallschablonentheorie den Kern des Satzes darstellt also der wesentlich be deutungstragende Teil ist 2 1 1 1 Arten von Verben Man unterscheidet zwischen e den Vollverben D125 die alleine das Pr dikat bilden k nnen und dabei wiederum beispielsweise den T tigkeitsverben D116 die eine Aktivit t des Subjekts angeben den Vorgangsverben D117 die eine Ver nderung oder Aktivit t am Subjekt angeben und den Zustandsverben D118 die keine Aktivit t angeben statische Verben e den Hilfsverben sein haben und werden D126 die zur Bildung der Zeiten und des Passivs ben tigt werden und e den Modalverben d rfen k nnen m gen m ssen sollen wollen und zunehmend auch brauchen D127 die die Bedeutung des gesamten Pr dikats und damit der ganzen Aussage modifizieren Der genaue Gebrauch und Sinn der Modalverb
50. sich nicht im Austausch von Einleiteworten sondern es kommen auch Infinitivkonstruktionen und direkte Rede vor Nur etwas m hsam lassen sich auch semantische Kategorien bilden e rein faktisch mit da oder einfachem Infinitiv Es ist sch n da Es ist sch n dies gesagt zu haben e faktisch verlaufsdarstellend mit als Als ich dies sagte 60 KAPITEL 2 DEUTSCH faktisch hypothetisch mit Infinitiv oder wenn Es w re sch n das zu sagen Ich f nde es sch n wenn ich das sagte rein bezugnehmend mit Infinitiv oder da sagt da sagt zu haben bezugnehmend auf indirekte direkte Rede Er sagte er k nne Er sagte Ich kann bezugnehmend verlaufsdarstellend mit wie oder Akkusativ mit Infinitiv Ich sah sie kommen Ich merkte wie bezugnehmend auf undeutliche Wahrnehmung mit als als ob als w te er nicht weiter als ob er nicht weiter w te modal mit da Es ist wichtig da mit Infinitiv vermochte dies nicht einzusch tzen oder mit Akkusativ und Infinitiv lie en ihn gehen v llig fraglichkeitsdarstellend mit ob oder direkter Rede Er fragte ob ich komme Er fragte Kommst Du v llig fraglichkeitsaufhebend mit ob Ich wei ob ich komme v llig alternativsetzend mit ob Es ist egal ob ich komme gezielt fraglichkeitsdarstellend mit W Anschlu oder direkter W Frage Er fragte wann ich komme Er fragte Kommst Du gezielt fraglichkei
51. unterscheiden zwischen der objektiven Bedeutung der vom Sprechenden beabsichtigten und der vom Empf nger der u erung wahrgenommenen wobei alle drei mehrdeutig sein k nnen In allen F llen bildet die syntaktische Zerlegung der u erung zusammen mit einer Art Bedeutungsw rterbuch die Grundlage jeder semantischen Analyse In der Linguistik ist die Semantik ein reiches Forschungsgebiet in dem zwar eine ganze Reihe von Ergebnissen vorliegen die sich aber meist einer Formalisierung im Sinne der Was genau die Bedeutung von Bedeutung ist soll hier nicht weiter er rtert werden da uns das geradewegs in die Philosophie f hren w rde Das intuitive Verst ndnis des Begriffes ist an dieser Stelle ausreichend 20 KAPITEL 1 VERARBEITUNG NAT RLICHER SPRACHE Informatik also der Darstellung in einer berechenbaren Form entziehen Auch ist der Abdeckungsgrad sprachlicher Ausdrucksm glichkeiten bisher gering Auch in der Informatik stellt die semantische Analyse bei der Verarbeitung nat rlicher Sprache ein ungel stes Problem dar Es gibt zwar eine Reihe von theoretischen Ans tzen verwertbare Ergebnisse beschr nken sich bisher aber meist darauf in winzigen klar abge grenzten Problembereichen eine semantische Analyse zu erm glichen indem man im Wesentlichen alle Bedeutungen zu erwartender Eingaben klassenweise vorhersieht im Wissensvorrat des Systems verankert und somit nur nach vorbestimmten Bedeutungen sucht 1 2 1 3 Pragmat
52. wortfolge akkusativ wortfolge nebensatz wortfolge verbalrollenformen nur_verbal rollenformen nominalrollenformen nur nominal rollenformen e frageformen frageformen frageform E frageform frage wortfolge fragenominativ wortfolge fragegenitiv wortfolge fragedativ wortfolge frageakkusativ wortfolge Erl uterungen zur Grammatik 89 1 Der Rollenname ist v llig frei zu w hlen Er kollidiert keinesfalls mit einem Namen aus dem W rterbuch oder der Konzepthierarchie 2 Bei den Rollenformen bedeutet ein einfaches Kasusschl sselwort da es sich um eine Rolle handelt die durch eine Substantivphrase ohne Pr position dargestellt werden kann Die Wortfolge gibt hinter einer Kasusangabe eine Liste von Pr positionen an von denen jede zusammen mit einer Substantivphrase im betreffenden Fall ste hend einen F ller f r die betreffende Rolle ergibt Hinter der Angabe nebensatz liefert die Wortliste eine Menge von alternativ m glichen Konjunktionen die einen Nebensatz zu dieser Rolle einleiten k nnen 3 Alle in den Wortfolgen bei Rollenformen aufgef hrten W rter werden automatisch ins W rterbuch als Pr position bzw Konjunktion eingetr gen 90 KAPITEL 4 ARCHITEKTUR 4 Bei den Frageformen ist grunds tzlich zu unterscheiden zwischen schwach gerichteten und stark gerichteten Fragen siehe den Absatz ber die W Fragen auf Seite 58 5 Eine Angabe f r eine schwach gerichtete Fr
53. zu der Hoffnung zu geben darauf ein universelles System zur Verarbeitung nat rlicher Sprache aufbauen zu k nnen Au erdem sind viele Resultate der Linguis tik entweder informal oder zwar formal jedoch nicht zur Berechnung mit Computern geeignet dargestellt Zudem bewegt sich das heutige Geschehen im Bereich der Verar beitung nat rlicher Sprache auf einem eher pragmatischen Niveau Aus diesen Gr nden sehe ich in dieser Arbeit davon ab tiefer in sprachwissenschaftliche Darstellungen einzusteigen Ergebnisse aus dem Bereich der Linguistik werden nur dort angef hrt wo sie unmittelbar nutzbar sind oder die Entwicklung ma geblich beeinflu t haben Zur Verwendung von Fremdw rtern und Fachausdr cken Im Titel dieser Arbeit kommt das Wort Deutsch vor und Deutsch ist ein wesentliches Thema darin Ich nehme das zum Anla auch haupts chlich die deutsche Sprache zu verwenden Nat rlich ist es im Bereich der Informatik fast unvermeidlich einige englische Fachausdr cke zu gebrauchen und auch ein gewisser Satz von lateinischen oder griechis chen Fremdw rtern ist so fest im deutschen Sprachgebrauch zumal dem akademischen verankert da die Ersetzung durch deutsche Begriffe mehr st ren als reinigen w rde An dererseits m chte ich mich doch so deutlich wie m glich vom Zunftjargon der Informatik und Linguistik abgrenzen und die Gelegenheit nutzen vielleicht einige n tzliche deutsche Fachbegriffe zu pr gen Zum Stil Meiner Ansi
54. 22 20 1 2 1 1 Syntax e 1 2 1 2 Semantik aoaaa 1 2 1 3 Pragmatik 2 2 22 on ee 1 2 2 Mehrdeutigkeit e 1 2 2 1 Syntaktische Mehrdeutigkeit 00 1 2 2 2 Semantische Mehrdeutigkeit 2 22 222 1 2 2 3 Pragmatische Mehrdeutigkeit 00 1 2 3 Machtigkeit von Sprache 2 2 Comm onen 1 2 4 Subjektivitat und Kontext 0 0 2 022000 1 3 L sungsans tze e 1 3 1 F llschablonen e 1 3 2 ad hoc Ansatz 2 22 2 oo 1 3 3 Kontextfreie Ersetzungsregeln 2 2 2 Connor 1 3 4 Transformationsgrammatik 2 2 on n nennen 1 3 5 Erweiterte Ubergangsnetze e 1 3 6 Unifikationssysteme e 1 3 7 Fallschablonen e 2 Deutsch 2 1 Wortarten 2 oo Coon 2 11 Verb oo oo 2 1 1 1 Arten von Verben 2 2 on nen 2 1 1 2 Pr iser 2 1 2 Substantiv 2 oo oo 2 1 2 1 Substantivarten 2 1 2 2 Substantivbildung 2 2 2222 nommen 2 1 3 Adjektiv 220 oo oo 13 13 13 14 14 14 15 16 16 18 18 19 19 20 20 21 22 22 23 23 24 24 25 25 25 26 27 27 2 2 2 3 2 4 2 5 2 6 Inhalt 2 14 Adverb 34 2 1 5 Pr position 2 22 oo onen 34 2 1 6 Konjunktion 2 2 2 aaa 35 2 1 7 Sonstige 2 oo onen 36 Beugung 2 22 oo on 37 221 Verb oo oo 37 2 2 1 1 regelm ige Verben 38 2 2 1 2 unregelm ige Verben 39 2 2 2 Substantiv Artikel und Pronomen 40 2 2 2 1 Singular 2 2 oo oo onen 41 2 2 2 2 Plural 42 2 2 3 Adjektiv 2 aaa a 44 2 2 3
55. 6 9 Konkretes Vorgehen 0 m mm onen 124 7 Bedienung 126 7 1 Aufruf und Kommandoeingabe 2 2 Con onen 126 7 2 Beschreibung der Kommandos 2 2 nommen 127 7 3 Ausgabe des Chant 129 7 4 Ausgaben im EDGE Format 2 2 2 on onen 129 7 4 1 Konzepthierarchie e 129 7 4 2 Chart 2 on 129 8 Auswertung und Ausblick 131 8 1 Beobachtungen 131 8 1 1 St rken 131 8 1 2 Schw chen 2 m nn 132 8 1 3 Messungen 132 8 2 Ausbau und Ausbauf higkeit aoaaa 133 A Standard Wissensbasis sara std 135 B Beispiel Wissensbasis 144 Literaturverzeichnis 145 Tabellen 2 1 2 2 2 3 2 4 2 5 2 6 2 7 2 8 2 9 Die einteiligen Formen regelm iger Verben 39 Die Beugungsformen von sein und haben 2 22200 40 Die Beugungsformen von werden 40 Beugung des bestimmten und des unbestimmten Artikels 41 Beugung der Substantive in der Einzahl 42 Beugung der Substantive in der Mehrzahl Pe PUe P PU 43 Beugung der Substantive in der Mehrzahl Pn Pen Per PUer 43 Beugung der Substantive in der Mehrzahl Ps Pss Pi Pue 44 Beugung der Adjektive Typ I II III 44 11 Abbildungen 4 1 5 1 5 2 5 3 5 4 5 5 5 6 Architektur von SARA 76 Modulstruktur von SRA 114 Verweisstruktur des W rterbuches 115 Verweisstruktur der Konzepthierarchie 116 Verweisstruktur des Rollenverzeichnisses
56. 8 3 Zerteilungsalgorithmus 2 Co 0 2 0 2 0 2000000 0 95 4 8 3 1 Generelles 2 2 2 2 0 0 0 02000 eee ee 95 4 8 3 2 Information in den Kanten 0 97 4 8 3 3 Initialisierung und Kantenauswahl 2 2 2220 98 4 8 3 4 Instanziieren von Fallschablonen 2 2 2 2 2 100 4 8 3 5 Das Startpunktproblem 0 103 4 8 3 6 Erweitern einer Instanziierung 105 4 8 3 7 Abschlu und Auswertung einer Instanziierung 107 4 8 4 Zeitkomplexit t e 108 4 9 Die Ausgabe 2 oo aaa ee 109 10 Inhalt 5 Implementation 113 5 1 Allgemeines 113 5 2 Modularisierung Top Down 2 0 0 0 0 00000000004 113 5 2 1 Wissensbasis gesamt 2 22 on ee 114 5 2 2 W rterbuch 22 2 2 Con 115 5 2 3 Konzepthierarchie 2 2 Co Cm n nn 116 5 2 4 Rollenverzeichnis 2 2 Comm nn 116 5 2 5 Fallschablonen 2 2 2222 oo Eon 2 00002 0 eee ee ee 117 5 2 6 Chan 117 5 2 7 Zerteiler 222 oo aaa 118 5 3 Sonstige Module Bottom Up 0 0 00000000 118 6 Test 120 6 1 Schw chen beim Tee 120 6 2 Allgemeines Vorgehen 121 6 3 Big Bang Test lt inkrementeller Test 2 2 2 2 on nun en 121 GJ Blackbox Test gt Whitebox Test 2 2 22 Conan 121 6 5 Bottom up Test lt Top down Test 2 2 2 2 2 on nn 122 6 6 Codeinspektionen und Walkthroughs 2 2 2 2 on nennen 122 6 7 Fehlerlokalisierung 2 22 2 Co onen 123 6 8 Automatisches R ckfalltesten 124
57. 81 Patrick Henry Winston Artificial Intelligence Addison Wesley Reading Massachusettes corrected reprint 1984 Woods73 William A Woods Progress in Natural Language Understanding An Ap plication to Lunar Geology 1973 National Computer Conference AFIPS Conference Proceedings 42 AFIPS Press Montvale New Jersey 1973 Zorach80 Cecile Zorach English Grammar for Students of German The Olivia and Hill Press Inc Ann Arbor Michigan 7th printing 1987
58. ALLSCHABLONEN 2 Zur Beschreibung dieser Satzklasse enth lt die Fallschablone einen Kopf sozusagen der Kern der u erung z B geben Dieser Kopf ist das eindeutig identifizierende Merkmal der Fallschablone Der Kopf der Fallschablone definiert eine syntak tische und eine semantische Einschr nkung der erlaubten u erungen z B Vollst ndige deutsche S tze mit geben als Hauptverb 3 Au erdem enth lt eine Fallschablone eine Menge von Fallschablonenrollen Eine Fallschablonenrolle z B Rolle wer_gibt ein Mensch besteht aus einer Rolle wer_gibt und einer Einschr nkung f r ihren Rollenf ller ein Mensch 4 Eine Rolle hat einen sie eindeutig definierenden Namen z B wer_gibt und beschreibt eine syntaktische Einschr nkung d h eine Menge von grammatikalis chen Konstruktionen z B Nominalgruppe im Nominativ Normalerweise vergibt man allgemeinverwendbare d h in verschiedenen Fallschablonen zu gebrauchende Rollennamen so hei t das Subjekt als Rolle typischerweise Agent 5 Ein Rollenf ller oft einfach F ller genannt ist ein Sinnobjekt der betrachteten Sprache z B ein Substantiv Eine Einschr nkung an einen Rollenf ller zu machen wie es in einer Fallschablone f r jede Rolle geschieht bedeutet also z B bei dem F ller ein Mensch zu sagen Hier ist nicht jedes beliebige Substantiv erlaubt son dern nur solche die einen Menschen bezeichnen Solche Einschr nkungen werden auch Konzepte ge
59. Ein Fallschablonenzerteiler f r Deutsch Diplomarbeit von cand inf Lutz Prechelt Teil I Betreut von Dipl Inf Rolf Adams Fakult t f r Informatik Institut f r Programmstrukturen und Datenorganisation Universit t Friedericiana Karlsruhe 31 Oktober 1989 Ich erkl re hiermit eidesstattlich da ich diese Diplomarbeit selbst ndig und ohne un zul ssige Hilfe angefertigt habe Die verwendeten Quellen sind im Literaturverzeichnis vollst ndig angegeben Karlsruhe den 14 Oktober 1989 Lutz Prechelt Zusammenfassung Diese Arbeit beschreibt ein System zur Verarbeitung nat rlicher Sprache Deutsch das auf Fallschablonen als Grammatikformalismus und einem Chart Parser als Zerteilungsver fahren basiert Das System erh lt eine eigene Wissensbasis und verwendet keine anderen Programme oder Datenbest nde Es liefert im Dialog in weniger als einer Sekunde aus den Eingaben des Benutzers anhand der Wissensbasis instanziierte Fallschablonen eine Art Normalform der Eingabe die relativ einfach weiterverarbeitet werden kann Die syntaktische Leistungsf higkeit des Zerteilers umfa t die Unterscheidung von Aus sages tzen Imperativs tzen Ja Nein Fragen und W Fragen alles ohne Bedarf von Satzzeichen Ferner die Handhabung von Modalverben von Nominalphrasen mit Pr po sitionen Artikeln Pronomen und Adjektivketten von Adverben sowie von Relativs tzen und von Nebens tzen die mit einer Konjunktion eingeleitet werden
60. Emmon Bach Robert T Harms ed Universals in Linguistic Theory Holt Rinehart and Winston Inc London Reprint 1972 Wolfgang Finkler G nter Neumann Morphix Ein hochportabler Lemmatisierungsmodul f r das Deutsche Universit t des Saarlandes Saarbr cken kt Labor am Lehrstuhl f r Informatik IV Memo Nr 8 Juli 1986 G nther G rz Strukturanalyse nat rlicher Sprache Addison Wesley Deutschland 1988 Gerhard Goos William M Waite Compiler Construction Springer New York 1984 145 146 HayCars1 HayCar87 KerRit83 Knuth84 Kopka88 Lindsay63 Myers79 Newbery88 SchaRies8 1 Schnei82 Steele84 Strou87 TiAdHo88 Uszkoreit87 Weizenb66 Winograd83 Literatur P J Hayes J G Carbonell Robust Parsing Using Multiple Construction Specific Strategies in L Bole ed Natural Language Parsing Systems Springer New York 1985 oder Proceedings of 7th International Joint Conference on Artificial Intelligence 1981 P J Hayes J G Carbonell Natural Language Understanding in Stu art C Shapiro ed Encyclopedia of Artificial Intelligence Wiley Inter science Publication John Wiley and Sons New York 1987 Brian W Kernighan Dennis M Ritchie Programmieren in C Carl Hanser M nchen Wien 1983 Donald E Knuth The TXbook Addison Wesley 1986 Helmut Kopka Dir Eine Einf hrung Addison Wesley Deutschland 1988 Robert K Lindsay A Program
61. Exper imente wurden mit der im Anhang abgedruckten Beispiel Wissensbasis gemacht 8 1 Beobachtungen Selbst in der kurzen Zeit die SARA bislang erst verwendet wird lie en sich bereits eine Reihe von Punkten ausmachen die als auffallend positiv oder negativ zu bewerten sind 8 1 1 St rken 1 Die f r das W rterbuch verwendete Form der Eintragungen ist eing ngig und kann nach kurzer Eingew6hnungszeit mit einer sehr geringen Fehlerquote verwendet wer den Dies gilt vor allem f r den kritischen Punkt der Beschreibung von Substantiven 2 Die Konzepthierarchie ist ein gutes Beschreibungsmittel f r semantische Kategorien in dem Sinne da es die Gr e der Fallschablonenmenge in ertr glichen Grenzen h lt 3 Die M glichkeit das Rollenverzeichnis selbst zu bestimmen erm glicht eine der An wendung angepasste Bezeichnung der Rollen und manchmal eine Beseitigung von Mehrdeutigkeiten durch Weglassen bestimmter Rollenformen was der Qualit t der Ausgaben des Zerteilers sehr zutr glich ist 4 Die Vererbung von Rollen in der Fallschablonenmenge entlang der Unterbegriffsver weise scheint ebenfalls eine ad quate Methode zu sein Sie haelt die Gr e der einzelnen Fallschablonen gering und erleichtert die nderung von Fallschablonen gruppen 5 Die Geschwindigkeit des eigentlichen Zerteilers ist hoch s Abschnitt 8 1 3 131 132 KAPITEL 8 AUSWERTUNG UND AUSBLICK 8 1 2 Schw chen 1 Die unkontrollierte Zuordnung von
62. Fallschablonen Wortmehrdeutigkeiten anhand der von jeder Rolle definierten Kombination von syntaktischen und semantischen Einschr nkungen aufzul sen Der Zweck von Fallschablonen bei der Verarbeitung nat rlicher Sprache besteht also darin eine Zerlegung einer Menge von u erung en in solche Teile zu beschreiben die eine gewisse vorher bekannte Beziehung zur Gesamt u erung haben Dabei wird gleichsam von alleine eine Zwischendarstellung definiert die gut von nachfolgenden Verarbeitungsstufen 3 2 TOLERANTE ZERTEILUNG 69 z B Kontextinterpretation weiterverarbeitet werden kann und leicht die Beantwortung bestimmter Fragen eben nach den einzelnen Rollen erlaubt 3 1 3 Was ist ein Zerteiler Der Begriff des Zerteilers kommt eigentlich von der Theorie der formalen Sprachen her Eine solche Sprache wird zum Beispiel durch ein Produktionensystem beschrieben also ein System von Regeln durch deren Anwendung man aus einem einzigen Startsymbol jede in der Sprache m gliche u erung erhalten kann s GooWai84 Ein Zerteiler ist in diesem Zusammenhang ein Programm das eine gegebene u erung auf eine Folge von Regelanwendungen zur ckf hrt was die innere Struktur der u erung widerspiegelt Je nach Art der Sprache kann dieser Prozess ein oder mehrere Ergebnisse haben und der Prozess selbst kann direkt zum Ziel f hren oder auf R cksetzen angewiesen sein Im Bereich der Verarbeitung nat rlicher Sprache handelt es sich bei eine
63. Konzept grunds tzlich als polymorph anzusehen ist Der Zerteiler w rde dann die Wortart information nur noch dem W rterbuch entnehmen Diese Vorgehensweise macht keinerlei Schwierigkeiten und ist auch nachtr glich relativ einfach in den Zerteiler einzubauen in der Konzepthierarchie mu n tigenfalls Wortartinformation in der Synonymliste die Unterscheidung bei gleichlautenden Wortnamen erm glichen Da dieses Prinzip nicht bereits realisiert ist liegt lediglich daran da seine Vorteile von mir zu sp t erkannt wurden Die Analyse von Relativs tzen kann momentan nur solche Relativs tze erkennen deren Relativpronomen sich direkt an das Bezugswort anschlie t Das schlie t er stens eine Verwendung von Relativs tzen mit Pr position aus und verbietet zweitens das Vorziehen eines Verbs vor den Relativsatz Es w re w nschenswert beide Ein schr nkungen zu beseitigen Zumindest bei der Zweiten ist das allerdings nicht so einfach weil das Verb ggf als Endpunkt des Nebensatzes angesehen wird Zur Erh hung der Universalit t des Zerteilers sollte gelegentlich ein Verbautomat nachger stet werden der aus der Folge von Haupt Hilfs und Modalverben die Angaben Zeit Person und Numerus f r einen Satz berechnet In diesem Zusammen hang mu beim Zerteiler erm glicht werden im Nebensatz auch nach dem Vollverb das heute stets das Ende des Nebensatzes markiert noch ein Hilfsverb und oder Modalverb zu analysieren Leicht nacht
64. Restl nge n 2 entstehen und so weiter Am Schlu liegen n Ergebnisse vor die in n Arbeitsschritten entstanden sind In diesem Fall w re also die Speicherkomplexit t O n und die Zeitkom plexit t O n log k n In der Praxis sind alle diese Betrachtungen allerdings von geringer Bedeutung einerseits ist der asymptotische Aufwand f r sehr gro e Eingabel ngen weitgehend uninteressant weil es sich bei SARA um ein Dialogsystem handelt bei dem stets nur mit kleinen oder sehr kleinen Eingabel ngen gearbeitet wird andererseits ist gerade wegen des Dialogbetriebs der konstante Faktor beim Zeitverhalten von gro er Bedeutung Versuche ergeben hier f r SARA ein befriedigendes Bild s Abschnitt 8 1 3 4 9 Die Ausgabe Die Ausgabe die SARA aus einem Eingabesatz produziert kann zwei Formen annehmen Die erste M glichkeit ist die Ausgabe der Definitions und Kommentartexte aus der Wis sensbasis Falls diese Funktion seitens der Benutzerschnittstelle eingeschaltet ist sucht der Zerteiler zu jeder erfolgreichen Instanziierung die bei Knoten 0 beginnt den Text aus der in der Konzepthierarchie als Defintion bei dem Konzept angegeben war das den Kopf der Instanziierung bildet sowie den Kommentartext der zugeh rigen Fallschablone falls es eine solche gibt Beide Texte k nnen leer sein Der Zerteiler achtet darauf auch bei mehrdeutigen Ergebnissen jeden Text nur einmal auszugeben Die zweite M glichkeit ist die Ausgabe der In
65. Singular D1165 Bei der Verwendung von Ma oder Mengenangaben schwankt die Verwendung fast beliebig Dies betrifft sowohl konkrete Angaben wie ein Dutzend als auch unbestimmte wie eine Menge oder ein Haufen Also nach Belieben Ein Dutzend Sch ler macht L rm was grammatikalisch korrekt ist oder Ein Dutzend Sch ler machen L rm was die sogenannte Konstruktion nach dem Sinn darstellt Das singularische Platzhaltersubjekt Es das dazu dient die erste Stelle im Satz zu besetzen wenn das Subjekt nach hinten geschoben werden soll hat keinen Einflu auf die Zahl des Pr dikats Dieses richtet sich nach dem tats chlichen Subjekt Es gehen nicht geht Lutz und sein Kaugummi vorbei Steht beim Subjekt eine Apposition in der Mehrzahl so schwankt das Pr dikat ebenfalls die Neigung richtet sich nach der Betonung Kapitel 2 die Grammatikregeln enth lt oder enthalten besonders viele Fehler 2 das Subjekt steht im Plural D1166 Analog zum Singularfall ist auch bei pluralischen Mengenangaben h ufig ein Schwanken des Pr dikats zu beobachten 120 Kilo sind oder ist eine Menge bergewicht Ebenfalls analog zum Singularfall ist auch die umgekehrte Anwendung der Appositionsregel m glich wirkt jedoch holprig Die ersten Seiten meine liebste Spielwiese sind selten ist besonders geisteserleuchtet 3 das Subjekt ist mehrteilig Dieser Fall wurde bereits im letzten Abschnitt erkl rt Das Pr dikat steht normaler
66. Verweisen ber mehrere u erungen hinweg und im Zusammenhang damit die Erg nzung von Ellipsen gel st werden 1 3 L sungsans tze Im Folgenden seien kurz die wichtigsten bisher realisierten Ans tze im Bereich der Verarbeitung nat rlicher Sprache angef hrt Diese Auflistung beschr nkt sich auf L sungsans tze f r die Probleme die auch von SARA in Angriff genommen werden also die Analyse von Syntax und einigen Teilen der Semantik Den Anfang machten sehr geradlinig erfundene Systeme die auf einfacher Zeichenketten suche basierten Entscheidende Impulse gaben ab den 50er Jahren die Arbeiten Chomskys der die Theorie formaler Sprachen einf hrte und salonf hig machte aus der nicht nur fast s mtliches systematische Wissen ber unsere heute gebr uchlichen kontextfreien Computersprachen und ihre Handhabung hervorging sondern auch die wichtigsten for malen Ans tze in der Linguistik die verallgemeinerte Phrasenstrukturgrammatik und die Transformationsgrammatik Diese in der Linguistik verwendeten Beschreibungsmit tel erwiesen sich auch als verwertbar zur Implementation von Systemen zur Verarbeitung nat rlicher Sprache Heute mu man bei der Beschreibung der Systemans tze trennen zwischen dem Grammatikformalismus also der Art wie das Wissen ber das Sachgebiet und manchmal auch ber die Syntax abgebildet wird und dem Zerteilungsverfahren also dem Algorithmus der das syntaktische Wissen enth lt eventuell auch nur anwendet
67. a man gar nichts schreibt Zahl Fall m nnlich weiblich s chlich Nominativ der ein die eine das ein Singluar Genitiv des eines der einer des eines Dativ dem einem der einer dem einem Akkusativ den einen die eine das ein Nominativ Plural Genitiv Dativ Akkusativ Tabelle 2 4 Beugung des bestimmten und des unbestimmten Artikels Au erdem kann das Wort ein in Verbindung mit mengenanzeigenden W rtern wie wenig oder paar als Quantifizierer vorkommen in diesem Falle wird es nicht gebeugt es handelt sich dann nicht um einen Artikel Der Artikel kann mit einer Pr position verschmelzen D358 wie bei an dem am durch das durchs 2 2 2 1 Singular Bei der Beugung von Substantiven im Singular unterscheidet man drei Arten die man zu gleich zur Bildung der Substantivklassen S1 S2 und 53 heranzieht D378 Aus mnemonis chen Gr nden werden die Klassen hier mit Ss Sn und bezeichnet F r die Beugungsendungen siehe Tabelle 2 5 Die Klassen k nnen wie folgt n her beschrieben werden D381 e Zur Klasse 1 Ss dem s Singular geh ren s chliche Substantive mit Ausnahme von Herz das in einer unregelm igen Weise gebeugt wird sowie alle m nnlichen Dabei gibt es bedeutungsbasierte Regeln z B bei Abk rzungen und Schiffen syntaktische Regeln n mlich Endungen die ein Geschlecht festlegen z B heit stets weiblich und Mischformen z B bei geographischen Namen 42 KAPITEL 2 DEUTSCH
68. a sie mir bekannt sei Ziemlich schlechte Luft hier drin Aha Und nun Ich soll bitte das Fenster ffnen Das hat zwar niemand gesagt aber es ist f r einen Menschen leicht herauszuh ren Bei diesem Beispiel spielt auch der durch die gemeinsamen Sinneswahrnehmungen der beteiligten Personen gebildete Kontext eine Rolle in Situationen in denen man kein Fenster ffnen kann oder will vielleicht in einem Operationssaal entf llt der Aufforderungscharakter dieses Satzes wieder Diese Art der Sprachverwendung ist von recht gro er Bedeutung im t glichen Umgang von Menschen untereinander Gl cklicherweise ist der Grund daf r haupts chlich H flichkeit da Menschen gegen ber Computern sowieso nicht h flich sind ist die Bedeutung der prag matischen Mehrdeutigkeit f r Systeme zur Verarbeitung nat rlicher Sprache recht gering und damit die beinah perfekte Unf higkeit existierender Systeme damit umzugehen nicht allzu beklagenswert 1 2 PROBLEME 23 1 2 3 M chtigkeit von Sprache Ein fundamentales Problem der Verarbeitung nat rlicher Sprache kann man in der bergro en M chtigkeit nat rlicher Sprachen sehen Bereits weit vor der Frage des Weltwissens taucht das Ph nomen auf da man u erungen nicht analysieren kann weil ihre syntaktische Vielfalt zu gro ist Dies bezieht sich zum einen auf die enorme Zahl von Worten die zum Standardwortschatz nat rlicher Sprachen geh ren zum andern aber auch auf die gro e Zahl gl
69. abdecken oder als F ller f r Rollen vorkommen Zu einer Nominalgruppe kann eine Pr position geh ren gefolgt von einem Artikel oder einem als Artikel verwendeten Pronomen gefolgt von einer Reihe von Adjek tiven oder Adverb Adjektiv Kombinationen oder einer Zahl Nach diesem Vorspann kommt das Substantiv das den Kern Kopf der Gruppe bildet und dahinter kann sich ein Relativsatz anschliessen Dahinter k nnen Rollenf ller folgen wenn sie in einer Fallschablone zu dem Kopfsubstantiv angegeben sind Adverben k nnen alleine eine Rolle f llen Es gibt die Arten Modaladverb Lokaladverb und Temporaladverb Relativs tze beginnen mit einem Relativpronomen und enden mit dem Vollverb Sie m ssen sich unmittelbar an ihr Bezugswort anschliessen und es wird stets die Kongruenz des Relativpronomens mit diesem Bezugswort gepr ft Numerus und Geschlecht Dieses Bezugswort und sein Vorspann wird als Rollenf ller in den Relativsatz eingebaut und zwar in dem Kasus den das Relativpronomen angibt Relativs tze f llen keine Rolle sondern k nnen spontan hnlich wie Adjektive bei einem Substantiv angegeben werden F r die Instanziierung eines Relativsatzes stehen alle Fallschablonen zur Verf gung Ansonsten gilt das zu Haupts tzen gesagte Nebens tze beginnen mit einer Konjunktion und enden mit dem Vollverb Sie f llen eine Rolle Ansonsten gilt das zu Haupts tzen gesagte 94 KAPITEL 4 ARCHITEKTUR W Fragen mit Substantiv beginnen
70. age wird mit dem Schl sselwort frage angek ndigt Die darauf folgende Wortliste gibt die exakte Folge von W rtern an mit denen die Rolle erfragt wird z B Wo hinein f r die Rolle Zielpunkt Diese W rter werden automatisch als Eintr ge mit der speziellen Wortart Fragewort in das W rterbuch aufgenommen 6 Eine stark gerichtete Frage enth lt eine Substantivphrase die dazu dient den m glichen Bereich der Antworten bereits mit der Frage einzuschr nken Es wird also das erfragte Objekt mit angegeben um Mehrdeutigkeiten zu verringern Dieses Objekt steht je nach Rolle in einem bestimmten Kasus der durch die Wahl des Schl sselwortes angegeben wird Dem Objekt voraus geht im Satz der konstante Teil der Frageform der hier mit der Wortliste spezifiziert wird Beispiel die Frage Unter welchem Fu wird angegeben als fragedativ unter Auch hier werden die Fragew rter automatisch als solche ins W rterbuch aufgenom men 7 Man beachte da es einige erstarrte Formen von stark gerichteten Fragen gibt die als schwach gerichtete aufzufassen sind z B ist Auf welche Weise anzugeben als frage auf welche weise 8 Die Eintragung subjekt f r eine Rolle bedeutet da die F ller dieser Rolle im Eingabesatz als Subjekt auftreten Dies hat zwei Auswirkungen Bei Impera tivs tzen wird nicht verlangt da diese Rolle gef llt wird und wo ein Pr dikat und ein Subjekt in einem Satz vorkommen m ssen ihre Formen in Person und Numerus k
71. ahin steht aber noch die Schwesterkante der Fallschablone f r die Instanziierung mit einem Relativsatz oder sonstigen Nebensatz zur Verf gung wobei der Startpunkt dynamisch zu bestimmen ist richte schwesterkante von k ein k_neu kopie von k k_neu el inst schwestern list k einelementige Liste k el inst schwestern list k_neu dito setze_start k 0 setze k_neu ganz hinten in den stapel der aktiven kanten setze k vorn in den stapel der aktiven kanten Diese Schwesterkanten k nnen nun auf folgende Weise in den Instanziierungsproze ein bezogen werden kommt eine Instanzkante an einen Punkt wo keine passende erfolgreiche Kante zu ihrer Fortsetzung zur Verf gung steht s unten so untersucht sie die noch nicht gef llten Rollen daraufhin ob eine von ihnen eine Fallschabloneninstanz als F ller erwartet Ist dies der Fall so wird angenommen das genau diese Instanz an der aktuellen Stelle beginnt Der Zerteiler versucht unter den Schwesterkanten eine zu finden die die erwartete Fallschablone oder eine damit laut Konzepthierarchie vertr gliche tr gt und setzt den Anfangspunkt einer Kopie davon auf die aktuelle Stelle Dies alles geschieht in versuche nebensatz anzustossen Nun wird die weitere Instanziierung der aktuellen Kante unterbrochen und als n chstes versucht diese neue Kante zu instanziieren Dabei kann sich gegebenenfalls dieser Proze wiederholen versuche nebensatz anzustossen for alle schwesterka
72. also im Nor malfall an ein bestimmtes Gegen ber gerichtet Dabei ergibt sich eine weitere Un terteilung D1258 in Ja Nein Fragen deren Beantwortung eine Einsch tzung von Wahrheit oder Falschheit ist Hier steht das Finitum an der ersten Stelle Betrachtest Du Deinen kleinen Zeh W Fragen deren Beantwortung die Information einer Art erfordert die durch das jeweilig in der Frage vorkommende Fragewort oder eine Frageformel bes timmt ist Diese Frageworte fangen zumeist mit W ant daher der Name Hier steht das Finitum an der zweiten Stelle Wer bist Du Welches Buch meinst Du Die W Fragen sind zu unterteilen in schwach gerichtete Fragen die keine Objektangabe enthalten Wer und stark gerichtete Fragen die das erfrage Objekt mittels einer Substantivphrase mit angeben Welches Buch Die Frageformel kann statt mit einem Fragewort auch mit einer Pr position beginnen In welche Stadt Auf wen 2 6 2 Nebensatze F r die Einteilung von Nebens tzen bieten sich drei verschiedene M glichkeiten an Zwei davon sind syntaktischer Natur n mlich die u ere Form der Nebens tze und die Position die sie im Satz einnehmen Das dritte ist von semantischer Natur n mlich die inhaltliche Beziehung zwischen dem Haupt und dem Nebensatz Die Unterscheidung aufgrund der Form D1192 orientiert sich vor allem an den Neben satzeinleitungen man unterscheidet Konjunktionals tze die durch eine Konjunktion eingeleitet werden Ich
73. ativ berein dient jedoch nicht einem Vergleich ist also nicht relativ sondern bezeichnet einen sehr hohen Grad Ein solcher kann auch ausgedr ckt werden durch Betonungsw rter wie sehr h chst u erst beraus ungemein etc in Verbindung mit einem Positiv e Ein zu hoher Grad im Sinnzusammenhang wird ausgedr ckt durch das Wort all zu mit einem Positiv oder mit dem Pr fix ber oder auch hyper Es war zu warm Einen gesteigerter Grad jedoch ohne Vergleich zeigt mehr als mit dem Positiv an Es war mehr als warm e Einen h chsten Grad im Sinnzusammenhang ohne Vergleich zeigt das Wort m glich an so gut wie m glich m glichst gut bestm glich e Ein zunehmender Grad also eine zeitliche Entwicklung kann durch immer mit dem Komparativ immer w rmer Positiv mit Komparativ warm und w rmer doppelten Komparativ w rmer und w rmer oder die Umschreibung mehr und mehr dargestellt werden e Einen eingeschr nkten Grad deuten Adverbien wie m ig an Es war m ig warm 2 1 4 Adverb Die Adverben z hlen zur Wortartgruppe der Partikeln Ein Adverb gibt einen Umstand an D582 613 z B Menge viel Zeit lange Ort oben oder Intensit t sehr kaum bzw Art und Weise ruhig eilends Es modifiziert ein Verb adverbiale Bestimmung ein Adjektiv ein Substantiv oder ein anderes Adverb Adver bialattribut Adverbien werden nicht gebeugt insbesondere k nnen alle Adjektive zumindest im Prinzip in ungebeug
74. ativ fuer ich bastele fuer das Geburtstagskind frage wem frage fuer wen fragedativ frageakkusativ fuer gt gt lt lt eigentuemer genitiv die Hosen meines Vaters sind dativ von die Hosen von meiner Mutter sind frage wessen fragegenitiv gt gt 72 Allgemeine Rollen lt lt thema affiziertes Objekt akkusativ ich sehe eine schoene Landschaft frage wen frage was frageakkusativ gt gt lt lt genitiv 0 amp 0 4 ALL aber was soll s genitiv frage wessen fragegenitiv gt gt lt lt definition nominativ Der Junge ist ein Flegel frage was frage von welcher Art Juan Rollen von Sachen lt lt attribut dativ mit Der Spinat mit dem Blub frage mit was frage mit wem frage womit fragedativ mit gt gt lt lt material dativ aus Diese Wand ist aus Beton frage aus was frage woraus fragedativ aus gt gt lt lt werkzeug genitiv mittels Ich gehe mittels meiner Fuesse dativ mittels du gehst mittels deinen Fuessen dativ mit sie geht mit ihren Fuessen akkusativ durch ich schaffe es durch meine guten Fuesse frage mit was frage womit frage durch was frage wodurch fragedativ mit frageakkusativ durch gt gt lt lt resultat effiziertes Objekt akkusativ ich backe 3 Torten frage was frageakkusativ gt gt 22
75. be keine Lust e Die Negationspartikel nicht nie und nimmer niemals nirgends nirgendwo nirgend woher nirgendwohin keinesfalls keineswegs D1150 k nnen ebenfalls allein eine syn taktische Stelle ausf llen Sie negieren dort die Gesamtheit aller Bestimmungen die sonst dort gestanden haben k nnten Ich saufe nie manchmal von 10 bis 12 und zwar nirgendwo zuhause unter dem Bett Es ist aber auch m glich da sie zu einem Glied hinzutreten Er s uft nie viel sie stehen dann davor und negieren genau dieses Glied das z B ein Satzadjektiv ein Pr positionalgef ge oder ein Satzpartikel sein kann e Alle diese Negationsw rter k nnen zus tzlich verst rkt werden durch die W rter gar berhaupt und absolut in der Jugendsprache auch echt oder zeitlich modifiziert durch noch oder mehr D1150 z B Ich freue mich echt absolut berhaupt gar nicht mehr 2 7 3 Zahlen und Zahlw rter Zahlen nehmen f r Computeranwendungen naturgem eine besonders wichtige Stellung ein Bei der Betrachtung der Zahlw rter kommt man zu der berraschenden Feststellung da der Wortschatz offenbar unendlich gro ist Selbst wenn man nur einen begrenzten Zahlbereich ben tigt empfiehlt es sich eine systematische Behandlung von Zahlen zu erm glichen da das Eintragen aller Zahlen ins W rterbuch unrealistisch ist Die Kardinalzahlen Grundzahlen z hlen zu den Adjektiven EI kleine Negerlein Sie werden allerdings nur schwach gebeugt
76. begriffe Verweise auf Wortst mme f r die Inkarnationen sowie einen Verweis auf eine Fallschablone in der dieses Konzept als Kopf auftaucht Das ergibt f r die Konzepthierarchie eine Verweisstruktur wie sie in der Abbildung 5 3 dargestellt ist Die transitive H lle der Ober und Unterkonzeptverweise wird dynamisch beim Ablaufen des Zerteilers berechnet Es gibt keine Leseprozedur f r die Konzepthierarchie da die Eintr ge direkt ber die Zeiger an den W rterbucheintr gen erreicht werden 5 2 4 Rollenverzeichnis N verwendet_bei hat_form hat or verwendet_bei N N y rollenform frageform Dicke Pfeile bedeuten mehrere Verweise Abbildung 5 4 Verweisstruktur des Rollenverzeichnisses Das Rollenverzeichnis enthalt drei Hashtabellen eine fiir die Rollen selbst eine fiir die grammatikalischen Erscheinungsformen von Rollen und eine fiir die Frageformen Dies ist notwendig um f r beliebige Strategien des Zerteilers ger stet zu sein es mu sowohl m glich sein dem Zerteiler solche Anfragen effizient zu beantworten die zu einer Rolle die Angabe aller m glichen Darstellungsformen verlangen als auch solche die eine Darstel lungsform angeben und als Resultat eine Liste aller dazu passenden Rollen w nschen 5 2 MODULARISIERUNG TOP DOWN 117 Beide Verfahren sollten auch bei den Frageformen m glich sein Zwischen den Objek ten der Datentypen rolle und rollenform sowie rolle und frageform existieren also jeweils Zeiger in
77. bei den Synonymen einzuschr nken Das hei t die Angabe der Wortart in der Syonymliste ist unn tig weil diese immer mit der Wortart des Konzepteintrags selbst bereinstimmt 6 Die Oberbegriffsliste stellt eine Liste von Konzepteintragsverweisen dar Dabei wird der Name jeweils direkt angegeben und die Wortart wird vom aktuellen Eintrag bernommen 7 Der Substantivquerverweis stellt einen Eintrag dar der nur bei Verben erlaubt ist Er enth lt den Namen eines Konzepts das als Substantivierung des Verbs aufgefa t werden kann Dieses wird benutzt um bei Fallschablonen die Substantivk pfe aus den Verbk pfen errechnen zu k nnen wo dies gew nscht wird 8 Verweise auf nicht existierende W rterbuch oder Konzepteintr ge sind erlaubt und f hren zu Vorauseintr gen 9 Es sind nicht f r alle Wortarten sinnvoll Eintr ge im Konzeptverzeichnis zu erstellen f r Pr positionen gibt es das Rollenverzeichnis Hilfs und Modalverben k nnen nur als Vollverben eingeordnet werden und Pronomen sind als solche nicht spezifisch einordnungsf hig und m ssen deshalb vom Zerteiler behandelt werden Zur Veranschaulichung siehe die Beispielwissensbasis Seite 144ff 4 6 Das Rollenverzeichnis 4 6 1 Grundgedanke Die Anzahl sinnvoll zu verwendender Rollen f r die deutsche Sprache insgesamt ist recht gro eine Auflistung der wichtigsten Rollen steht in Abschnitt 3 3 ab Seite 71 Dabei 88 KAPITEL 4 ARCHITEKTUR gibt es bei vielen Rollen
78. bgesetzt Dabei sind Hervorhebungen auf diese Weise angedeutet Formulierungen die aus einer Programmiersprache oder hnlichem stammen sind in Schreibmaschinenschrift gehalten Kapitel 1 Verarbeitung nat rlicher Sprache Im Anfang war das Wort und das Wort war bei Gott und letzterer identifizierte sich mit ersterem In diesem Kapitel soll allgemein auf das Gebiet der Verarbeitung nat rlicher Sprache eingegangen werden Es werden zun chst unterschiedliche Auffassungen der Aufgabe von Verarbeitung nat rlicher Sprache skizziert und die Definition dieser Aufgabe angegeben die der vor liegenden Arbeit zugrundeliegt Es folgt eine kurze Beschreibung der fundamentalen Prob leme und der bisher benutzten Ans tze diese zu l sen 1 1 Aufgabe Die Ansichten ber die Aufgabe der Verarbeitung nat rlicher Sprache sind in den damit befassten Gebieten der Wissenschaft n mlich der Informatik und der Computerlinguistik alles andere als einheitlich Eine m gliche Sichtweise liefert der Turing Test Ziel ist den Computer in seinen Di alogf higkeiten dahin zu bringen da ein Mensch ihn im Prinzip nicht mehr von einem menschlichen Kommunikationspartner unterscheiden kann Dies ist also ein dialog und resultatsorientierter Ansatz Eine hnliche Richtung verfolgt die Sichtweise der maschinellen bersetzung Ziel ist einen beliebigen Text aus einer nat rlichen Sprache in eine andere sinngem korrekt zu bersetzen Dies ist ei
79. buch und Kapitel 8 eine Auswertung der Arbeit Zu den Definitionen Die in dieser Arbeit enthaltenen Definitionen sind zumeist informal oder halbformal gehal ten In minder schweren F llen der Begriffserkl rung wurde keine vom Text abgesetzte Definition geschrieben um die Arbeit nicht v llig damit zu berladen in diesen F llen ist ein definierendes erkl rendes oder beschreibendes Auftreten eines Begriffes im Text in dieser Form gesetzt Insbesondere wurden formale Definitionen von Begriffen unterlassen wenn diese vermut lich allgemein bekannt sind oder wo ein geringf gig anderes Verst ndnis eines Begriffs kein Fehlverst ndnis im Ganzen nach sich zieht 13 14 Vorbemerkungen Zur Rolle der Linguistik Die Linguistik ist eine empirische Wissenschaft Linguistische Sprach forschung strebt kontrollierte und empirisch verifizierbare Beobachtungen an die sich an einer allgemeinen Sprachtheorie orientieren B nting71 Sie strebt jawohl und orientiert sich Zur allgemeinen Aufmunterung kursiert jedoch unter Linguisten immer noch der Spruch that the only secure generalization on language that linguists are prepared to make is that some members of some human communities have been observed to interact by means of vocal noises Fillmore68 und nur manche sind der Meinung da diese Ansicht berholt sei Kurz und klein die meisten Ergebnisse der Linguistik sind zu unpr zise oder zweifelhaft um Anla
80. ch den Formen der Poss esivpronomen mein dein sein D477 Dieser Typ stellt eine Mischform dar aus den informationsreichen Formen von Typ I und den informationsarmen von Typ II Dies erkl rt sich daher da die erw hnten Begleitworte unvollst ndige Beugungsinforma tion gegen ber dem Demonstrativpronomen dieser diese dieses aufweisen 2 2 3 1 Komparativ Der Komparativ wird im Normalfall durch Anh ngen von er an die Grundform gebildet D513 Bei manchen Adjektiven erfolgt zus tzlich eine Umlautung wobei auch un schl ssige F lle vorkommen Die Sprache tendiert heute aber zu den nicht umlauten den Formen Andere Adjektive werden unregelm ig gesteigert gut besser Endet das Adjektiv auf el er oder en so entf llt unter bestimmten Umst nden das e dieser Stam mendung e bei el immer dunkler statt dunkeler e bei er mit einem Diphtong Zweivokal vor der Endung auch immer teurer statt teuerer e bei er und en in gebeugten Formen wahlweise um ein drittes unbetontes e zu vermeiden der heit e rere e bei er und en in ungebeugten Formen selten heit e rer Der Komparativ wird wie ein normales Adjektiv gebeugt 2 2 3 2 Superlativ Der Superlativ entsteht aus der Grundform durch Anh ngen von st oder est D518 Welche der beiden Arten gew hlt wird h ngt von Auslaut und Silbenzahl der Grundform ab e Immer mit est stehen einsilbige und endbetonte Adjektive auf s sk B x z los haft e Vorwieg
81. ch trinke zwecks meiner Belustigung akkusativ fuer ich bete fuer mein Seelenheil nebensatz um tt zu nebensatz damit ich renne damit ich die Strassenbahn erreiche frage wieso frage weshalb frage warum frage wofuer frage wozu fragegenitiv wegen fragedativ wegen frageakkusativ fuer gt gt Anhang B Beispiel W issensbasis 144 Literatur Barr81 Bodsb89 Brooks75 Biinting71 Dreyfus86 Duden 4 Duden 5 Fairley85 Fillmore68 FinNeu86 G rz88 GooWai84 F ge eine Kleinigkeit zur anderen und das Ergebnis wird ein gro er Haufen sein Ovid Avron Barr Edward A Feigenbaum The Handbook of Artificial Intelli gence Volume 1 William Kaufman Inc Los Altos California 1981 Nils Bodsberg A Caseframe Parser for English Diplomarbeit Universitat Karlsruhe 1989 Frederick P Brooks Der Mythos des Mann Monats Addison Wesley Deutschland 1987 Karl Dieter B nting Einf hrung in die Linguistik 2 Auflage Athen um Verlag Frankfurt 1971 Hubert L and Stuart E Dreyfus Mind Over Machine Basil Blackwell Ltd Oxford 1986 Die Dudenredaktion Der Duden Band 4 Grammatik Bibliographis ches Institut Mannheim 1984 Die Dudenredaktion Der Duden Band 5 Fremdw rterbuch Bibli ographisches Institut Mannheim 1974 Richard E Fairley Software Engineering Concepts McGraw Hill 1985 Charles J Filmore The Case for Case in
82. cht nach geht es in unserer Gesellschaft und dort besonders im wis senschaftlichen Leben etwas zu ernst zu Ich versuche deshalb bei jeder sich bietenden Gelegenheit einen humorvollen Stil zu schreiben und glaube da darunter die inhaltliche Pr zision nicht notwendigerweise leidet Informatik Gurus wie Donald Knuth f hren es vor Nichts gegen die Linguistik oder die sie betreiben Gerade in dieser Hinsicht hat sie schlie lich viel mit der Informatik zumal der KI gemein Vorbemerkungen 15 In diesem Sinne ist auch die Namensgebung des hier vorgestellten Systems zu verstehen Es hei t SARA Das bedeutet nichts Bestimmtes insbesondere ist es keines der in der Informatik ach so beliebten Akronyme Der Name hat jedoch zwei Vorteile die f r mich ausschlaggebend waren ihn zu w hlen erstens gef llt er mir und zweitens l t er sich vern nftig aussprechen Zum Layout Dieses Dokument wurde mit ATX formatiert Kopka88 und auf einem Apple Laserwriter ausgedruckt Ich habe das Schwergewicht bei der Formatierung nicht darauf gelegt m glichst viele oder m glichst wenige Seiten zu f llen sondern versucht bestm gliche bersichtlichkeit zu erreichen jeder dem diese Diplomarbeit zu d nn oder zu dick ist m ge mir das nachsehen Zwei Zeichens tze werden au er demjenigen f r den laufenden Text systematisch verwen det So werden Beispiele aus der nat rlichen Sprache als hier ist ein Beispiel geschrieben oder manchmal so a
83. chverhaltsklasse was wie wo auch immer einer Sachverhaltsalternative ob oder oder eines einzelnen Sachverhalts auch wenn selbst wenn oder die Relevanz einer Sachverhaltsalternative je nachdem ob oder einer Sachverhaltsskala je nach dem wer wie wo 2 6 SATZ 61 e Finals tze beschreiben eine Motivation Zweck die kausal oder konditional dargestellt sein kann damit da auf da um zu oder eine Fignung Zweckm igkeit e Modals tze enthalten eine Handlungsausf hrung indem dadurch da so da eine Handlungsbegleitung wobei oder einen fehlenden Begleitumstand ohne zu mit Infinitiv oder ohne da e Konfrontationss tze beinhalten Gegen berstellungen und zwar gegens tzliche w hrend wogegen wohingegen ersetzende statt oder ausgrenzende au er da au er zu Infinitiv e Pr zisierungss lze erg nzen eine vorherige vollst ndige Aussage indem sie zus tzliche Information liefern und zwar einen Vorbehalt au er da nur da eine Eingrenzung was betrifft insofern daf r da oder eine Begleitung wobei Es d rfte klar sein da angesichts der Vielzahl von Formen und Bedeutungen eine vollst ndige Behandlung deutscher Nebensatzstrukturen so gut wie ausgeschlossen ist Denn erstens sind die Unterschiede zur Klassifizierung oft nur subtiler Art die u eren Formen fallen zu einem gro en Teil bereinander und zweitens ist auch nicht ersichtlich wie ein solches Analyseergeb
84. d da jede Fallunterscheidung im Innern der Implementation mindestens einmal jedes m gliche Ergebnis gehabt hat Insbesondere werden alle vorgesehenen Fehlerf lle getestet Die Entscheidungsabdeckung ist keinesfalls mit der Pfadabdeckung zu verwechseln bei der gefordert wird da jede m gliche Kombination von Ergebnissen bei allen Fallunterschei dungen einmal aufgetreten ist diese Pfadabdeckung ist im allgemeinen wegen der kombi natorischen Explosion nicht einmal f r einzelne Funktionen zu gew hrleisten geschweige denn f r ein ganzes Programm 6 5 Bottom up Test lt gt Top down Test Beim Top Down Testen wird fiir jede Operation aus untergeordneten Modulen die das zu testende Modul aufruft ein sogenannter Stummel geschrieben der die Leistungen dieser Operationen fiir die speziellen Testfalle simulieren kann Man beginnt beim Testen mit dem Hauptmodul und f gt als n chstes jeweils eines der unmittelbar untergeordneten Module anstatt seines Stummels hinzu Da beim Testen Ein Ausgabeoperationen von vitaler Bedeutung sind und diese zugleich meist sehr weit unten in der Modulhierarchie liegen wird Top Down Testen meist nicht in Reinkultur durchgef hrt Bottom Up Testen bedeutet mit den Modulen zu beginnen die keine anderen mehr aufrufen Man schreibt daf r einen Treiber der seinerseits die Operationen des zu testen den Moduls aufruft Es wird immer ein Modul hinzugef gt zu dem alle untergeordneten Module bereits getestet sind
85. d heute etwa 93 Aktiv 5 Vorgangspassiv und 2 Zustandspassiv verwendet D294 20 Etwa bei Gro e Intelligenz ist ihm gegeben Wer war es denn nun Gott Die Natur Oder vielleicht Mama und Papa Man braucht keine Stellung zu nehmen dem Passiv sei gedankt 2 7 BESONDERE THEMEN 63 2 6 7 W Frage Eine W Frage liegt vor wenn die erste Stelle im Satz von einem Frageglied besetzt ist Der Satz hat ansonsten die Form eines Aussagesatzes allerdings ist die Stellung der Satzteile eventuell anders als normal da das erfragte Glied vorn stehen mu Dabei besetzt das Frageglied den Platz genau einer Rolle Welche Rolle dies ist h ngt von dem Frageglied ab dieses kann sein e ein einzelnes Fragewort Wie Wo Wann Dies ist die klassische W Frage F r jedes solche Fragewort kommt nur eine kleine Zahl von Rollen in Frage e ein Fragepronomen mit einem Restsatzglied Welches Buch Dabei ersetzt das Fragepronomen quasi einen Artikel und das Restsatzglied ist ein Substantivglied dem lediglich dieser Artikel entfernt wurde e eine Frageformel zum Beispiel aus Pr position Fragewort und manchmal einem Substantiv oder Partikelanhang Von wo Von wo aus Auf welche Weise In wessen Sinn 2 6 8 Ja Nein Frage Eine Ja Nein Frage liegt vor wenn erstens das Pr dikat an der ersten Stelle im Satz steht und es zweitens keine Imperativform hat Die Form auf die eine Ja Nein Frage zur ckgef hrt wird ist die exakt passende Aussage die e
86. dann bearbeitet wird Bei der Bearbeitung k nnen neue aktive Kanten vorgeschlagen werden und die bearbeitete Kante kann mit einer anderen nicht aktiven verschmelzen wobei eine neue Kante entsteht die ihrerseits aktiv sein kann oder erfolgreich Bei Mehrdeutigkeiten k nnen auch mehrere aktive und erfolgreiche Kanten in einem Schritt entstehen Schlie lich besteht die M glichkeit da die Kante sich nicht wie geplant fortf hren l t Sie schl gt fehl Entsteht in diesem Proze eine Kante die die gesamte Eingabe berspannt und nicht mehr aktiv ist so ist die Zerteilung erfolgreich die besagte Kante beschreibt das Analyseergeb nis Die Bearbeitungsschleife endet sp testens sobald keine aktive Kante mehr vorhanden ist Sie kann auch vorzeitig abgebrochen werden wenn ein zufriedenstellendes Ergebnis vor liegt und keine weiteren Mehrdeutigkeiten ausgewertet werden sollen Ein Chart Parser eignet sich recht gut f r die Zerteilung mit Fallschablonen Die Rollen stellen auf nat rliche Weise Teilergebnisse mittlerer Komplexit t dar Die Teil ergebnisse h herer Komplexit t sind Instanzen von Fallschablonen f r den ganzen Satz oder f r Nebens tze und kleine Teilergebnisse werden von syntaktisch zusammengeh rigen Wort gruppen oder einzelnen Worten gebildet Mit dieser Aufteilung ist es m glich gleichzeitig syntaktisch und semantisch zu zerteilen Die Zusammenfassung von W rtern zu Wortgruppen ist eine weitgehend sy
87. der obigen Endungen wird eingef gt wenn dies zur Aussprache sinnvoll ist D193 195 Der Konjunktiv II f llt bei den regelm igen Verben in allen Formen mit dem Pr teritum zusammen Die Endungen der infiniten Formen lauten e n Infinitiv e nd 1 Partizip oder Partizip Pr sens und e t 2 Partizip oder Partizip Perfekt Die Endung des Imperativs ist e Singular oder e t Plural Tabelle 2 1 Die einteiligen Formen regelm iger Verben Es ergeben sich insgesamt 29 Formen f r die jedoch nur 13 verschiedene Endungen ver wendet werden D189 Das System wird dadurch mehrdeutig So l t sich zum Beispiel der Konjunktiv I nur in der dritten Person Einzahl garantiert vom Indikativ unterschei den Diese Mehrdeutigkeit wirkt sich jedoch nicht so stark aus wie man angesichts des Mi verh ltnisses in der Formenanzahl meinen sollte da zur Unterscheidung der Formen noch andere Merkmale benutzt werden k nnen allerdings verkompliziert dieses Verfahren eine automatische Analyse doch erheblich Eine andere Komplikation ergibt sich aus der Mischf rmigkeit des deutschen Beugungssys tems eine gro e Zahl von Formen ergibt sich nicht allein durch Beugung sondern durch Zusammensetzung einer gebeugten Form mit einem Hilfsverb Solche zusammengesetzten Formen haben Futur I und II Perfekt Plusquamperfekt die Infinitive au er im Pr sens und das Passiv Die Beschreibung dieser Formenbildung ist jedoch nicht mehr der Beugung zu
88. durch werden oft auch inkorrekte Eingaben akzeptiert das System wird robust Der Preis den man daf r zahlen mu ist der einer erh hten Zahl von Mehrdeutigkeiten Es werden f r mehrdeutige Eingaben noch mehr m gliche Bedeutungen aufgefunden es werden manche eindeutigen Eingaben mehrdeutig und es werden f r manche eigentlich abzuweisende Eingaben Interpretationen erfunden Einige dieser Deutungen sind nun falsch und man versucht die Trennung zwischen richtigen und falschen Interpretationen anhand der Ergebnisse vorzunehmen also aus dem syntak tischen Analyseproze hinaus und in die Auswertung der Resultate hineinzunehmen Dies l t sich zum Teil in den Zerteiler selbst vorverlagern indem man intern eine G tebew ertung der Teil L sungen einf hrt die beispielsweise besagt da eine korrekte L sung jeweils allen solchen L sungen vorzuziehen ist die die Toleranz ausgenutzt haben Tolerantes Zerteilen bedeutet also die Anwendung harten Wissens in syntaktischer Hin sicht teilweise aufzugeben zugunsten einer gro z gig akzeptierenden Haltung Nehmen wir mal an es war so gemeint um die Analyse robust zu machen Auf das Zeitverhalten ergeben sich zwei gegenl ufige Auswirkungen Einerseits spart das tolerante Zerteilen etwas Zeit indem es bestimmte Pr fungen nicht durchf hrt Ander erseits erfordern die sich dabei ergebenden zus tzlichen Mehrdeutigkeiten gegebenenfalls auch zus tzliche Verarbeitungsschritte
89. e Kongruenz erzielt werden mu jedoch nicht D1173 Kongruenz im Fall liegt stets vor beim Gleichsetzungsnominativ Bei Pr positionalkon struktionen ist der Fall von der Pr position abh ngig D1175 Der Kongruenzbegriff ist dann so zu verstehen da dieser angepeilte Fall auch tats chlich auftritt Hier werden der Gleichsetzungsnominativ und entsprechende Konstruktionen mit Pr position behan delt nicht jedoch der Gleichsetzungsakkusativ Da dieser nur mit den altert mlichen Formulierungen jemanden nennen hei en schelten schimpfen schm hen vorkommt hat er hier wenig Bedeutung 2 4 PR DIKAT 49 2 3 4 Substantivisches Attribut Apposition Appositionen kongruieren grunds tzlich in Geschlecht Zahl und Fall D1179 Dabei liegen f r Geschlecht und Zahl die selben Verh ltnisse vor wie bei den Gleichsetzungskon struktionen Demgegen ber gibt es f r den Fall eine allgemeine Kongruenz die jedoch in folgenden Situationen verletzt wird D1180 1182 e Fine Apposition ohne Artikel die einem attributiven Genitiv folgt steht fast immer im Nominativ Der Kamm jenes Hahns Beh ter des Misthaufens war Die Ausnahme entf llt sobald ein Artikel verwendet wird oder die Konstruktion bei fehlender Kongruenz mehrdeutig wird Beinhaltet die Apposition eine Zusammenfassung die mit alle oder jede eingeleitet wird so kann sie im Nominativ stehen Man betrachtet dann die Apposition als El lipse eines Gleichsetzungssatzes Die
90. e pronominalphrase k else lese nominalphrase k end return Als n chstes mu im Falle eines zweiten Besuches bei einer nominalen Kante versucht werden ggf einen Relativsatz zu instanziieren elsif ist zweiter besuch bei dieser kante und k ist nominale instanziierung versuche relativsatz anzustossen if habe was angestossen return end end Hier nun der normale Fall Die Kante soll noch fortgesetzt werden wenn das Eingabeende oder das vorberechnete Ende noch nicht erreicht ist Es wird dann jede Kante die am augenblicklichen Endpunkt der Instanziierung beginnt also als Fortsetzung in Frage kommt untersucht Jede dieser Kanten die von ihrem Inhalt her angef gt werden kann wird an eine eigens daf r erstellte Kopie der aktuellen Kante angef gt Durch dieses Kopieren wird die Mehrdeutigkeit technisch gehandhabt das Original der Kante wird am Ende vernichtet Folgende Unterscheidungen werden gemacht if will noch verlaengern for alle kanten f am endknoten von k do if f ist erfolgreich und vom typ fallschablonenkante fuelle fallschablone f in k ein elsif f ist wortkante fuer verb fuege praedikatsteil p in k ein elsif f ist vom typ unbekannt 102 KAPITEL 4 ARCHITEKTUR fuege unbekannte kante u in k ein elsif f ist erfolgreich und vom typ fragekante fuelle fragekante f in k ein else sonstige Wort u Konzeptkanten erfolglose K etc ignoriere die kante end end end Es folgt
91. ehe jedoch bei wollen partizip moegend gemocht imperativ O muessen modalverb praesens muss musst muss muessen muesst muessen praeteritum musste musstest musste mussten musstet mussten konjunktiv_I muesse muessest muesse muessen muesset muessen konjunktiv_II muesste muesstest muesste muessten muesstet muessten partizip muessend gemusst imperativ sollen modalverb praesens soll sollst soll sollen sollt sollen praeteritum sollte solltest sollte sollten solltet sollten konjunktiv_I solle sollest solle sollen sollet sollen konjunktiv_II sollte solltest sollte sollten solltet sollten artizip sollend gesollt imperativ O wollen modalverb Die KonjunktivII Formen von moegen werden auch als Praesensformen von wollen benutzt praesens will moechte willst moechtest will moechte wollen moechten wollt moechtet wollen moechten praeteritum wollte wolltest wollte wollten wolltet wollten konjunktiv_I wolle wollest wolle wollen wollet wollen konjunktiv_II wollte wolltest wollte wollten wolltet wollten partizip wollend gewollt imperativ O 7D aR E EE E Artikel EEEEEEEEEE EEEE EEE EEE EEEE EEEE EEEE EEEE EE E E gemaess Duden 352 bestimmter_artikel artikel maennlich der des dem den weiblich die der der die saechlich das des dem das plural die der den die gemaess Duden
92. eichwertiger Satzkonstruktionen f r dieselbe Aussage Hier findet sich ein weiterer Grund f r die strenge Bereichsbeschr nkung bei existierenden Systemen Ein anderer Aspekt der M chtigkeit von Sprache ist die Tatsache da es m glich ist Unerh rtes zu sagen Es ist prinzipiell ausgeschlossen auf der Ebene der Semantik oder gar der Pragmatik alles vorauszusehen was auftreten kann Selbst auf syntaktischer Ebene sind fast beliebige neue Konstruktionen f r einen Menschen noch verst ndlich Das hei t das vollst ndige Verstehen sprachlicher u erungen kann nicht simuliert werden sondern ist nur auf dem Weg ber ein komplettes Weltwissen zu erreichen Allerdings ist dies ein Punkt der bei den meisten Anwendungen berhaupt nicht zum Tragen kommt 1 2 4 Subjektivit t und Kontext Als letztes gro es Hindernis f r die erfolgreiche Verarbeitung nat rlicher Sprache ist die Tatsache zu erw hnen da man u erungen normalerweise nicht isoliert analysieren kann sie m ssen einerseits eingebettet in eine Kommunikationssituation Dialogkontext und andererseits im Lichte zus tzlichen sicheren oder vermuteten Wissens ber den Kommu nikationspartner betrachtet werden So kann also dieselbe u erung von derselben Person in zwei verschiedenen Situatio nen oder Gespr chen zwei verschiedene Bedeutungen haben und ebenso kann dieselbe u erung in derselben Situation verschiedene Bedeutungen haben je nachdem von wem sie kommt
93. ein Pr dikat im Passiv ein Subjekt im Dativ mit von oder im Akkusativ mit durch Diese Kongruenz erm glicht die Ermittlung des Subjekts das normalerweise d h im Aktiv die wichtigste Rolle n mlich die des Agenten besetzt Allerdings gibt es eine Reihe von Ausnahmen oder Spezialf llen 2 3 1 1 Nichtkongruenz der Person Ein Subjekt kann aus mehreren Teilen bestehen die durchaus nicht dieselbe Person haben m ssen diese Subjektteile sind dann meist mit Konjunktionen verbunden in der Regel mit und In solchen F llen steht das Pr dikat normalerweise im Plural D1160 1161 und zwar in der kleinsten Person die im Subjekt vorkommt d h m glichst in der ersten alsdann in der zweiten und nur wenn alle Subjektteile in der dritten Person sind in der dritten Dabei ist es gleichg ltig ob ein Subjektteil in der Einzahl oder der Mehrzahl steht Ich und du wir gehen schwimmen Ihr und er ihr geht schwimmen 2 3 KONGRUENZ 47 Von dieser Regel wird manchmal abgewichen indem eine der anderen in den Subjektteilen vorkommenden Personen gew hlt wird Du und dein Kaugummi gehen statt geht ins Kino Bei Passivs tzen die kein Subjekt haben steht das Pr dikat in der dritten Person Einzahl D1163 Man denkt sich quasi ein k nstliches unbestimmtes Subjekt es 2 3 1 2 Nichtkongruenz der Zahl F r die Sonderf lle bei der Zahl Kongruenz gibt es drei unterschiedliche Ausgangssitua tionen 1 das Subjekt steht im
94. eine ganze Anzahl von m glichen Pr positionen so da insge samt einige Rollen eine genau gleiche Form aufweisen hnliches gilt f r die Wortkom binationen mit denen eine Rolle erfragt werden kann Angesichts der Gr e der Daten menge sollte man die Darstellung der Rollen nicht fest in den Zerteiler einkodieren son dern als Datenstruktur realisieren Macht man diese Datenstruktur extern das hei t zur Laufzeit frei ver nderbar so schafft man damit ein zus tzliches Mittel um in bestimmten F llen durch st rkere Einschr nkung des Sprachbereichs Mehrdeutigkeiten zu vermeiden oder andersherum die Robustheit der Analyse durch Verringerung der syntaktischen Ein schr nkungen zu vergr ern Au erdem k nnen so die Rollennamen bei Bedarf an die Terminologie der Anwendung angepasst werden 4 6 2 Voriiberlegungen und Entwurfsentscheidungen Manche Rollen erlauben einige ihrer Erscheinungsformen nur wenn sie in einem Satz verwendet werden und andere nur bei der Verwendung mit einer Nominalphrase Deshalb mu es bei der Angabe der Rollenformen m glich sein die Verwendung entsprechend einzuschr nken Andererseits ist diese Unterscheidung auch oftmals irrelevant Deshalb gibt es in einem Rolleneintrag drei Listen von Rollenformen eine mit Rollenformen nur f r S tze d h f r verbale Fallschablonen eine mit Rollenformen nur f r Nominalphrasen d h f r nominale Fallschablonen und eine mit Rollenformen die in beiden Situationen zu
95. einzig die seltene Genitivform weicht vom Nom inativ ab Dies ist die Geschichte zw lfer kleiner Negerlein Diese Tatsache macht es nicht allzu unangenehm die Eingabe von Zahlw rtern in Ziffern zu verlangen Dies erm glicht eine einfache algorithmische Behandlung und wird vom Endbenutzer gut akzeptiert wer den da eine Eingabe in Buchstaben ohnehin aufwendiger w re Um die wichtigsten Aus nahmef lle abzudecken sollten die Zahlw rter eins bis zw lf ins W rterbuch aufgenommen werden Die genaue Behandlung der Beugung ist dabei allerdings kompliziert D457 459 Die Deutung von Kardinalzahlen kann tats chlich in der Regel als Adjektiv bei einem Substantiv oder als Satzadjektiv oder Adverb erfolgen Das Ergebnis lautet 11 Eine besonders wichtige Anwendung von Kardinalzahlen ist die Angabe von Zeit D461 462 4Na wenn das kein gl nzendes Beispiel f r den logischen Aufbau der Sprache ist 66 KAPITEL 2 DEUTSCH Die Ordinalzahlen Ordnungszahlen D464 haben einen sehr ausgepr gt adjektivischen Charakter so da ihre Behandlung als Adjektive keine Schwierigkeiten aufwirft sie k nnen auch genau wie die Adjektive substantiviert werden Etwas erschwert ist hier allerdings die Eingabe mit Ziffern da Ordinalzahlen dann mit einem Abschlu punkt gekennzeichnet wer den der nicht mit dem Satzendepunkt verwechselt werden darf Analog zur Lage bei den Kardinalzahlen sollte man auch hier erster bis zw lfter extra ins W rterbuch aufne
96. eit gegen ber grammatikalisch falschen aber sinnvollen Eingaben 1 3 6 Unifikationssysteme Ein in der letzten Zeit in der Linguistik immer st rker diskutierter Ansatz ist der der Unifikationsgrammatiken Ein Vertreter dieser Richtung ist beispielsweise die lexikalisch funktionale Grammatik Unifikation hei t die R ckf hrung aller vorkommenden Terme auf gewisse Grundformen bei gleichzeitiger Ansammlung von Information und Weiterverarbeitung nur auf Basis dieser Grundformen Die Unifikation hat Eigenschaften wie Idempotenz und Monotonie die sie einer algebraischen Beschreibung zug nglich machen Unifikations basierte Systeme k nnen wenn der Proze nicht zu eng an der Oberflachen form orientiert ist robust sein und weisen zumindest prinzipiell die F higkeit zur erweit erbaren inkrementellen Analyse auf Ein solches System ist GuLP G rz88 Dabei handelt es sich um ein Meta System das auf einer Chart Analyse als Rahmen des Zerteilungsverfahrens basiert und durch Param eter nderungen die unterschiedlichsten konkreten Zerteilungsverfahren verwenden kann Es ist zur Erkennung gesprochener Sprache konzipiert 1 3 7 Fallschablonen Der Ausdruck Fallschablonen case frames stammt von Fillmore68 Der Grundgedanke dabei ist den aus der Grammatik bekannten syntaktischen Begriff des Falles Kasus auf semantisch relevante syntaktische Beziehungen auszudehnen Fill more spricht dabei von Oberflachen und Tiefenkasus
97. elenkt werden soll Standardwert ist stdout also der Bildschirm Falls diese Datei schon existiert mu ein Schreibrecht darauf bestehen falls sie nicht existiert mu es m glich sein sie zu er ffnen Ist beides nicht der Fall so wird statt dessen stdout verwendet Die mit diesem Kommando definierte Standardausgabe wird normalerweise bei allen Aus gaben au er dem Kommandodialog selbst verwendet sie kann jedoch bei den einzelnen Kommandos nochmals tempor r ge ndert werden siehe la An diese Datei wird immer angeh ngt nicht berschrieben la Frage nach Ausgabedateinamen ein aus Bei den Kommandos 4 h lil k DI Ir und wird normalerweise nach einer Datei gefragt in die die Ausgaben des Kom mandos anstatt zur Standardausgabe die ihrerseits umgelenkt sein kann gehen sollen Diese Frage kann mit a ab und auch wieder angeschaltet werden Bei dieser Zweitum lenkung wird im Gegensatz zur einfachen Umlenkung die betroffene Datei jedesmal neu begonnen also nicht angeh ngt e Standardeingabe umlenken SARA erfragt den Namen einer Datei Standardwert stdin also die Tastatur aus der ab sofort alle Kommandoeingaben entnommen werden Dies wird normalerweise beibehalten bis die Datei vollst ndig gelesen ist Taucht in der Datei das Kommando auf wird SARA ordnungsgem verlassen Bei e wird die dort angegebene Datei als Eingabe zwischengeschoben und nach ihrem Ende an der augenblick lichen Position weitergelesen die E
98. en D130 167 einschlie lich der konkurierenden Konstruktion des modalen Infinitivs ist zu kom plex um hier beschrieben zu werden siehe aber Abschnitt 2 4 Sowohl die Hilf als auch die Modalverben k nnen an der Stelle eines Vollverbs als solches gebraucht werden Diese Dreiteilung beschreibt eine unterschiedliche Handhabung der Worteim Analyseproze Vollverben treten als zentrales Element einer Fallschablone auch nach au en hin in Erscheinung Hilfsverben werden vollst ndig im Innern der Analyse abge handelt und wirken sich im Ergebnis nur auf die Modalangaben Zeit Genus verbi Modus aus und Modalverben schlie lich werden im Analyseresultat getrennt als der Fallschablone zugeh rig angegeben und bewirken somit eine F rbung der Aussage F r die semantische Gestaltung ist zum einen die Sinnunterteilung der Vollverben wie oben angegeben und zum zweiten der Begriff der Verbklassen hilfreich jedes Vollverb geh rt einer oder mehreren der folgenden Verbklassen an wodurch sein semantischer Gehalt und damit seine Verwendungm glichkeiten eingeengt werden 2 1 WORTARTEN 31 e absolute Verben sind solche die ganz ohne Objekte stehen k nnen manchmal im Grunde sogar ohne Subjekt das dann nur aus grammatikalischen Gr nden in einer Pseudoform erg nzt wird Es regnet e Alle Verben die dem Sinne nach Erg nzungen brauchen hei en relative Verben e Ein Verb hei t transitiv zielend D167 wenn es im aktiven Satz ein Akk
99. en Begren zern Beispiele Dies ist ein richtiger String Dies ist ein richtiger String zahl Eine zahl beginnt mit einem optionalen Querstrich Minuszeichen gefolgt von einer Folge der Ziffern 0 bis 9 die als eine dezimale Ganzzahl interpretiert werden Ein Dezi malkomma oder Dezimalpunkt ist nicht erlaubt Die Gestalt der Textdatei die die Wissensbasis enth lt gen gt folgender Grammatik wissensbasis wissensbasis wissensbasiseintrag wissensbasiseintrag 78 KAPITEL 4 ARCHITEKTUR worterbucheintrag konzepteintrag rolleneintrag fallschablone include string Die Form von w rterbucheintrag konzepteintrag rolleneintrag und fallschablone ist in den folgenden Abschnitten definiert und erkl rt Der string bei einem include Eintrag gibt eine Datei an Die Bedeutung eines solchen Eintrags ist da die Verarbeitung der Wissensbasis am Anfang der angegebenen Datei fortgesetzt wird und nach deren Ende an die Stelle nach dem Eintrag zur ckkehrt Diese Anweisung darf auch verschachtelt vorkommen In den Eintr gen werden noch folgende Objekte verwendet wortliste E D C wortlisteninnern 1 wortlisteninnern wortfolge wortfolge wortlisteninnern wortfolge E D wort 9 TU wortfolgeninnern wortfolgeninnern wort H wort wortfolgeninnern TTT wortfolgeninnern Dabei d rfen die Kommata wahlweise auch weggelassen werden Der Querstr
100. en Modalverben kann weder ein Imperativ noch ein Passiv gebildet werden was natiirlich manche Leute durchaus nicht daran hindert das dennoch zu tun zum Beispiel im Amtsdeutsch Diese Formen sollen jedoch hier nicht betrachtet werden 2 4 3 modifizierende Verben Semantisch hnlich sind Pr dikate mit modifizierendem Verb z B Er pflegte nachzugeben Es ist nur das Aktiv m glich die Formen werden gebildet als w re das modifizierende Verb im Beispiel pflegen alleiniges Verb und das Pr dikat wird mit einem Infinitiv mit zu erg nzt Dieser Infinitiv mit zu steht bei ansonsten einteiligen Pr dikaten am Satzende ansonsten vor dem infiniten Teil bzw vor dem abgetrennten Pr fix Modifizierende Verben k nnen beispielsweise sein pflegen scheinen verm gen erm chtigen etc Das Wort brauchen nimmt eine Zwitterstellung ein es wird sowohl als modifizierendes als auch als Modalverb gebraucht 2 5 Satzteile Hier nun die wichtigsten Satzteile zur Konstruktion deutscher S tze D1031 1051 Kennzeichnende Eigenschaft von Satzgliedern ist es sich nur geschlossen verschieben zu lassen Grunds tzlich ist festzustellen da sich die einzelnen Satzglieder nicht in allen F llen voneinander unterscheiden lassen Bei der Betrachtung ergibt sich eine Einteilung in vier Klassen n mlich das Subjekt das den Ansatzpunkt des Geschehens bezeichnet die Objekte welche die Zielpunkte angeben die adverbial gebrauchten Satzteile die die Umst nde best
101. end mit est stehen einsilbige und endbetonte Adjektive auf d t sch e Vorwiegend mit st stehen Adjektive die mit Diphtong oder mit Vokal plus h enden 46 KAPITEL 2 DEUTSCH e Die restlichen vor allem die mehrsilbigen nicht endbetonten Adjektive stehen mit st Ferner werden die im Komparativ umlautenden Adjektive auch im Superlativ mit Umlaut gesteigert und die Adjektive mit unregelm igem Komparativ haben auch unregelm igen Superlativ 2 2 4 Sonstige Konjunktionen Pr positionen und Adverbien werden nicht gebeugt 2 3 Kongruenz Ein Hauptwerkzeug zur Analyse deutscher S tze liefert das Ph nomen der Kongruenz So bezeichnet man eine formale Abstimmung in den Beugungsparametern innerhalb bes timmter Wortgruppen oder zwischen mehreren Wortgruppen D1158 Die Kongruenz besteht darin da im Regelfall bestimmte Beugungsparameter bereinstimmen m ssen damit eine vermutete syntaktische Beziehung erf llt sein kann leider kann die Kongruenz in vielen F llen durchbrochen werden dann f llt dieses Instrument zur Analyse weg und die Verarbeitung mu auf Basis von Wortstellungsannahmen oder semantischen Ein schr nkungen erfolgen 2 3 1 Subjekt Pr dikat Die wesentliche Kongruenz im deutschen Satz ist diejenige zwischen dem Subjekt das an vielen Stellen stehen kann und dem Pr dikat Subjekt und Pr dikat m ssen in Person und Zahl bereinstimmen Ferner bedingt ein Pr dikat im Aktiv ein Subjekt im Nominativ und
102. ensichtlich auf dem Wort berholen Es wird n mlich einmal im Sinne von pflegen reparieren benutzt und einmal als vorbeifahren Die Auswirkun gen sind jedoch noch gr er und reichen sogar r ckw rts Denn durch die Sinn nderung beim zweiten Satz ndert sich auch der Sinn des Wortes f hrt von einer allgemeinen Aussage die eine F higkeit oder Gewohnheit angibt in eine augenblickliche T tigkeit das Wort n mlich ndert seine Bedeutung von einer Begr ndung der Notwendigkeit zu einer Begr ndung der M glichkeit im ersten Beispiel steht das Motorrad eventuell immer noch in der Garage im zweiten jedoch nicht Dieses Beispiel gibt einen ungef hren Blick darauf wieviel Wissen n tig ist um selbst so einfache S tze korrekt verstehen zu k nnen und wie stark die Wechselwirkungen zwischen Aussagen sind Es sollen nun die wichtigsten Kategorien solcher Mehrdeutigkeiten zusammengestellt wer den um einen ungef hren berblick dar ber zu schaffen mit welchen Einzelph nomenen man sich herumzuschlagen hat 1 2 2 1 Syntaktische Mehrdeutigkeit Eine syntaktische Mehrdeutigkeit wird meist von fehlenden Beugungsformen verursacht Die fehlende Information macht es m glich den Bezug eines Wortes oder einer Wortgruppe verschieden auszulegen Sie tritt aufin den Auspr gungen von Rollenmehrdeutigkeit oder Verweismehrdeutigkeit Eine Falle witterte das M dchen Wer wittert hier wen Die Rolle von Subjek
103. ensystem w re wenig leistungsf hig wenn man zu jeder Rolle genau das Wort angeben m te das sie f llen soll Es ist vielmehr n tig an jeder Stelle statt nur eines Wortes einen beliebigen Vertreter einer bestimmten Wortmenge der Synonymmenge dieses Wortes zuzulassen Anstatt nun diese Synonymmenge jedesmal in der Fallschablone anzugeben kann man das W rterbuch um Synonymlisten bei jedem Wort erweitern das so entstehende Synonymverzeichnis nennt man einen Thesaurus Auf diese Weise braucht man die Synonyme eines Wortes nur einmal anzugeben und sie werden dennoch stets ber cksichtigt Die Synonyme sind quasi die Inkarnationen eines Konzepts Nun m chte man nat rlich bei den Fallschablonen nicht nur synonyme Begriffe automa tisch behandeln sondern m glichst alles was an der jeweiligen Stelle sinnvoll sein kann Es sollten also in den Fallschablonen nicht syntaktische Kategorien sondern semantis che Kategorien Konzepte eingetragen sein Eine solche semantische Kategorie bilden im Allgemeinen zu einem gegebenen Wort die Synonyme zuz glich aller Unterbegriffe zuz glich aller Oberbegriffe Man erg nzt also den Thesaurus auch noch bei jedem Ein trag um Verweise auf die Ober und Unterbegriffe Eine solche Struktur stellt eine Hierar chie von sinnverwandten Wortklassen dar sie ordnet semantische Konzepte Aus diesem Grund hei t diese Struktur Konzepthierarchie 4 5 2 Voriiberlegungen und Entwurfsentscheidungen Bei der Bildung d
104. entweder beginnend mit den elementarsten Operationen bottom up oder mit dem Hauptprogramm top down F r jedes Programm ernstzunehmender Gr e ist das Big Bang Testen praktisch nicht mit Erfolg durchf hrbar Es wird deshalb bei SARA inkrementell getestet 6 4 Blackbox Test gt Whitebox Test Blackbox Testen bedeutet Testf lle anhand der Spezifikation zu entwerfen ohne Kenntnis der inneren Struktur der Implementation Whitebox Testen verwendet demgegen ber Wissen ber die konkrete Implementation bei der Definition der Testf lle Dort kann auch Wissen ber die erwartete Reaktion in solchen Punkten verwendet werden die von der Spezifikation nicht festgelegt sind wo also Freiheitsgrade existieren um zu pr fen ob die Operation nicht nur korrekte Resul tate liefert sondern auch wirklich intern in der vorgesehenen Weise arbeitet Obwohl sich das Whitebox Testen als eine Erweiterung des Blackbox Testens verstehen lie e sieht man beide als disjunkt an beim Whitebox Test wird die Spezifikation zwar beachtet jedoch nicht zur Definition von Testf llen genauer ausgewertet 122 KAPITEL 6 TEST Ich habe im Allgemeinen ein gemischtes Verfahren verwendet wobei vom Blackbox Testen haupts chlich die Einteilung der Parameter in quivalenzklassen herangezogen wird und vom Whitebox Testen die Eintscheidungsabdeckung d h es wird gefordert da aus jeder Klasse von qualitativ unterschiedlichen Eingabedaten ein Beispiel getestet wird un
105. er nderter Fallschablonenmenge Gerade die letztere Eigenschaft ist es die Fallschablonensysteme f r die Verarbeitung nat rlicher Sprache so interessant macht Durch geeignete Wahl von Fallschablonen kann das System auf einem bestimmten engumgrenzten Gebiet sprach licher u erungen eine recht gro e Sprachkompetenz haben und diese Wahl von Fallsch ablonen kann da sie mit dem eigentlichen Programm nicht fest verbunden ist leicht ver ndert werden Das macht Fallschablonensysteme recht anwendungsfreundlich 3 2 Tolerante Zerteilung Dem Konzept der toleranten Zerteilung relaxed parsing liegt folgende Haltung zugrunde Zerteiler hei t auf englisch parser was aus dem Lateinischen stammt pars orationis bedeutet Teil der Rede oder auch Teil der Sprache relaxed engl entspannt freundlich locker mild 70 KAPITEL 3 ANALYSE MIT FALLSCHABLONEN F r ein tats chlich brauchbares System zur Verarbeitung nat rlicher Sprache kommt es darauf an auch solche Eingaben noch vern nftig analysieren zu k nnen die nicht exakt den Grunds tzen der Sprachgrammatik entsprechen oder in der Systemgrammatik nicht vorgesehen sind Dies l t sich zum Teil dadurch erreichen da man die Genauigkeit der Analyse etwas schleifen l t das hei t einige Tests die m glich w ren nicht oder nicht vollst ndig durchf hrt Im Falle von Deutsch bezieht sich das zum Beispiel auf die berpr fung der verschiedenen Kongruenzen Da
106. er Synonymliste m chte man nicht gern jede einzelne Wortform hin schreiben die als Inkarnation des Konzepts zul ssig ist Zudem mu ja ohnehin eine Verbindung zwischen W rterbuch und Konzepthierarchie hergestellt werden Aus diesem meistens je nach Fall 86 KAPITEL 4 ARCHITEKTUR Grund werden in der Synonymliste Wortnamen angegeben Es sind dann jeweils alle Wortformen erlaubt die im W rterbuch mit diesem Wortnamen eingetragen sind Zur Bildung der Ober Unterbegriffshierarchie werden nur die direkten Oberbegriffe eines jeden Konzeptes angegeben Die Unterkonzepte werden aus diesen Verweisen berechnet Man k nnte es nat rlich auch genau andersherum machen ich gehe jedoch davon aus da die Menge der Oberkonzepte kleiner und einfacher geistig zu erfassen ist als die Menge der Unterkonzepte 4 5 3 Aufbau Ein Eintrag in der Konzepthierarchie enth lt den Namen des Konzeptes eine Wor tartangabe eine Definition eine Synonym und eine Oberbegriffsliste sowie bei Ver bkonzepten eventuell einen Querverweis auf ein semantisch korrespondierendes Substan tivkonzept Die Unterbegriffe werden aus der Gesamtheit der Eintr ge rechnerisch abgeleitet Hier also die BNF Grammatik f r die Konzepthierarchieeintr ge konzepteintrag lt konzeptname wortart definition synonymliste oberbegriffsliste substantivquerverweis gt konzeptname wort wortart verb substantiv adjektiv praeposition kon
107. er gro en Menge von Zusatzwissen m glich etwa dem Wissen um die Tatsache da es eben nicht zum blichen Verhal tensrepertoire von Fallen geh rt zu tappen In der ungeheuren Gr e dieser Anforderung nach Umfang und Komplexit t liegt der Hauptgrund daf r da man sich bisher bei Sys temen zur Verarbeitung nat rlicher Sprache stets auf sehr sehr kleine Objektbereiche beschr nkt Es ist bisher berhaupt nicht klar wie gro die Menge des Wissens in bit ist das man zum Erreichen eines allgemeinen Verst ndnisses ben tigt und wie man dieses Wissen in einem Digitalrechner darstellen kann In den heutigen Systemen mogelt man sich im Allgemeinen um die L sung des Problems dadurch herum da man versucht alle M glichkeiten zu solcher Mehrdeutigkeit vorherzusehen und im vorhinein aufzul sen beispielsweise indem man Bedeutungen von Worten oder Wortkombinationen unterschiedlich gewichtet 1 2 2 3 Pragmatische Mehrdeutigkeit Die letzte Quelle von Mehrdeutigkeit r hrt von der Tatsache her da der Zweck einer u erung eigentlich nur im Falle von Anweisungen stets klar ist man m chte da die Anweisung ausgef hrt wird Im Falle von Aussagen oder Fragen ist aber unterschiedliche Auslegung m glich Wissen Sie wie sp t es ist Will dieser Mensch nun wirklich nur wissen ob ich es wei Oder m chte er oder sie nicht vielmehr mein Wissen auch gleich anzapfen und w nscht sich da ich die Zeit sage statt zu proklamieren d
108. erativ W Frage J N Frage Nebensatz Relativsatz konjunktion Konjunktion wort E modalverb modal wort E praefix verbpraefix wort E nominalinfo praeposition vorspannworte kernsubstantiv praeposition gt wort e vorspannworte vorspannworte wortinfo e kernsubstantiv wortinfo offene_rollen C 7 zahl_ungefuellter_rollen HI rollen rollen P rolle rolle rolle laenge_und_guete rollenname fueller w frage laenge_und_guete rollenname fragewortliste W frage laenge_und_guete rollenname fueller fragewortliste unbekannt laenge_und_guete wort rollenname wort fueller instanziierung fragewortliste fragewortliste wortform wortform wortform laenge_und_guete wortinfo wortinfo unbekannte Satzart 111 112 KAPITEL 4 ARCHITEKTUR TI geschlechtsangabe fallangabe komparationsangabe numerusangabe personenangabe zeitenliste wortart wort TI laenge_und_guete L zahl G zahl rollenname wort wortform wort zahl_ungefuellter_rollen zahl fallangabe z B Fn f r Nominativ Fgda f r Genitiv Dativ oder Akkusativ oder geschlechtsangabe z B Gms f r m nnlich oder s chlich Gw f r weiblich oder komparationsangabe z B Kp f r Positiv Kk f r Komparativ Ks f r Superlativ oder
109. erben oder die beim Vererben einen Kreis bilden Die meisten dieser Fehler sind nur Hinweise auf harmlose Ungereimtheiten in der Wissens basis die dazu f hren k nnen da der Zerteiler bestimmte Eingaben nicht verarbeiten kann Die Fehler die in der Konzepthierarchie oder bei den Fallschablonen jedoch kre isf rmige Relationen bewirken f hren dazu da der Zerteiler in eine Endlosschleife geraten kann wenn er diese Kreise bei seiner Analyse ber hrt a Quit SARA wird beendet Zeige W rterbuch Analog zu t Im W rterbuch haben allerdings gelegentlich mehrere Eintr ge denselben Namen diese werden dann alle angezeigt 7 3 AUSGABE DES CHART 129 7 3 Ausgabe des Chart Wenn sowohl die Anzeige der Kommentarfelder als auch die Anzeige der Instanziierun gen ausgeschaltet sind so wird stattdessen das Chart selbst in seiner internen Form aus gegeben Diese Ausgabe kann zum genaueren Verstandnis der Reaktionen oder Nichtreak tionen des Zerteilers herangezogen werden Diese Ausgabe kann bei eingeschalteter Kommentar und oder Instanziierungsausgabe auch zus tzlich angefordert werden indem man als erstes Zeichen des Eingabesatzes ein Doppelkreuz eingibt Dieses wird vom Zerteiler bei der Analyse ignoriert Treffen beide Bedingungen aufeinander d h weder Kommentar noch Instanziierungsaus gabe ist eingeschaltet undein Doppelkreuz erscheint am Beginn der Eingabe dann wird die Ausgabe des Chart wieder unterdr ckt Es erfo
110. erbien enthalten Solche Ad verbien dienen zum Beispiel der Gradabschattung des Adjektivs Das Problem daran ist da Adverbien nicht gebeugt werden und dadurch die kongruente Gruppe nicht mehr zusammenh ngend erscheint Ansonsten tritt hier der beraus angenehme Fall ein da es kaum Ausnahmen von der Regel gibt Diese betreffen nur das Geschlecht und k nnen auch noch beseitigt werden wenn man f r Kompositionen von mehreren W rtern sowie Eigennamen das Geschlecht passend zuordnet D1178 2 3 3 Gleichsetzungssatz Subjekt und Gleichsetzungsglied kongruieren in Zahl und wo m glich auch in Geschlecht und Fall Die Kongruenz in der Zahl wird nur verletzt wenn ein Subjekt in der Mehrzahl mit einem Gleichsetzungsglied in der Einzahl verbunden wird D1174 Die Deutschen sind das Volk der Dichter und Klempner Die Kongruenz im Geschlecht ist nat rlich normalerweise allenfalls zuf llig gegeben da die deutschen Substantive kein systematisch zugeordnetes Geschlecht haben Es kann jedoch wenn eines der gleichgesetzten Glieder eine Person ist oftmals Kongruenz hergestellt wer den Das andere gleichgesetzte Glied bezeichnet dann n mlich ebenfalls eine Person und fast alle Personenbezeichnungen ausgenommen Eigennamen sind im Deutschen m nnlich der Sch ler der Erbe der Kaufmann Alle diese Bezeichnungen eignen sich aber zur Bil dung einer weiblichen Form die Sch lerin die Erbin die Kauffrau Wo dies m glich ist kann ein
111. erdest werde werden werdet werden konjunktiv_II wuerde wuerdest wuerde wuerden wuerdet wuerden das Hilfsverb werden hat ein anderes 2 Partizp als das Vollverb werden naemlich worden statt geworden Diese Form wird zur Bildung des Passiv benutzt partizip werdend worden geworden imperativ werde werdet Jad Modalverben kktktktktktktktkkktktkkkkkkkkikkkkkkkkkkkkkkkk 135 136 ANHANG A STANDARD WISSENSBASIS SARA STD hauptsaechlich gemaess Duden 216 duerfen modalverb praesens darf darfst darf duerfen duerft duerfen praeteritum durfte durftest durfte durften durftet durften konjunktiv_I duerfe duerfest duerfe duerfen duerfet duerfen konjunktiv_II duerfte duerftest duerfte duerften duerftet duerften partizip duerfend gedurft imperativ koennen modalverb praesens kann kannst kann koennen koennt koennen praeteritum konnte konntest konnte konnten konntet konnten konjunktiv_I koenne koennest koenne koennen koennet koennen konjunktiv_II koennte koenntest koennte koennten koenntet koennten partizip koennend gekonnt imperativ moegen modalverb praesens mag magst mag moegen moegt moegen praeteritum mochte mochtest mochte mochten mochtet mochten konjunktiv_I moege moegest moege moegen moeget moegen konjunktiv_II eigentlich moechte moechtest moechte moechten moechtet moechten si
112. eren 1 2 Probleme Die Aufgabe der Verarbeitung nat rlicher Sprache ist bisher noch nicht wirklich zufrieden stellend gel st worden Das r hrt allerdings nicht allein daher da die Informatik noch in ihren Kinderschuhen steckt sondern vor allem von einigen Schwierigkeiten die dem Problem Sprache direkt innewohnen M chtigkeit Subjektivit t und Mehrdeutigkeit Diese Faktoren sollen im folgenden einer kurzen Analyse unterzogen werden Ich konzen triere mich dabei haupts chlich auf Deutsch Die meisten Aussagen sind aber auf sehr viele andere Sprachen bertragbar 1 2 1 Exkurs Syntax Semantik und Pragmatik Die Verwendung von Sprache wie berhaupt jede Kommunikation vollzieht sich im allge meinen auf drei Ebenen einer Formebene Syntax einer Sinnebene Semantik und einer Zweckebene Pragmatik In der Verarbeitung nat rlicher Sprache m ssen im Prinzip alle drei Ebenen ber cksichtigt werden wobei jede auf der vorherigen aufbaut und bisher jede technisch deutlich schlechter beherrscht wird als die darunter In der Informatik wird in den meisten F llen jeder dieser drei Begriffe in mehreren Be deutungen vermischt verwendet Diese Bedeutungen sind sinnverwandt und werden stets aus dem Zusammenhang richtig erkannt daher wird diese Praxis hier beibehalten In den folgenden Abs tzen werden jeweils alle diese Bedeutungsm glichkeiten beschrieben Es handelt sich dabei im Wesentlichen immer um die zwei Varianten der Betrachtun
113. erfragt werden kann Er war den ganzen Tag baden Und auch er l t sich durch im Fall unbestimmte Glieder ersetzen Er war lange baden Leider gibt es im Falle des Adverbialakkusativs wesentlich mehr m gliche Konstruktionen so da die automatische Analyse schwierig ist denn eine Unterscheidung vom Akkusativobjekt ist oft weder nach der Form noch nach der Stellung m glich Er hat den ganzen Tag den ganzen Wagen gewienert Er hat den ganzen Wagen den ganzen Tag gewienert Den ganzen etc 2 5 4 Zugeordnete Glieder D1043 Diese Satzglieder kann man auch als verk rzte Nebens tze auffassen Es handelt sich um im Kasus bestimmte Glieder die durch Satzteilkonjunktionen vor allem wie und als eingeleitet werden und oft eine Erweiterung eines an sich schon vollst ndigen Satzes bewirken Im Gegensatz zu Pr positionen fordern die Satzteilkonjunktionen keinen bestimmten Fall des Gliedes das sie einleiten Das zugeordnete Glied kann nun auf ein Satzglied des gleichen Satzes bezogen werden und steht dann im gleichen Fall wie dieses Ich vertraute ihm wie einem Freund Ich vertraute ihm wie ein Dummkopf Ich sch tze Nudeln als eine Delikatesse Ich sch tze Nudeln als ein Delikatessenliebhaber Sie k nnen jedoch auch ohne einen solchen Bezug vorkommen Ich sch tze Nudeln wie die Italiener Hier sieht es aus wie im Saustall 56 KAPITEL 2 DEUTSCH Dies geschieht vor allem wenn es sich wie im letzten Fall um zugeordnete Pr po
114. ese ber das Vorhandensein eines solchen Bausteins die noch untersucht werden mu und eine erfolglose Kante ist eine ehemals ak tive Kante bei deren Untersuchung sich die betreffende Hypothese als falsch herausgestellt hat Ferner gibt es aus organisatorischen Gr nden die Kantenzust nde inaktiv und aktuell eine Kante die nicht mehr selbst ben tigt wird kann in den Zustand inaktiv gesetzt wer den Dies bewirkt im Hinblick auf die Effizienz da die Kante im Chart nicht mehr vorhan den zu sein scheint es k nnen jedoch Verweise auf die Kante bestehen bleiben Wegen letzterer Notwendigkeit gibt es ein echtes L schen in einem Chart grunds tzlich nicht Mit dieser Methode kann man zum Beispiel am Ende einer Zerteilung also nachdem man ein Ergebnis gefunden hat noch vorhandene aktive Kanten quasi wegwerfen Au erdem wer den so Kanten entsorgt von denen man bei der Entdeckung einer Mehrdeutigkeit mehrere Kopien gemacht und in einen anderen Zustand gesetzt hat aktuell sind schlie lich diejenigen aktiven Kanten die wirklich gerade bearbeitet werden meist also nur eine Der Verarbeitungszyklus beim Chart Parsen besteht in der wiederholten Auswahl einer ak tiven Kante und deren Bearbeitung wobei unter anderem neue aktive Kanten ins Chart eingetragen werden k nnen und die aktive Kante erfolgreich oder erfolglos gesetzt wer den kann Das Eintragen einer neuen aktiven Kante unterbleibt wenn an derselben Stel
115. ese Gruppe l t sich gut weiter unterteilen in die Bestimmungen des Raumes der Zeit der Art und Weise und des Grundes 54 KAPITEL 2 DEUTSCH e Die adverbialen Bestimmungen des Raumes lassen sich unterteilen in die Bestim mung des Ortes Wo der Richtung Wohin der Herkunft Woher und der r umlichen Erstreckung Wie weit e Ganz hnlich sind die adverbialen Bestimmungen der Zeit Sie beschreiben des Zeitpunkts Wann der Wiederholung Wie oft der zeitlichen Erstreckung Wie lange des Beginns Seit wann oder des Endes Bis wann e Die adverbialen Bestimmungen der Art und Weise kommen vor in ihrer Urform Wie sowie als Bestimmung der Quantit t Wieviel der Intensit t oder des Grades Wie sehr der graduellen Differenez Um wieviel der stofflichen Beschaffenheit Woraus des Mittels Womit Wodurch und der Begleitung Mit wem des Resultats Mit welchem Ergebnis e Schlie lich gibt es die adverbiale Bestimmung des Grundes die in ihrer Urform vorkommt Warum oder als Bestimmung der Bedingung In welchem Fall Unter welchen Umst nden Unter welcher Bedin gung der Folgerung Aufgrund wessen des Zwecks Wozu und eines Hindernisses Trotz wessen 2 5 3 1 Adverbiales Pr positionalgef ge D1040 Die adverbialen Pr positionalgef ge kommen in der ganzen Vielfalt wie in der Einleitung
116. esetzt diese Differenz ist positiv Die Standard Dringlichkeit ist 20 bearbeite instanziierung k nach for alle rollen r in k el inst offene_rollen do if r dringlichkeit gt std_dringlichkeit k guetewert k guetewert r dringlichkeit std_dringlichkeit end end if k guetewert gt O und k ist nicht verbal oder k hat subjekt praedikat kongruenz setze zustand k erfolgreich else 108 KAPITEL 4 ARCHITEKTUR setze zustand k fehlgeschlagen end k hat subjekt praedikat kongruenz for alle rollenfueller r in subkanten von k do if r hat subjektmarkierung if r fueller in person oder numerus nicht kompatibel mit k verb return false else return true end end end return true Alle erfolgreichen Instanziierungen sind jetzt m gliche Analyseergebnisse Als L sungen werden alle Instanziierungen angegeben die am Eingabeanfang beginnen und maximale L nge haben Die Ausgabe ist sortiert zuerst nach fallender L nge und dann nach fall endem G tewert gib ergebnisse aus sortiere am knoten 0 die erfolgreichen instanziierungen for alle erfolgreichen instanziierungen k do if k hat volle laenge oder kein k mit voller laenge gehabt gib die instanziierung K aus end end Dieses Ausgabeformat ist im Abschnitt 4 9 beschrieben 4 8 4 Zeitkomplexitat Der Zeitaufwand f r die Analyse eines Eingabesatzes h ngt ab von der Anzahl der Rol lenf ller und sonstigen Teile in die die Eingabe zerlegt wird
117. estellt sondern zwischen Pr fix und Stamm eingeschoben nachgegeben statt genachgeben Es gibt auch Verben die das Pr fix ge berhaupt nicht verwenden Dies sind D317 alle Verben die nicht auf der ersten Silbe betont sind also vor allem alle mit einem nichtabtrennbaren Pr fix und viele Fremdw rter z B entgeistert funktioniert alle Zusammensetzungen solcher Verben z B umfunktioniert herausposaunt und alle brigen zusammengesetzten Verben die nicht auf dem ersten Glied betont sind z B bersetzt durchleuchtet Die unvollst ndige Bezeichnung der Infinitiv meint stets den Infinitiv Pr sens Die urspr ngliche Unterscheidung starke Verben schwache Verben die sich an der Ver nderung des Stammvokals festmacht ist weniger systematisch und wird deshalb heute als berholt angesehen Es fallen n mlich nicht alle unregelm igen Verben in die Klasse der starken Verben 2 2 BEUGUNG 39 Das eindeutige Klassenmerkmal der schwachen Verben ist die Tatsache da jede Form im Pr teritum aus der korrespondierenden Form des Pr sens dadurch hervorgeht da die Endung vorn mit einem t erg nzt wird wobei aus phonetischen Gr nden manchmal auch noch ein zus tzliches e eingef gt werden mu also ich lieb e ich lieb te oder ich hast e ich hast e te Wann genau das geschieht siehe D193 195 Pr sens Pr teritum Indikativ Konjunktiv I Indikativ Konjunktiv II Singular Das geklammerte e bei manchen
118. for Parsing Sentences and Making In ferences about Kinship Relations Symposium on Sinulation Models Methodology and Applications to the Behavioral Sciences ed A C Hog gatt F E Balderston South Western Publishing Cincinnati 1963 Glenford J Myers Methodisches Testen von Programmen Oldenbourg Verlag 1982 Frances J Newbery EDGE An Extensible Directed Graph Editor In terner Bericht 8 88 Fakult t f r Informatik Universit t Karlsruhe 1988 Roger C Schank Christopher K Riesbeck ed Inside Computer Un derstanding Lawrence Erlbaum Associates Inc Hillsdale New Jersey 1981 Wolf Schneider Deutsch f r Profis Stern Buch bei Gruner und Jahr 2 Auflage 1982 Guy L Steele Jr Common Lisp The Language Digital Press 1984 Bjarne Stroustrup Die C Programmiersprache Addison Wesley Deutschland 1987 Walter F Tichy Rolf Adams Lars Holter NLH E A Natural Language Help System Proceedings of the International Conference on Software Engineering 1989 Hans Uszkoreit Wort Order and Constituent Structure in German Cen ter for the Study of Language and Information CSLI Stanford Lecture Notes 8 Ventura Hall California 1987 Joseph Weizenbaum ELIZA A Computer Program for the Study of Natural Language Communication Between Man and Machine CACM 9 1966 Terry Winograd Language as a Cognitive Process Volume 1 Syntax Addison Wesley Reading Massachusettes 1983 Literatur 147 Winston
119. g es fuehrt entlang des Rheins dativ entlang es fuehrt entlang dem Rhein frage wohin frage wo frage wo entlang frage entlang wessen fragegenitiv entlang fragedativ entlang 7777 Rollen der Zeit lt lt zeitpunkt temporaladverbial gestern ging es noch frage wann fragedativ an fragedativ in gt gt lt lt beginn dativ ab ab 2 Uhr bin ich wieder da dativ seit seit 1 Uhr mache ich Mittagspause frage ab wann frage seit wann gt gt lt lt ende frage bis wann gt gt lt lt dauer akkusativ sie dauert 60 Minuten frage wie lange gt gt 7777 Rollen der Art und Weise lt lt art_und_weise nominativ wie er geht wie seine Oma dativ mit er macht es mit Begeisterung modaladverbial er macht es begeistert nebensatz indem er macht es indem er lacht frage wie gt gt lt lt grad modaladverbial er stottert sehr frage wie frage wie sehr frage wie stark gt gt 77777707 Rollen zur Begruendung lt lt grund igenitiv wegen ich warte gegen des Regens dativ wegen ich warte gegen dem Regen akkusativ durch ich schaffe es durch meine Geduld nebensatz da ich warte da die Sonne scheint nebensatz weil ich warte geil es schneit frage wieso frage weshalb frage warum fragegenitiv wegen fragedativ wegen gt gt 143 lt lt zweck genitiv zwecks i
120. g von Syntax Semantik oder Pragmatik als eine Lehre oder als das Ergebnis einer Analyse einer einzelnen u erung Dieses System enth lt allerdings nur rudiment re Aktionsm glichkeiten so da die Handlungsf higkeit fast gleich Null ist Der Schwerpunkt liegt auf den ersten Phrasen der Analyse 1 2 PROBLEME 19 1 2 1 1 Syntax Die Syntax Form kann als System von Regeln verstanden werden die man in ihrer Gesamtheit Grammatik nennt Die Syntax w re danach eine Lehre Diese Regeln legen fest wie aus den elementaren Symbolen der Sprache Buchstaben oder Lauten ber mehrere Stufen hinweg u erungen zusammengesetzt werden Diese Zwischenstufen sind zum Beispiel Wort Wortgruppe Satzteil Teilsatz und Satz Eine nur subtil andere Betrachtung von Syntax ist die da die Syntax nicht eine Lehre ist welche die Regeln vorgibt sondern ein abstraktes Objekt das durch eben diese Regeln beschrieben wird Als Syntax kann man jedoch auch das Ergebnis der formalen Analyse einer u erung aufgrund dieser Regeln bezeichnen Syntax erh lt dann einen Objektbezug Die Syn tax dieser Aussage und ist ihrerseits jeweils eine Menge von Aussagen die eine Struk tur beschreiben Diese Beschreibung kann korrekterweise mehrdeutig sein da nat rliche Sprachen tats chliche syntaktisch unaufl sbare Mehrdeutigkeiten enthalten Die Syntax wird in der Linguistik sehr gut beherrscht Duden 4 Die Beherrschung des Ph nomens Syntax im Rah
121. gegeben werden Dies bewirkt da die Daten von der Standardeingabe gelesen werden bis dort das Dateiende angezeigt wird Also im Normalfalle Lesen von der Tastatur bis man Ctrl D tippt Zeige Rollenverzeichnis Analog zu s Shell Es wird eine C Shell aufgerufen Diese kann mit exit wieder verlassen werden um nach SARA zur ckzukehren Test der Wissensbasis auf Konsistenz Hiermit wird eine Kontrolle angestossen ob f r alle Objekte auf die es in der Wissensbasis einen Verweis gibt auch Eintr ge existieren und diese Eintr ge sinnvoll sind Alle Objekte f r die das nicht der Fall ist werden angezeigt Im W rterbuch werden Eintr ge ohne Oberfl chenformen entdeckt die entstehen wenn ein Konzept ein Wort als Synonym auff hrt ohne da dieses Wort definiert ist Im Konzeptverzeichnis werden mehrfach aufgef hrte Synonyme und Oberbegriffe gemeldet sowie Oberbegriffspfade die Kreise ergeben Ferner fehlende Wortart oder Wor tartwechsel zwischen Konzept und Synonym oder Oberkonzept F r das Rollenverzeichnis werden solche Rollen aufgelistet die keine Rollenformen haben und solche die Rollenformen oder Frageformen mehrfach besitzen Bei den Fallschablonen schlie lich werden Fallschablonen gemeldet die leer sind das hei t sie wurden einmal per Vorausverweis benannt danach jedoch nicht definiert die explizit zum Vererben benutzt werden obwohl sie einen Kopf haben die mehrmals von derselben Fallschablone
122. gt Allerdings erh ht sich der Aufwand f r den Test ob ein einzelner Rollenf ller zu einer Rolle passt nachdem sich der F ller als von seiner grammatikalischen Form her passend f r die Rolle erwiesen hat mu seine semantische Vertr glichkeit in der Konzepthierarchie gepr ft werden Der Aufwand hierf r ist im Normalfall d h bei Mi erfolg jeweils genausogro wie der zum Aufbauen einer Ober und Unterkonzeptliste n tige Im mittleren Fall kann man annehmen da die L nge dieser Listen logarithmisch mit der Gesamtgr e der Konzepthierarchie nennen wir sie k zunimmt Jeder der n Arbeitss chritte steigt deshalb in seinem Aufwand von n auf n log k Beim Aufbauen des Charts werden f r jedes Konzept die Ober und Unterbegriffslisten aufgebaut und f r die Fallschablonen die Rollen aufgesammelt Die dabei verwendeten Operationen zur Mengenvereinigung sind einfach programmiert und haben deshalb einen Aufwand proportional zum Produkt der Kardinalit ten der beteiligten Mengen Das Auf bauen des Chart dauert deshalb O n log k Es ergibt sich insgesamt ein Aufwand von O n log k n log k e Im schlechtesten Fall ist jeder Begriff der Konzepthierarchie im Unterbegriffspfad jedes Konzeptes in der Eingabe enthalten das Aufbauen des Chart dauert also O n k und jeder Rollenf ller ist mit jeder Rolle vertr glich so da n Instanziierungen der Restl nge n 1 verfolgt werden aus jeder von denen n 1 Instanziierungen der
123. h die besseren M glichkeiten zur Beschreibung von Daten strukturen genutzt die F higkeiten zum berladen von Namen und Operatoren gener ische Datentypen Standardparameter und die erweiterte Typenpr fung jedoch nicht die M glichkeiten zum Objektorientierten Programmieren Vererbung in einer Typhierarchie und virtuelle Funktionen Nichtsdestoweniger stellt C auch in dieser Verwendungsweise einen gro en Fortschritt gegen ber C dar Leider machte der bersetzer erhebliche Schwierigkeiten weil er alles andere als fehlerfrei ist Dem schlo sich dann auch noch der normale C Praprozessor an so da ich gen tigt war den Pr prozessor cccp der im Quelltext vorlag anzupassen Dies ist eine potentielle Quelle von Schwierigkeiten f r eine eventuelle Portierung Ansonsten d rfte das Portieren von SARA keinerlei besondere Probleme aufwerfen 5 2 Modularisierung Top Down Wie aus dem Kapitel ber die Architektur hervorgeht zerlegt sich SARA auf nat rliche Weise in zwei Hauptteile die Wissensbasis und den Zerteiler 113 114 KAPITEL 5 IMPLEMENTATION Drittens ist ein Kommando Interpretierer notwendig der die Benutzerschnittstelle real isiert kommando lnterpretierer wissensleser zerteiler ZS wee wissensbasis woerterbuch konzepthierarchie rollenverzeichnis benutzt fallschablonen Abbild
124. h unmittelbar hintereinander ausgef hrt so da die angegebenen Zeiten im Wesentlichen keine Plattenzugriffe einschlie en Der Rechner war ansonsten unbelastet die Zeitangaben sind Echtzeit Man beachte da die Beispiel Wissensbasis die Standard Wissensbasis mit einschliesst Die ausf hrbare Datei hat eine Gr e von 237 kB Das Laden und wieder verlassen des Programms dauert 0 73 Es benoetigt im leeren Zustand laut ps 416 kB Speicher dieser Wert erh ht sich durch das Laden der Beispiel Wissensbasis um 136 kb Dieses Laden dauert beim ersten Mal 17s beim zweiten Mal d h wenn alle Eintr ge berschrieben werden 15s Der Konsistenztest dauert dann 1s einschliesslich Ausgabe der Ergebnisse auf den Bild schirm Der Zerteiler selbst wurde mit mehreren Beispielen gemessen Bei der Beurteilung dieser Ergebnisse ist zu beachten da f r die Dauer der Zerteilung neben der L nge der Eingabe nicht an sich die Gr e der Wissensbasis ausschlaggebend ist weil durch die Art der Implementierung mit Hashtabellen jeder Zugriff auf die Wissensbasis unabh ngig von ihrer Allerdings kann bei nderungen inkrementell nachgebessert werden d h es mu nur selten die ganze Wissensbasis eingelesen werden 8 2 AUSBAU UND AUSBAUF HIGKEIT 133 Gr e in fast konstanter Zeit abgewickelt werden kann Entscheidend ist vielmehr die St rke der Mehrdeutigkeit im Eingabesatz gemessen an der Struktur der Wissensbasis weil diese Mehrdeutigkei
125. hablonen ohne Kopf ist der Name beliebig Die Wortfolge bei erbe ist eine Liste von Namen solcher Fallschablonen die keinen Kopf haben Alle Rollen dieser Fallschablonen werden in die aktuelle mit bernom men Ferner gibt es eine implizite Vererbung die alle Rollen von Fallschablonen vererbt deren Kopf Oberbegriff des hiesigen Kopfes in der Konzepthierarchie ist Der Rollenname mu einen korrespondierenden Eintrag im Rollenverzeichnis haben andernfalls erfolgt eine Fehlermeldung Die Dringlichkeit wird zusammen mit der Distanzinformation aus der Konzepthier archie verwendet um bei Mehrdeutigkeiten in der Rollenzuordnung die am besten passende Interpretation auszuw hlen Die Dringlichkeit kann jeden positiven Wert haben Der Standardwert ist willk rlich gew hlt 20 Die Interpretation der Dringlichkeit ist folgende W hrend des Zerteilungsvorganges hat jede Fallschablone einen sogenannten G tewert der sich jedesmal ver ndert wenn etwas eingef llt wird Wird ein F ller f r eine Rolle mit der Dringlichkeit D gefunden so erh ht sich der G tewert um D Ist er hingegen am Ende der Analyse nicht gefunden worden so verringert sich der G tewert um D minus 20 vorausgesetzt D ist gr er als 20 F r die Wahl des Wertes 20 war ausschlaggebend da so einerseits eine gen gend gro e Zahl von Abstufungen m glich ist n mlich 20 nach unten und beliebig viele nach oben und zugleich die Zahlen eine handhabbare Gr e behal
126. hausdr cke nur sehr verkrampft ins Deutsche zu bertragen es kommen deshalb in diesem Kapitel etwas h ufiger Jar gonbegriffe vor als sonst Literatur zu diesem Kapitel sind Myers79 aus dem auch der obige Spruch stammt sowie Fairley85 6 1 Schw chen beim Test Bevor ich mit mit der Beschreibung meiner Teststrategie beginne m chte ich einige fun damentale Probleme nennen mit denen die Implementation von SARA zu k mpfen hatte 1 Zeitmangel Es standen f r Implementation und Test des gesamten Systems nur 9 Wochen zur Verf gung Das ist jedoch bei weitem nicht ausreichend um alle Module einer so genauen Kontrolle zu unterwerfen wie es eigentlich w nschenswert w re 2 Personalmangel Eine der Grundregeln des Programmtestens besagt da der Pro grammierer eines Moduls die denkbar schlechteste Person ist um es zu testen Gegen diese Maxime mu te ich notgedrungen ununterbrochen versto en was vermutlich die Hauptschw che im Test von SARA darstellt 3 Neuartigkeit Die ganze Konzeption des Systems war nicht durch ein vergleich bares fr heres Projekt vertraut Dadurch erschwert sich eine geschickte Spezifikation enorm Unregelm ige oder ungeschickte Schnittstellen erschweren auch das Testen 120 6 2 ALLGEMEINES VORGEHEN 121 6 2 Allgemeines Vorgehen Das Testen eines Programms oder Moduls ist ein dreistufiger Proze 1 Fehlerfeststellung Man benutzt Testf lle die allgemein fehlerprovokant gestaltet sind u
127. he konkreten Eingaben er verarbeiten kann h ngt dar berhinaus vom aktuellen Inhalt der Wissensbasis ab 3 Wissensbasis Die Eingaben an die Wissensbasis umfassen das W rterbuch die Konzepthierarchie das Rollenverzeichnis und die Fallschablonen Die Formate dieser Eingaben sind in den folgenden Abschnitten beschrieben Ausgaben sind 1 Meldungen Dies umfa t normale Betriebsmeldungen Warnungen und Fehlermel dungen Die genauere Beschreibung erfolgt in Kapitel 7 2 Hilfeausgaben Wird SARA als Hilfesystem benutzt so wird als Reaktion auf die deutschen Eingaben nur jeweils ein fest mit der betroffenen Fallschablone verbun dener Text ausgegeben 4 3 DIE WISSENSBASIS 17 3 Instanziierungen Dies ist die eigentliche Nutzausgabe von SARA Hier wird die vollst ndige Form aller aus einem Eingabesatz gewonnenen Informationen aus gegeben Das Format ist in Abschnitt 4 9 auf Seite 109 beschrieben 4 3 Die Wissensbasis Die Wissensbasis besteht aus dem W rterbuch der Konzepthierarchie dem Rollenverze ichnis und den Fallschablonen Diese liegen in einer externen menschenlesbaren Form als Textdatei vor und werden von SARA beim Einlesen in eine interne Darstellung berf hrt Die externe Form soll nun beschrieben werden In den folgenden Abschnitten werden verschiedentlich formale Spezifikationen der Eingabeformate f r die verschiedenen Wissensbereiche auftauchen Die an die Backus Naur Form angelehnte Syntax dieser Spezifikatio
128. he auch Abschnitt 2 6 2 ab Seite 58 36 KAPITEL 2 DEUTSCH Worte verschiedener Wortarten Adjektive Er wurde gr n und blau geschlagen Adverben Sie wippte auf und nieder Es passiert morgen oder bermorgen Verben Sie lachte und grinste Substantive W hle Kopf oder Zahl Pr positionen Sie stehen auf und neben dem Fu ballfeld verschiedene Arten von Wortgruppen Teilsatzteile Nominalgruppen Setzt Euch auf die roten St hle oder das Bett Attributgruppen Willst du sehr vertrocknete oder fast matschige pfel Ich will die die im Schrank sind oder die auf dem Tisch stehen Das sind pfel meines Bruders oder meiner Schwestern Pr positionalgruppen Ich trete immer feste in oder knapp neben jeden Fettnapf Satzteile Mem Fahrrad und meine Turnschuhe stehen im Trockenen Im Wald und auf der Heiden da mag ich alle leiden Teils tze Er stolperte ber den Beckenrand und fiel ins Wasser S tze Ich entschlie e mich zu bleiben oder ich gehe fort 2 1 7 Sonstige Die bestimmten Artikel der die das stehen mit einem Substantiv und dienen zur konkreten Benennung eines bestimmten Exemplars des von dem Substantiv bezeichneten Begriffes D530 531 Demgegen ber dienen die unbestimmten Artikel einer eine ein die ebenfalls mit einem Substantiv stehen zur Benennung eines beliebigen unbestimmten Exemplars des von dem Substantiv bezeichneten Begriffes und kommen nur in der Einzahl vor Pronomen F rw rte
129. hen versucht durch geeignetes Zusammen tragen der Beobachtungen aus den Testf llen allm hlich eine Beschreibung von Fehlerort und Fehlerursache zu erhalten Bei der Ausschliessungs Methode deduktives Vorgehen tr gt man die Beobachtungen an ders zusammen und versucht von einer sehr allgemeinen Fehlerannahme ausgehend den Fehler durch Ausschliessen von Ursachen und Orten einzukreisen Beim Lokalisieren durch Testen werden speziell gestaltete Testf lle verwendet um einzelne Vermutungen ber Ort oder Ursache des Fehlers zu berpr fen Das Lokalisieren durch Ablaufverfolgung kann erst auf schon recht eng eingekreiste Fehler angewendet werden Es entspricht einem Walkthrough wobei sich aber die Aufmerk samkeit auf wenige Objekte des untersuchten Programms konzentriert Hierbei ist die Unterst tzung eines symbolischen Debuggers hilfreich Beim Lokalisieren durch R ckverfolgung versucht man im Geiste das Programm ab der Stelle an der man den Fehler festgestellt hat r ckw rts durchzuf hren bis die fehlerpro duzierende Stelle erreicht ist Dies ist jedoch nur bei sehr einfachen Programmst cken realisierbar Ich habe zur Fehlerlokalisierung in SARA meist mehrere dieser Verfahren verwendet Dage gen ist nichts zu sagen solange sie nicht unstrukturiert vermischt werden Meist bietet es die besten Aussichten zun chst mit Lokalisieren durch Testen zu beginnen wobei die Testf lle aus Erkenntnissen konstruiert werden die man mit dem ind
130. hmen Die Vervielf ltigungszahlw rter D467 entstehen durch Anh ngen der Nachsilbe fach an Kardinalzahlen statt zweifach wird auch doppelt gebraucht Eine M gliche Kurzschreib weise in der Zifferndarstellung ist ein angeh ngtes x Die Vervielfachung wird oft substan tiviert das fache oder umschrieben mal so oft so viel Bruchzahlen D465 466 kommen ebenfalls alleinstehend als Substantive oder adjektivisch verwendet vor Meist sind Bruchzahlen heute zumal bei Computeranwendungen von den Dezimalzahlen verdr ngt so da nur wenige und ganz bestimmte Bruchzahlen vorkommen halb H lfte drittel viertel zweidrittel dreiviertel Es kann deshalb wohl von einer algorithmischen Handhabung abgesehen werden indem man die n tigen Einzelf lle ins W rterbuch eintr gt Dezimalzahlen m ssen sinnvollerweise auch behandelt werden Sie verhalten sich gram matikalisch genau wie die Kardinalzahlen k nnen aber sinnvollerweise ausschlie lich in Ziffernform verstanden werden dabei ist sowohl ein Punkt als auch ein Komma als Dezi malzeichen zu erwarten Eventuell kann man hier auch die halblogarithmische Schreibweise zulassen unbestimmte Zahladjektive D469 471 sind zum Beispiel alle andere einige einzelne etliche ganze gesamte gewisse manche mehrere ungez hlte brige vereinzelte ver schiedene viele weitere wenige zahllose zahlreiche Der genaue Wert der von ihnen bezeichnet wird ist im Allgemeinen nicht
131. i ohne Parameter aufgerufen worden Nach dem Aufruf meldet sich SARA mit SARA und wartet auf Eingabe Gibt man nun ein und Return so erfolgt die Kurzbeschreibung der verf gbaren Kommandos mit der Ausgabe Erlaubte Kommandos sind Zeige diese Hilfeseite an q Quit Beende die Sitzung Rufe eine Shell auf Lese Wissensbasis Zeige Woerterbuch Zeige Konzepthierarchie Zeige Rollenverzeichnis H War D 126 7 2 BESCHREIBUNG DER KOMMANDOS 127 Zeige Fallschablonen Teste die Wissensbasis auf Konsistenz Hilfesystem Zeige Kommentarfeld als Antwort ein aus Instanziierungen Zeige volle Ausgabeform ein aus Frage nach Ausgabedateinamen bei 1 w k r f t h i ein aus Standardausgabe umlenken Standardeingabe umlenken Kommandodatei Laengere Eingaben als ein Zeichen werden als Spracheingabe analysiert ov GH Di et Eh Ein Kommando besteht also immer nur aus einem einzigen Buchstaben eventuell n tige Parameter werden im Dialog erfragt Dabei gibt es meist einen Standardwert f r jeden Parameter Dieser wird benutzt wenn bei der Anfrage eine leere Eingabe gemacht wird Als Kommando wird genau jede Eingabe aufgefa t die nur ein Zeichen lang ist alle l ngeren Eingaben werden als Eingabesatz verstanden und dem Zerteiler zugef hrt 7 2 Beschreibung der Kommandos In alphabetischer Reihenfolge a Standardausgabe umlenken SARA fragt nach dem Namen der Datei in die die Stan dardausgabe umg
132. ibung ist unnat rlich und daher schwer in einem gr eren Umfang zu erarbeiten oder zu ver ndern Ein Beispiel f r ein solches System ist SAD SAM Lindsay63 das Verwandschaftsrelatio nen analysiert Die resultierenden Systeme waren also relativ schwach und empfindlich weshalb die Ar beiten mit diesem Ansatz auch nicht sehr viel weiter verfolgt wurden 1 3 4 Transformationsgrammatik Der Ursprung der Transformationsgrammatiken liegt in Chomskys generative transfor mational grammar Unter diesem Namen ist die Theorie von Chomsky selbst und von an deren vielfach berarbeitet worden Die folgende Darstellung ist also nur als ein ungef hrer ber diese Frage gibt es einen jahrzehntelangen Streit unter den Linguisten 26 KAPITEL 1 VERARBEITUNG NAT RLICHER SPRACHE Fingerzeig auf den Aufbau der Transformationsgrammatik zu verstehen Die Motiva tion der Transformationsgrammatik ist die Beobachtung da u erungen mit gleichem Sinn recht unterschiedliche Formen sogenannte Oberfl chenformen in der tats chlichen sprachlichen Formulierung annehmen k nnen Man teilt also die Erzeugung einer sprachlichen u erung in mehrere Phasen ein So enth lt die syntaktische Komponente einen Basis und einen Transformationsteil Im Basisteil wird die sogenannte Tiefenstruktur einer u erung erzeugt die dann im Trans formationsteil in die endg ltige Form die sogenannte Oberfl chenstruktur umgewandelt wird Diese Theorie wird
133. ich ist nach Definition auch ein Wort die Unterscheidung wurde hier nur zur gr eren Klarheit ex plizit gemacht Wortfolgen und Wortlisten werden zu verschiedenen Zwecken eingesetzt insbesondere zur Angabe von Oberfl chenformen f r W rter und zur Angabe von Ver weismengen auf andere Objekte der Wissensbasis Es folgt nun die Beschreibung der eigentlichen Wissensbasiseintr ge 4 4 Das W rterbuch 4 4 1 Grundgedanke Grundlage f r eine Sprachanalyse ist die Bedeutungszuordnung f r die einzelnen W rter Eine solche wird m glich indem die Oberfl chenform des Wortes Buchstabenfolge in einen Verweis auf einen W rterbucheintrag umgesetzt wird In diesem W rterbucheintrag lassen sich dann beliebige Daten zur Verarbeitung des Wortes unterbringen 4 4 DAS W RTERBUCH 79 4 4 2 Voriiberlegungen und Entwurfsentscheidungen Die Umsetzung der Oberfl chenform in einen Verweis auf einen W rterbucheintrag w re ein ganz einfacher Proze wenn diese Oberfl chenform der W rter immer v llig gleich w re Leider ist es aber gerade im Deutschen so da sich diese Oberfl chenform stark und vielf ltig ver ndern kann Beugung Es mu also zur Herstellung des Verweises zuerst die gegebene Wortform in die zugeh rige Grundform umgesetzt werden Dies kann grunds tzlich auf zwei Arten erfolgen mittels algorithmischer Umwandlung der gegebenen Form in die Grundform oder mittels eines Formenverzeichnisses in dem zu jeder Oberfl chenform d
134. iche Kante eintr gt die die betreffenden W rter berspannt und als Markierung die jeweilige Strukturbezeichnung tr gt Eine solche Kante enth lt au erdem Information dar ber welche der von ihr berspannten Kanten in ihr zusammengefa t werden Das ist notwendig weil es zwischen zwei Knoten d h durch einen Teilbereich des Graphen meist mehrere m gliche Pfade gibt Man erh lt so einen gerichteten azyklischen Graphen mit je genau einer Quelle und Senke der nach erfolgreicher Analyse des Eingabesatzes eine Kante enth lt die alle Eingabew rter berspannt Nun ist allerdings bei dem bis hierher beschriebenen Vorgehen immer nur von einer Zusam menfassung von Kanten die Rede gewesen Es ist also soweit nur ein Bottom Up Verfahren m glich Um nun auch umgekehrt Top Down arbeiten zu k nnen mu man den Typ der aktiven Kante einf hren Eine aktive Kante ist eine solche die noch keine Strukturbeze ichnung aufweist sondern nur eine Strukturhypothese weil n mlich noch nicht alle zu der anvisierten Struktur geh renden Teile aufgefunden worden sind So eine Kante mu also Information dar ber enthalten was bereits gefunden ist was noch gefunden werden mu und wie das bisher versucht wurde um endlose Wiederholung zu vermeiden Dies kann zum Beispiel durch Zuweisung eines inneren Zustands erfolgen Der Zerteilungsvorgang bei einem solchen Chart Parser durchl uft eine Schleife in der immer eine der aktiven Kanten ausgew hlt und
135. icht als se mantische Kategorien sondern als syntaktische die aber in ihrer Komplexit t oberhalb der schieren grammatikalischen F lle liegen Schlie lich steht die gesamte Bandbreite von Mischformen zur Verf gung F r die konkretere Beschreibung des bei SARA verwendeten Fallschablonenbegriffs siehe die Kapitel 3 und 4 Durch diese Auslegungsbreite des Rollen oder Fallbegriffs kann man von einer noch weit gehend syntaktisch orientierten Vorgehensweise ber eine semantisch orientierte aber noch konkret wortabh ngige bis hin zu einer auf abstrakten Konzepten aufgebauten also rein semantisch basierten Analyse gelangen Dabei kann und mu je mehr man sich von der syntaktischen Repr sentation entfernt und sich der abstrakten n hert immer mehr syn taktisches Wissen in den Zerteiler integriert werden der diese Fallschablonen auswertet Man erh lt dadurch eine klare Unterteilung eines Fallschablonen basierten Systems 1 Die Menge der Fallschablonen die semantisches Wissen ber den zu behandelnden Bereich enth lt 2 Der Zerteilalgorithmus selbst der das allgemeing ltige syntaktische Wissen enth lt und die Auswertung der Fallschablonen steuert Bindeglied zwischen beiden Teilen ist ein W rterbuch Beispiele f r Systeme die mit Fallschablonen arbeiten sind NLH E TiAdHo88 ein adap tierbares Hilfesystem zum Beispiel f r CommonLisp und CFPE Bodsb89 das eine Er weiterung von NLH E darstellt Die Vorz ge von Fal
136. icht identifiziert possessivartikel artikel maennlich mein dein sein ihr unser euer ihr meines deines seines ihres unseres eures eueres meinem deinem seinem ihrem unserem eurem euerem mein dein sein ihr unser euer ihr weiblich meine deine seine ihre unsere euere eure ihre meiner deiner seiner ihrer unserer eurer euerer meiner deiner seiner ihrer unserer eurer euerer meine deine seine ihre unsere euere eure ihre saechlich mein dein sein ihr unser euer ihr meines deines seines ihres unseres eures eueres meinem deinem seinem ihrem unserem eurem euerem mein dein sein ihr unser euer ihr plural C meine deine seine ihre unsere euere eure ihre meiner deiner seiner ihrer unserer eurer euerer meinen deinen seinen ihren unseren euren eueren meine deine seine ihre unsere euere eure ihre ihres ihrem ihrer ihrer ihres ihrem ihrer ihren oOo oo odode Demonstrativpronomen Haaa Demonstrativpronomen in Substantiv Verwendung siehe auch Artikel x gemaess Duden 551 554 555 demonstrativpronomen demonstrativpronomen geschlecht m singular dieser dieses diesem diesen plural diese dieser diesen diese demonstrativpronomen demonstrativpronomen geschlecht w singular diese dieser dieser diese plural diese dieser d
137. ichtreziprok vorkommen z B hneln bel gen hier kann das Reflexivpronomen durch einander ersetzt werden e Alle nicht reflexiven Verben hei en irreflexiv 2 1 1 2 Pr fixe Abtrennbare separierbare Pr fixe bei Verben sind ein Ph nomen das f r sehr viele Schwierigkeiten bei der syntaktischen Analyse von Deutsch verantwortlich ist Ein Pr fix ist ein Wortbestandteil der vor ein anderes Wort gestellt werden kann und damit aus diesem ein neues Wort mit einer anderen Bedeutung macht Die allermeisten Verben lassen keinen Pr fix zu jedoch erlauben andererseits gerade die einfachen und deshalb viel verwendeten Verben oft eine gro e Zahl verschiedener Pr fixe Man unterscheidet separierbare abtrennbare Prdfixe im Duden Halbpr fixe genannt D751 764 z B ab an auf aus ein mit nach vor weiter zu zur ck und nicht separierbare Pr fixe im Duden einfach Pr fixe genannt D744 750 z B ver be ent er Letztere stellen jedoch kein Problem dar da sie nur zum Verst ndnis der Wortbil dung betrachtet werden m ssen im Hinblick auf die Satzanalyse kann man Verben mit nichtabtrennbarem Pr fix problemlos als eigenst ndige W rter auffassen Das Problem bei der Behandlung von abtrennbaren Pr fixen ist folgendes Das Verb z B geben und das zugeh rige Verb mit Pr fix nachgeben k nnen nicht als zwei eigenst ndige 32 KAPITEL 2 DEUTSCH W rter angesehen werden diese Methode f hrte n mlich leider
138. ie reisen ab Koeln sie holt ihr Fahrrad aus dem Keller ich falle von der Treppe ich falle vom Fahrrad ich gehe in das Badezimmer ich komme ins Dunkle etc frageakkusativ frageakkusativ frageakkusativ frageakkusativ frageakkusativ frageakkusativ frageakkusativ fragedativ zu gt gt in auf vor hinter neben unter an lt lt richtung wie zielpunkt akkusativ in akkusativ ins akkusativ auf akkusativ aufs akkusativ vor akkusativ vors akkusativ hinter akkusativ hinters akkusativ neben akkusativ nebens akkusativ unter akkusativ unters akkusativ an akkusativ ans dativ zu dativ zum frage wohin frage zu wem 141 142 ANHANG A STANDARD WISSENSBASIS SARA STD frage zu was frageakkusativ in frageakkusativ auf frageakkusativ vor frageakkusativ hinter frageakkusativ neben frageakkusativ unter frageakkusativ an fragedativ zu gt gt lt lt bahn genitiv entlang gehen sie entlang weisser Linien dativ entlang gehen sie entlang den weissen Linien akkusativ ueber gehen sie ueber die Strasse akkusativ durch gehen sie durch den Tunnel frage worueber frage wo entlang frage wo durch frage entlang wessen frageakkusativ durch fragedativ ueber fragegenitiv entlang fragedativ entlang gt gt lt lt erstreckung genitiv entlan
139. ie zugeh rige Grundform angegeben ist Da im Deutschen wie gesehen die Gesetze zur Bildung der Oberfl chenformen sehr um fangreich sind und zudem eine gro e Zahl von Unregelm igkeiten vorkommen ist eine algorithmische Umwandlung sehr aufwendig sie kann im Rahmen dieser Arbeit nicht kon struiert werden und kann auch im Idealfall nicht alle Formen abdecken SARA verwendet aus diesem Grund ein sogenanntes Vollformenlexikon in dem alle Oberfl chenformen die das System erkennen soll abgespeichert sind Das hei t das W rterbuch enth lt sowohl die Eintr ge f r die Grundformen Wortnamen die zur Bildung von Konzepteintr gen benutzt werden als auch alle m glichen Oberfl chenformen die jeweils die Beugungs beschreibung und einen Verweis auf die Grundform als Eintrag erhalten Diese Methode ist zwar speicherintensiv aber schnell Man kann unabh ngig von der Gr e des W rter buches durch Hashtabellen jeden W rterbucheintrag in gleichbleibender Zeit erhalten Es w re nun nicht nur l stig sondern schlicht unpraktikabel diese Formen alle von Hand eingeben zu m ssen Gl cklicherweise ist jedoch die Vorw rtsverarbeitung d h die Erzeu gung der Formen leichter als die R ckw rtsverarbeitung d h die Analyse R ckf hren auf die Grundform Deshalb kann man bei der Eingabe des W rterbuchs neben der Grundform eine kleine Zahl von grammatischen Attributen mit angeben und daraus in den meisten F llen alle Formen automatisch erze
140. ierte sondern wird beeinflu t von der Wichtigkeit der einzelnen Teile f r die angestrebte Funktionalit t und der Struktur der Implementation Das bedeutet erstens viele Teile der Grammatik einfach auszulassen um die Grammatik insgesamt berhaupt beherrschbar zu machen und zweitens manchmal althergebrachte Begriffe der Grammatik anders aufzu fassen weil sich daraus eine glattere Struktur ergibt die eine Erleichterung der Beschrei bung oder der Implementation verspricht Die Beschreibung beginnt nicht von oben von der Satzebene her sondern von unten bei den Wortarten Leider lassen sich zahlreiche Vorw rtsverweise nicht vermeiden es ist aber im Interesse der Lesbarkeit dieses Kapitels ohnehin sinnvoll ein gewisses allerdings geringes Grundwissen ber die deutsche Grammatik vorauszusetzen und das tue ich dann auch Wenn in diesem Kapitel von Fall oder Kasus die Rede ist ist stets der grammatikalis che Fall gemeint nicht der Rollenbegriff der Fallschablonentheorie f r das Wort Kasus gilt das ohnehin immer Das hier pr sentierte Wissen ber die Deutsche Grammatik wurde zum gr ten Teil dem Duden Band 4 Die Grammatik Duden 4 entnommen auf diesen verweisen auch die Nummernangaben So steht z B D112 132 als ein Verweis auf die Randnummern 112 bis 132 in der angegebenen Ausgabe 29 30 KAPITEL 2 DEUTSCH 2 1 Wortarten Die Wortart eines Wortes aus dem Eingabesatz l t sich nur anhand eines W
141. iesen diese demonstrativpronomen demonstrativpronomen geschlecht s singular dies dieses dieses diesem dies dieses plural diese dieser diesen diese demonstrativpronomen demonstrativpronomen geschlecht m singular derjenige desjenigen demjenigen denjenigen plural diejenigen derjenigen denjenigen diejenigen demonstrativpronomen demonstrativpronomen geschlecht w singular diejenige derjenigen derjenigen diejenige plural diejenigen derjenigen denjenigen diejenigen demonstrativpronomen demonstrativpronomen geschlecht s singular dasjenige desjenigen demjenigen dasjenige plural diejenigen derjenigen denjenigen diejenigen demonstrativpronomen demonstrativpronomen geschlecht m singular derselbe desselben demselben denselben plural dieselben derselben denselben dieselben demonstrativpronomen demonstrativpronomen geschlecht w singular dieselbe derselben derselben dieselbe plural dieselben derselben denselben dieselben demonstrativpronomen demonstrativpronomen geschlecht s 137 138 ANHANG A STANDARD WISSENSBASIS SARA STD singular dasselbe desselben demselben dasselbe plural dieselben derselben denselben dieselben Do Ob oo deed Possessivpronomen Krk Possessivpronomen in Substantiv Verwendung siehe auch Artikel gemaess Duden 545ff ossessivpronomen possessivpronomen geschlecht m w s
142. ig sind ist die entsprechende Klasse wegzulassen und der Rest ggf in einem weiteren Eintrag zu spezifizieren F r die m glichen Klassen und ihre Bedeutung siehe Tabellen 2 5 Singular 2 6 bis 2 8 Plural und die zugeh rigen Textabschnitte ab Seite 40 Dabei werden im all gemeinen nicht mehr als ein Singular und ein Pluraltyp angegeben falls doch ist zu beachten da die umlautenden Pluraltypen nur mit anderen umlautenden Plu raltypen vertr glich sind die nicht umlautenden nur mit nicht umlautenden und die Fremdwortplurale Pi und Pue mit keinem anderen Plural Bei den seltenen un regelm igen Substantiven und den als Substantive zu behandelnden Pronomen sind bei singular und bei plural jeweils 4 Formen f r Nominativ Genitiv Dativ und Akkusativ anzugeben Bei Pronomen gewinnt auch die Angabe einer Person Bedeutung bei normalen Substantiven ist dies immer dritte Adjektive Adjektive sind in aller Regel vollkommen regelm ig Sie haben un terschiedliche St mme f r Positiv Komparativ und Superlativ wenn sich das Ad jektiv berhaupt steigern l t und bilden aus diesen ihre Formen gem der Ad jektivbeugung vom Typ I II und III wie in Tabelle 2 9 auf Seite 44 angegeben Die Steigerungsst mme oder Platzhalter werden bei komparation angegeben Im unregelm igen Fall mu jede Steigerung einzeln eingetragen werden ebenso jeder Beugungstyp Dabei enth lt jede Wortliste 4 Eintr ge f r Nominativ Genitiv Da
143. ik Die Pragmatik ist als Lehre betrachtet die Lehre vom Zweck sprachlicher u erungen Es geht also um die allgemeine Beantwortung der Fragen Wodurch wird ein Sprecher zu einer u erung motiviert und Was will ein Sprecher mit einer u erung erreichen Die Beantwortung dieser Fragen f r einen Einzelfall stellt offenbar die andere Betrach tungsweise dar analog zur Unterscheidung bei Syntax und Semantik Es bietet sich dann noch eine dritte Frage an die man sinnvoll mit in die Untersuchung von Pragmatik ein beziehen kann und zwar Was erreicht der Sprecher mit der u erung tats chlich In der Linguistik befinden sich die Studien der Pragmatik auf einem hnlichen Niveau wie die der Semantik In der Informatik sieht die Lage dagegen schlecht aus in den heute existierenden Systemen zur Verarbeitung nat rlicher Sprache wird die Verarbeitung meist auf der semantischen Ebene beendet Wenn berhaupt Aspekte der Pragmatik ber cksichtigt werden die sich nicht in der Umsetzung semantischer Erkenntnisse ersch pfen dann handelt es sich in der Regel um statische Vorgaben der Art Wenn Dich jemand fragt ob Du wei t wie sp t es ist dann antworte nicht mit JA sondern antworte mit der Uhrzeit Gl cklicherweise ist die Behandlung der Pragmatik in Computeranwendungen jedoch bei weitem nicht von der gleichen Bedeutung wie im zwischenmenschlichen Umgang so da diese simplen Ma nahmen schon recht gute Erfolge zeigen
144. immen und die sonstigen Satzteile welche auf den Satz als Ganzes wirken Es wurden in dieser Auflistung diejenigen Satzteile au er acht gelassen die in dem hier beschriebenen Rahmen keine oder nur eine sehr geringe Bedeutung haben Dazu z hlen e der Gleichsetzungsakkusativ Er nennt seinen Hund einen Idioten e der Anredenominativ Herr M ller halten Sie doch bitte den Mund e der absolute Nominativ Schlie lich hielt er den Mund ein guter Entschlu e der absolute Akkusativ Er sa also da die Augen geschlossen und lauschte nur noch 2 5 1 Subjekt D1031 1032 Das Subjekt ist der formale Ansatzpunkt des Geschehens Es steht im Nominativ wenn das Glied einfach und im Fall bestimmt ist und kann mit Wer oder Was erfragt werden stehen wegen eines Gleichsetzungsnominativs zwei Nominative ist in der Regel der erste das Subjekt Eine kompliziertere M glichkeit ist die da die Stelle des Subjekts von einem Teilsatz oder einer Infinitivkonstruktion besetzt wird wie in 52 KAPITEL 2 DEUTSCH Wer andern in der Nase bohrt ist selbst ein Schwein ndern in der Nase zu bohren ist nicht einfach Bei der Umwandlung eines aktiven Satzes ins Passiv wird aus dem Subjekt entweder von und Dativ oder durch und Akkusativ Eine Sonderrolle nimmt der Platzhalter Es ein Dieser Platzhalter dient dazu die erste Stelle im Satz zu besetzen wenn das Subjekt hinter das Pr dikat oder dessen ersten Teil geschoben werden soll Ein Mann
145. ine Beantwortung der Frage mit Ja erlaubt Also die Frage Ist Informatik schwierig kann zumindest dann mit Ja beantwortet werden wenn die exakt passende Aussage Informatik ist schwierig als gegeben vorliegt und genau auf diese Aussage wird die Frage abgebildet 2 6 9 Befehlssatz Ein Befehlssatz liegt vor wenn erstens das Pr dikat an der ersten Stelle im Satz steht und es zweitens Imperativform hat Ein Befehlssatz hat kein Subjekt die Rolle des Agenten bleibt also unbesetzt Eine Umformung zur Abbildung auf einen Aussagesatz ist nicht notwendig 2 7 Besondere Themen 2 7 1 Ellipsen Bei der Einsparung von Redeteilen Ellipse fallen Satzteile weg ohne da der Satz dadurch unverst ndlich wird D1142 1144 In der extremen Form entstehen dabei Einworts tze meist mit feststehender Bedeutung Hilfe Feuer Guten Tag Willkommen In abgeschw chter Form bleiben weitere Satzteile stehen La das Wird erledigt Man kann folgende wiederkehrenden Formen der Ellipse erkennen 64 KAPITEL 2 DEUTSCH Bei der Einsparung von Redeteilen in gleichkonstruierten S tzen werden gemeinsame Redeteile ausgelassen Ich gehe ins Wohnzimmer und du ins Bett Diese Zusammen fassung kann mit oder ohne Konjunktion erfolgen Es darfin einer Reihe von F llen jedoch nicht ausgelassen werden So immer dann wenn die auszulassenden Teile nicht kongruent sind wechselnder Fall bei Pronomen unterschiedliche Zahl bei Hilfsverben oder verschiedene Bedeutung
146. ingabeumlenkung kann also verschachtelt werden Zeige Fallschablonen SARA erfragt den Namen einer Fallschablone und eventuell auch einen Ausgabedateinamen siehe la Die angegebene Fallschablone wird gesucht und falls m glich ausgegeben Eine leere Eingabe f r den Namen f hrt zur Ausgabe aller Fallschablonen die sich in der Wissensbasis befinden Hilfesystem Zeige als Ausgabe nach der Analyse eines Eingabesatzes die Kom Nat rlich ist diese Bezeichnung bl de Aber es gibt nun mal nur 26 lateinische Buchstaben 128 KAPITEL 7 BEDIENUNG mentarfelder der instanziierten Fallschablonen und die Definitionen der zugeh rigen Kopfkonzepte Dieser Modus wird hiermit ein und auch wieder ausgeschaltet i Instanziierungen Zeige als Ausgabe nach der Analyse eines Eingabesatzes die Instanzi ierungen der erkannten Fallschablonen Dieser Modus wird hiermit aus und auch wieder eingeschaltet Zeige Konzepthierarchie Analog zu El 1 Lese Wissensbasis Es wird der Reihe nach erfragt 1 Der Name der Datei die die Wissensbasis enth lt kein Standardwert eine leere Eingabe f hrt zum Beenden des Kom mandos und 2 eventuell siehe la der Name einer Ausgabedatei f r die Fehlermeldun gen und Warnungen Anschlie end wird die betreffende Datei als Wissensbasis eingelesen Dabei werden bei syntaktisch unzul ssigen oder unsinnigen Eingaben entsprechende Mel dungen ausgegeben Es kann als Dateiname der Wissensbasis ein Minuszeichen ein
147. ist eine Apposition ja auch eine Gleichsetzung Diesem Effekt liegt das Motto Rettet dem Dativ zugrunde das auch an anderen Stellen in der deutschen Gegenwartssprache Wirkung zeigt 50 KAPITEL 2 DEUTSCH Pr sens Es steht die Pr sensform des Vollverbs wobei ein abtrennbares Pr fix abgetrennt wird und an die allerletzte Stelle im Hauptsatz gestellt Dies gilt im Indikativ wie im Konjunktiv I Pr teritum analog zum Pr sens jedoch mit den Pr teritumformen Futur I das Pr sens bei Konjunktiv I das Pr teritum von werden steht mit dem Inifinitiv Pr sens z B es wird gehen Futur IT dito jedoch Infinitiv Perfekt z B es wird gegangen sein Perfekt Pr sens von haben oder von sein Welches der beiden Hilfsverben im Per fekt genauso im Plusquamperfekt verwendet wird h ngt vom Verb ab Mit haben stehen transitive Verben die meisten reflexiven Verben und diejenigen intransi tiven Verben die ein Geschehen in seinem unvollendeten Verlauf in seiner Dauer ausdr cken D198 Die brigen intransitiven Verben stehen mit sein und dem 2 Partizip z B es hat funktioniert es ist gegangen Plusquamperfekt Pr teritum von haben oder von sein mit 2 Partizip z B es hatte funktioniert es war gegangen Infinitiv Pr sens Dies ist die Grundform des Verbs Der Infinitiv Pr sens mit zu wird gebildet in dem man bei Verben ohne abtrennbares Pr fix zu voranstellt bei Verben mit abtrennbarem Pr fix
148. it ab von an und Nebens tze nur mit nachdem oder sobald Fragen Wann oder Ab wann Seit wann Von wann an 20 Ende dito mit der Pr position bis oder Nebensatz mit bevor Fragen Wann Bis wann 21 Dauer Zeitintervallangabe mittels zweier Zeitpunktsangaben mit einer Formulierung wie von bis oder rein quantitatives Zeitintervall z B 10 Minuten eventuell erg nzt durch lang o oder Nebensatz mit w hrend Frage immer Wie lange oder Wielange e Rollen der Art und Weise im weitesten Sinne 22 Art und Weise Partizipien Adjektive und Adverben als Adverben beim Pr dikat oder mit Dat Fragen Wie Auf welche Weise Substantivisch durch Vergleich Nom wie ein 23 Grad oder Intensit t bestimmte Adverben beim Pr dikat oder indirekte Beschreibung in Nebens tzen Frage Wie Wie sehr 3 4 CHART PARSING 73 24 Folge Nebens tze mit so da weswegen weshalb womit wodurch Fragen Mit welcher Folge Mit welchem Ergebnis etc e Rollen zur Begr ndung 25 Grund Nebensatz mit weil da oder Hauptsatz mit denn Frage Wieso Weshalb Warum 26 Zweck Nebensatz mit um zu Fragen wie bei Grund und dazu Zu welchem Zweck Wozu Wof r etc 27 Vorbedingung Nebens tze mit falls wenn sobald Fragen Wann In welchem Fall Unter welcher Bedingung Unter welchen Umst nden 3 4 Chart Parsing SARA baut auf einer Analyse mit einer zentralen Datenstruktur namens Act
149. ive Chart auf Motivation f r die Konstruktion eines Charts ist die Beobachtung da sowohl Bottom Up als auch Top Down Verfahren f r die Zerteilung bei geradliniger Verwendung erhebliche Mengen an redundanter Arbeit leisten m ssen sobald ein einmal eingeschlagener Weg sich als falsch erweist also ein R cksetzen notwendig wird In diesem Fall gehen n mlich alle bisher gewonnenen Informationen verloren es bleibt nur das Wissen um den fehlgeschla genen Versuch an sich Das hei t da die Arbeit die n tig war um irgendwelche Teil strukturen zu erkennen ignoriert wird und eventuell noch einmal oder mehrmals neu geleistet werden mu Nun ist aber das R cksetzen nur bei der Analyse speziell gestalteter Sprachen zu vermeiden bei nat rlichen Sprachen jedenfalls nicht und so sinnt man auf Abhilfe Eine M glichkeit ist alle bisher erzeugten Teilergebnisse in einer Tabelle well formed substring table abzuspeichern Ein Chart ist nun lediglich eine besondere Darstellungs und Betrachtungsweise dieser Tabelle man betrachte den Eingabetext als gerichteten Graphen in der Weise da man jedes Eingabewort als die Markierung einer Kante dieses Graphen auffa t und die Eingabew rter in ihrer tats chlichen Reihenfolge hintereinander anordnet Die Knoten des Graphen liegen also vor dem ersten und hinter dem letzten Wort und in allen Wortzwischenr umen Alle Informationen f r einen Chart Parser werden in den Kanten dieses G
150. junktion lokaladverb temporaladverb modaladverb definition definition string e synonymliste synonyme wortfolge e oberbegriffsliste oberbegriffe wortfolge e substantivquerverweis substantiv wort e 4 6 DAS ROLLEN VERZEICHNIS 87 Bei den Schl sselworten sind alternativ zu synonyme oberbegriffe und substantiv auch syn ober und sub zu verwenden Erl uterungen zur Grammatik 1 Der Name des Eintrags ist beliebig Er ist insbesondere in keiner Weise an die Namen von W rterbucheintr gen gekoppelt 2 Die Identifikation eines Konzepteintrages erfolgt durch seinen Namen 3 Der Eintrag der Definition wird vom Zerteiler auf Wunsch ausgegeben wenn das be treffende Konzept den Kopf einer Fallschabloneninstanziierung bildet die die ganze Eingabe abdeckt 4 Die Synonymliste stellt die einzige Verbindung zwischen den Konzepteintr gen und den W rterbucheintr gen her Aus diesem Grund mu in der Synonymliste auch ein mit dem Konzeptnamen bereinstimmendes Synonym falls existent mit angegeben werden Als Synonym gibt man jeweils einen Wortnamen an nicht eine Wortform Beachte da der Wortname von Verben mit abtrennbarem Pr fix diesen nicht mit enth lt es braucht deshalb f r eine beliebige Anzahl von Verben die sich nur im Pr fix unterscheiden nur ein Synonymeintrag gemacht zu werden 5 Die Wortartangabe wird herangezogen um die Menge der betrachteten W rter bucheintr ge
151. k a kkk und konjunktion oder konjunktion sowie konjunktion aber konjunktion sondern konjunktion waehrend konjunktion als konjunktion nachdem konjunktion seitdem konjunktion bis konjunktion ehe konjunktion insofern konjunktion insoweit konjunktion weil konjunktion da konjunktion dass konjunktion ob konjunktion wenn konjunktion obwohl konjunktion etc Jad Modaladverben 0000000 kkk kkk Nur solche zur Gradabschattung bei Adjektiven beinah modaladverb einigermassen modaladverb etwas modaladverb fast modaladverb halbwegs modaladverb recht modaladverb sehr modaladverb wirklich modaladverb ziemlich modaladverb jaaa ROLLEN z it dk dk kk dek kk kkk mm Personen oder wie Personen beteiligte Objekte lt lt agent subjekt wird durch einen Imperativ erledigt nur_verbal nominativ die Mutter geht nur_nominal genitiv der Tanz meines Vaters frage wer frage was fragenominativ gt gt lt lt koagent dativ mit die Mutter geht mit dem Kind einkaufen frage mit wem fragedativ mit 140 ANHANG A STANDARD WISSENSBASIS SARA STD fragedativ zusammen mit lt lt patient dativ er schlug dem Gegner den Ball um die Ohren frage wem fragedativ gt gt lt lt nutzniesser dativ ich schenke dem Geburtstagskind akkus
152. kt etwa Erstaunen oder Bewunderung Das Finitum kann hier an erster zweiter oder letzter Stelle stehen Betrachtet er aber intensiv seinen Fu Oh er be trachtet seinen Fu Wie sch n er seinen Fu betrachtet Die Analyse solcher S tze ist wegen der freien Verbstellung eventuell schwierig aber sie haben f r die Verar beitung nat rlicher Sprache ohnehin kaum eine Bedeutung oder k nnen einfach wie ein Aussagesatz verstanden werden und werden deshalb hier nicht weiter betrachtet e Ein Wunschsatz dr ckt etwas aus das vom Sprecher erw nscht oder angestrebt wird D1010 sei es nun erreichbar oder nicht Ein Wunschsatz mu sich nicht notwendig an eine bestimmte Person richten Wunschs tze stehen im Konjunktiv das Finitum Piir Bemerkungen zur pragmatischen Interpretation siehe Abschnitt 1 2 1 3 ber die Pragmatik auf Seite 20 58 KAPITEL 2 DEUTSCH nimmt die erste zweite oder letzte Stelle ein Fiele mir doch nur ein besseres Beispiel ein Mein Gehirn helfe mir Wenn mir doch nur eine Idee k me F r die Schwierigkeit und Wichtigkeit gilt das zu Ausrufes tzen gesagte Ein Aufforderungssatz enth lt ebenfalls einen Wunsch D1010 Dieser ist jedoch nicht ausdr cklich dargestellt sondern der Satz richtet eine Aufforderung zu dessen Erf llung an ein bestimmtes Gegen ber Das Finitum ist ein Imperativ und steht an erster Stelle Betrachte deinen Fu Mit einem Fragesatz D1011 wird eine Information angefordert er ist
153. l ssig sind In Imperativs tzen gibt es kein Subjekt Diese Tatsache kann bei der Steuerung des Zerteilers Probleme bereiten wenn er nicht wei da die Rolle die eigentlich vom Sub jekt gef llt wird bei einem Imperativsatz nun nicht aufzutauchen braucht Der Zerteiler k nnte n mlich bei seiner G tebewertung die Instanziierung als schlecht ansehen obwohl sie es gar nicht ist Dies ist vor allem deshalb kritisch weil das Subjekt ein ansonsten meist unverzichtbarer Teil des Satzes ist und deshalb die G tebewertung auf sein Fehlen empfindlich reagieren mu Es sollte also eine M glichkeit geben im Rollenverzeichnis zu signalisieren wenn eine Rolle im Imperativ wegf llt Zu diesem Zweck gibt es eine Subjektmarkierung 4 6 3 Aufbau Die Eintr ge ins Rollenverzeichnis enthalten einen Rollennamen eine Beschreibung der Darstellungsformen in denen die Rolle auftreten kann und eine Beschreibung der Frage formeln die es erlauben diese Rolle zu erfragen Hier also die BNF Grammatik f r die Rollenverzeichniseintr ge rolleneintrag lt lt rollenname subjekt rollenformen verbalrollenformen nominalrollenformen frageformen gt gt rollenname wort subjekt subjekt 4 6 DAS ROLLEN VERZEICHNIS e rollenformen rollenformen rollenform e rollenform nominativ genitiv dativ akkusativ lokaladverbial modaladverbial temporaladverbial nominativ wortfolge genitiv wortfolge dativ
154. lartyp und die Form des Nominativ Plural den Pluraltyp Diese Arbeitsweise senkt die Fehlerh ufigkeit bei der Erstellung des W rterbuches ab und erleichtert es das Eingabeformat zu erlernen Bei Verben gibt es drei Klassen regelm ige Verben Verben mit Stammvokal nderung und v llig unregelm ige Da die nicht regelm igen Verben nur einen sehr geringen Teil des Verbwortschatzes aus machen habe ich mich entschlossen eine automatische Formenerzeugung nur f r die echt regelm igen Verben vorzusehen Alle brigen Wortarten sind vollkommen unregelm ig F r sie gibt es wie auch bei Bedarf f r Adjektive Verben und Substantive eine M glichkeit f r jede einzelne Form eine Liste von alternativ m glichen Oberfl chenformen von Hand einzugeben Das gew hlte Eingabeformat ist recht statisch ein Vertauschen der Teile ist innerhalb eines Worteintrags nirgends erlaubt Diese Eigenschaft f rdert ein einheitliches Erscheinungsbild der W rterb cher und senkt damit die Fehleranf lligkeit 4 4 3 Aufbau Hier also eine BNF Grammatik f r die Eintr ge ins W rterbuch der Eintrag steht zur besseren Kennzeichnung leerer Alternativen w rterbucheintrag IJ name wortbeschreibung name wort wortbeschreibung verb allgemeines regelmaessig verb allgemeines verbformen praefix hilfsverb allgemeines verbformen modalverb allgemeines verbformen substantiv allgemeines substantivtyp substanti
155. le bereits eine erfolgreiche oder erfolglose Kante zu der gleichen Hypothese im Chart einge tragen ist Die Interpretation als Artikel dient zur Beherrschung gro geschriebener Pronomina 96 KAPITEL 4 ARCHITEKTUR Bei einem reinrassigen Chart Parser w rden nur neue aktive Kanten vorgeschlagen die zun chst die L nge Null haben oder es wird eine aktive mit einer direkt an sie an schlie enden erfolgreichen Kante verbunden wobei eine neue Kante entsteht die aktiv oder erfolgreich sein kann Von dieser Arbeitsweise wird jedoch hier abgewichen Es ist zus tzlich m glich da eine aktive Kante mit einer erfolgreichen verbunden wird ohne da eine neue Kante entsteht die Kante wird also verl ngert wenn sichergestellt ist da dennoch alle Mehrdeutigkeiten ausgesch pft werden Die Zerteilung ist beendet sobald es keine aktiven Kanten mehr gibt Nach Ende der Zerteilung sollte es eine oder mehrere erfolgreiche Kanten ber die volle L nge des Eingabesatzes geben diese stellen das Ergebnis oder bei Mehrdeutigkeit die Ergebnisse dar Falls es keine Kante ber die gesamte L nge gibt werden die besten Teill sungen pr sentiert Daraus ergibt sich auf der u ersten Ebene folgender Algorithmus zerteilen baue chart c auf while noch mindestens eine aktive kante in c vorhanden waehle eine aktive kante k aus bearbeite die aktive kante k end gib ergebnisse aus Beim Bearbeiten des Charts werden Instanzen von Fal
156. lgen dann also berhaupt keine Ausgaben was f r Leistungsmessungen des Zerteilers n tzlich sein kann 7 4 Ausgaben im EDGE Format EDGE Newbery88 ist ein Grapheneditor der insbesondere das automatische Layout von beliebigen Graphen beherrscht Da bei SARA Datenmengen von betr chtlicher Gr e ver wendet werden die die Struktur eines Graphen haben wurde eine M glichkeit vorgesehen diese Datenmengen in einem f r EDGE lesbaren Format auszugeben um eine leichtere Bearbeitung zu erm glichen In allen F llen wird die Anweisung include sarainclude grl mit in die Ausgabe aufgenommen 7 4 1 Konzepthierarchie Die Konzepthierarchie ist ein zyklenfreier gerichteter Graph dessen Knoten die Konzepte sind Die Kanten haben die Bedeutung ist Oberkonzept von Die Konzepthierar chie wird immer dann im EDGE Format ausgegeben wenn beim Kommando kein Name angegeben wird also alle Konzepte ausgegeben werden sollen Die EDGE Ausgabe erfolgt ohne weitere Bedienaktion oder Meldung und landet immer in der Datei sara_konzepte grl Die Knoten tragen als Titel den Konzeptnamen die Kanten bleiben unbenannt Jeder Knoten hat als typename die Wortart seines Konzepts Fiir diese Typnamen kann in sarainclude grl eine Layoutvorschrift angegeben werden 7 4 2 Chart Das Chart ist ein gerichteter Graph mit genau einer Quelle Fingabeanfang und einer Senke Eingabeende dessen brige Knoten die Wortzwischenpositionen sind Die Kan ten tragen
157. lschablonen gesucht und daraus Instanziierungen von Fallschablonen erzeugt Zum leichteren Verst ndnis folgen hier grobe Definitionen dieser Begriffe im Sinne der folgenden Abschnitte Definition Fallschablone Eine Fallschablone ist ein Datenobjekt der Wissensbasis Sie gibt eine ab strakte Beschreibung einer Klasse von Eingaben des Benutzers Fallschablonen werden vom Zerteiler nur gelesen jedoch nicht ver ndert Verbale Fallschablo nen beschreiben Haupt oder Nebens tze wie Ich sehe das Buch im Schrank nominale Fallschablonen beschreiben Substantive mit Rollenf llern als At tributen wie das Buch im Schrank Definition Instanz Eine Instanz einer Fallschablone ist eine Eingabe oder ein Teil einer Eingabe des Benutzers Sie geh rt zu der Klasse von Eingabes tzen die die Fallschablone beschreibt Instanzen werden vom Benutzer eingegeben und vom Zerteiler lediglich gesucht jedoch nicht ver ndert Definition Instanziierung Eine Instanziierung einer Fallschablone ist ein Datenobjekt des Zerteilers Sie beschreibt wie eine Instanz auf eine Fallschablone abgebildet wird Instanzi ierungen werden vom Zerteiler aufgebaut und ver ndert und bilden das Ergeb nis des Analyseproze es Auch der Vorgang des Aufbaus einer Instanziierung wird als Instanziierung bezeichnet Instanziierungen sind Kanten im Chart sie haben deshalb zu jedem Zeitpunkt einen bestimmten Anfangs und Endpunkt im Eingabesatz 4 8 DER ZERTEILER
158. lschablonensystemen sind e Die Erweiterung des semantischen Wissens wird durch dessen saubere Abgrenzung und seine Realisierung als Datenstruktur einfach e Solche Systeme sind somit auch sehr leicht bertragbar auf ein anderes Sachgebiet der Anwendung e Sie k nnen robust gestaltet werden das hei t unempfindlich gegen ber gram matikalisch falschen Eingaben indem man eine tolerante Anwendung der Regeln im Zerteilungsalgorithmus vorsieht e Die syntaktischen und semantischen F higkeiten k nnen unabh ngig voneinander verbessert werden Kapitel 2 Deutsch Es gibt Dinge die man f nfzig Jahre wei und im einundf nfzigsten ist man erstaunt ber die Schwere und Furchtbarkeit ihres Inhalts Adalbert Stifter In diesem Kapitel sollen kurz die Kernbegriffe der deutschen Grammatik dargelegt werden mit einigen Hinweisen auf die Problempunkte bei der Gestaltung eines Fallschablonensys tems f r Deutsch Es gibt eine kaum berschaubare Anzahl von strukturell unterschiedlichen Darstellungen der deutschen Grammatik Ich werde mich nicht einer dieser Darstellungen vollst ndig an schlie en sondern mich lediglich an einer davon in der Hauptsache orientieren Duden 4 und immer dann abweichen und eine eigene Systematik einf hren wenn das im Hinblick auf die Aufgabenstellung der Analyse mit Fallschablonen eine Erleichterung verspricht Die Sichtweise bei der Beschreibung ist nicht so sehr eine streng formale grammatikorien t
159. lverst ndnisse in den Schnittstellen und einige bisher unbeachtet gebliebene andere Eigenschaften des Programms Leider ist dieser Nutzen weitgehend dahin wenn nur eine Person zur Durchf hrung zur Verf gung steht Dennoch zeigt die Praxis da es auch oft Erfolg hat bei einer Ein Mann Codeinspektion die Programmlogik dem Tischbein oder einem Druckbleistift zu erkl ren Ich habe f r manche Module eine Codeinspektion zu zweit zusammen mit meinem Be treuer Rolf Adams durchgef hrt manche der brigen Module wurden einer Ein Mann Codeinspektion unterzogen Ferner wurde eine Codeinpektion unterhalb der Modulebene f r eine einzelne Prozedur durchgef hrt sobald ein Fehler einer Prozedur zugeordnet wurde auch wenn die Fehlerstelle offensichtlich zu sein schien Zur Fehlerlokalisierung habe ich wo es gewinnbringend erschien auch Walkthroughs verwendet die ich mit Un terst tzung durch einen Debugger durchgef hrt habe Ansonsten wurden Walkthroughs nicht benutzt 6 7 Fehlerlokalisierung Zur genauen Beschreibung von Ort und Art eines entdeckten Fehlers gibt es eine Reihe von unterschiedlichen Vorgehensweisen Bei der Hau Ruck Methode werden unstrukturiert Debugger und Ablaufverfolger einge setzt um irgendwie hinter den Fehler zu kommen oder gar aufs geratewohl nderungen am Programm gemacht nach dem Motto Mal sehen was passiert wenn ich hier statt einer 0 eine 1 hinschreibe Die Teekesselchen Methode induktives Vorge
160. lyse k nnen sich nun alle Eintr ge beliebig ndern Nach der Analyse werden alle f r die jeweilige Wortart nicht relevanten Eintr ge auf Leerwerte gesetzt Im Einzelnen stamm Die Stammangabe kann entfallen wenn sie mit dem Namen des W rter bucheintrages bereinstimmen w rde ausgenommen bei Verben mit abtrennbarem Pr fix Der Wortstamm f r automatisch erzeugte Formen ist bei Substantiven der Nominativ Singular und bei Adjektiven die ungebeugte Form Bei Substantiven kann gegebenenfalls der umlautende Stammvokal mit einem vorangehenden markiert 4 4 10 DAS W RTERBUCH 83 sein gibt es eine solche Markierung nicht wird der erste Vokal als Stammvokal angenommen Bei Verben ist die Stammangabe stets notwendig wenn sich nicht der Stamm durch Abtrennen von en oder n falls kein e vorhanden vom Namen des Eintrags ergibt Die Angabe des Verbstammes darf einen eventuell zum Wort geh renden abtrennbaren Pr fix nicht umfassen Nur dann kann die n tige Infor mation zur Verarbeitung von Verben mit abgetrenntem Pr fix erzeugt werden z B Name aufmachen hat stamm mach der dann erzeugte Wortname lautet machen und dies wird ggf als Synonym in der Konzepthierarchie angegeben siehe dort In anderen F llen sind Angaben zum Stamm nicht n tig geschlecht relevant f r Substantive und teilweise die Pronomen Standard wert ist bei regelm igen Substantiven mit Singulartyp S weiblich bei Plural typ
161. m Zerteiler um ein Programm das eine Analyse von nat rlichsprachlichen u erungen vornehmen soll Wie dies vor sich geht und welche Form die Ausgaben haben h ngt jedoch stark von der Art des Systems ab Bei SARA wird zur Analyse ein Chart Parser verwendet s Abschnitt 3 4 und die Ausgaben haben die Form von Instanziierungen von Fallschablonen Der Zerteiler hat die Aufgabe die eingegebene u erung anhand der Fallschablonen in eine oder mehrere Instanziierungen umzusetzen 3 1 4 Was ist ein Fallschablonenzerteiler Ein Fallschablonenzerteiler ist ein Zerteiler der neben dem Eingabesatz noch eine zweite Datenmenge ben tigt die Fallschablonen Ob man diese Fallschablonen nun als Teil des Zerteilers betrachtet oder als Teil der Eingabe an ihn ist eine reine Geschmackssache Ein Fallschablonenzerteiler versucht den Eingabesatz auf eine dieser Fallschablonen abzu bilden das hei t die Eingabe wird zu Wortgruppen zusammengefasst und jede dieser Wortgruppen wird einer Rolle oder dem Kopf der Fallschablone zugeordnet Dabei k nnen sich Mehrdeutigkeiten ergeben weil sich dem gefundenen Verb mehr als eine Fallsch ablone zuordnen l t oder weil sich manche der Wortgruppen als F ller f r mehr als eine der Rollen in der jeweils betrachteten Fallschablone eignen Das Analyseergebnis eines Fallschablonenzerteilers ist also im Allgemeinen eine Menge von Instanziierungen und ver ndert sich nicht nur mit ver nderter Eingabe sondern auch mit v
162. m m glichst einen Fehler hervorzurufen Der Rest dieses Kapitels besch ftigt sich haupts chlich mit diesem Problem Ist bei keinem dieser Testf lle ein Fehler aufgetreten so ist das Testen des Programms oder Moduls beendet andernfalls fahre mit Stufe 2 fort 2 Fehlerlokalisierung Ist festgestellt worden da ein Fehler vorliegt mu man nun ermitteln wo er sich befindet und wie er zustande kommt Dazu gibt es eine Reihe von unterschiedlichen Ans tzen die im Abschnitt 6 7 behandelt werden 3 Fehlerbehebung Hat man den Fehler nun genau beschrieben so mu er beseitigt werden es gibt entweder ein kleines fehlerhaftes Programmst ck das korrigiert werden kann oft nur eine Anweisung oder ein Ausdruck oder es mu ein gewisser gr erer Teil des Programms oder Moduls umgestaltet werden In beiden F llen kann durch die Fehlerbehebung ein neuer Fehler entstehen au erdem sind vielleicht bei Stufe 1 mehrere Fehler an den Fehlersymptomen beteiligt gewesen Deshalb mu nun wieder bei Stufe 1 begonnen werden 6 3 Big Bang Test lt gt inkrementeller Test Beim sogenannten Big Bang Testen oder auch nichtinkrementellem Testen werden alle Module zugleich getestet Der Big Bang Test findet also statt sobald das Programm fertig kodiert ist Es werden Testfalle auf Anwendungsebene verwendet Beim inkrementellen Testen wird stets nur ein Modul getestet Die getesteten Module werden nach und nach zum kompletten Programm zusammengebaut und zwar
163. men der Verarbeitung nat rlicher Sprache ist mittelm ig F r manche Sprachen vor allem solche mit verh ltnism ig fester Wortstellung wie das Englische lassen sich die meisten relevanten Konstruktionen zufriedenstellend syntaktisch analysieren Allerdings liegt der bisher realisierte Deckungs grad auch dort noch unter 100 Prozent F r Sprachen die aufgrund freierer Wortstellung eine gr ere Variationsbreite g ngiger Ausdrucksformen aufweisen wie zum Beispiel dem Deutschen ist die bisher erreichte syntaktische Abdeckung wesentlich geringer Dies ist allerdings in beiden F llen nicht als ein grunds tzliches Problem aufzufassen vielmehr mu man die rein syntaktische Analyse als ein im Prinzip gel stes Problem ansehen Allerdings ist der Aufwand f r eine vollst ndige Beherrschung wegen der gro en Kom plexit t und Unregelm igkeit nat rlicher Sprachen gewaltig Im Deutschen sind die Er folge bisher vor allem deshalb recht gering weil erstens im Vergleich zu Englisch keine allzu gro en Anstrengungen unternommen wurden und zweitens der Aufwand wegen der Kompliziertheit der deutschen Grammatik besonders gro ist 1 2 1 2 Semantik Bei der Semantik ergibt sich eine hnliche Unterscheidung wie bei der Syntax Man kann sie als die Lehre von der Bedeutung von u erungen auffassen oder als die Bedeutung einer einzelnen u erung oder deren strukturelle Beschreibung Betrachtet man die Einzelf lle so kann man noch sinnvoll
164. mit einer Frageformel und decken die gesamte Eingabe ab Sie k nnen die Form einer Nominalgruppe oder eines Hauptsatzes haben Bei der Form als Hauptsatz z B Welches Beispiel meinst Du f llt die Frageformel eine Rolle Bei der Form als Nominalgruppe z B Welches Beispiel ist die Frage formel bereits das gesamte Ergebnis Die Frageformel besteht aus einer Folge von Frageworten meist Null oder eine Pr position und das Interrogativpronomen und dem Substantiv nach dem gefragt wird Ein Fragezeichen wird zum Erkennen von Frages tzen grunds tzlich nicht ben tigt W Fragen ohne Substantiv in Hauptsatzform werden analog behandelt jedoch wird beim F llen einer Rolle keine Einschr nkung bez glich des F llerkonzeptes gemacht da ein solches ja nicht zur Verf gung steht Eine Interpretation als Nominalgruppe wird mangels Substantiv nicht vorgenommen Die Frageformel besteht hier nur aus einer Folge von Frageworten z B Links von was steht er Ja Nein Fragen beginnen mit einem Verb und decken die gesamte Eingabe ab Sie werden ansonsten genau analog den Haupts tzen behandelt Wie bei den W Fragen ist auch hier kein Fragezeichen notwendig Imperativs tze beginnen mit einem Verb im Imperativ und decken die gesamte Eingabe ab Diejenigen Rollen in der erkannten Fallschablone die im Rollenverzeichnis als Sub jektrolle gekennzeichnet sind werden als nicht ben tigt gestrichen und bei der Be wertung der Kante unber cksichtigt gela
165. mu beim Aufbauen des Chart mindestens eine aktive Kante eingetragen werden dies geht so vor sich 4 8 DER ZERTEILER 99 baue chart c auf trage alle wortkanten ein Worte Strings Zahlen for alle verben v in irgendeiner Reihenfolge do trage verbale fallschablone ein end if erstes wort ist fragewort trage aktive frageformelkante ein end for alle substantive s von hinten nach vorn do trage nominale fallschablone ein end Jedes Eingabewort hat potentiell laut W rterbuch eine Reihe von Interpretationen Jede dieser Interpretationen kann bei manchen Wortarten insbesondere Verb und Substantiv laut Konzepthierarchie eine Reihe von zugeh rigen Konzepteintr gen haben Mit v und s sind oben diese Konzepte gemeint Das Eintragen einer Fallschablonen oder Frage formelkante bedeutet dabei jeweils die Erzeugung einer aktiven Kante mit L nge 0 und Startpunkt bei dem Konzept Diese aktive Kante wird dann sp ter instanziiert Das Eintragen geschieht ungef hr so trage verbale fallschablone ein erzeuge fallschablonenkante f aus v f el inst verbal true trage nominale fallschablone ein erzeuge fallschablonenkante f aus s f el inst verbal false erzeuge fallschablonenkante f aus w erzeuge neue kante k im chart beim startpunkt von w initialisiere k als leere instanziierung k el inst kopf w k el inst offene_rollen sammle rollen w Das Sammeln von Rollen bedeutet die Bildung der Fallschablo
166. n ebenfalls resultats jedoch nicht dialogorientierter Ansatz Beide haben gemein da sie aus heutiger Sicht in ihrer Allgemeinheit nicht realisierbar sind und daher bislang nur von beschr nktem praktischen Nutzen als Leitschnur wis senschaftlicher Arbeit sein k nnen Andere Betrachtungen der Verarbeitung nat rlicher Sprache orientieren sich mehr an tech nischen Gesichtspunkten So definieren Hayes und Carbonell natural language processing als die Formulierung und Untersuchung effektiv berechenbarer Mechanismen zur Kommu nikation durch nat rliche Sprache HayCar87 Auch dieser Ansatz mu sich jedoch vorwerfen lassen da er bei weitem zu allgemein ist 16 1 1 AUFGABE 17 um als eine Handlungsrichtlinie f r die Erarbeitung eines praktisch einsetzbaren Systems brauchbar zu sein Das Fernziel dieser Arbeit ist jedoch gerade ein praktisch einsetzbares System daher ben tigen wir hier eine Definition deren Inhalt realisierbar und konkret ist Um beschreiben zu k nnen was unter Verarbeitung nat rlicher Sprache im Sinne dieser Arbeit zu verstehen ist ben tigen wir zunchst einmal die folgenden zwei Begriffe Definition Fachidiot Ein Fachidiot ist ein System das auf einem engumgrenzten Gebiet ein weitge hend vollst ndiges und exaktes Wissen hat und in der Lage ist dieses anzuwen den Das Wissen eines Fachidioten ber die Welt au erhalb seines Fachgebietes kann beliebig gering sein Dies unterscheidet sich e
167. n jedoch nicht wie beim Substantiv allein vom Wort ab sondern wechseln je nach Art der Verwendung Es gibt die Typen I II und III siehe Tabelle 2 9 die wie folgt verwendet werden D475 500 e Der Typ I steht prim r wenn das Adjektiv ohne einen Artikel verwendet wird Er f hlte kalten Schwei ferner auch nach endungslosen Zahladjektiven drei gr ne Spitzen und den endungslosen Formen etwas manch mehr solch viel welch wenig D475 Dieser Typ enth lt Endungen mit viel Information und mu deshalb immer dort verwendet werden wo diese Information noch nicht anderweitig geliefert wird Da seine Formen weitgehend mit denen des Pronomens dieser diese dieses berein 1 Ausnahmen der m nnliche und der s chliche Genitiv Singular 2 2 BEUGUNG 45 stimmen wird er auch pronominale oder determiniernde Deklination des Adjektivs genannt Der Typ II steht prim r nach einem bestimmten Artikel Der kalte Schwei brach ihm aus und ferner nach den Formen von derselb derjenig dies jed jedwed jeglich jen D476 Diese Formen enthalten wie der bestimmte Artikel bereits viel Infor mation Deshalb kommen in der Beugung des Adjektivs nur noch zwei verschiedene Formen vor n mlich im weiblichen und s chlichen Nominativ und Akkusativ Sin gular das e in allen anderen Formen das en Der Typ III steht prim r nach dem unbestimmten Artikel und dessen Vernein ungsform Er f hlte keinen kalten Schwei und ferner na
168. n pr po sitionalen Satzadjektive wie von klein auf ber kurz oder lang und die damit verwandten durch eine Satzteilkonjunktion z B wie oder als abgetrennten zugeordneten Satzadjektive wie Es sah aus wie neu 2 5 6 Satzpartikel Satzpartikel nennt man ein im Fall unbestimmtes Satzglied mit Partikel genauer Adverb im Kern D1048 1050 z B Gestern kam sie Dort war es Analog zur Situation bei den Satzadjektiven gibt es auch bei den Satzpartikeln solche die mit Pr positionen stehen und prdpositionale Satzpartikeln genannt werden z B Bis gestern ging es Alles Gute kommt von oben Auch die zugeordneten Satzpartikel existieren in exakt analoger Weise Mir geht es wie immer 13 Dies sind der Reihe nach Subjektbezug Grenzfall Objektbezug Pr dikatsbezug 2 6 SATZ 57 2 6 Satz 2 6 1 Grunds tzliches Der Satz stellt verglichen mit dem bisher Besprochenen eine neue Stufe sprachlicher Ein heiten dar Ein Satz ist grammatikalisch aus den bisher beschriebenen kleineren Einheiten aufgebaut und mit gewissen Einschr nkungen inhaltlich abgeschlossen Angesichts der daraus erwachsenden Vielfalt der Struktur Satz stellt sich die Frage nach einer Grobun terteilung Eine solche Unterteilung k nnte nach formalen oder inhaltlichen Merkmalen vorgenommen werden In der deutschen Sprache bieten sich dazu der formale Begriff der Satzform und der formale und inhaltliche Begriff der Satzart an Bei den Satzformen unterscheidet man D1012
169. nangenehmen Eigen schaften Es ist n mlich e unsystematisch d h die Regeln sind sehr umfangreich So gibt es beispielsweise allein f r die Pluralbildung bei Substantiven 11 verschiedene Regeln e unregelm ig d h zu fast allen Regeln gibt es auch eine gro e Zahl von Ausnahmen So ist bei der obenerw hnten Pluralbildung trotz der vielen regelm igen Formen auch noch ein unregelm igerPlural m glich e unvollst ndig d h nicht berall wo Beugung n tzliche Information liefern k nnte wird auch tats chlich gebeugt so kann zum Beispiel nicht durch Beugungsformen zwischen Wort und Satzkonjunktionen unterschieden werden e uneindeutig d h viele Beugungsformen f r unterschiedliche grammatikalische For men sind identisch So f llt zum Beispiel bei weiblichen und s chlichen Substantiven der Nominativ immer mit dem Akkusativ zusammen 2 2 1 Verb Die relevanten Merkmale bei der Beugung des Verbs Konjugation mit ihren m glichen Werten und Beispielen in der zweiten Person sind D183 e Zeit Tempus Pr sens Pr teritum Imperfekt Perfekt Plusquamperfekt Futur I Futur II liebst liebtest hast geliebt hattest geliebt wirst lieben wirst geliebt haben e Genus verbi Aktiv Vorgangs oder Zustands Passiv liebst wirst geliebt bist verzaubert 38 KAPITEL 2 DEUTSCH e Aussageweise Modus Indikativ Konjunktiv I Konjunktiv II Irrealis Imperativ liebst liebest liebtest liebe e Person erste
170. nannt M gliche Arten von Rollenf llern sind Substantive z B Mensch Lokaladverben zur Ortsangabe z B oben Modaladverben zur Angabe der Art und Weise z B l ssig Temporaladverben zur Angabe der Zeit z B gestern und ganze S tze z B Nebens tze mit weil zur Angabe eines Grundes 6 Neben der bisher beschriebenen Form von Fallschablonen f r ganze S tze den so genannten verbalen Fallschablonen kann man auch Fallschablonen angeben deren Kopf ein Substantiv ist die sogenannten nominalen Fallschablonen Manche Rollen lassen sich n mlich nicht nur S tzen zuordnen sondern auch einzelnen Substan tiven Ein Beispiel hierf r ist die Rolle Ort Der Garten hinter dem Haus Es ist stets m glich dort wo als F ller ein Substantiv erwartet wird statt eines Substan tivs eine Instanziierung s unten einer nominalen Fallschablone als Rollenf ller zu verwenden 3 1 2 Was ist der Zweck von Fallschablonen Man erh lt als Ausgabe eines Analyseprozesses mit Fallschablonen eine Fallschablone deren Rollen mit irgendwelchen Teilen des Eingabesatzes ausgef llt sind eine sogenan nte Instanziierung Diese ist nun verh ltnism ig leicht weiterzuverarbeiten F r die weitere Verarbeitung kann man sich beispielsweise zu jeder Fallschablone eine Prozedur zugeordnet denken deren Parameter die Rollenf ller sind Von jedem Parameter liegt die Bedeutung bereits fest nur der Wert kann sich von Mal zu Mal ver ndern Au erdem erlauben
171. nd bei verbalen Instanziierungen ist der Endpunkt entweder das Eingabeende Hauptsatz oder er liegt hinter dem Pr dikat Der Startpunkt mu aber bei Beginn der Instanziierung bereits festliegen Bei nominalen Fallschablonen ist der Beginn stets der Anfang der s oben Nominalphrase Bei ver balen Fallschablonen ist dieser Punkt jedoch nicht im Voraus festzustellen da die Stellung des Hauptverbs keine R ckschl sse auf den Beginn des zugeh rigen Satzes zul t Es gibt zwei F lle bei Haupts tzen ist der Beginn immer auch der Beginn der Eingabe bei Nebens tzen ist der Beginn hinter einer Konjunktion oder einem Relativpronomen irgendwo im Innern Es mu bei einem Nebensatz also erst diese einleitende Konjunk tion oder das Relativpronomen gefunden werden Dies kann man nicht ohne Weiteres mit linearer R ckw rtssuche vom Satzende aus tun da Nebens tze verschachtelt sein k nnen und zudem Relativpronomen massiv mehrdeutig mit Artikeln sind Die hier verwendete L sung des Problems ist folgende Eine aktive Kante f r die Instanzi ierung einer verbalen Fallschablone wird zun chst stets als Hauptsatzkante eingetragen 104 KAPITEL 4 ARCHITEKTUR Diese Kante wird zuerst zu instanziieren versucht Es wird jedoch die Urform dieser Kante die sogenannte Schwesterkante aufbewahrt und die Hauptsatzkante erh lt einen Verweis darauf Gelingt die Instanziierung der Hauptsatzkante so wird die Schwesterkante erfolglos gesetzt Bis d
172. ne aus dem Kopfkonzept Diese Fallschablone ergibt sich indem man die unmittelbar in einer gleichnamigen Fallsch ablone falls vorhanden angegebenen Rollen nimmt dazu alle die dort mit der erbe Klausel geerbt werden und dazu sukzessive die Konzepthierarchie hinaufsteigend alle Rollen die von Fallschablonen f r die Oberkonzepte des betrachteten Kopfkonzepts angegeben werden Dies geschieht etwa in folgender Weise sammle rollen w list fallschablonenrolle resultat nil if w hat fallschablone resultat w eigene_rollen d h inklusiv ausdruecklich Geerbte von kopflosen Fallschablonen end ergaenze resultat in breitensuche um rollen der oberkonzepte return resultat Es werden also auch dann Instanziierungskanten erzeugt wenn das betreffende Konzept gar keine eigene Fallschablone in der Fallschablonenmenge der Wissensbasis hat Die 100 KAPITEL 4 ARCHITEKTUR Rollen werden von den Oberbegriffen des Konzepts geerbt wobei bereits vorhandene Rollen ignoriert d h weder berschrieben noch mehrfach aufgenommen werden Im Extremfall entsteht dabei eine leere Liste von offenen Rollen die Instanziierung ist dann sofort zu Beginn ihrer Bearbeitung vollst ndig Jede Rolle enth lt Information ber die erwartete grammatikalische Form durch Angabe eines Rollennamens aus dem Rollenverze ichnis und ber die Art des erwarteten F llers durch Angabe eines F llerkonzepts Entscheidend beim Aufbau des Chart ist die Reihenf
173. nen Umlaut hat Tabelle 2 6 Beugung der Substantive in der Mehrzahl Pe PUe P PU n Plural er Plural Pn Pen Per PUer die Kammer n die Mensch en die Bild er die Rad er der Kammer n der Mensch en der Bild er der Rad er den Kammer n den Mensch en den Bild ern den Rad ern die Kammer n die Mensch en die Bild er die Rad er Tabelle 2 7 Beugung der Substantive in der Mehrzahl Pn Pen Per PUer Allerdings kann ein Substantiv mit oder ohne Bedeutungsunterschied in mehr als einer solchen Pluralform gebr uchlich sein vorwiegend umgangssprachlich oder im Dialekt z B die B lge die B lger die B nke die Banken Eine weitere rein umgangssprach liche Ver nderung ist ein zus tzliches Anh ngen von s an den Plural Dies geschieht in allen Pluralformen au er dem s Plural z B Die Jungens und M dchens wobei teilweise zus tzlich die originalen Pluralformen verbogen werden z B im Akkusativ den H users D387 391 Die Beugung der diversen Pronomen ist sehr unregelm ig und wird hier aus Platzgr nden ausgelassen sie kann bei Bedarf dem Anhang A entnommen werden Shier Textilien von Textilium hier Textilien von Textil 44 KAPITEL 2 DEUTSCH s Plural Fremdwortplural Pss Pi Pue Nominativ die Oma s die Bildnis se die Sol i die Konsili en Genitiv der Oma s der Bildnis se der Sol i der Konsili en Dativ den Oma s den Bildnis sen den Sol i den Konsili en Akkusativ die Oma s die Bildnis se die Sol i
174. nen wird als bekannt vorausgesetzt f r leere Alternativen steht jeweils e Die Grundelemente der Eingabe sprache token sind die Schl sselw rter die jeweils mit einem Doppelpunkt beginnen sowie die Zeichenkette include und Objekte vom Typ wort string oder zahl Die Token werden durch beliebig viele Zwischenraumzeichen getrennt Zwischenraumzeichen sind das Leerzeichen das Zeilenendezeichen das Tabulatorzeichen und der Kommentar Kom mentare sind Zeichenfolgen die in und eingeschlossen sind und nicht enthalten wort string und zahl sind Ausdr cke die folgende Eigenschaften haben wort ein wort ist eine Folge ber die Zeichen a bis z A bis Z und Dabei darf nur unmittelbar den Vokalen a 0 u A 0 U vorausgehen dies zeigt an da es sich bei dem darauf folgenden Vokal um einen umlautenden Stammvokal handelt Diese Informa tion wird ausschliesslich bei Substantiven verwendet es wird dann bei der Bildung des Pluralstammes der Vokal durch seinen korrespondierenden Umlaut ersetzt Umlaute wer den als Vokal mit e eingegeben Beispiele Vorschl ag uebel Querstriche werden 1 1 bernommen string Ein string beginnt mit einem Begrenzer und enth lt ab dort eine beliebige Folge von Zeichen einschlie lich Zeilenendezeichen bis derselbe Begrenzer wieder auf taucht Begrenzer k nnen sein das Vorw rts und das R ckw rtsapostroph sowie das Doppelanf hrungszeichen Der Wert des strings ist die Zeichenfolge zwischen d
175. ng Erweitern einer Instanziierung bedeutet das Anf gen einer Kante so da die Instanzi ierungskante l nger wird Kanten die f r das Anf gen in Frage kommen sind 1 Andere Instanziierungen Dies sind entweder Relativs tze die ohne Rollenzuordnung aufgenommen werden oder Nominalinstanziierungen bzw Nebens tze die eine Rolle f llen 2 Teile des Pr dikats also Verben Hilfsverben Modalverben oder Verbpr fixe 3 Fragekanten Auch diese f llen eine Rolle 4 unbekannt Kanten Diese werden einfach an der betreffenden Stelle in die In stanziierung aufgenommen damit die Instanziierung weitergehen kann fuelle fallschablone f in k ein if f ist relativsatz fuelle f direkt in k ein neu kopie von k ergaenze f bei subkanten von neu verlaengere neu um f setze zustand neu aktiv else for alle offenen rollen r do if f hat grammatikalische form die bei r moeglich ist und kopf von f ist erwarteter fueller von r oder unterkonzept davon oder erlaubterweise oberkonzept davon erzeuge rollenkante rk mit rolle r und subkante f setze start und laenge von rk wie bei f setze zustand rk erfolgreich neu kopie von k ergaenze rk bei subkanten von neu verlaengere neu um rk 106 KAPITEL 4 ARCHITEKTUR streiche rolle r aus neu offene_rollen setze zustand neu aktiv end end end Pr dikatsteile f hren zur Bestimmung der Satzeigenschaften Zeit Person Numerus Modalf rbung Pr fix und vor
176. nis sinnvoll weiterverarbeitet werden k nnte Es ist also n tig zumindest einen gro en Teil der m glichen Nebensatzkonstruktionen aus der Analyse her auszulassen Eine ausreichend gro e syntaktische Kompetenz ist f r die allermeisten F lle aber schon erreicht wenn Relativs tze sowie Final Konsekutiv und Kausals tze f r Erkl rungen und Konditionals tze f r Regeln analysiert werden k nnen Dabei ist auch eine Ein schr nkung auf die g ngigsten Erscheinungsformen zu verschmerzen 2 6 3 Satzzeit Als die Standardzeit wird das Pr sens betrachtet Die Zeit eines Satzes spiegelt sich vollst ndig und einzig im Pr dikat wider das in seiner Form ver ndert wird Insbesondere ver ndert sich mit der Satzzeit oft auch die Anzahl von Teilen aus denen das Pr dikat besteht Eine besondere Stellung nehmen Befehlss tze ein sie sind zeitlos Zur Ber cksichtigung der Zeit im Satz reicht es unter dieser Voraussetzung aus die Zeit des Pr dikates zu ermitteln und in der Ausgabe anzugeben Dies geschieht f r jeden Nebensatz einzeln wobei gegenseitige Abh ngigkeiten nicht unbedingt ber cksichtigt zu werden brauchen Die Angabe entf llt bei Befehlss tzen 2 6 4 Satzmodus Als der Standardmodus wird der Indikativ betrachtet Eine Modusver nderung kann sich stark oder schwach auswirken Bei schwacher Auswirkung ver ndern lediglich die Einzelteile des Pr dikates ihren Modus sie bleiben jedoch in Anzahl und Stellung gleich Die
177. ntaktisch ges teuerte Arbeit die bottom up erledigt werden kann Das Einf llen solcher Wortgruppen in Fallschablonen erfolgt vor allem anhand semantischer Kriterien und wird top down durchgef hrt Kapitel 4 Architektur Dies st das Kapitel f r das ein illustrierendes oder erheiterndes Motto nicht zu finden war Der Verfasser Dieses Kapitel beschreibt den Aufbau von SARA Dazu geh ren die Eingabeformate der ex ternen Datenstrukturen und deren Semantik der Leistungsumfang und die Struktur des Zerteilers sowie sein Algorithmus und schlie lich das Ausgabeformat der Analyseergeb nisse Die Beschreibung der Bedienung von SARA befindet sich in Kapitel 7 4 1 Generelles Im Wesentlichen besteht SARA aus drei Teilen Erstens der Wissensbasis in der das auswechselbare und sachgebietsspezifische Wissen gehalten und verwaltet wird Dazu geh ren das W rterbuch die Konzepthierarchie das Rollenverzeichnis und die Fallschablonen Zweitens dem Zerteiler der zwar auch Wissen enth lt jedoch nur solches von fachgebi etsunabh ngiger Bedeutung n mlich Wissen ber den Aufbau und die Auswertung der Wissensbasis und Wissen ber die deutsche Grammatik Die Aufgabe des Zerteilers ist es unter Verwendung der Wissensbasis Eingabes tze in Analyseergebnisse umzuformen Drittens schlie lich aus dem Kommandoprozessor der die Eingaben des Benutzers entge gennimmt die Operationen des Zerteilers und der Wissensbasis aufruft und ihre E
178. nten s do if s koennte irgendeine rolle von k fuellen k_neu kopie von s setze zustand k_neu aktiv setze start k_neu ende von k end end if kein k_neu gefunden bearbeite instanziierung k nach end Die zweite M glichkeit zur Aktivierung der Schwesterkanten ergibt sich bei Relativs tzen Diese k nnen jeweils nur direkt hinter der einleitenden Nominalphrase einer Nominalin stanziierung stehen und sind nicht als Rollenf ller in der Fallschablone vermerkt Darum wird beim Auffinden eines richtig gebeugten Relativpronomens an dieser Stelle eine Kopie von jeder vorhandenen Schwesterkante ins Rennen geschickt wobei die Nominalphrase die dem Relativsatz vorangeht gleich als erstes mit eingef llt werden mu Dazu wird aus dieser Nominalphrase k nstlich eine andere erzeugt die den Kasus des Relativpronomens tr gt ansonsten aber bereinstimmt versuche relativsatz anzustossen for alle wortinterpretationen w des naechsten wortes do if w ist ein relativpronomen und 4 8 DER ZERTEILER 105 w ist in geschlecht und numerus wie vorherige nominalphrase stosse relativsatz an end end stosse relativsatz an for alle schwesterkanten s do neu kopie von s setze_start s ende von k setze_laenge s 1 bis hinter das Pronomen fuelle modifizierte nominalphrase von k in neu ein Endknoten von neu ist jetzt hinter dem Relativpronomen setze zustand neu aktiv end 4 8 3 6 Erweitern einer Instanziieru
179. olge in der die aktiven Kanten ak tiviert werden durch die Stapelverwaltung der aktiven Kanten werden die zuletzt ak tivierten zuerst bearbeitet das hei t es wird als erstes versucht die nominalen Instanzi ierungen zu vervollst ndigen Die Kantenauswahl ist trivial waehle eine aktive kante k aus k pop aktive setze_zustand k aktuell 4 8 3 4 Instanziieren von Fallschablonen Die Instanziierung von Fallschablonen wird jeweils beim Bearbeiten der ausgew hlten aktiven Kante vorangetrieben Dabei gibt es folgende F lle 1 Beim Besuch einer Frageformelkante wird die zugeh rige Frageformel gebildet 2 Beim ersten Besuch einer Kante die eine nominale oder pronominale Instanziierung ist mu zun chst die Nominalphrase selbst gebildet werden d h es werden Adjek tive Adverben Artikel und Pr position jeweils sofern vorhanden die vor dem Kopfsubstantiv oder pronomen der Instanziierung stehen aufgesammelt und in der Instanziierung vermerkt Bei diesem Prozess k nnen durch Wortmehrdeutigkeiten mehrere Kanten aus derselben Anfangskante entstehen 3 Beim zweiten Besuch einer nominalen Instanziierung wird untersucht ob der Nom inalphrase vielleicht ein Relativsatz folgt Falls ja wird dessen Instanziierung angestossen und der Besucht beendet Auch dies ist mehrdeutig falls n mlich mehrere Verben als potentielle K pfkonzepte des Relativsatzes zur Verf gung ste hen 4 Ansonsten wird versucht die Instanziier
180. onalpronomen geschlecht weiblich person dritte singular sie ihrer ihr sie plural sie ihrer ihnen sie personalpronomen personalpronomen geschlecht saechlich person dritte singular es seiner ihm es plural sie ihrer ihnen sie oO Oo oe ded Reflexivpronomen bg Er EGE gemaess Duden 541 reflexivpronomen reflexivpronomen geschlecht m w s person erste singular meiner mir mich plural unser uns uns 139 reflexivpronomen reflexivpronomen geschlecht m w s person zweite singular deiner dir dich plural euer euch euch reflexivpronomen reflexivpronomen geschlecht m s person dritte singular seiner sich sich plural ihrer sich sich reflexivpronomen reflexivpronomen geschlecht w person dritte singular ihrer sich sich plural ihrer sich sich paak Re Lat iv pronomen aabo k gemaess Duden 559 561 Relativpronomen relativpronomen maskulinum der dessen dem den femininum die deren der die neutrum das dessen dem das plural die deren derer denen die Relativpronomen relativpronomen maskulinum welcher dessen welchem welchen femininum welche deren welcher welche neutrum welches dessen welchem welches plural welche deren welchen welche Ferner wer was und formelhaft was fuer ein oO Roo ode Kon Jun Kt Loren abr RE AG a a k
181. ongruent sein Zur Veranschaulichung siehe die Standardwissensbasis Seite 135ff 4 7 Die Fallschablonen 4 7 1 Voriiberlegungen und Entwurfsentscheidungen Eine Fallschablone besteht aus einer Menge von Rollen und einem Kopf Die Rollen liefern jeweils zweierlei Einschr nkungen f r die erlaubten Eingaben die Rolle selbst definiert eine Reihe von m glichen syntaktischen Erscheinungsformen der F ller der Rolle definiert eine semantische Einschr nkung Der F ller einer Rolle ist entweder eine Substantivphrase ein Temporal Lokal oder Modaladverb oder ein Nebensatz Es wird in der Fallschablone daf r jeweils eine Menge von Konzepten angegeben Da bestimmte Rollen mit gleichen F llern in sehr vielen Fallschablonen auftauchen w re es praktisch eine Art Makromechanismus zu haben mit dem man solche Standardf lle mit weniger Schreibaufwand in die Fallschablone einbauen kann Es gibt deshalb sogenannte kopflose Fallschablonen Diese k nnen nicht selbst instanziiert werden sondern dienen ausschlie lich dazu ihre Rollen an andere Fallschablonen zu vererben Diese Vererbung geschieht indem die Fallschablone welche erben m chte alle kopflosen Fallschablonen von denen sie erben m chte in einer entsprechenden Erbeklausel angibt 4 7 DIE FALLSCHABLONEN 91 Au erdem werden in Fallschablonen von Konzepten die in der Konzepthierarchie auf dem selben Unterbegriffspfad liegen h ufig dieselben Rollen verwendet Dies geschieht mei
182. r stehen an Stelle eines Substantivs und bezeichnen dieses Es gibt verschiedene Arten von Pronomen die jeweils in der Ein oder Mehrzahl in der er sten zweiten und dritten Person dritte Person Einzahl in drei Geschlechtern auftreten D537 580 Man unterscheidet die Personalpronomen ich du er sie es wir ihr sie und im Genitiv meiner deiner seiner ihrer seiner unserer eurer ihrer die Reflexivpronomen mich dich sich sich sich uns euch sich die Possessivpronomen Besitzf rw rter mein dein sein ihr sein unser euer ihr die Demonstrativpronomen Zeigef rw rter die nur in der dritten Person auftreten dieser diese dieses jener jene jenes der die das derselbe dieselbe dasselbe derjenige diejenige dasjenige etc die Relativpronomen die ebenfalls nur in der dritten Person auftreten der die das welcher welche welches die Interrogativpronomen ebenfalls nur in der dritten Person welcher welche welches 7 Die urspr ngliche Mehrzahlform des Wortes Pronomen lautet Pronomina Laut Fremdw rterduden Duden 5 ist jedoch die schwache Pluralbildung ebenfalls korrekt Da es eine generelle Tendenz zur zunehmenden Bildung schwacher Formen in der deutschen Sprache gibt die ich f r sinnvoll erachte verwende ich hier wie auch in anderen hnlichen F llen bevorzugt die schwache Form 2 2 BEUGUNG 37 2 2 Beugung Das Deutsche ist eine Sprache mit einer weitgehend freien Wortgruppenstellung d h die Worts
183. r glich einzuf gen ist die Behandlung von Quotierungen also Einga beteilen die in Anf hrungszeichen eingeschlossen sind Objekte dieser Art werden schon jetzt beim Aufbauen des Chart erkannt und stehen dem Zerteiler als Kanten zur Verf gung Hier gilt es lediglich erst einmal genau zu beschliessen wie und als was solche Objekte eigentlich verwendet werden wie man sie demnach im Zerteiler beurteilen sollte und wo sie dementsprechend in welcher Weise eingebaut werden d rfen Die technischen nderungen daf r sind aber gering Verbesserungsw rdig ist sicherlich die Behandlung von Zahlen Momentan sind Zahlen nur als Modifizierer eines Substantivs erlaubt hnlich der Verwendung von Adjektiven und es gibt nur ganze Zahlen Die Verwendung von Zahlen ohne zu geordnetes Substantiv bedarf wie die Quotierungen nur einer Festlegung des Rah mens in dem sie geschehen soll die technische Seite ist aber einfach Eine weitere Verbesserung w re die Erlaubnis von Dezimal oder Gleitkommazahlen und die Be handlung von angeh ngten Ma einheiten Anhang A Standard Wissensbasis sara std ak ca ak ak ak ak ak ak ak ak ak ak dk kk kk dk kk kk dk kk kk ic kk kk Projekt Fallschablonenzerteiler fuer Deutsch Datei Standard Wissensbasis Autor Lutz Prechelt Karlsruhe Stand 01 10 89 RCS Id sara std v 1 4 89 10 01 22 35 39 prechelt Exp ek Dies ist die Standard Wissensbasis fuer SARA Sie enthaelt das Rollenverzeichnis
184. raphen gehalten Anf nglich sind dies nur die Bedeutungen der einzelnen Eingabeworte evtl mehrere je Wort im Verlauf der Analyse werden auch alle in Wortgruppen erkannten Teile des Eingabesatzes als je eine Kante im Chart eingetragen Etwas genauer Jedes Teilergebnis der Analyse hat die Form da eine Reihe von aufeinan derfolgenden Eingabew rtern mindestens eines unter einer bestimmten Strukturbeze ichnung zusammengefa t wird Liegt nun ein solches Teilergebnis vor so kann man es Wenn jemandem eine bersetzung f r dieses bl de Wort einf llt m ge er oder sie sich bitte schleunigst bei mir melden In der Zwischenzeit behelfe ich mir damit den Ausdruck 1 1 ins Deutsche zu bernehmen Dabei entsteht dann noch das leicht peinliche Problem da man sich f r eines von drei gleichm ig unpassend wirkenden Geschlechtern entscheiden mu Ich w hle nach der Regel Im Zweifel s chlich die Form Das aktive Chart Tn diesem Abschnitt schwingt immer mit da fast alles was man ber Zerteilung wei auf Produktio nensystemen basiert Insbesondere wird auch beim Chart Parsing meist ein kontextfreies Regelsystem angenommen Die Analyse mit Fallschablonen ist damit jedoch nur weitl ufig verwandt Daher ist es notwendig so weit wie irgend m glich von kontextfreien Systemen zu abstrahieren weshalb hier manches etwas diffus klingt 74 KAPITEL 3 ANALYSE MIT FALLSCHABLONEN im Chart abspeichern indem man eine zus tzl
185. ration noch so wenig geschafft zu haben sinkt jetzt ab Die Unterscheidung nach der Beziehung schlie lich er ffnet ein gro es Feld von semantis chen und syntaktischen Beobachtungen Diese werden hier nur kurz angedeutet Anmerkung die seltsamen Bezeichnungen Relativbeziehung und Verh ltnisbeziehung stammen aus dem Duden 1 Relativbeziehungen D1198 1212 liegen vor wenn der Nebensatz mit einem Relativ pronomen oder einer Relativpartikel eingeleitet wird und eine gemeinsame semantis che Stelle mit dem Hauptsatz hat Es gibt verschiedene Arten von Relativbeziehun gen e uncharakterisiert mit der welcher wer was z B Dieser Satz der einen Rela tivsatz enth lt welcher noch einen enth lt enth lt also zwei Relativs tze e modal mit wie als ob wie wenn als wie um z B Dieser Satz enth lt als ob er nicht anders k nnte zwei Relativs tze wie um uns zu gefallen e kausal mit weswegen weshalb manchmal auch woher z B Hier liegt nur ein Relativsatz vor weswegen es nicht zwei sind e instrumental mit wodurch womit z B Hier auch wodurch sich eine genauere Erl uterung er brigt e lokal mit wo wohin woher z B Hier ist er wo man ihn erwartet Dabei wird der Relativsatz stets als Nebensatz mit Finitum am Ende konstruiert 2 Inhaltsbeziehungen D1213 1231 sind nicht ganz so einfach zu beschreiben Sie lassen sich am besten eingrenzen indem man ihre Anschlu mittel beschreibt diese ersch pfen
186. rgebnisse und Meldungen handhabt Die wichtigsten Daten und Kommandofl sse zwischen diesen Komponenten sind in Bild 4 1 dargestellt Da der Kommandoprozessor in Anbetracht meiner Aufgabenstellung ein uninteressanter Teil ist wird er hier nicht weiter beleuchtet Im Rest dieses Kapitels wird also auf die externe Sicht der Wissensbasis und auf den Zerteiler n her eingegangen 75 76 KAPITEL 4 ARCHITEKTUR Wissensbasis a l os Eingaben N Objekte anzeigen Meldungen W rterbuch S M y Ergebnisse IKommandoprozessor Anfragen Konzepthierarchie so Pa Rollenverzeichnis Anfragen Wissen Zerteiler Fallschablonen Datenflu Kommandos und Datenflu Zur Ein und Ausgabe k nnen anstelle von Tastatur und Bildschirm auch Dateien benutzt werden Abbildung 4 1 Architektur von SARA 4 2 Ein Ausgabekategorien Zur Kategorisierung von Eingaben und Ausgaben bei SARA kann man folgende Einteilung vornehmen Eingaben sind 1 Kommandos Diese gehen zum Kommandoprozessor und werden deshalb in Kapitel 7 beschrieben 2 Deutsch Dies sind die zu analysierenden Eingabes tze Eine solche Eingabe wird an den Zerteiler bergeben der sie analysiert und je nach gew hlten Parametern daraus Instanziierungen oder Hilfeausgaben erzeugt Welche Arten von deutschen Eingaben der Zerteiler verarbeiten kann ist in Abschnitt 4 8 1 auf Seite 93 beschrieben Welc
187. rtart einige der Angaben Numerus Kasus Geschlecht Zeit Komparationsstufe Bei rollenfueller Kanten ist dies der Name der betroffenen Rolle und bei instanziierungs Kanten eine Reihe von unterschiedlichen Informationen wie unten beschrieben eine Liste subkanten der von dieser Kante zusammengefa ten anderen Kanten Ins besondere ist dies f r Instanziierungen die Liste der Rollenkanten gef llte Rollen eine Zahl guetewert die die Beurteilung der Qualit t dieser Kante enth lt Dies ist vor allem f r Instanziierungen von Bedeutung Nur die Chartoperationen haben die Berechtigung Kanten zu erschaffen oder zu kopieren sowie ihren Start ihre L nge und ihren Zustand zu ver ndern Dadurch ist das Chart immer ber die Lage auf dem Kantenmarkt informiert Die so erreichte Kontrolle ber die Kanten dient dazu den Zerteilungsproze sauber zu steuern Mit den Komponen ten subkanten und el werden die eigentlich informationsgewinnenden Operationen beim Zerteilen durchgef hrt und die Ergebnisse bewahrt Die Information die im el Feld von Instanziierungskanten steht l t sich etwa wie folgt zusammenfassen bool verbal verbale oder nominale Fallschablone kantenverweis kopf Kante des Kopfkonzepts knotennummer ende Endpunkt der Instanz spaetestens list fallschablonenrolle offene_rollen noch unbenutzte Rollen 98 KAPITEL 4 ARCHITEKTUR nur bei verbal relevant wortinfo konjunktion bei Neben
188. saetzen wortinfo modalverb evtl vorhanden satzart art deklarativ W Frage etc zeitangabe zeit Tempus des Satzes list kantenverweis schwestern nur bei nominal relevant wortinfo wi sprich Wee Ihh wortinfo praeposition list kantenverweis vorworte bool hat_fragepronomen Es dient dabei verbal zur Unterscheidung verbaler und nominaler Instanziierungen von Fallschablonen Bei verbalen tritt als kopf eine Verbkante d h eine Kante vom Typ wort deren wortinfo als Wortart Verb angibt auf bei nominalen eine Substantivkante ende enth lt die Vermutung dar ber an welcher Stelle in der Eingabe angegeben als Knotennummer sp testens mit dem Instanziieren aufgeh rt werden mu Die Liste der offenen Rollen enth lt zu jedem Zeitpunkt diejenigen Rollen die in der Fallschablone vorgesehen sind jedoch bisher noch nicht gef llt wurden Es gibt nun im Weiteren zwei Gruppen von Angaben von denen eine nur bei der verbalen Instanziierung einer Fallschablone relevant ist die andere nur bei der nominalen Die erste Gruppe f r verbale Instanziierungen enth lt Angaben ber die globalen Eigen heiten des abgedeckten Satzes Die Aussageweise Deklarativsatz Befehlssatz W Frage Ja Nein Frage Nebensatz die Konjunktion im Falle eines Nebensatzes der kein Rela tivsatz ist und eventuell ein verwendetes Modalverb Die zweite Gruppe f r nominale Instanziierungen beschreibt die Nominalphrase
189. sehe da dies ein Konjunktionalsatz ist Relativs tze die durch ein Relativpronomen oder eine Relativpartikel eingeleitet werden Dies ist ein Satz der einen Relativsatz enth lt indirekte Frages tze die durch ein Fragepronomen oder eine Fragepartikel eingeleitet werden Dort wo das Komma steht beginnt er uneingeleitete Nebens tze satzwertige Infinitivkonstruktionen Ich entscheide mich einen Infinitiv zu verwenden satzwertige Partizipialkonstruktionen Ich sitze hier ein Bespiel erfindend siehe Abschnitt 2 5 3 ab Seite 53 2 6 SATZ 59 Die Unterscheidung nach der Position D1193 beschreibt was f r eine Stelle es ist die der Nebensatz besetzt Dies kann die Stelle eines Satzgliedes Gliedsatz oder eines Attributs sein Man nennt diese e Subjektsatz der Nebensatz besetzt die Stelle des Subjekts Wer dies liest versteht es hoffentlich auch e Objektsatz der Nebensatz besetzt die Stelle eines Akkusativobjekts Ich berlege was mir einfallen k nnte Ich bemerke da es nichts tolles ist eines Dativobjekts Ich sehe also zu wie der Sekundenzeiger voranr ckt eines Genitivobjekts Ich erinnere mich dabei da ich weiterarbeiten sollte oder eines Pr positionalobjekts Ich bin erstaunt da ich das schon getan habe e Adverbialsatz der Nebensatz ersetzt eine adverbiale Bestimmung Wo eben noch nichts war stehen jetzt Beispiele e Attributsatz der Nebensatz ist ein erweitertes Attribut Die Frust
190. sehen W hrend die Verwendung von possessiven interrogativen und demonstrativen Adjektiven sehr geradlinig und einheitlich ist sie k nnen als Artikel verstanden werden ergeben sich f r die anderen beiden Arten u erst vielf ltige M glichkeiten Die Zahlw rter m ssen wegen ihrer besonderen Stellung f r Computeranwendungen in einem eigenen Abschnitt behandelt werden es sei also hier nur kurz auf die Vielfalt semantischer M glichkeiten vor allem der Gradabschattung siehe unten bei der Verwendung attributiver Adjektive eingegangen D507 526 e Die einfache Steigerung Komparation mit ihren Formen Positiv Komparativ und Superlativ dient zur Formulierung von Vergleichen 34 KAPITEL 2 DEUTSCH Dabei pr sentiert ein Adjektiv in Positivform eine einfache Auspr gung der jeweiligen Eigenschaft sozusagen den Ausgangspunkt des Vergleichs Der Komparativ beschreibt die st rkere gegen ber einer anderen Auspr gung bei zweifacher Gegen berstellung Der Superlativ beschreibt die st rkere gegen ber allen anderen Auspr gungen bei mehrfacher Gegen berstellung e Die Gleichsetzung erfolgt als eine Konstruktion mit den Worten so und wie zwischen die ein Positiv gesetzt wird Ich bin so schlau wie Du Diese Gleichsetzung kann durch Verwendung von ebenso oder genauso noch betont und in verschiedener Weise in der Form modifiziert werden D508 e Der Elativ absoluter Superlativ stimmt in seiner Form mit dem Superl
191. ser Fall tritt auf bei korrekter 18 korrekt bedeutet hier die Verwendung der grammatikalischen Formen des Konjunktivs ohne Um schreibung mit m gen oder w rden 62 KAPITEL 2 DEUTSCH Verwendung des Konjunktiv I oder I z B f r die indirekte Rede oder als einfachem Irrealis Eine wichtige Sonderstellung nimmt die Darstellung von Definitionen mittels des Konjunktivs sei ein die vor allem im wissenschaftlichen Umfeld sehr gebr uchlich ist Bei starker Auswirkung tritt zus tzlich eine Ver nderung der Anzahl oder Stellung der Pr dikatsteile auf Die wichtigsten dieser F lle sind erstens die Stirnstellung beim Be fehlssatz und zweitens die Umschreibung des Konjunktiv II mit w rden Bei Befehlss tzen ergibt sich die zus tzliche Modifikation da sie kein Subjekt aufweisen In beiden F llen erschwert sich nur das Finden und die Analyse des Pr dikats der Rest des Satzes bleibt ausgenommen bei Befehlss tzen unbeeinflu t Es gen gt also auch hier meist den Modus zu ermitteln und in der Ausgabe anzugeben Bei Befehlss tzen mu dar berhinaus die Suche nach einem Subjekt unterbleiben 2 6 5 Satzgenus Die Standardaussageweise ist das Aktiv Im Prinzip kann ein Satz in den meisten F llen vom Passiv ins Aktiv bertragen werden Von dieser bertragung wird allerdings nicht nur das Pr dikat betroffen Manche Rollen wechseln ihre u ere Form so wird zum Beispiel die Rolle des Agenten im Passiv als Pr positionalobjek
192. sition algef ge handelt 2 5 5 Satzadjektiv D1045 1047 Das Satzadjektiv ist ein im Kasus unbestimmtes Satzglied das mit einem Adjektiv oder einem 1 Partizip das als Adjektiv gebraucht wird besetzt ist Das Adjektiv ist dabei ungebeugt Es kann sich auf ganz unterschiedliche Glieder des Satzes beziehen e auf das Subjekt Diese Konstruktion hnelt dem Gleichsetzungsnominativ und ist deshalb auch mit den gleichen Verben wie dieser m glich Es ist gro Es hatte gut ausgesehen e aufein Objekt Dies ist vor allem bei Verben m glich die ein Wahrnehmen oder ein Urteilen bezeichnen Ich finde meine Nase doof e auf das Pr dikat Das Satzadjektiv dient zu dessen n herer Bestimmung Er schl ft tief Deshalb flucht sein Lehrer faut Hier kann man das Satzadjektiv auch als ein Adverb auffassen und dem Pr dikat unmittelbar beiordnen Wie man sieht ist der Bezug schlecht an formalen Merkmalen abzulesen es ist Wissen n tig um ihn zu erkennen Dies wird besonders deutlich an folgendem Beispiel in dem das Satzadjektiv durch blo es Austauschen ohne jede nderung der Satzkonstruktion jede der drei Anwendungsarten einmal einnimmt Der Beamte verlangte den Ausweis zerstreut Der Beamte verlangte den Ausweis aufgeschlagen Der Beamte verlangte den Ausweis lautstark Zu den Satzadjektiven geh ren au erdem solche Adjektivkonstruktionen die mit Pr posi tionen gebaut werden und meist feste Redewendungen darstellen die sogenannte
193. sowie die grundlegenden Woerterbucheintraege als da waeren f fehlt u unvollstaendig w weitgehend vollstaendig v vollstaendig Hilfsverben Modalverben Artikel Demonstrativpronomen Possessivpronomen Interrogativpronomen Personalpronomen Reflexivpronomen Relativpronomen Konjunktionen Modaladverben E ged d d d gd d d Die Pronomen sind sehr stark mehrdeutig Es ist daher sinnvoll alle Formen die fuer eine Anwendung nicht benoetigt werden nicht mitzuladen Die Dudenverweise beziehen sich auf die Randnummern in Duden Band 4 Die Grammatik 1984 pakakak HiL sv er ben oaaao kkk kkk gemaess Duden 219 sein hilfsverb praesens bin bist ist sind seid seit sind praeteritum war warst war waren wart waren konjunktiv_I sei seist seiest sei seien seiet seien konjunktiv_II waere waerst waerest waere waeren waert waeret waeren artizi seiend gewesen imperativ sei seid seit haben hilfsverb praesens habe hast habt haben habt haben praeteritum hatte hattest hatte hatten hattet hatten konjunktiv_I habe habest habe haben habet haben konjunktiv_II haette haettest haettet haetten haettet haetten partizip habend gehabt imperativ habe habt werden hilfsverb praesens werde wirst wird werden werdet werden praeteritum wurde ward wurdest wurde ward wurden wurdet wurden konjunktiv_I werde w
194. ssen Modalverben sind in Imperativs tzen nicht m glich ansonsten gilt das zu Haupts tzen gesagte 4 8 2 Zerteilungsphasen 1 Der Zerteiler erh lt als Eingabe einen String Dieser wird in Teile zerlegt Diese Teile sind Worte Zahlen Texte in Anf hrungszeichen Zwischenr ume und Satzzeichen Worte werden im W rterbuch nachgeschlagen Sind sie dort bekannt wird eine entsprechende Kante im Chart erzeugt andernfalls entsteht eine Kante vom Typ unbekannt Zahlen Texte in Anf hrungszeichen und Satzzeichen werden direkt ins Chart einge tragen Zwischenr ume dienen nur zur Trennung Das Chart wird dem eigentlichen Zerteiler bergeben Der Zerteiler erweitert das Chart um neue Kanten bis alle Bearbeitungsm glichkeiten ersch pft sind Im Erfol gsfalle wird dabei auch eine Menge von Instanziierungen von Fallschablonen erzeugt 3 Diese Instanziierungen werden als Ergebnis in einer lesbaren Form ausgegeben Beim Nachschlagen der W rter im W rterbuch werden bereits Einschr nkungen gemacht um die Mehrdeutigkeit von Kanten zu verringern 1 Fragew rter werden nur als Kante eingetragen wenn vom ersten Wort an bei jedem Wort bis zur betreffenden Stelle die Interpretation als Fragewort m glich war Wahlweise k nnen auch die Kommentare der erkannten Fallschablonen und die Definitionen ihrer Kopfkonzepte als Resultat ausgegeben werden 4 8 DER ZERTEILER 95 2 Gro geschriebene W rter au er am Satzanfang
195. st in der Weise da st rker spezialisierte Kopfkonzepte alle Rollen ihrer Oberbegriffe haben und nur noch zus tzliche Rollen definieren oder f r auch beim Oberkonzept vorhandene Rollen andere F ller definieren Diesem Verhalten tr gt die Wissensbasis dadurch Rech nung da Rollen automatisch zu Unterkonzepten vererbt werden Sollte ein Unterkonzept f r eine dieser Rollen einen anderen F ller ben tigen so kann in der Fallschablone des Un terkonzepts die Rolle nochmals neu angegeben werden Sollte ein Unterkonzept eine Rolle ausnahmsweise nicht bernehmen wollen so kann sie mit einem leeren Konzept als F ller neu angegeben werden Zus tzliche Rollen werden ohne weitere Umst nde angegeben Dieser Mechanismus macht in vielen F llen die Bildung von Fallschablonen zu Konzepten komplett berf ssig da eine sinnvolle Fallschablone durch die Vererbung implizit entsteht In manchen F llen ist die Konzepthierarchie bei der Beschreibung der semantischen Ein schr nkungen an die F ller hinderlich Es k nnen Mehrdeutigkeiten dadurch entstehen da ein Begriff der in eine Rolle eingef llt werden soll zugleich ein Oberbegriff des er warteten F llers einer anderen Rolle ist so da er in manchen F llen je nach gram matikalischer Form auch dort eingef llt werden k nnte Vor allem die Bildung stark spezialisierter Rollen wird durch diesen Effekt erschwert Als Abhilfe sieht die Wissens basis vor bei den F llern einer Rolle die Verwend
196. st im Handbetrieb das Modul so lange getestet und korrigiert wird bis alle Resultate korrekt sind Dieser Treiber stellt den nach den obigen Prinzipien entwickelten Test f r das Modul dar Die korrekten Resultate werden dann in die Datei Xtest ok geschrieben und es wird ein Aufruf test Xtest in das Makefile aufgenommen der ab dann bei jeder nderung von X im Rahmen des Wiederherstellens von Xtest automatisch den Test durchf hrt die Ergebnisse in die Datei Xtest out schreibt diese mit Xtest ok vergleicht und die Resultate des Vergleichs dem Benutzer zur Kenntnis bringt 6 9 KONKRETES VORGEHEN 125 Diese Konstruktion stellt sicher da R ckfalltests auch tats chlich durchgef hrt werden Kapitel 7 Bedienung An ENTER without an entered entry enters the end entry and ends the entry enter mode So never enter ENTER without having entered an entry if you don t want to end the entering by entering the end entry and ending the entry enter mode 7 1 Aufruf und Kommandoeingabe SARA ist ein interaktives Programm Es nimmt Kommandos und zu analysierende Eingabes tze normalerweise von der Tastatur entgegen und schreibt seine Ausgaben nor malerweise auf den Bildschirm Beides l t sich jedoch umlenken Der Aufruf hat die Form sara oder sara eingabe Bei der zweiten Form wird die Eingabe auf die angegebene Datei umgelenkt und die dort stehenden Zeilen werden als Kommandos interpretiert und abgearbeitet Nehmen wir an SARA se
197. stanziierungen selbst Diese Ausgabe ist normalerweise zur Weiterverarbeitung mit einem Programm zur semantischen Analyse vorgesehen Die Instanziierungen enthalten einige Informationen die man wohl meist nicht nutzen wird aber deren Angabe aufgrund des geringen Ausgabevolumens auch nicht schadet Zur leichteren Lesbarkeit f r Menschen werden die eingeschachtelten Teile 110 KAPITEL 4 ARCHITEKTUR mit Ausnahme der wortinfos entsprechend ihrer Verschachtelungsstufe einger ckt Der Liste der Instanziierungen geht eine Zeile voran in der der Eingabesatz selbst steht eingeschlossen in einfache Anf hrungszeichen und gefolgt von einem Pfeil aus zwei Mi nuszeichen und einem Gr erzeichen Solche Ausgaben sehen zum Beispiel so aus Das letzte Beispiel sei hier verbal erl utert man beachte die Verschachtelung der Klam mern Es handelt sich um eine Instanziierung erkennbar am I mit zwei gef llten Rollen rolle in Zeile 2 und 5 Diese Instanziierung hat eine L nge von 4 W rtern L4 und eine G tebewertung von 215 Punkten G215 Ihr Kopfkonzept ist sitzen und es trat auf in der Form sitze Die Instanziierung hat die Form eines Deklarativsatzes im Pr sens Numerus Singular erste Person Es blieben zwei Rollen der Fallschablone ungef llt und zwar grund und art_und_weise was allerdings nur aus der Wissensbasis abgelesen werden kann Die erste gef llte Rolle mit L nge 1 und G tewert 2 ist die Rolle des Agenten Sie wird gef
198. t Negierende Elemente k nnen sein D1148 1155 Worte mit negierender Bedeutung wie bestreiten verfehlen Wendungen mit negativer oder negierender Bedeutung wie sich den Teufel darum k mmern Negationsprefire an W rtern wie un a des in mi nicht Negationsw rler wie die Negationspronomen keiner niemand nichts und die Nega tionspartikel nicht nie nirgend keines das Satz quivalent Nein 1 Jene die uns uns im Akkusativ liebten ja Bonbons geschenkt uns im Dativ hatten Es wurde geschossen und es wurden H user abgebrannt Ich ging schwimmen und dabei meine Uhr kaputt 2 7 BESONDERE THEMEN 65 Negative Wendungen sind f r die Verarbeitung nat rlicher Sprache sowieso kaum von Bedeutung und k nnen ansonsten ebenso wie Worte mit negativer oder negierender Be deutung ganz im Rahmen der sonstigen F higkeiten von SARA behandelt werden indem man n mlich passende Fallschablonen vorsieht Problematischer stellen sich die Nega tionsw rter dar e Die Negationspronomen keiner niemand und nichts D1149 k nnen an der Position eines Subjektes oder Objekts stehen Niemand ist zu sehen Ich sehe niemanden und haben dort auch eine entsprechende Bedeutung das semantische Subjekt oder Objekt wird als nicht vorhanden angegeben Sie werden auch wie Attribute gebraucht und negieren dann das Substantiv mit dem sie stehen Niemand anderes kann das erledigen aber mir f llt nichts Gescheites ein und ich ha
199. t dramatisch die Zahl von Operationen beeinflu t die der Zerteiler durchf hren muss In der Beispiel Wissensbasis sind die semantischen Einschr nkungen relativ schwach so da die Beispiele als ein eher ung nstiger Fall angesehen werden m ssen dies gilt vor allem f r die Beispiele mit mehr als einem Verb Der Eingabesatz Der Mann liebt seine Oma erzeugte ein Chart mit 36 Kanten und zog 1 Ausgabe nach sich Die Analyse dauerte weniger als 0 2s Der Eingabesatz Die Oma die einen Baum pflanzt erzeugte ein Chart mit 46 Kanten und zog 1 Ausgabe nach sich Die Analyse dauerte circa 0 2s Der Eingabesatz Ich gehe in den Garten hinter dem Haus weil meine Oma einen Baum pflanzt erzeugte ein Chart mit 110 Kanten und zog 1 Ausgabe nach sich Die Analyse dauerte circa 0 58 Der Eingabesatz Die Oma die im Garten hinter dem Haus einen Baum pflanzt steht im Garten hinter dem Haus in der kleinen Stadt in dem Tal hinter dem Berg weil sie im Garten einen Baum pflanzt erzeugte ein Chart mit 374 Kanten und zog 3 Ausgaben nach sich Die Analyse dauerte circa 1 68 8 2 Ausbau und Ausbauf higkeit Es gibt eine ganze Reihe von m glichen nderungen und Erweiterungen von SARA Die wichtigsten davon die die syntaktischen F higkeiten betreffen sollen hier aufgez hlt und ihr Aufwand eingesch tzt werden 1 Die gr te Schw che in den syntaktischen F higkeiten von SARA ist zweifellos die Unf higkeit zur Behandlung der Konjunktionen und und oder und
200. t und Objekt wird hier durch das bereinanderfallen der Beugungs formen im Nominativ und im Akkusativ mehrdeutig Im Deutschen gibt es zumeist eine Vorzugsinterpretation durch die Wortstellung die aber wie in diesem Fall nicht immer g ltig sein mu Dann hilft nur noch Weltwissen und die Auswertung des Zusammenhangs Eine Falle witterte das M dchen Sie tappte jedoch nicht in sie hinein Wer ist Sie und wer ist sie Hier kann jedes der beiden sie sowohl auf das M dchen als auch auf die Falle verweisen es ergeben sich 4 Bedeutungsm glichkeiten f r den zweiten Satz unabh ngig von der Bedeutung des ersten Sprachkonventionen scheiden davon zwei aus die beiden Pronomen m ssen sich zumindest auf zwei verschiedene Objekte beziehen Weltwissen verschlie t die dritte denn Fallen tappen nicht Also bezieht sich das erste sie als Subjekt auf das M dchen und das zweite auf die Falle 22 KAPITEL 1 VERARBEITUNG NAT RLICHER SPRACHE 1 2 2 2 Semantische Mehrdeutigkeit Die schlimmste Quelle von Mehrdeutigkeit sind mehrere Bedeutungsm glichkeiten fiir einzelne W rter Beispiele daf r gibt es in rauhen Mengen etwa berholen oben Eine solche Wortmehrdeutigkeit kann in ihrer Wirkung auf das eine Wort beschr nkt sein oder eine Satzmehrdeutigkeit induzieren also eine strukturell neue M glichkeit f r die Inter pretation des gesamten Satzes er ffnen Die Aufl sung solcher Mehrdeutigkeiten ist nur mit ein
201. t vorgefunden w hrend sie im Aktiv vom Subjekt im Nominativ gef llt wird Durch die Darstellung als Objekt wird es m glich im Passiv den Agenten auszulassen Im Lokal wird getanzt so da bei der bertragung ein Subjekt und damit ein Agent k nstlich erfunden werden mu Man tanzt im Lokal In manchen F llen ist die Einf hrung eines virtuellen Substantivs mit der Bedeutung irgendjemand oder irgendetwas zur Darstellung dieses Subjekts notwendig In der Tat besteht die Motivation zur Verwendung des Passiv gerade darin die Angabe eines Agenten zu umgehen Auch der Sinn kann sich bei diesem bergang ver ndern Aus dem Satz Kein Programm wird von mehreren Informatikern gemacht der besagt da Informatiker beim Programmieren nicht zusammenarbeiten wird im Aktiv Mehrere Informatiker machen kein Programm was besagt da es einige faule oder enthaltsame Informatiker gibt Kurzum Die mecha nische Umwandlung von Passiv nach Aktiv hat einige T cken 2 6 6 Aussagesatz Ein Aussagesatz liegt vor wenn kein Frage oder Befehlssatz vorliegt Eine Fallschablone beschreibt eine Menge von Aussages tzen Alle anderen Satzarten werden bei der Anal yse normalisiert und auf die Form des Aussagesatzes zur ckgef hrt zus tzliche Angaben erm glichen die korrekte Interpretation des Ergebnisses In D1088 1141 finden sich de tailierte Beschreibungen aller blichen Satzbaupl ne f r einfache deutsche Aussages tze Im Deutschen wir
202. tellung ist nur innerhalb kleiner Wortgruppen fest z B eine Folge Artikel Adjektiv Substantiv die Wortgruppen k nnen jedoch in vielfacher Weise untereinander vertauscht oder gar in einzelne Teile zerrissen und verstreut werden obwohl es auch hier noch Ein schr nkungen gibt Die Freiheit ist aber jedenfalls so gro da die Identifikation der Satzbausteine nicht allein anhand der Wortstellung erfolgen kann Den Schl ssel zu L sung dieses Problems liefert die Beugung Konjugation Man un terscheidet genauer zwischen Konjugation beim Verb auf der einen und Deklination bei Substantiv und Adjektiv auf der anderen Seite Dabei werden die W rter ausgehend von ihrer Grundform so ver ndert da sie zus tzlich zu ihrer Bedeutung auch noch gram matikalische Strukturinformation tragen Mit diesem Instrument ist es m glich nicht nur eine freie Wortstellung zu realisieren sondern auch noch zus tzliche Information wie Modus Genus Zeit Zahl und Person ohne zus tzliche W rter im betroffenen Wort un terzubringen Diese M glichkeit wird zum Beispiel im Beugungssystem der lateinischen Sprache voll genutzt Im Deutschen ist dagegen eine Mischform realisiert in der z B bei der Zeitbildung des Verbs f r Pr sens und Imperfekt eine Darstellung nur durch die Beu gung realisiert ist w hrend alle anderen Zeiten mit zusammengesetzten Formen also mit Hilfsw rtern gebildet werden Das deutsche Beugungssystem ist sehr kompliziert mit folgenden u
203. ten Die Wortliste F ller wird als eine Menge von Verweisen auf Konzepteintr ge in terpretiert Wenn ein entsprechender Eintrag f r einen Konzeptnamen in der Liste nicht existiert so wird ein Vorauseintrag gemacht Bei der Instanziierung der Fallsch ablone wird diese Liste als eine Disjunktion von erlaubten F llerkonzepten behan delt die Liste gibt also eine Auswahl von M glichkeiten an 4 8 DER ZERTEILER 93 T Die Angabe von kein_oberbegriff verhindert da Eintr ge in der Konzepthier archie die direkte oder indirekte Oberbegriffe des angegebenen F llers sind als korrekte F ller in Betracht gezogen werden Zur Veranschaulichung siehe die Beispielwissensbasis Seite 144ff 4 8 Der Zerteiler Dieses Kapitel beschreibt die Arbeitsweise des Zerteilers und die damit erzielten qualita tiven Analyseleistungen 4 8 1 Leistungsumfang Dies sind die Eigenschaften der syntaktischen Konstruktionen die vom Zerteiler erkannt werden deklarative Haupts tze decken die gesamte Eingabe ab Hauptsatzinstanzen k nnen beliebig viele Rollenf ller aller Arten enthalten Das Pr dikat kann in jeder einteiligen Form stehen oder in einer zweiteiligen mit einem Modalverb Das hei t es kann Pr sens Pr teritum und Konjunktiv I und II angegeben werden Falls Hauptsatzkanten ein Subjekt haben wird dessen Kon gruenz in Numerus und Person mit dem Subjekt gepr ft Nominalgruppen k nnen ebenfalls gesamte Eingabe
204. ter Form als Adverbien verwendet werden 2 1 5 Pr position Die Pr positionen z hlen zur Wortartgruppe der Partikeln Mit dem Begriff Pr positionen wird nicht eigentlich eine eigenst ndige Wortart beze ichnet sondern eine Verwendungsart von Mitgliedern anderer Wortarten Dieser Effekt ergibt sich auch bei anderen Wortarten ist jedoch bei Pr positionen besonders ausgepr gt 2 1 WORTARTEN 35 Pr positionen stammen n mlich ab von Lokaladverbien wie an auf aus bei durch hinter mit nach ber um unter von vor wieder zu Adjektiven anl sslich meines Geburtstages oder Partizipien ungeachtet der K lte sie werden nicht gebeugt und bedingen einen bes timmten Fall des Substantivs mit dem sie stehen Mit Pr positionen werden sogenannte Pr positionalgef ge gebildet Diese dienen e als adverbiale Bestimmung Umstandsbestimmung zur Erl uterung eines Verbe Ich falle in den Flu e als Pr positionalattribut zur Erl uterung eines Substantivs Das Wasser in meiner Kleidung ist na e als Pr positionalobjekt zur kompletten Ausf llung einer Rolle Ich fluche ber mein Pech Die Pr position wird von einem solchen Objekt niemals getrennt andernfalls handelt es sich um ein abtrennbares Pr fix Welche Pr positionen m glich sind h ngt vom Verb des Satzes ab 2 1 6 Konjunktion Die Konjunktionen z hlen zur Wortartgruppe der Partikeln Konjunktionen Bindew rter verbinden Worte Phrasen oder S tze
205. tige Module Bottom Up einausgabe Dieses Modul ist unterteilt in Ausgabe und ffnen ausgabe h ausgabe C und Eingabe ausgabe h eingabe h eingabe C Die Ausgabe erfolgt mit Hilfe der Ausgabefunktionen der C Bibliothek Das Modul real isiert Funktionen zur Ausgabe von Warnungen und Fehlern und zum ffnen von Dateien mit Fehlermeldung und Ersatz bei Mi lingen Ferner wird der in C gebr uchliche Aus gabeoperator lt lt f r FILE realisiert Die Eingabe erfolgt mit Hilfe der Eingabefunktionen der C Bibliothek Das Modul re alisiert einen abstrakten Datentyp dateistapel der vom Wissensleser und von der Be nutzerschnittstelle verwendet wird um das verschachtelte Lesen von Eingabedateien zu verwalten Es k nnen in dem Stapel Dateien Dateinamen und Zeilennummern abgelegt werden b makelist Ee POR freelist removecar remove Primitiva Konstruktion Mengen Ver ndern Suchen contains caici unite intersect substract appendlist insert reverse Abbildung 5 6 Die Operationen des Moduls list 5 3 SONSTIGE MODULE BOTTOM UP 119 list implementiert den generischen und wiederverwendbaren abstrakten Datentyp einer einfach verketteten Liste mit einer Vielzahl von komfortablen Operationen Dieses Modul bildet die Grundlage f r fast alle Datenstrukturen des Zerteilers und der Wissensbasis Die Auslegung der Operationen ist an den Listenfunktionen von LISP orientiert Neben den Primitiva gibt es F
206. tiv und Akkusativ Es gibt drei Wortlisten f r jedes der drei Geschlechter im Singular und eine Wortliste f r den Plural wo bei allen Adjektiven und adjektivisch verwendeten Pronomen die Formen f r alle Geschlechter zusammenfallen Dieses Eingabemuster findet jedoch seine eigentliche Berechtigung nur bei Pronomen die als Adjektiv behandelt werden Normale Adjektive sind immer regul r Dabei gibt es einen einzigen Sonderfall bei dem diese Methode nicht mehr unmittelbar zur Darstellung ausreicht und zwar die Possessivpronomen Hierbei liegt n mlich der Fall vor da Geschlecht und Numerus sozusagen doppelt vorhanden sind einmal f r das Wort mit dem das Pronomen steht und einmal f r die Person auf die es sich bezieht Da jedoch s mtliche Pronomen ohnehin im Zerteiler oder von den nachfolgenden Verarbeitungsstufen speziell behandelt werden m ssen gen gt es je einen W rterbucheintrag f r jede Kombination von Geschlecht und Numerus der Bezugsperson zu machen Artikel Artikel werden ins W rterbuch eingegeben wie unregelm ige Adjektive Sie bekommen jedoch eine eigene Wortart zugewiesen um eine spezielle Behandlung im Zerteiler zu erm glichen Relativpronomen dito Pr positionen Konjunktionen und Adverben Diese Wortarten unterliegen nicht der Beugung Es sind deshalb keinerlei Zusatzangaben zu machen und darum mu der Name des Eintrags der Wortform entsprechen Personalpronomen und Reflexivpronomen Diese Wortarten werden wie
207. tragen versucht wie eine nominale Instanziierung Dabei kann allerdings bei schwach spez ifizierten Fragen nicht gepr ft werden ob die Kante zu dem erwarteten Konzept passt da sie ja kein Konzept enth lt fuelle fragekante f in k ein if f laesst sich als rolle r in k einfuellen erzeuge rollenkante rk fuer rolle r im chart setze start und laenge von rk wie bei f setze f als subkante von rk setze zustand rk erfolgreich neu kopie von k ergaenze rk bei subkanten von neu verlaengere neu um rk streiche rolle r aus neu offene_rollen vermerke in neu dass es sich um eine frage handelt setze zustand neu aktiv end f laesst sich als rolle r in k einfuellen nicht prozedurales sondern deklaratives Programmstueck if es gibt eine Rolle r fuer die gilt k offene_rollen enthaelt r und substantiv von f passt ggf als fueller zur und form von f entspricht einer frageform von r return true else return false end 4 8 3 7 Abschlu und Auswertung einer Instanziierung Wird eine Instanziierung aus einem der oben aufgef hrten Gr nde nicht mehr erweitert so wird noch eine Abschlu behandlung durchgef hrt Dabei wird die G te dieser In stanziierung aus der augenblicklichen G te neu berechnet indem f r jede Rolle die nicht gef llt worden ist die G tebewertung verringert wird und zwar um jenen Betrag den die Dringlichkeit dieser Rolle laut Fallschablone oberhalb der Standard Dringlichkeit liegt vorausg
208. tsaufhebend mit W Anschlu Ich wei warum ich komme gezielt alternativsetzend mit W Anschlu Es ist egal wohin ich komme umrei end mit W Anschlu Ich habe geh rt wer alles kommen soll 3 Verh ltnisbeziehungen D1332 1256 stellen die vielf ltigste Nebensatzklasse dar nicht nur im Hinblick auf die syntaktischen Erscheinungsformen sondern auch was die semantischen Interpretationen angeht Kausals tze geben einen Grund da weil einen minderen Grund zumal etc oder einen Ausgleich daf r da an Konsekutivs tze stellen eine Folge dar und zwar eine allgemeine so da eine spezielle so da eine m gliche zu Infinitiv eine negative zu als da oder eine modalisierte Konzessivs tze benennen einen unzureichenden Gegengrund oder eine Einr u mung mit obgleich obwohl obschon obzwar wenn auch wenngleich wennschon trotzdem Folgerungss tze unwichtig Temporals tze beschreiben eine Vorzeitigkeit nachdem als seit seitdem sobald sowie wenn kaum da oder eine Nachzeitigkeit bis bevor ehe oder eine Gleichzeitigkeit w hrend indem indes solange sobald sowie sooft als wenn Konditionals tze beschreiben eine Voraussetzung oder ein Urteilsgewicht wenn wofern sofern falls oder uneingeleiteter Nebensatz eine Ausnahmevorausset zung au er wenn es sei denn oder ein Verh ltnisgesetz je um so je desto Relevanz Irrelevanz S tze erkl ren die Irrelevanz einer Sa
209. twas von der umgangssprachlichen Verwendung des Wortes Fachidiot e bei dem Wort System ist nat rlich haupts chlich an Menschen oder digitale Com putersysteme gedacht im Prinzip kann aber auch ein andersgeartetes technisches System oder ein Tier ein Fachidiot sein e das erw hnte Allgemeinwissen kann sehr gering sein das ist jedoch nicht notwendi gerweise so In jedem Fall mu das Spezialwissen wesentlich exakter und vollst ndi ger sein als das Allgemeinwissen um von einem Fachidioten sprechen zu k nnen Als Zweites nun der davon unabh ngige Begriff des Sprechpartners Definition Sprechpartner Ein System 5 ist Sprechpartner f r System A wenn es Sinn und Zweck von Aussagen Fragen und Anweisungen von A in nat rlicher Sprache so erfasst da es im Rahmen seiner Aktionsm glichkeiten darauf so reagieren kann wie es von A gew nscht ist Beachte dabei e von 5 wird keinerlei Initiative verlangt die Relation Sprechpartner zu sein ist also nicht symmetrisch Auf menschliche Verh ltnisse bertragen bedeutet das etwa die folgende Situa tion zwei Personen mit derselben Muttersprache sind im Normalfall wechselseitig Sprechpartner Trotz gleicher Sprache kann jedoch die Sprechpartnereigenschaft in einer oder beiden Richtungen ausfallen wenn die beiden Personen stark unter schiedliche Weltsichten haben zum Beispiel deshalb weil sie aus unterschiedlichen Kulturkreisen kommen Schlie lich kann der Fall vorkommen da
210. uf einen Wortstamm Die zweite Hashta belle enth lt alle Wortst mme eigentlich genauer Wortnamen Diese enthalten jeweils eine Wortart und eine Menge von Verweisen auf Konzepte die dieses Wort als eine Inkar nation enthalten Das W rterbuch erm glicht beim Zerteilen den Einstieg in die Wissensbasis von den W rterbucheintr gen aus werden durch Zeiger die Konzepte und Fallschablonen erreicht Dadurch ist f r jedes Eingabewort nur ein Zugriff in eine Hashtabelle notwendig wortstamm wortform Dicke Pfeile bedeuten mehrere Verweise Abbildung 5 2 Verweisstruktur des W rterbuches Somit ergibt sich f r das W rterbuch eine Verweisstruktur wie sie in der Abbildung 5 2 dargestellt ist 116 KAPITEL 5 IMPLEMENTATION 5 2 3 Konzepthierarchie konzept inkarnationen N ist_kopf_von Be ubstantiv Ay unterbegriffe oberbegriffe l wortstamm nn 7 l l konzept l l l konzept i konzept i l l l l D nne Pfeile bedeuten einen Verweis dicke Pfeile bedeuten mehrere Verweise Abbildung 5 3 Verweisstruktur der Konzepthierarchie Die Konzepthierarchie bestehend aus Datenstrukturen und Grundoperationen daten h konzept C und dem Hauptteil wissen h konzepte C ist um nur eine Hashtabelle herum aufgebaut Diese enth lt Konzepteintr ge die anhand ihres Namens und ihrer Wortart identifiziert werden Ein Konzepteintrag enth lt Verweise auf andere Konzepteintr ge f r Ober und Unter
211. ugen F r alle ungebeugten Wortarten sind ohnehin keine Zusatzangaben erforderlich F r Adjektive reicht die Angabe der Wortst mme f r Positiv Komparativ und Superlativ aus Dies enth lt wo n tig gleichzeitig die Information nicht steigerbar wenn man erlaubt diese St mme einzeln wegzulassen Bei Substantiven gibt es eine Kollektion von 3 Beugungsarten im Singular und 11 im Plural was fast alle F lle mit Ausnahme einiger Fremdworte abdeckt Von diesen the oretisch 33 M glichkeiten treten nicht alle auf Es bietet sich aufgrund der geringen Zahl von M glichkeiten an eine einzige Typangabe mit einer endlichen Menge von Werten zur Beschreibung der Beugung bei Substantiven zu verwenden Ich habe mich jedoch entschlossen den Singular und den Pluralbeugungstyp einzeln anzugeben Dies hat fol gende Vorteile 1 F r Substantive die nur im Singular oder nur im Plural auftreten mu nicht extra jeweils ein eigener Typ oder ein Zusatzangabe vorgesehen werden Die Beschreibung ergibt sich indem man einfach eine der Typangaben wegl t 2 Es sind auch solche F lle zu erfassen in denen ein Wort im Sprachgebrauch zwischen zwei Klassen schwankt indem man die Angabe von mehr als je einem Typ f r Singular und Plural zul t 80 KAPITEL 4 ARCHITEKTUR 3 Bei der Erstellung des W rterbuchs sind die Angaben durch Betrachtung von nur zwei Formen des aktuellen Wortes zu erhalten die Endung im Genitiv Singular liefert den Singu
212. uktiven und dem deduktiven Vorgehen erlangt hat Ist dann der Fehler gen gend eng eingekreist so kann man ihn mittels Ablaufverfolgung meist recht schnell exakt auffinden Die R ckverfolgung dient zur Behandlung einfacher F lle und Hau Ruck Methoden stellen das letzte Mittel 124 KAPITEL 6 TEST bei totaler Ratlosigkeit dar die zum Beispiel sehr h ufig dann auftritt wenn der Fehler nicht beim Programmierer liegt sondern irgendwo vom Entwicklungssystem verursacht wird was mir mehrfach begegnete 6 3 Automatisches R ckfalltesten Ein Hauptproblem beim Testen gr erer Softwaresysteme ist die Empfindlichkeit gegen nderungen jede Korrektur an einer Stelle eines Moduls kann ver ndertes Verhalten auch an anderen Stellen nach sich ziehen Je nach Einzelfall kann dieses unerheblich sein oder aber zu Fehlern f hren Meist wird jedoch in der Praxis nach einer Ver nderung nur die kleinstm gliche von der Ver nderung betroffene Einheit getestet und zwar mit der kleinstm glichen ausreichend erscheinenden Zahl von Testf llen Dies gilt sogar dann wenn nur ein bereits vorhandener Satz von Testf llen ausgef hrt werden mu in diesem Fall scheitert das korrekte Testen daran da die anschlie ende Auswertung der Ausgaben nicht vollst ndig durchgef hrt wird Diese Neigung f hrt dazu das oftmals nderungen auch Fehlerkorrekturen die Qualit t eines Programms nicht verbessern sondern verschlechtern Dieser Effekt kann nur ver mieden
213. und das Sachgebietswissen benutzt Im Einzelnen 1 3 1 F llschablonen Bei fr hen Systemen wurde meist der Ansatz verwendet eine Reihe von Satzschablonen vorzusehen in denen nur eine Reihe von Leerstellen f r einzelne W rter freigelassen war Es mu ten also alle Formen denkbarer Eingabes tze exakt vorausgesehen werden Diese Systeme arbeiteten also ohne jegliche semantische Analyse sondern auf rein syn taktischer Ebene die Semantik wurde vollkommen statisch den einzelnen Schablonen zugeschrieben F llschablonen sind als Grammatikformalismus zu verstehen mit einem weitgehend trivialen Zerteilungsverfahren Beispiele f r solche Systeme sind das Abfragesystem BASEBALL von B F Green und nat rlich die allseits bekannte ELIZA Weizenb66 Dieser Ansatz eignet sich prinzipiell nur f r Sprachen mit relativ fester Wortstellung wie das Englische und au erdem nur f r sehr eng eingegrenzte Themenbereiche oder Systeme die wie ELIZA den gr ten Teil der Eingabe berhaupt nicht wirklich verarbeiten 1 3 L SUNGSANS TZE 25 1 3 2 ad hoc Ansatz Immer wieder wurden und werden Systeme gebaut die sich auf keinen theoretischen oder formalen Unterbau st tzen Man versucht stattdessen mit beliebigen dem zu l senden Problem angepasst erscheinenden Methoden die Analyse zu betreiben Meist wird dabei zum Beispiel einzelnen Worten prozedurales Wissen zugeordnet Dieser Ansatz ist naturgem sehr flexibel scheitert jedoch gerade
214. und werden nicht gebeugt D653 Man unterscheidet die Konjunktionen nach ihrer Semantik dabei tritt eine gro e Vielfalt bezeichneter Beziehungen auf Es gibt nebenordnende und unterordnende Konjunktionen e bei oder nebenordnende koordinierende Konjunktionen D654 659 stellen Teile gleichen semantischen Gewichts gegen ber Dabei gibt es die Varianten anreihend kopulativ z B und wie sowie sowohl als auch ausschlie end disjunktiv z B oder entweder oder einschr nkend entgegensetzend restriktiv adversativ z B aber allein jedoch nur sondern doch begr ndend kausal z B denn e unterordnende subordinierende sog Teilsatzkonjunktionen D660 674 leiten Teile niederen semantischen Gewichts oder logisch untergeordnete Teile ein Auch hier gibt es mehrere Varianten zeitlich temporal z B w hrend als nachdem seitdem bis ehe beschreibend modal z B als wie als ob insofern insoweit begr ndend kausal z B weil da so da wenn obwohl ohne eigene Bedeutung z B da ob wie Die semantische Vielfalt der Konjunktionen an sich und vor allem die flexible Verwen dung macht die Analyse sehr problematisch Insbesondere bei den beiden grundlegenden Konjunktionen der booleschen Logik und und oder ist es recht aufwendig syntaktisch zu entscheiden ob eine Verbindung von S tzen Wortgruppen oder einzelnen Worten vorliegt Als Verbindungsebenen kommen in Betracht Sie
215. ung 5 1 Modulstruktur von SARA Die Wissensbasis ist ihrerseits in 4 Bereiche untergliedert die einen m ig starken Zusam menhang aufweisen W rterbuch Konzepthierarchie Rollenverzeichnis und Fallschablo nenmenge Diese Teile sind nicht als ganz eigenst ndige Module implementiert da sich ihre Datenstrukturen intensiv gegenseitig benutzen wurden in der Implementation jedoch weitestm glich voneinander getrennt gehalten Die Wissensbasis wird von drei Stellen aus benutzt von der Benutzerschnittstelle zum Anzeigen von Daten aus der Wissensbasis vom sogenannten Wissensleser zum Ein tragen von Daten in die Wissensbasis und nat rlich vom Zerteiler zum Abfragen der Wissensbasis Aus diesem Grund sind die Operationen der vier Wissensbasisteile jeweils in die drei Gruppen Anzeigen Erzeugen und Lesen unterteilt Der Zerteiler zerf llt in 2 Module Die Implementation des abstrakten Datentyps chart und den eigentlichen Zerteiler der chart verwendet Daraus ergibt sich eine Modulstruktur wie sie in Abbildung 5 1 angegeben ist Hinzu kommen noch eine Reihe von Hilfsmodulen die in Abschnitt 5 3 beschrieben werden Dazu z hlen insbesondere die Module f r Ein Ausgabe und die generischen Datentypen verkettete Liste und Hashtabelle 5 2 1 Wissensbasis gesamt Es gibt ein gemeinsames Dach der vier Wissensbasisteile die Datenstrukturen Diese benutzen sich gegenseitig und sind deshalb alle in einer Datei daten h deklariert
216. ung von Oberbegriffen des angegebenen Konzepts zu sperren Dies kann f r jede Rolle in jeder Fallschablone einzeln erfolgen Zur Steuerung des Zerteilers ist es au erdem sinnvoll bei einer Rolle angeben zu k nnen wie wichtig es ist da diese Rolle im Eingabesatz tats chlich gef llt wird Im Prinzip reichen daf r meist schon wenige feste Stufen aus es ist jedoch flexibler und durchsichtiger die Beschreibung der Dringlichkeit durch eine ganze Zahl vorzunehmen Dadurch steht erstens eine fast unbegrenzt feine Unterscheidungsm glichkeit f r solche Dringlichkeiten zur Verf gung und zweitens kann der Entwerfer einer Wissensbasis durch Offenlegung der mit den Dringlichkeiten betriebenen Arithmetik die Reaktionen des Zerteilers leichter verstehen und vorhersehen 4 7 2 Aufbau Hier also die BNF Grammatik f r die Fallschablonen fallschablone kopf kommentar beerbung rollen kopf wort wort kopflos wort verb wort substantiv kommentar string e beerbung erbe wortfolge e KAPITEL 4 ARCHITEKTUR rollen rollen rolle e rolle rolle rollenname f ller kein_oberbegriff dringlichkeit rollenname wort f ller wortfolge kein_oberbegriff kein_oberbegriff e dringlichkeit dringlichkeit zahl e Erl uterungen zur Grammatik 1 Der Name einer Fallschablone ist der Name des Konzepteintrages der den Kopf der Fallschablone bildet Bei Fallsc
217. ung zu verl ngern falls nicht das Ende bere its erreicht ist F r die Verl ngerung wird jede Kante untersucht die vom aktuellen Endknoten der Instanziierungskante ausgeht und wann immer sie sich anf gen l t wird eine Kopie der Instanziierung gemacht und die Kante angef gt Auch dieser Proze ist also eventuell mehrdeutig 5 Falls zwar das Ende noch nicht erreicht ist aber dennoch keine sinnvolle Verl ngerung gefunden werden konnte wird untersucht ob sich m glicherweise hier ein Nebensatz anschlie t wiederum evtl mehrdeutig Falls ja wird dessen Instanzi ierung angesto en und die aktuelle Kante solange zur ckgestellt Wenn sie dann sp ter wieder aktuell wird ist die Instanziierung des Nebensatzes abgeschlossen und die betreffende Kante kann als normale Verl ngerung eingef gt werden 4 8 DER ZERTEILER 101 6 Ansonsten kann die Kante nicht fortgesetzt werden und wird nun entweder verworfen weil sie unvollst ndig ist oder als erfolgreiche Instanziierung im Chart fixiert In der Pseudokode Schreibweise sieht diese Prozedur folgenderma en aus bearbeite die aktive kante k if k ist fragekante bilde fragekante in k return end Das war der erste Fall die Bildung einer Fragekante Es folgt nun die Unter suchung auf den ersten Besuch bei einer nominalen Instanziierung if ist erster besuch bei dieser kante if k ist verbale instanziierung nichts tun elsif k ist pronominale instanziierung les
218. unktionen zum Direktzugriff auf Elemente zum Suchen und f r Mengenoperationen wie in Abbildung 5 6 dargestellt Zur Bequemlichkeit da es in C keine automatische Speicherbereinigung gibt und da die Operationen m glichst effizient sein sollen sind alle Funktionen die eine nderung bewirken als destruktive Operationen implementiert Das hei t sie erzeugen nicht eine Kopie des zu ndernden Operanden sondern ver ndern unmittelbar dessen Struktur Das Modul ist sorgf ltig im Quelltext dokumentiert Es besteht lediglich aus einer Datei list h da ein generischer Datentyp in C mit Hilfe der Makroexpansion implementiert wird hash baut auf list auf und implementiert den generischen und wiederverwendbaren ab strakten Datentyp einer Hashtabelle mit Kollisionsaufl sung durch Verketten Es gibt au er dem eigentlichen Hashmodul hash h auch noch eines das eine Reihe von guten Hashfunktionen f r bestimmte Anwendungssituationen bei der Verarbeitung von Zeichen ketten realisiert hashfunction h hashfunction C Beide sind im Quelltext ausf hrlich beschrieben Kapitel 6 Test Testen ist der Prozess ein Programm mit der Absicht auszuf hren Fehler zu finden Dies impliziert zum Beispiel da Testen ein destruktiver ja geradezu ein sadistischer Proze ist Glenford Myers Dieses Kapitel beschreibt die berlegungen die dem Test von SARA zugrundeliegen Leider sind im Bereich des Programmtestens viele englische Fac
219. usativob jekt hat das bei Umwandlung des Satzes ins Passiv zum Subjekt wird z B sehen umwandeln Nur T tigkeitsverben k nnen transitiv sein e Alle nicht transitiven Verben hei en intransitiv nichtzielend z B gehen stehen Alle Vorgangs und alle Zustandsverben sind intransitiv e Verben die sich mit einem Reflexivpronomen verbinden nennt man reflexiv r ck bez glich D168 171 Bei den echt reflexiven Verben D172 ist das Reflexivpronomen nicht wegla bar ersetzbar erfragbar oder negierbar z B sich sch men sich beeilen Dabei gibt es den Fall von nur reflexiven Verben D173 z B sich auskennen und den von teilreflexiven Verben D174 z B sich oder jemanden ngstigen sich oder jemanden rgern die in einer anderen Bedeutung auch irreflexiv gebraucht werden Bei den unecht reflexiven Verben D175 ist der Gebrauch ohne Bedeutungs nderung sowohl reflexiv als auch irreflexiv m glich z B sich oder jemanden waschen Hier wird das Reflexivpronomen zum Satzglied und damit wegla bar ersetzbar erfragbar und negierbar es kann mit selbst erweitert werden Eine weitere Variante sind die reziproken wechselbez glichen Verben D176 z B sich streiten die als im Plural nur reziproke Verben D177 vorkommen z B sich anfreunden als teilreziproke Verben D178 die in anderer Bedeutung auch nichtreziprok vorkommen z B sich oder etwas vertragen und als reziprok gebrauchte Verben D179 die in gleicher Bedeutung auch n
220. utz Prechelt Universit t Fridericiana Gattungsnamen Eine Gattung ist eine Menge von Objekten die wesentliche Eigenschaften gemein haben Ein Gattungsname bezeichnet entweder die Gat tung als solche oder ein einzelnes Exemplar der Gattung z B die Gattung Person oder eine Person Die Substantive dieser Klasse eignen sich zur Bil dung einer Konzepthierarchie da eine Klasse meist in einer anderen Klasse vollst ndig enthalten ist und ihrerseits mehrere Klassen vollst ndig enth lt Ein wichtiger Sonderfall ist die Klasse der Sammelbezeichnungen Dies sind W rter die bereits im Singular mehrere Objekte bezeichnen z B Herde Fami lie Volk Wald e Die zweite Hauptgruppe bilden die Abstrakta die etwas nichtgegenst ndliches beze ichnen Zu diesen geh ren Handlungen und Vorg nge Eingabe Abstieg Fahrt Insbesondere kann der Infinitiv eines jeden Verbs als Substantiv in dieser Kategorie verwendet werden Bleiben Gehen Wollen Sein 2 1 WORTARTEN 33 Menschliche Vorstellungen und Institutionen Seele Physik Kunst Physikalische Eigenschaften L nge Masse Verh ltnisse N he Gleichheit Ma e Meter Grad Jahr 2 1 2 2 Substantivbildung Deutsch ist eine sehr substantivreiche und substantivbetonte Sprache Aus fast allen Ver ben und Adjektiven lassen sich Substantive bilden Substantive lassen sich durch die Suf fixe chen und lein in eine Verkleinerungsform berf hren und aus fast allen Substanti
221. v allgemeines substantivformen adjektiv allgemeines steigerungsst mme adjektiv allgemeines adjektivformen artikel allgemeines adjektivformen personalpronomen allgemeines substantivformen reflexivpronomen allgemeines substantivformen relativpronomen allgemeines adjektivformen interrogativpronomen allgemeines adjektivformen demonstrativpronomen allgemeines substantivformen possessivpronomen allgemeines substantivformen praeposition konjunktion 4 4 DAS W RTERBUCH lokaladverb temporaladverb modaladverb verbformen praesens praeteritum konjunktivI konjunktivll partizip imperativ praesens praesens wortliste e praeteritum praeteritum wortliste e konjunktivI konjunktivI wortliste e konjunktivII konjunktivII wortliste e partizip partizip wortliste e imperativ imperativ wortliste e substantivtyp typ wortfolge substantivformen singular plural singular singular wortliste e plural plural wortliste e steigerungsst mme steigerungsst mme wortliste adjektivformen maskulinum femininum neutrum plural maskulinum maskulinum wortliste maennlich wortliste e femininum femininum wortliste weiblich wortliste e 81 82 KAPITEL 4 ARCHITEKTUR neutrum neutrum wortliste saechlich wortliste e allgemeines stamm_oder_nfinitiv_mit_zu geschlecht person steigerung stamm_oder_infinitiv_mit_zu
222. ven lassen sich zusammengesetzte Substantive bilden Insbesondere diese letzte M glichkeit f hrt dazu da in den meisten l ngeren Texten W rter vorkommen die in keinem W rter buch zu finden sind 2 1 3 Adjektiv Adjektive werden auf f nf verschiedene Arten gebraucht e attributive Adjektive beschreiben Eigenschaften z B rot schwer himmlisch bl d D439 Solche Eigenschaftsw rter stehen entweder bei einem Substantiv rotes Auto bei einem anderen Adjektiv schrecklich kalter Kaffee bei einem Adverb tief unten liegen oder als ein eigenes Satzglied in der Form des Satzadjektivs Das Auto ist rot oder des Gleichsetzungsgliedes Das Auto ist ein rotes Oftmals ist mit dem Begriff Adjektiv nur dieser attributive Typ gemeint Possessive Adjektive kennzeichnen eine Zugeh rigkeit ihr Programm dein Schlips In dieser Verwendung kann man Sie in einem Fallschablonensystem als F ller einer Besitzerrolle auffassen Sie k nnen n mlich auch durch Substantive im Genitiv er setzt sein oder durch Konstruktionen mit von und Dativ umschrieben Interrogative Adjektive fragen nach einem Substantiv welches Programm Allerd ings bilden die Fragew rter in einem Fallschablonensystem ein selbst ndiges Prob lem Demonstrative Adjektive verweisen auf ein Substantiv dieses Programm Schlie lich sind auch Zahlw rter wie Kardinal und Ordinalzahlen sowie unbes timmte Z hlw rter viel wenig einige andere etc als Adjektive anzu
223. vielf ltige Information unterschiedlicher Bedeutung z B Wort Rolle Instanzi ierung Das Chart wird immer dann im EDGE Format ausgegeben wenn es auch in der internen Form ausgegeben wird s Abschnitt 7 3 Diese EDGE Ausgabe landet immer in der Datei sara_chart grl 130 KAPITEL 7 BEDIENUNG Die Knoten tragen als Titel ihre Nummer die Kanten eine je nach Kantentyp unter schiedliche Kurzbeschreibung ihres Inhalts Jede Kante hat als typename den Kantentyp F r diese Typnamen kann in sarainclude grl eine Layoutvorschrift angegeben werden Leider l t sich die Information einer Kante nicht gut in sehr kurzer Form zusammen fassen Insbesondere wird deshalb nicht dargestellt welche Unterkanten einer l ngeren Kante zugeh ren F r Instanziierungskanten kann auch der eigene Inhalt bei weitem nicht komplett im verf gbaren Raum dargestellt werden Diese Einschr nkungen machen die Graphendarstellung des Chart etwas unbefriedigend Sie ist jedoch dennoch eine n tzliche Orientierungshilfe zu der die schriftliche Form der Chartausgabe als Erg nzung herange zogen werden kann Kapitel 8 Auswertung und Ausblick Was wir zu tun lernen m ssen lernen wir indem wir es tun Aristoteles Bei Abschlu dieser Arbeit war bereits eine Studienarbeit in vollem Gange die SARA ver wendet und zum Ziel hat eine Wissensbasis zu erstellen f r ein Hilfesystem f r ATpX Deshalb konnten bereits einige Erfahrungen mit SARA gesammelt werden Weitere
224. wart hattet w r e t h ttet sind haben seien haben waren hatten w ren h tten Die zusammengesetzten Formen von sein werden mit sein die von haben mit haben gebildet Die infiniten Formen lauten sein haben Infinitiv seiend habend 1 Partizip oder Partizip Pr sens und gewesen gehabt 2 Partizip oder Partizip Perfekt Der Imperativ ist sei habe Singular oder seid hab e t Plural Oft wird bei 2 Person Plural Pr sens und Konjunktiv I und beim Imperativ Plural von sein f lschlich seit bzw seiet benutzt Tabelle 2 2 Die Beugungsformen von sein und haben Numerus Person Pr sens Pr teritum Indikativ Konjunktiv I Indikativ Konjunktiv II Singular werden werden wurden w rden werdet werdet wurdet w rdet werden werden wurden w rden Die zusammengesetzten Formen von werden werden mit sein gebildet Er ist geworden Ur spr nglich lauteten die Formen im Pr teritum Singular ward wardst ward Diese sind jedoch heute allenfalls noch literarisch gebr uchlich Die infiniten Formen lauten werden Infinitiv werdend 1 Partizip oder Partizip Pr sens und worden 2 Partizip oder Partizip Perfekt bei Verwendung als Hilfsverb beziehungsweise geworden 2 Partizip oder Partizip Perfekt bei Verwendung als Vollverb Der Imperativ ist werde Singular oder werdet Plural Tabelle 2 3 Die Beugungsformen von werden Ebenfalls eine besondere Stellung nehmen die Modalverben d rfen k nnen m gen m ssen sollen
225. weise im Plural Abweichungen ergeben sich vor allem wenn die Subjektsteile ohne Konjunktion hintereinandergestellt sind oder mittels oder verbunden werden D1167 Genauere Regeln aufzustellen erscheint unn tig weil Abweichungen die ber diese beiden F lle hinausgehen literarischem Stil zuzurechnen sind Ohnehin d rfte es notwendig sein bei der Feststellung der Zahlkongruenz gro z gig zu verfahren 48 KAPITEL 2 DEUTSCH Da mit den oben angegebenen F llen l ngst nicht alle Situationen abgedeckt sind und zudem auch eine fehlerhafte Abstimmung von Subjekt und Pr dikat nicht selten ist mu die Analyse um robust zu sein zus tzliche Abweichungen irgendwie behandeln k nnen 2 3 2 Nominalphrasen Als eine Nominalphrase bezeichne ich im folgenden eine Wortgruppe aus Artikel oder einem der bei der Beschreibung der Adjektivbeugung erw hnten Vertreterpronomen Ad jektiv en oder Partizip ien und Substantiv Dabei ist nur das Substantiv zwingend vorhanden Die Kongruenz besteht bei Nominalphrasen darin da im Normalfall alle Komponenten in dieser zusammenh ngenden Gruppe in Geschlecht Zahl und Fall manch mal auch Person bereinstimmen m ssen D1176 1177 Diese Eigenschaft erm glicht es Nominalphrasen aufzusp ren und einzugrenzen diese stellen meist eventuell im Verbund mit einer Pr position o jeweils einen Fall im Sinne der Fallschablonentheorie dar Eine Nominalphrase kann im Adjektivbereich zus tzlich Adv
226. werden indem man durch geeignete organisatorische Ma nahmen sicherstellt da alle f r das ge nderte Modul durchgef hrten Tests nach jeder nderung automatisch wiederholt werden und zwar einschlie lich der Kontrolle der Ausgaben Deshalb werden bei SARA die meisten Tests in der Form des automatischen Riickfalltestens durchgef hrt Dabei gibt es f r jedes zu testende Modul einen Treiber der ohne weitere Eingaben des Benutzers die vorgesehenen Testf lle ausf hrt und die Ergebnisse teilweise mit Hilfe von Zusicherungen assertions direkt berpr ft und teilweise Ausgaben in eine Datei schreibt Ferner gibt es eine Datei welche die Soll Ergebnisse enth lt Man kann dann mit Hilfe des von make automatisch bei der Neu bersetzung eines Moduls auch die zugeh rigen Tests ablaufen lassen und mit diff die Ausgaben mit den Sollwerten vergleichen Dies stellt sicher da jeder durch die nderung bewirkte Fehler der von den bisherigen Testf llen gefunden werden kann auch tats chlich gefunden wird Man mu nicht mehr alle Ausgaben kontrollieren sondern nur noch feststellen ob irgendwelche Abweichungen angezeigt worden sind Durch dieses Verfahren wird eine sehr h ufige Quelle von Fehlern im endg ltigen Programm ausgeschaltet 6 9 Konkretes Vorgehen Zu jedem zu testenden Modul X gibt es einen Testtreiber bestehend aus den Dateien Xtest C Xtest Quelltext und ausf hrbares Programm und ggf Xtest in Eingabe daten mit dem zun ch
227. werden ausschlie lich als Substan tive Artikel oder Fragew rter interpretiert 4 8 3 Zerteilungsalgorithmus Die n chsten Abschnitte enthalten eine Beschreibung des Zerteilungsalgorithmus Diese Beschreibung will auf m glichst wenig Raum die wesentlichen Ideen des Algorithmus ver mitteln ohne so etwas wie eine genaue Spezifikation der Arbeitsweise auch nur anzus treben Sie ist deshalb in einem sehr informellen Pseudokode verfa t der noch von ver balen Anmerkungen erg nzt wird Ein gro er Teil der in diesem Pseudokode verwendeten Operationen wird berhaupt nicht n her beschrieben eine Detailierung erfolgt nur wo sie zur Einsicht in die Funktionsweise unverzichtbar erscheint Ein Teil der Beschreibung ist den zur Darstellung von Chart und Chartkanten verwendeten Datenstrukturen gewidmet in der Hoffnung das Wissen um diese Strukturen verhelfe dem Leser trotz aller Grob heit der Beschreibung zu einer erleichterten Einsicht in die algorithmische Konstruktion als Ganzes F r genauere Einblicke mu auf den Quellkode des Programms verwiesen werden 4 8 3 1 Generelles Der Zerteilungsalgorithmus stellt einen Chart Parser dar das hei t alle Information befindet sich in Kanten Siehe dazu auch Abschnitt 3 4 Eine Kante hat den Zustand aktiv erfolgreich oder erfolglos fehlgeschlagen Dabei stellt eine erfolgreiche Kante einen vollst ndig gefundenen Baustein f r den Zerteilungsalgorith mus dar Eine aktive Kante ist eine Hypoth
228. zu dem Problem da die Kategorie Verb uneinheitliches syntaktisches Verhalten zeigte e In Haupts tzen wird n mlich ein Pr fix im Pr sens und Imperfekt abgetrennt Ich gebe gab dem Druck nach e Bei der Bildung des Partizip Perfekt wird die Bildungssilbe ge nicht einfach vor angestellt sondern zwischen Pr fix und Grundverb eingeschoben also nachgegeben statt genachgeben Es gibt auch noch Zwitterf lle bei denen ein Pr fix sogar bei ein und demselben Wort sowohl abtrennbar als auch nichtabtrennbar vorkommt je nach Verwendung Bedeu tungswechsel des Wortes z B bersetzen Er setzt das Boot ber Er bersetzt den Text Diese F lle sind akustisch an der Betonung zu unterscheiden schriftlich jedoch nur bei den abweichenden Formen 2 1 2 Substantiv Gegenst ndliche oder abstrakte Dinge und Begriffe werden mit Substantiven bezeichnet Substantive bilden den Kern eines Falles im Sinne der Fallschablonentheorie um den sich die restlichen im betreffenden Satz zum Fall geh renden W rter gruppieren 2 1 2 1 Substantivarten Substantive lassen sich in verschiedene Bedeutungsgruppen einordnen D325 330 Die Zugeh rigkeit eines Wortes zu einer solchen Gruppe beeinflu t oft sein syntaktisches Ver halten vor allem in Hinblick auf Einschr nkung der Zahlbildung und Durchbrechen der Kongruenz e Die erste Hauptgruppe der Substantive sind die Konkreta Diese bezeichnen Gegenst nde im einzelnen Eigennamen Karlsruhe L
229. zu zwischen Pr fix und Rest einf gt nach zu geben Infinitiv Futur I Infinitiv Pr sens gefolgt von werden z B gehen werden F r Infini tiv Futur I mit zu benutze entsprechend den Infinitv Pr sens mit zu Infinitiv Futur IT Infinitiv Perfekt mit werden z B gegangen sein werden F r In finitiv Futur II mit zu benutze entsprechend den Infinitiv Perfekt mit zu Infinitiv Perfekt 2 Partizip mit haben oder sein z B gegessen haben oder gegangen sein Das zu wird gegebenenfalls dazwischen eingef gt Vorgangspassiv Formensystem von werden siehe Tabelle auf Seite 40 durch alle Zeiten mit 2 Partizip wobei geworden aber durch worden ersetzt wird z B es wird gewaschen es ist gewaschen worden 2 4 2 Modale F rbung Von diesen Formbildungen unterscheiden sich die S tze mit modaler F rbung oder modi fizierenden Verben Pr dikate mit Modalverb werden wie folgt konstruiert im Pr sens und im Pr teritum steht die entsprechende Form des Modalverbs und zwar an der Stelle wo auch das Hilfsverb z B beim nicht modalen Perfekt stehen w rde in allen anderen Zeiten steht das Hilfsverb in gleicher Form und an gleicher Stelle wie im nicht modalen Satz Der infinite Teil des Pr dikats wird gebildet vom Infinitiv des Hauptverbs gefolgt vom Infinitiv des Modalverbs Dies kann jeder Infinitiv sein nicht nur der Infinitiv Pr sens 14 Gelegentlich auch dem 2 Partizip das ist jedoch falsch 2 5 SATZTEILE 51 e von d
230. zurechnen und erfolgt daher bei der Beschreibung des Pr dikats in Abschnitt 2 4 2 2 1 2 unregelm ige Verben Bei den unregelm igen Verben lassen sich zwar auch eine ganze Reihe von Bildungsmeth oden f r die Verbformen angeben D203 215 es ist aber wie der Name schon sagt nicht m glich allgemein anzugeben welche davon jeweils zutreffen Gl cklicherweise ist die Zahl unregelm iger Verben verh ltnism ig gering es gibt nur wenige Hundert Au erdem entstehen neue Verben stets nur in regelm iger Beugung und viele der unregelm igen Verben werden heute bereits auch regelm ig gebeugt Das zur Bildung der Zeiten aus den Pr sens und Pr teritumformen gesagte gilt auch hier Es bietet sich angesichts der geringen Zahl unregelm iger Verben zu ihrer Behandlung ein 40 KAPITEL 2 DEUTSCH Vollformenlexikon an also ein Verzeichnis in dem einfach alle vorkommenden Verbformen einzeln abgespeichert sind Eine Sonderrolle nehmen die Verben sein haben und werden ein die als Hilfsverben eine zentrale Stellung f r das Beugungssystem haben Deren Formen sind sehr unregelm ig und werden in den Tabellen 2 2 und 2 3 dargestellt Pr sens Pr teritum Indikativ Konjunktiv I Indikativ Konjunktiv II bin habe sei habe war hatte w re h tte bist hast seist habest warst hattest w rest hattest ist hat sei habe war hatte w re h tte sind haben seien haben waren hatten w ren h tten seid habt seied hab e t
231. zweite dritte ich liebe du liebst er sie es liebt e Zahl Numerus Einzahl Singular Mehrzahl Plural du liebst ihr liebt Verbformen die diese Merkmale tragen nennt man finite Formen Daneben gibt es auch noch die infiniten Formen die nur das Merkmal Zeit tragen das dabei nicht in allen Werten vorkommen kann e die Infinitive im Pr sens Futur I und II und Perfekt lieben lieben werden geliebt haben werden oder verzaubert sein werden geliebt haben oder verzaubert sein e die Partizipien im Pr sens und Perfekt liebend geliebt Die Regeln f r die Bildung der Beugungsformen des Verbs sind bei weitem zu um fangreich um sie hier vollst ndig darzustellen siehe dazu D184 220 Es sollen je doch die wesentlichen Mechanismen der Formenbildung kurz beschrieben werden um die M glichkeiten zu einer automatischen Analyse verstehen zu k nnen und wenigstens die h ufigsten F lle ganz zu erfassen Man unterscheidet die Verben grob in regelm ig konjugierte und unregelm ig konjugierte Verben 2 2 1 1 regelm ige Verben Bei den regelm igen Verben schwachen Verben werden alle Formen ausgehend von einem einzigen festen Wortstamm gebildet und zwar durch Anh ngen einer Endung und beim Partizip Perfekt meist Vorschalten des Pr fix ge D184 202 Der kom plizierteste Fall tritt hierbei auf wenn das Verb ein abtrennbares Pr fix hat nachgeben in diesem Fall wird das ge n mlich nicht vorang
Download Pdf Manuals
Related Search
Related Contents
SwitchBlade x8100 データシート Copyright © All rights reserved.
Failed to retrieve file