Home

Datengesteuerte maschinelle Übersetzung mit flachen

image

Contents

1. name SegNr reputation slagency the lhurt belheadline result Jand s 54 490844 reputation s master her toland master 24 682710 reputation commerciallitsland lrelation customerlits 42 638803 reputationlhis damage to campaignlaloflvictim himself 13 486772 1 lt unknown gt lt unk 17 683204 reputationlinternationallgoodlalwithlminister 12 485322 reputationlof losslaland donation reducedlagainst 27 526437 reputation scientificjexcellent Jits note would lt unknow 19 439104 8 rows in set 0 00 sec Abbildung 3 10 Ausschnitt aus dem Index f r Grundformfolgen am Satzende Um die Indizes f r Grundformenfolgen an Satzanf ngen und enden in vertretbarer Zeit aufbauen zu k nnen werden nur soviele Grundformenlisten aufgeteilt dass eine vor eingestellte Maximalanzahl von Kombinationen erst 192 sp ter auf 32 reduziert nicht berschritten wird Eine Verbesserungsm glichkeit w re jeweils zu pr fen ob sich die Grundformalternativen berhaupt in den 56 tats chlich indizierten Zeichen niederschlagen Teilmengen der Token eines Segments Zum Finden von Fuzzy Matches kann ein Satzindex nicht verwendet werden Selbst wenn sowohl der Satzanfang als auch der Satzendenindex verwendet wird k nnen S tz
2. H he von 171 Mio finanziell unterst tzt Dieses einheitliche Programmplanungsdokument wird von Seiten der Europ ischen Union mit Mitteln in Segment 474172 Klasse fast gleicher Inhalt 0 85 a 0 9091 Anfragesatz Treffer This single programming document amounts to This single programming document amounts to 518 170 million in financial support from the European Union million in financial support from the European Union bersetzungsvorschlag rop ischen Union im Umfang von 170 Millionen EUR Dieses einheitliche Programmplanungsdokument steht f r eine finanzielle F rderung von Seiten der Eu Segment 474357 Klasse fast gleicher Inhalt 0 85 0 9091 Anfragesatz Treffer This single programming document amounts to This single programming document amounts to 518 113 million in financial support from the European Union million in financial support from the European Union bersetzungsvorschlag 113 Mio vor Dieses einheitliche Programmplanungsdokument sieht F rdermittel der Europ ischen Union in H he von Segment 461125 Klasse fast gleicher Inhalt 0 85 a 0 8585 Anfragesatz Treffer This single programming This single programming document document amounts to amounts to 518 717 million in financial support from the European Un
3. 271 konkreten Datenbankdesign sind die Tokentupel auf mehrere Tabellen Token Grundformen POS Tagset aufgeteilt Der Verweis auf die Grundformenliste erfolgt ber die Grundform ID 48 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 2 Vorverarbeitung Im KoKS Projekt wurde diese Anfrage umgesetzt indem au erhalb der Datenbank die Seg mentnummerlisten der einzelnen W rter geschnitten werden Dies ist keine gute L sung da die Einzellisten sehr lang sein k nnen und deren bertragung von der Datenbanksoft ware zur Anwendung ineffizient ist Eine vom Autor dieser Arbeit gefundenen L sung die innerhalb der Datenbank die Listen schneidet l uft um ein Vielfaches aber nicht um Gr enordnungen schneller als die KoKS L sung Die f r die Anwendungen wichtigen Anfragen m ssen also auf andere Weise beschleu nigt werden Im KoKS Projekt im Anschluss an den Projekt und im Rahmen dieser Arbeit wurden vom Autor verschiedene Indizes erstellt die in Folgendem kurz vorgestellt werden Grundlagen Die Zeilen einer Tabelle werden in einer Datenbank ungeordnet abgelegt um die Datenhal tung m glichst einfach und anwendungsunabh ngig zu halten Neue Zeilen k nnen sehr schnell hinzugef gt werden da nur der notwendige Platz geschaffen werden muss F r An wendungen die haupts chlich Informationen zusammentragen beispielsweise Ereignisse protokollieren kann dies wichtig sein W rden die Zeilen sortiert gespeichert m sste
4. angegeben durch die Relevanz in Tabelle 3 13 Klassenverteilung in hnlichkeitsintervallen Englisch bessere Fuzzy Matches als Term Matches auftreten Unter 0 20 treten nur noch Term Matches und irrelevante Matches auf wobei Letztere die Mehrheit bilden Im ersten Inter vall dieser Unterteilung treten alle Klassen auf Deshalb wurde noch eine weitere feinere Unterteilung in 100 Intervalle vorgenommen Die ersten zehn Intervalle die der ersten H lfte des ersten Intervalls der ersten Unterteilung entsprechen sind in dem jeweils zwei ten Teil der Tabellen abgebildet Hier zeigt sich dass sich die H ufigkeitsverteilung der Klassen mit steigendem hnlichkeitswert verbreitert und zu den Klassen h herer Relevanz verschiebt Bei Werten ber 0 61 treten nur noch Matches mit mindestens hnlichem Inhalt auf Wichtig f r die Entscheidung den Schwerpunkt der Klassifikationsarbeit auf die S tze der Stichprobe zu legen f r die die besten vier Fuzzy Matches einen hohen hnlichkeits wertdurchschnitt aufweisen ist auch dass bei hnlichkeitswerten unter 0 4 nur noch sehr selten bessere Matches als Subsegment Matches gefunden werden und dass unter 0 3 auch diese in der Regel ausbleiben Relevanz der Fuzzy Matches Klassifiziert wurden 567 Paare von Anfrages tzen und Fuzzy Matches Das sind 12 7 aller Fuzzy Matches Vorzugsweise wurden solche mit hoher hnlichkeit laut dem hn lichkeitsma klassifiziert Tabelle 3 14 zeigt die
5. investigations investigations revealed that the have established that the parties positions on the market market position of the two firms posed no likelihood preclude the creation or strengthening of a dominant position of a dominant position being created or strengthened bersetzungsvorschlag Die Untersuchungen der Kommission haben ergeben dass die Marktstellung der Parteien die Entstehung oder Verst rkung von Marktbeherrschung ausschlie t 114 A FUZZY MATCHES A 2 S tze mit hoher G te der Beleglage Segment 431439 Klasse hnlicher Inhalt 0 70 a 0 4337 Anfragesatz Treffer However Commission investigations revealed that the market position of the two firms posed no likelihood of The Commission s investigation showed that the ope ration will not create or strengthen a dominant position a dominant position being created or strengthened on the market bersetzungsvorschlag Die Untersuchung der Kommission hat ausgeschlossen dass das Vorhaben zur Begr ndung oder Verst rkung einer marktbeherrschenden Stellung f hren wird Segment 432391 Klasse hnlicher Inhalt 0 70 a 0 3947 Anfragesatz Treffer However Commission investigations revealed that the market position of the two firms posed no likelihood of The Commission s investigation led it to conclude that the operation is not l
6. 45 3 2 Vorverarbeitung 3 KORPUSAUFBEREITUNG F R CAT SYSTEME X00000 X00000 OXXXXo OXXX00 OXXO 0000X0 0000X0 OXXXO 00X0 OXXO OXXXo 0000X0 0000X0 0000X 000X 000X 0000X 00000X 00000X sl 3 1 bj 222 ei Se 0 03625 ek Ans EL Zelt A Ta Abbildung 3 8 Pfadrepr sentation von Alignments Zuordnungen als 1 1 Zuordnungen treten immer dann auf wenn der Pfad nicht diagonal verl uft Eine rechte oder untere Nachbarzelle vergr ert das aktuelle Alignment Bead um die S tze deren Abstand die Matrixzelle enth lt Abbildung 3 8 zeigt einige Pfade und die Art der Zuordnung Die einzelnen Zeichenpositionen entsprechen Zellen einer Abstandsmatrix Die Zellen ber die der jeweilige Pfad f hrt sind mit X markiert Oben links und unten rechts in jedem Teilbild ist der weitere Verlauf des Pfades angedeutet Teilbilder b und zeigen dass es f r m n Zuordnungen mit min m n gt 1 immer zwei m gliche Pfadeverl ufe gibt In e f wird deutlich dass kleine nderungen zu einem ganz anderen Alignment f hren k nnen Optimierung Der KoKS Aligner sucht einen Pfad in der Abstandsmatrix mit m glichst geringer Summe der Abstandswerte Die Suche wird mit dem A Stern Algorithmus und einer Heuristik die die minimale Abstandssumme zwischen zwei beliebigen Matrixzellen absch tzt effizient durchgef hrt So konnte selbst eine 699 x 685 Matrix in wenigen Minuten verarbeitet werde
7. Die Art der sprachlichen Einheit hat wesentlichen Einfluss darauf wie leicht die Identifika tion der bersetzung f llt Werden z B nur vollst ndige Abs tze im TM nachgeschlagen dann kann die bersetzung zu einer Fundstelle leicht im zielsprachlichen Text erkannt wer den da die Absatzgrenzen in elektronischen Dokumenten eindeutig sind und gew hnlich Abs tze eins zu eins bersetzt werden d h Abs tze der Ausgangstextes werden nicht auf geteilt oder vereinigt und auch nicht umgeordnet Wenn z B die Fundstelle der elfte Absatz des Ausgangstextes ist dann kann das Translation Memory als bersetzungsvorschlag ein fach den elften Absatz des Zieltextes ausgeben Schwieriger wird es wenn nicht von einer 1 1 bersetzung der Einheiten ausgegan gen werden kann Bereits S tze verletzen diese Bedingung so h ufig und unregelm ig dass die Satzpositionen nicht einfach umgerechnet werden k nnen wie im nachfolgenden Abschnitt demonstriert wird Bei kleineren Einheiten wird es zunehmend schwieriger die Grenzen der Einheiten auf beiden Sprachseiten zuverl ssig zu erkennen Eine 1 1 Zuord nung der Einheiten ist h ufig nicht m glich Mit der Gr e der Einheiten ist dabei nicht die L nge in W rtern oder Zeichen gemeint sondern die syntaktische Kategorie zu der die Einheit geh rt die im TM nachgeschlagen werden soll Genauer gesagt ist die Position innerhalb der Hierarchie der Kategorien rele vant Hier werden in der Syntax ge
8. Carletta Jean 27 5 Chunkung 13 Concordancer 3 Decision Tree 38 DMOR 38 Dokument Definition 8 EAGLES 27 EBMT 71 Entscheidungsbaum 38 120 Erpenbeck et al 27 Evaluation Grundlagen 26 Exact Match 25 26 32 63 Fuzzy Match 20 57 Fuzzy Match Klassen 63 G te 63 Ghorbel Hatem 17 Granularit t Segmentierung 13 Grundformen Behandlung 57 Grundformenliste 47 Gust Helmar 5 HAMT 4 Harry Potter Korpus 33 35 41 IMS TreeTagger 35 36 Index 21 index xml 32 Information Retrieval 52 Kappa Statistik 27 Kategorie 13 Klassifikation der Fuzzy Matches 61 Klassifikationstool 64 Klitik 35 6 31 KoKS Abschlussbericht 31 Kollokation 31 Komponenten eines TM 27 Korpus 6 Laufzeit Aligner 44 Lemma 36 Lemmatisierung 36 INDEX INDEX LISA 11 Lokalisierung 11 Machine Translation 3 MAHT 4 Markov Modell 38 MT siehe Machine Translation Muster bersetzung 26 MySQL 49 neue deutsche Rechtschreibung 35 Normalisierung 32 OCR 13 33 Fehler 15 OpenTag 12 Optimalit t Alignment 18 OSCAR 12 42 Parsing 13 Part of Speech siehe POS Penn Treebank Tagset 36 POS 36 POS Tagging 36 Precision 47 Pronomen 14 Recall 48 Relevanz 22 eines Fuzzy Matches 59 63 Satzanzahl 15 Satzindex 50 Segmentanzahlen 54 Segmentierung 12 40 Silbentrennung 34 Somers Harold 26 27 Sparse Data Problem 38 Sprachidenti
9. Monterey Kalifornien Die online verf gbaren Fassungen haben unterschiedliche Seitenbreiten und nummerierungen WIBLE DAVID YI CHIEN FENG CHIN HWA UND WANG CC 2002 Towards Automating a Personalized Concordancer for Data Driven Learning A Lexical Difficul ty Filter for Language Learners In Teaching and Learning by Doing Corpus Analysis Proceedings of the Fourth International Conference on Teaching and Language Corpo ra Graz herausgegeben von Kettemann Bernhard und Marko Georg Amsterdam New York Rodopi 118 LITERATURVERZEICHNIS LITERATURVERZEICHNIS Der nachfolgende Index enth lt zwar nicht alle Namen und Begriffe die im Text auf treten Er wurde aber beibehalten da er umfangreich genung ist um eine Hilfe sein zu k nnen Der Autor bittet um Nachsicht wenn wichtige Begriffe nicht gefunden werden k nnen 119 Index hnlichkeitsma 22 59 bersetzungeinheit siehe Translation Unit A Stern Algorithmus 46 Absatzalignment 13 Abschlussbericht siehe KoKS Abschlussbericht Abstandsmatrix 44 Abstandswert 44 Alignment 12 17 Abs tze 13 Einschr nkungen 19 optimales 18 zul ssiges 18 Alignment Bead 17 41 Alignment Optimierung 20 Anapher 4 14 Anf hrungszeichen 41 Annotationstool 64 Anpassungsaufwand 13 Antezedens 14 Anwendungsszenario 8 ARG Projekt 27 Aufbereitung des Korpus 32 B Baum 49 Bedienungsanleitung 20 Beleglage 56 Bowker Lynne 3 8
10. lt unknown gt 39 3 2 Vorverarbeitung 3 KORPUSAUFBEREITUNG F R CAT SYSTEME Deutsch Englisch H ufigkeit Token H ufigkeit Token 7562 Mio 5940 EU 4913 5219 ECU 4172 dass 3004 SPD 3251 EU 2398 2749 Ron 2096 Hermione 2096 1648 DM 2002 Hermine 1169 Hagrid 1903 muss 1063 MECU 1480 Euro 1058 Dumbledore 1130 dich 942 Bundestag 1005 Hagrid 920 FDP 1000 Dumbledore 871 euro Tabelle 3 3 H ufige Token mit unbekannter Grundform Tabelle 3 3 zeigt die h ufigsten betroffenen Token im KoKS Korpus Fehlerrate Wichtig f r die Andwendungen in KoKS und in dieser Arbeit ist auch die Fehlerrate des Taggers Der getaggte Text in Abbildung 3 4 offenbart bereits dass der Tagger gelegentlich Fehler macht Laut Schmid 1995 erreicht der POS Tagger f r das Deutsche 97 5 und f r das Englische 96 8 Korrektheit Da diese Zahlen auf einzelne Token bezogen sind bedeutet dies trotz der hohen Korrektheit dass sehr viele S tze Fehler enthalten F r das KoKS System ist die Fehlerrate niedrig genug Tag Sequenzen mit einer L nge von bis zu sechs Token sollten h ufig korrekt sein eine zuf llige Verteilung der Fehler vorausgesetzt Bei einer Translation Memory Anwendung die auch POS Tags f r das Matching ganzer S tze nutzt k nnen die Fehler jedoch Auswirkungen haben Das wird im Kapitel 4 zu ber cksichtigen sein 3 2 4 Segmentierung Unter Segmentierung versteht
11. 7 3 4 nur Tippfehler 95 0 0 0 gleicher Inhalt 90 3 3 0 fast gleicher Inhalt 85 7 4 3 enth lt etwas mehr 80 4 1 3 enth lt etwas weniger 75 0 0 0 hnlicher Inhalt 70 15 5 10 Subsegment Match 60 5 2 3 Term Match 20 12 9 3 keine Relevanz 0 9 4 5 Summe 62 31 31 Tabelle 3 15 Klassenh ufigkeiten bei den besten Fuzzy Matches Klasse gleicher Inhalt Es gibt 36 S tze mit Fuzzy Matches hoher Relevanz und 5 S tze zu denen immerhin noch mindestens ein Subsegment Match gefunden wird Im Anhang A 2 werden die f nf deutschen und sechs englischen S tze der Stichprobe die die bester Belegsituation gem der eingef hrten G te aufweisen mit ihren Fuzzy Matches aufgelistet 3 5 Zusammenfassung Das KoKS Korpus ist ein paralleles Korpus mit den Sprachen Deutsch und Englisch und umfasst je Sprache etwa viereinhalb Millionen W rter Es ist mit POS Tags und Lemmata annotiert und auf Satzebene alignt ber die KoKS Datenbank kann das Korpus flexibel eingesetzt werden Indizes erm glichen einen schnellen Zugriff auf das Korpus Im Rahmen dieser Arbeit wurden weitere Indizes implementiert um die Fuzzy Match Suche effizienter durchf hren zu k nnen Dabei wurde auch eine L sung zu dem Problem entwickelt dass im KoKS Korpus die Grundformalternativen nicht explizit repr sentiert sondern als ein mit einem speziellen Zeichen separierter String gespeichert werden der in dieser Form vom IMS TreeTagger annotiert wird
12. 928 507476 30 2 9 932 656320 24 2 9 93 6 504546 16 20 940 5 445946 14 00 944 0 476418 12 00 948 0 479934 17 00 92 0 481692 20 00 956 0 483450 12 00 0 0 497514 17 00 964 0 509234 18 00 8 0 522126 12 00 972 0 Fortsetzung n chste Seite bersicht zur Stichprobe Deutsch 81 A 1 Stichprobe A FUZZY MATCHES Segment L nge TOP 4 hnlichkeit Rang G te 614714 13 00 976 0 642842 17 00 980 0 653390 21 00 984 0 669798 16 00 988 0 670384 16 00 992 0 675658 12 00 996 0 678588 18 0 0 100 0 0 Tabelle A 1 bersicht zur Stichprobe Deutsch A 1 2 Deutsche S tze der Stichprobe 260 S tze der englischen Korpush lfte wurden ausgew hlt Segment L nge TOP 4 hnlichkeit Rang G te 461295 18 92 0 0 4 85 656064 15 64 5 0 8 70 461898 39 54 0 12 62 620487 21 51 8 15 35 466722 23 51 8 19 74 648828 48 48 5 23 40 456471 22 46 8 2 1 32 449838 20 44 2 31 40 441396 25 42 9 35 70 625914 40 42 8 38 52 429939 28 414 42 72 655461 43 40 7 46 60 435366 22 40 3 5 0 21 641592 22 40 3 54 628929 30 40 0 5 8 621090 41 39 9 6 2 520992 12 39 5 6 5 25 448029 18 38 5 6 9 638577 16 38 4 13 471546 23 38 0 77 619884 50 37 5 81 57 472149 25 37 1 8 5 493254 25 37 0 8 8 450441 26 36 2 9 2 683802 13 35 8 9 6 649431 49 334 100 48 624708 43 332 104
13. Es wurden Aspekte der Vorverarbeitung beleuchtet die im KoKS Abschlussbericht nicht behandelt werden Insbesondere wurde die Funktionsweise des IMS TreeTaggers erkl rt Probleme der Segmentierung aufgezeigt und auf Schw chen des KoKS Aligners hingewiesen Mit der Aufnahme des Harry Potter Teilkorpus ist eine neue Textsorte im Korpus ver treten die andere Eigenschaften hat als die anderen Teilkorpora Dies sind die w rtliche Rede und das sehr h ufige Auftreten eines bestimmten Eigennamens Trotzdem dominiert das EU Teilkorpus das Korpus durch seine Gr e 3 5 1 Ausblick Das KoKS Korpus kann verbessert werden indem die Vollformliste f r die Umlaut und Eszettkorrektur sorgf ltiger aufgebaut wird Dazu m ssen die W rterb ch und Teilkorpora 69 3 5 Zusammenfassung 3 KORPUSAUFBEREITUNG F R CAT SYSTEME nochmal gepr ft und eine neue Reihenfolge f r das Eintragen in die Datenbank gew hlt werden 70 Kapitel 4 Bilinguale Korpora in CAT Systemen eine Anwendungsperspektive Die Anwendung eines Translation Memorys st t an ihre Grenzen wenn nur Subsegment Matches oder Fuzzy Matches mit geringer inhaltlicher hnlichkeit gefunden werden Werk zeuge mit denen ein CAT System den bersetzer auch in diesen Situationen unterst tzen kann wurden im Abschnitt 1 1 vorgestellt Sowohl datengest tzt als auch automatisch erstellt neben einem Translation Memory nur die EBMT Example Based Machine Trans lation bersetzun
14. binnen innerhalb eines Monats eines Monats abzustellen ein Ende zu setzen Andernfalls wird der Gerichtshof der Europ ischen Gemeinschaften angerufen bersetzungsvorschlag In the absence of a reply or if the reply is not convincing the Commission moves on to the second stage and adopts a reasoned opinion calling on the Member State to put an end to the infringement within a period of one month 100 A FUZZY MATCHES A 2 S tze mit hoher G te der Beleglage Segment 472640 Klasse hnlicher Inhalt 0 70 0 3603 Anfragesatz Treffer Erfolgt keine Auf der Grundlage der Antwort Antwort auf dieses Schreiben des Mitgliedstaats oder oder ist diese bei einer fehlenden Antwort Antwort nicht berzeugend so geht kann die Kommission die Kommission zur zweiten Phase ber und uebermittelt dem Mitgliedstaat dem Mitgliedstaat ein zweites Warnschreiben eine mit Gr nden versehene Stellungnahme eine mit Gr nden versehene Stellungnahme mit der Aufforderung den festgestellten bermitteln in dem sie deutlich die Gr nde f r den vermuteten Versto Versto gegen das Gemeinschaftsrecht darlegt und den Mitglied staat auffordert seiner Verpflichtung innerhalb einer be stimmten Frist im allgemeinen zwei Monate nachzu kommen Ubersetzungsvorschlag In the light of the reply or absence of a reply from
15. fung durch den Ausschuss f r die Entwicklung und Umstellung der Regionen sowie durch den ESF Ausschuss Regionen l ergehen ergehen bersetzungsvorschlag The final decision on this programming document will be taken shortly as the programme after it has been considered by the Committee on the Development and Conversion of Regions 97 A 2 S tze mit hoher G te der Beleglage A FUZZY MATCHES Segment 468086 Klasse hnlicher Inhalt 0 70 a 0 5426 Anfragesatz Treffer Die endg ltige Entscheidung Die endg ltige Entscheidung der ber das Programmplanungsdokument trifft die Kommission Kommission ber die beiden Programme wird nach nach deren dessen Pr fung durch den Ausschuss f r die Entwicklung und Umstellung der Pr fung durch den Ausschuss f r die Entwicklung und Umstellung der Regionen sowie durch den ESF Ausschuss ergehen Regionen 1 2 bersetzungsvorschlag The final decision on this programming document will be taken by the Commission after it has been considered by the Committee on the Development and Conversion of Regions 1 Segment 472828 Klasse hnlicher Inhalt 0 70 a 0 5426 Anfragesatz Treffer Die endg ltige Entscheidung Die endg ltige Entscheidung der ber das Programmplanungsdokument trifft die Kommission Kommission ber die beiden Program
16. glichkeit die Vollform in die Suche mit einzubeziehen Dies kann sinnvoll sein wenn die Grundform im System unbekannt ist Der IMS TreeTagger annotiert als Grundform lt unknown gt wenn ein Token nicht in seinem Vollformlexikon enthalten ist Da es in dieser Arbeit darum geht das Korpus als Informationsquelle f r die bersetzung zu nutzen und die N tzlichkeit ab zusch tzen ist ein hoher Recall wichtiger ist als gute Precision Eine alternative L sung des Problems w re die Disambiguierung der Grundformen Denkbar w re einfache Regeln f r die h ufigsten Token von Hand zu erstellen Beispiel weise k nnte man bei f hren heranziehen ob nach oder zu in der N he auftritt Wenn nur die h ufigsten Token behandelt werden ist der Aufwand nicht allzu hoch und trotzdem eine deutlich Verbesserung der Lemmatisierung m glich Zu beachten ist dass Regeln nicht jeden Fall der in von Menschen verfassten Texten auftritt ber cksichtigen k nnen Eine Disambiguierung wird Fehler einf hren sodass im Vergleich zu der KoKS L sung die Precision der Anfrageergebnisse und im Vergleich zur neuen L sung der Recall sinkt Detailprobleme Im KoKS Projekt konnte nicht jedes Detail der Implementation perfekt umgesetzt werden Daf r fehlte die notwendige Zeit So verwendet die SQL Anfragesprache der Datenbank Anf hrungszeichen um Werte die selbst Zeichenfolgen sind zu Kennzeichnen In der KoKS Implementation werden alle Anf
17. hnlichkeit zu SGML Markierungen verleitet dazu anzunehmen es handle sich um eine Startmarkierung Die Markierung zeigt hier aber das Ende eines Absatzes oder einer berschrift an In den weiteren Schritten wird nicht zwischen berschriften und Abs tzen unterschie den berschriften sind im KoKS System spezielle Abs tze die gew hnlich ohne Satzzei chen oder mit Frage oder Ausrufungszeichen enden und nicht mehr als einen Satz enthal ten Nach der Normalisierung spielt Whitespace au er als Worttrenner keine Rolle mehr Abbildung 3 2 zeigt das normalisierte Beispiel Man beachte dass der Punkt nach burned down abger ckt ist Der SGML Parser wird offenbar nicht korrekt benutzt Beim HTML Normalisierungsmodul tritt dieser Effekt nicht auf Dies ist aber kein akutes Problem da in dem KoKS Korpus Formatierungen selten oder gar nicht auftreten Aufbereitung des Harry Potter Korpus Beim Harry Potter Korpus das erst nach dem Ende des KoKS Projekts von Norman Kum mer und dem Autor dieser Arbeit erschlossen wurde mussten die Dokumente in kleinere Dateien zerlegt werden da sich der KoKS Aligner in Laufzeit und Speicherplatzbedarf nicht besser als quadratisch zur Satzanzahl verh lt Die vollst ndigen B cher die jeweils zwischen ca 6500 und 15 000 S tze umfassen sind f r den Aligner zu gro Zur Arbeits weise des Aligners siehe Abschnitt 3 2 5 weiter unten Die Aufteilung muss in der deutschen und englischen Fassung an sic
18. hrend der bersetzungsarbeit die bersetzung eines Satzes abrufen zu k nnen Dazu m ssen Satzgrenzen erkannt und zwischen den Sprachseiten einander zugeordnet werden Welche Probleme dabei auftreten k nnen und warum eine Automatisierung schwierig ist wird in den Abschnitten 2 2 und 3 2 erl utert In der Regel muss der Benutzer unterst tzend eingreifen Abbildung 2 1 zeigt einen Teil des Dokumentpaars de news 1997 05 19 de asc de news 1997 05 19 en asc das entsprechend aufbereitet wurde Nach der Vorbereitung des Referenzmaterials kann mit der Erstellung der bersetzung begonnen werden Wie nun der weitere Ablauf aussieht insbesondere wann das Translati on Memory bersetzungen vorschl gt h ngt von der CAT Software ab die versucht die einzelnen bersetzungswerkzeuge mit einem speziellen Bedienungskonzept besonders gut miteinander zu verbinden und in den Arbeitsablauf zu integrieren Im Folgenden wird bei spielhaft ein Ablauf beschrieben bei dem das Translation Memory nicht integriert sondern als eigenst ndige Komponente verwendet wird Denkbar w re z B dass die S tze des zu bersetzenden Ausgangstextes durchnumme riert werden und ein zweites Dokument f r die bersetzung erstellt wird das die gleichen Nummern enth lt Das Translation Memory tr gt fertige bersetzungen f r die S tze ein die es im Referenzmaterial findet Die weitere Texteingabe k nnte dann in einem nor malen Textverarbeitungssystem erfolgen Der bers
19. lopment partnerships which will actually be running the schemes bersetzungsvorschlag Zur Auswahl der Entwicklungspartnerschaften von denen die Ma nahmen durchgef hrt werden sollen sind zwei Aufrufe zur Einreichung von Projektvorschl gen vorgesehen Segment 468591 Klasse Term Match 0 20 a 0 3294 wird bersprungen Segment 472271 Klasse Term Match 0 20 a 0 3294 wird bersprungen Segment 463084 Klasse Term Match 0 20 a 0 3096 wird bersprungen Segment 463119 Klasse Term Match 0 20 a 0 3096 wird bersprungen Segment 465497 Klasse Term Match 0 20 a 0 3096 wird bersprungen Segment 647161 Klasse kene Relevanz 0 00 a 0 1711 wird bersprungen 110 A FUZZY MATCHES A 2 S tze mit hoher G te der Beleglage Matches zum Segment 429939 en Segment 468429 Klasse enth lt etwas mehr 0 80 a 0 4378 Anfragesatz Treffer The However the Commission considered that the measures measures however satisfy the criteria laid down in the European can be approved under the EU rules on State aid and the Union Community guidelines guidelines on State aid for rescuing and for rescuing and restructuring reestructuring firms in difficulty firms in difficulty and can therefore be approved in particular bersetzungsvorschlag Die Kommission kam zu dem Ergebnis dass diesen Ma nahmen in Anwendung d
20. nicht zul ssig sein Eine Top Down Suche nach einem op timalen Alignment beendet dann die Unterteilung von Alignment Beads fr her Bereiche die eigentlich eine berkreuzungen erfordern werden dann durch eine gro e Zuordnung abgedeckt In Abbildung 2 2 w rden die Beads 1 und 2 durch eine 3 3 Zurodnung und die Beads 4 und 5 durch eine 3 2 Zuordnung ersetzt werden Viele Satzaligner verbieten zus tzlich n m Zuordnungen mit max n m gt 2 Dies geschieht vor allem um die Anzahl der in Frage kommenden m glichen Zurordnungen und somit die Komplexit t der Suche des optimalen Alignments zu reduzieren In der Praxis scheitert die Bestimmung eines optimales Alignment bereits daran dass die Korrektheit einer Zuordnung nicht eindeutig festgestellt werden kann Die Frage ob zwei verschiedene S tze das gleiche ausdr cken kann nicht zweifelsfrei beantwortet wer den Ein maschineller Aligner kann die Korrektheit einer Zuordnung nur absch tzen Man schw cht daher die Bedingung der Korrektheit der Zuordnungen ab indem der Grad der bereinstimmung der einander zugeordneten Einheiten verwendet wird um jedes Ali gnment zu bewerten Der Begriff der Zul ssigkeit kann dann nicht mehr angwendet wer den bzw jedes Alignment wird zul ssig Optimalit t wird nun ber die skalare Gr e 19 2 3 Ber cksichtigung von hnlichen TUs 2 TRANSLATION MEMORY INCAT definiert mit der jedes Alignment bewertet wird Die Bewertung soll m glichst gut
21. r einen bersetzer besonders wichtig eigene Eintr ge z B zu der speziellen Terminologie die in den Tex ten eines Auftraggebers vorkommt erstellen zu k nnen Soll umfangreiches Material bersetzt werden dann erleichtert es eine solche kundenspezifische Terminologie Zusam menstellung die Begriffe korrekt und einheitlich zu bersetzen H ufig werden auch ein sprachige Beschreibungen der Terminologie genutzt die der Auftraggeber zur Verf gung stellt oder die gew nschten bersetzungen der Begriffe k nnen aus bereits bersetzen Es soll hier aber auch nicht um den kulturellen Wert dieser B cher gehen sondern darum die Allgegenwer tigkeit von bersetzungen in unserer Zeit und die Breite der Anforderungen an bersetzungen zu verdeutlichen 3Viele bersetzungsdienstleister bieten neben bersetzungsleistungen auch das Anfertigen von Zusammen fassungen und das berarbeiten von Manuskripten an Dass das W rterbuch und die Terminologiepflege i d R Produkte verschiedener Hersteller sind muss hier nicht weiter interessieren In der Praxis bedeutet das lediglich dass der Benutzer vor dem Nachschlagen entschei den muss welches Verzeichnis er w hlt 1 EINLEITUNG 1 1 Computer Aided Translation Texten extrahiert werden Es wird bereits Software angeboten die diese Extraktion au tomatisch durchf hrt Allerdings sind die Terminologieextraktion und die Identifikati on der entsprechenden bersetzung in gegebenen Paaren
22. 0 70 0 5898 Anfragesatz Treffer Die Aufforderungen ergehen jeweils in Form Die Abgabe einer mit Gr nden versehenen Stellungnahme einer mit Gr nden versehenen Stellungnahme der zweiten Stufe ist das zweite Stadium des Vertragsverletzungsverfahrens gem Artikel 226 EG Vertrag des Vertragsverletzungsverfahrens gem Artikel 226 EG Vertrag bersetzungsvorschlag The sending of a Reasoned Opinion is the second stage in the infringement procedure set out in Article 226 of the EC Treaty Segment 434712 Klasse hnlicher Inhalt 0 70 0 5728 Anfragesatz Treffer Die Aufforderungen ergehen jeweils in Form Die Aufforderung durch die Kommission wird im Rah men einer einer mit Gr nden versehenen begr ndeten Stellungnahme Stellungnahme erfolgen der zweiten Stufe des Vertragsverletzungsverfahrens gem Artikel 226 EG Vertrag der zweiten Stufe des Vertragsverletzungsverfahrens gem Artikel 226 EG Vertrag bersetzungsvorschlag The Commission will make its request in a reasoned opinion the second stage in the infringement procedure under Article 226 of the EC Treaty 94 A FUZZY MATCHES A 2 S tze mit hoher G te der Beleglage Matches zum Segment 464698 de Segment 457918 Klasse fast gleicher Inhalt 0 85 a 0 6500 Anfragesatz Treffer Die endg ltige Ent
23. 16 234 488 435984 23 232 492 628192 22 232 496 464112 34 231 500 5 449462 15 23 1 504 650460 58 23 1 508 614128 37 229 512 440672 31 228 51 6 627606 27 22 8 52 0 494584 29 22 7 524 469386 18 226 52 8 622332 38 223 53 2 682690 18 222 53 6 530330 20 222 54 0 631708 20 222 544 422506 39 222 54 8 501616 15 222 55 2 661594 16 22 1 55 6 663938 43 22 0 56 0 672728 18 220 564 500444 19 219 56 8 426022 23 219 572 477590 24 218 57 6 658664 33 217 58 0 499272 40 217 584 655148 46 217 58 8 635810 20 216 59 2 523298 15 216 59 6 438328 20 216 60 0 0 447704 33 21 5 604 460596 36 213 608 482864 14 213 612 Fortsetzung n chste Seite bersicht zur Stichprobe Deutsch 79 A 1 Stichprobe A FUZZY MATCHES Segment L nge TOP 4 hnlichkeit Rang G te 623504 18 212 616 526814 38 212 620 451220 32 212 624 523884 41 21 1 628 454736 22 20 9 63 2 509820 16 20 8 636 624090 38 20 8 640 512164 22 2080 644 488138 15 20 7 648 528572 19 20 7 652 20 450634 25 20 7 656 625262 18 204 660 656906 22 204 664 459424 32 204 668 440086 33 202 672 468214 19 199 67 6 621746 24 19 8 68 0 643428 20 196 684 463526 14 195 68 8 472316 16 193 692 465284 32 193 69 6 423678 25 192 700 15 471144 24 190 704 5156
24. 1999 nennt zur Evaluation der bersetzungsvorschl ge verschiendene hn lichkeitsma e vergleiche Abschnitt 2 3 und die Bewertung durch Spezialisten Seite 147 148 Beispielsweise bitten Cranias et al 1994 f nf bersetzer alle Vorschl ge in vier vorgegebene N tzlichkeitsklassen einzuteilen In der Auswertung werden die Anzahlen je Klasse einfach summiert Der Grad der bereinstimmung der einzelnen Bewertungen wird nicht berechnet Hierf r w re die Kappa Statistik geeignet Eine leicht verst ndliche Einf hrung findet sich in Carletta 1996 Auch werden in einigen Arbeiten die Ergebnisse verschiedener maschineller Bewertungen angegeben ohne die Unterschiede genauer zu untersuchen Ganz andere Evaluationkriterien die die Bed rfnisse des beruflichen bersetzers im Blick haben werden in der Hausarbeit von Erpenbeck et al 2000 genannt Die Autoren st tzen sich dabei wesentlich auf die Empfehlungen der EAGLES Kommission die auch in Seewald Heeg und N bel 1999 und Reinke 1999 verwendet werden Ebenfalls klar als Produktevaluation angelegt sind die Kriterien die im ARG Projekt Computer Assisted Translation for Irish zur Evaluation von vier Produkten benutzt werden Die Arbeit von Feder 2001 konnte hier leider nicht mehr ber cksichtigt werden 4 2 5 1 Produkte W hrend der Recherchen f r diese Arbeit konnten viele Hinweise auf Produkte und Her steller gefunden werden In Tabelle 2 5 sind diese Informationen zusa
25. 22 15 8 90 8 510138 12 154 912 525816 15 150 91 5 582498 15 150 919 675360 19 150 92 3 440190 12 149 927 527625 15 14 8 93 1 666918 17 142 93 5 669933 15 14 1 93 8 499284 21 14 0 94 2 496872 16 133 946 0 679581 18 129 95 0 439587 12 11 5 954 485415 13 102 95 8 440793 16 80 9 2 500490 13 15 96 5 479988 12 170 969 Fortsetzung n chste Seite bersicht zur Stichprobe Englisch 87 A 2 S tze mit hoher G te der Beleglage A FUZZY MATCHES Segment L nge TOP 4 hnlichkeit Rang G te 470943 28 6 8 973 688626 18 65 977 639783 26 45 981 676566 23 43 98 5 527022 12 30 98 8 S 668124 16 11 992 0 492048 24 00 996 0 623502 16 0 0 100 0 0 Tabelle A 2 bersicht zur Stichprobe Englisch A 2 S tze mit hoher G te der Beleglage A 2 1 Deutsch S tze mit G te ber 60 Die S tze Segmente sind absteigend nach G te sortiert 612370 de 457666 de 464698 de 616161 de 652804 de Matches zum Segment 612370 de Segment 612382 Klasse Exact Match 1 00 a 1 0000 Anfragesatz Treffer Da mit dieser bernahme die Vorau etzungen von Ar tikel 66 Absatz 2 EGKS Vertrag erf llt sind hat die Kommission ihre Zustimmung erteilt Da mit dieser bernahme die Vorau etzungen von Ar tikel 66 Absatz 2 EGKS Vertrag erf llt sind hat die Kommission ihre Zustimmung erteilt bersetz
26. 3 1 1 Es kann z B eine Rangliste der W rter erstellen die zusammen mit einem vorgegebenen Wort auftreten Das andere statistische Werkzeug zeigt die Verteilung der Verwendungen von Ausdr cken im Textmaterial an und gibt damit einen Hinweis darauf ob es sich um verbreitete Ausdrucksweise oder um spezielle einzelner Autoren handelt Wenn jedoch Unsicherheiten bestehen ob alle in Frage kommenden bersetzungen be kannt sind oder wenn untersucht werden soll unter welchen Bedingungen welche berset zung gew hlt wird dann werden Texte zusammen mit ihrer bersetzung ben tigt Solches Material wird paralleles Korpus bilinguales Korpus oder Bitext genannt Je nach Anwen dung ist es wichtig dass nicht zu frei bersetzt wurde und dass die bersetzungsrichtung einheitlich ist d h dass Ausgangs und Zielsprache nicht wechseln Auch sind Texte pro blematisch die aus einer dritten nicht am Korpus beteiligten Sprache bersetzt wurden F r die Arbeit eines bersetzers sind die Ergebnisse fr herer bersetzungsbem hungen des gleichen Auftraggebers besonders aufschlussreich Ein bilingualer Concordancer zeigt Textstellen zusammen mit ihrer bersetzung an Wahlweise k nnen f r eine oder bei de Sprachseiten W rter vorgegeben werden die in den anzuzeigenden Stellen auftreten m ssen Hier bernimmt der bersetzer Aufgaben die eigentlich zu dem Arbeitsbereich eines Lexikographen geh ren Concordancer sind besonders hilfreich wenn die Ziel
27. 3 8 5 0 007 vollst ndig 5 0 000 wurde 5 4 1 0 368 Mittelwert 0 151 Tabelle 2 4 Positionsabst nde und eine einfache Bewertung Beispiel 2 4 Die Exponentialfunktion wende ich auf die negativen Differenzen an damit W rter die nur in einem der S tze auftreten einfach in die Bewertung integriert werden k nnen F r sie wird ein unendlicher Positionsabstand angenommen der zu der Bewertung f hrt Zeile vollst ndig im Beispiel Je kleiner der Positionsabstand ist desto gr er ist die Bewertung Die bestm gliche Bewertung 1 0 stellt sich ein wenn die Wortpositionen identisch sind Als Gesamtbewertung wird im Beispiel der Mittelwert verwendet Weitere hnlichkeitsma e Baldwin und Tanaka 2000 vergleichen einige hnlichkeitsma e und bieten daher eine gu te bersicht Sie betrachten sprachunabh ngige Ma e die wahlweise die Zeichen oder die W rter der zu vergleichenden S tze als Einheiten behandeln Zu dieser Klasse geh rt auch das Ma aus dem vorangehenden Unterabschnitt da es auch m glich ist die Zeichenpo sitionen der einzelnen Buchstaben zu vergleichen Baldwin und Tanaka beschreiben unter anderem ein auf dem Vector Space Model basierendes hnlichkeitsma das im Bereich des Information Retrievals sehr verbreitet ist das Ma Editierdistanz und zwei Ma e die die L ngen der gemeinsamen Zeichen oder Tokenketten ber cksichtigen 2 3 3 Einsatz flacher Analysestrukturen Ein Worta
28. 31 26 9 268 437742 42 269 272 489896 18 26 8 276 425436 56 26 8 28 0 437156 30 26 6 28 4 458838 21 26 6 28 8 424850 24 26 6 292 520368 17 26 5 296 679174 12 26 5 300 18 639912 41 26 4 304 673900 13 26 3 308 633466 46 26 3 312 491068 51 262 31 6 678002 45 262 320 473488 44 262 324 638740 31 26 1 328 649874 52 26 1 33 2 501030 19 26 1 33 6 458252 57 26 1 340 629364 36 26 0 344 442430 39 25 9 348 620574 25 25 7 35 2 647530 32 25 7 356 503960 15 25 6 360 624676 41 254 364 441258 31 25 4 368 654562 32 254 372 634052 37 25 3 376 524470 25 252 380 427194 60 252 384 653976 26 25 2 38 8 618816 43 25 1 39 2 645186 37 25 1 39 6 640498 15 25 0 4 0 5 639326 33 24 9 404 638154 19 249 40 8 434812 21 24 8 412 492240 19 24 8 41 6 618230 33 247 420 426608 38 247 424 440115 28 24 6 428 619402 32 24 5 432 Fortsetzung n chste Seite bersicht zur Stichprobe Deutsch 78 A FUZZY MATCHES Stichprobe Segment L nge TOP 4 hnlichkeit Rang G te 508062 18 245 43 6 636982 31 245 440 428366 33 243 444 651046 45 243 448 516852 22 239 45 2 448290 49 23 8 456 627020 14 23 8 46 0 472902 27 23 7 464 664524 35 23 5 468 486380 21 23 5 472 651632 36 234 476 658078 32 234 480 460010 24 234 484 435398
29. 4 1 Stichprobe Je Sprache Deutsch und Englisch wurden mindestens 250 Segmente ausgew hlt Es wur de darauf verzichtet die Auswahl durch einen Pseudo Zufallsprozess zu steuern Statt dessen wurden Segmente ausgew hlt deren Segment Nummer sich ohne Rest durch eine zuvor bestimmte Zahl teilen l t Da zus tzlich die L nge der S tze auf 12 bis 60 W rter eingeschr nkt wurde und da die fortlaufende Nummerierung der Korpussegmente zwischen den Dokumenten durch die Segmente der parallelen Sprache unterbrochen wird kann die Zahl der ausgew hlten Segmente nur ungenau mit dem Teiler gesteuert werden Solange weniger als die gew nschten 250 Segmente in der Stichprobe enthalten sind wird f r die Die jeweils tausend h ufigsten Token Lemmata und POS Tags stehen im Quellcode des Moduls DatabaseAPI haeufigkeit py 56 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 4 Belegsituation verbleibende Anzahl ein neuer Teiler bestimmt und der Auswahlprozess wiederholt Eine zu gro e Auswahl wurde nicht reduziert da dies unn tig erschien Auf diese Weise wur den 250 Segmente im Deutschen Korpusteil und 260 Segmente im Englischen Korpusteil als Stichprobe bestimmt In Folgendem wird wie schon in anderen Abschnitten vereinfachend von S tzen der Stichprobe gesprochen obwohl Segmente mehr als einen Satz enthalten k nnen 3 4 2 Ermittlung der Fuzzy Matches Zu jedem der 510 S tze der Stichprobe werden 11 Fuzzy Matches aus der Datenban
30. 5 498681 16 230 488 512550 33 229 49 2 688023 34 229 49 6 430542 38 229 500 0 663300 18 229 504 642195 39 22 8 508 612648 17 22 7 512 633150 19 22 7 515 663903 14 226 519 522801 26 226 523 455265 38 22 5 527 501696 12 224 53 1 636768 35 224 53 5 678375 19 224 53 8 443808 27 223 542 498078 23 223 546 511344 26 222 55 0 637371 20 22 1 554 445014 25 22 1 55 8 651240 21 22 0 56 2 431748 22 220 56 5 660888 21 22 0 569 528831 14 219 573 446220 19 219 577 472752 30 218 581 458883 27 218 585 463104 16 217 588 510741 24 216 592 684405 20 216 596 626517 31 216 600 5 529434 34 215 604 437778 25 214 608 621693 20 213 612 665109 12 212 615 662697 22 212 619 629532 24 212 623 Fortsetzung n chste Seite bersicht zur Stichprobe Englisch 85 A 1 Stichprobe A FUZZY MATCHES Segment L nge TOP 4 hnlichkeit Rang G te 459486 29 212 627 506520 29 21 1 631 636165 23 21 1 63 5 426924 16 21 1 638 489033 22 21 1 642 669330 22 210 646 434160 19 209 65 0 20 613854 41 20 9 654 612045 28 20 9 658 484209 30 20 7 662 528228 21 20 7 66 5 479385 33 20 6 669 467928 27 20 5 673 614457 23 20 5 677 457074 55 20 5 68 1 489636 44 20 4 68 5 642798 18 20 3 688 428733 23 20 3 692 434763 13 202 696 497
31. ADV jedoch daran PAV daran bestimmt VVIMP bestimmen finden VVINF finden nicht PTKNEG nicht Abbildung 3 4 Einfluss der POS Wahl auf die Lemmatisierung da der IMS TreeTagger scheinbar die Liste der Grundformen auf solche Grundformen be schr nkt die mit dem f r das Token bestimmte POS Tag vereinbar sind Ein geeignetes Token f r einen Test des Verhaltens des Taggers ist Gefallen In einem Kontext in dem es als Nomen getaggt wird aber auch isoliert betrachtet ein Verb sein k nnte d h am Satz anfang steht m ssten auch die Verben fallen und gefallen annotiert werden wenn das POS Tag keine Rolle spielt Abbildung 3 4 zeigt dass je nach POS Tag eine andere Grund formenliste annotiert wird In den Tests tzen sind zwei POS Taggingfehler enthalten die in der Abbildung mit Sternchen markiert wird Im Deutschen sind viele Verben und Nomen betroffen Im Englischen treten lexi kalische Mehrdeutigkeiten innerhalb einer Wortklasse viel seltener im gesamten KoKS Korpus gar nicht auf Ein Beispiel w re saw Als Verb kann es die Vergangenheitsform von sehen und Pr senz von saw s gen sein Des Weiteren kann es das Nomen saw S ge sein Schlie lich muss bei den annotierten Grundformen beachtet werden dass der IMS TreeTagger nicht alle Token die in einer Eingabe auftreten k nnen in seiner Vollformen liste verzeichnet haben kann Unbekannte W rter erhalten die Grundform
32. Abs tzen stehen Die zu Grunde liegende Annahme ist dass ein bersetzer die vorliegen de Absatzstruktur respektiert und keine Inhalte in andere Abs tze verschiebt Zwei weitere Einschr nkungen der Freiheit der Zuordnung die der verwendete Satz aligner mit anderen Alignern teilt sind der v llige Verzicht auf berkreuzungen und die Forderung dass je Text nur zusammenh ngende Einheiten einem Alignment Bead zuge ordnet sein d rfen Ob die letztere Bedingung bereits durch das berkreuzungsverbot ab gedeckt ist h ngt davon ab was man genau unter einer berkreuzung versteht Auf eine Definition wird hier verzichtet da sie f r die Arbeit nicht wichtig ist Ein kritischer Spezi alfall sind solche 0 und 0 m Zuordnungen die zwei Einheiten unterbrechen die zum gleichen Alignment Bead geh ren wie die Zuordnung 5 in Abbildung 2 2 Beide Ein schr nkungen zusammen lassen sich formulieren als Vi j k b e j gt b eix gt j gt k wobei e j die j te Einheit des i ten Textes ist und b die Einheiten auf die Nummern der Alignment Bead abbildet In Abbildung 2 2 versto en Einheiten in den Alignment Beads 1 2 4 und 5 gegen diese Bedingung Die Definition eines zul ssigen Alignments muss f r jede dieser Einschr nkungen an gepasst werden um die Begriffe Zul ssigkeit und Optimalit t weiter anwenden zu k nnen Beim Verzicht auf berkreuzungen d rfen beispielsweise Alignments die sich berkreu zende Zuordnungen enthalten
33. Das anschliessende Kapitel ber POS Tagging Seite 341 381 ist zur Vertiefung sicher lich lesenswert aber zum Erarbeiten der genannten Artikel ber den IMS TreeTagger nicht erforderlich Weitere Bemerkungen zur Feinabstimmung des Markov Modells finden sich in Brants 2000 Toutanova et al 2003 erl utern am Beispiel will to fight das Un verm gen von POS Taggern die auf einem Markov Modell basieren Informationen von Vorg ngertoken und Nachfolgertoken gleicherma en zu nutzen Dies f hre dazu dass im Beispiel entweder will als Verb oder Debt als Nomen getaggt wird Lemmatisierung Zur Lemmatisierung erw hnt Schmid 1995 lediglich dass beim Aufbau des Vollformle xikons das die Wahrscheinlichkeitsvektoren der einzelnen POS Tags aufnimmt auch die Analyseergebnisse der Morphologiekomponente einflossen Abschnitt 4 Tests Wie genau die Lemmatisierung funktioniert Kann den Quellen nicht entnommen werden Vermutlich wurden auch die bei der DMOR Analyse bestimmten Grundformen in das Voll formlexikon aufgenommen sodass der Tagger in der Lage ist diese zu annotieren Die Lemmatisierung spielt in der Darstellung des POS Taggers keine Rolle ist also kein Ne benprodukt sondern eine zus tzliche Leistung des IMS TreeTaggers gt Wichtig f r diese Arbeit und auch f r das KoKS System ist die Tatsache dass der IMS TreeTagger keine Disambiguierung der Lemmata vornimmt Kommen f r ein Token mehrere Grund
34. Der Schl ssel mit dem im Index nachge schlagen wird ist hier nur kein Einzelwort sondern der gesamte Satz Zum Finden von Fuzzy Matches kann ein solcher Satzindex nicht verwendet werden Ein Fuzzy Match weist gew hnlich nur wenige nderungen auf Die meisten W rter stim men also mit dem Anfragesatz berein Ein naheliegendes Vorgehen w re einen Wortindex zu erstellen der zu jedem Wort die S tze oder Satznummern auflistet in denen das je weilige Wort vorkommt und dann nur einzelne W rter des Anfragesatzes f r die Suche zu verwenden Zwar w rde man auf diese Weise viele S tze untersuchen m ssen die nur wenig u U nur das Anfragewort mit dem Anfragesatz gemeinsam haben Die Zahl der zu pr fenden S tze kann so aber deutlich reduziert werden insbesondere wenn als Anfragew rter solche W rter des Anfragesatzes ausgew hlt werden die im Referenzma terial selten vorkommen Mehrere Anfragew rter sind notwendig da auch solche Fuzzy Matches gefunden werden sollen die das erste Anfragewort nicht enthalten Im Allge meinen m ssen 1 Anfragen an den Wortindex gestellt werden wenn n nderungen erlaubt sein sollen Die Anzahl der S tze die jede solche Anfrage liefert w chst mit der Gr e des Referenzmaterials Wenn das Wort X mit der Wahrscheinlichkeit p in einem Satz auftritt dann kann man erwarten np S tze pr fen zu m ssen wenn n die Anzahl der ausgangssprachlichen S tze im Referenzmaterial ist Die Anzahl der z
35. Disco The DT the abgebrannt VVPP abbrennen club NN club war VAFIN sein had VBD have SATZ P burned VBN burn lt SATZ gt down RP down lt segmentgrenze gt SATZ P Au erdem ADV au erdem lt SATZ gt kam VVFIN kommen lt segmentgrenze gt auch ADV auch The DT the Abbildung 3 6 aligntes Dokumentpaar dass vorangehende Segmentgrenzen bereits identifiziert wurden die Abarbeitung also se quentiell erfolgt Es wird nicht angedeutet ob Zugriffsm glichkeiten auf ein Lexikon geplant sind Dies w re sinnvoll um nicht f r jede einzelne Abk rzung eine Regel formulieren zu m ssen Ebensowenig kann mit tokenisiertem Text umgegangen werden da keine Muster f r To kengrenzen definiert werden POS Muster und Grundformen k nnen nicht f r die Segmen tierung herangezogen werden 3 2 5 Alignment Eine abstrakte Darstellung des Alignments wurde bereits in Abschnitt 2 2 3 vorgenom men Da die Betrachtung dort sehr allgemein ist wurde die KoKS Terminologie nicht bernommen Da die Einheiten die alignt werden berwiegend S tze sind wird im folgen den vereinfachend von S tzen gesprochen obwohl auch berschriften und Listenelemente Einheiten sein k nnen In KoKS hei en die Gruppen eines Alignment Beads Segmente wie bereits im Abschnitt 3 2 4 erw hnt wurde Leider wird die Segmentendemarkierung auch verwendet um die Einheiten zu kennzeichnen aus denen der Aligner die Gruppen bilden darf sodass mit Segment auch eine einzelne
36. Einheit gemeint sein kann Der Un terschied zwischen Abbildung 3 3 und 3 6 zeigt wie die Markierungen ver ndert wer den um das Alignment zu repr sentieren In dem abgebildeten Ausschnitt liegt ein 1 2 Alignment Bead vor Der KoKS Aligner ist auf Satzalignment spezialisiert Gruppen k nnen nur aus zu sammenh ngenden Einheiten gebildet werden und die Zuordnungen d rfen sich nicht 43 3 2 Vorverarbeitung 3 KORPUSAUFBEREITUNG F R CAT SYSTEME berkreuzen Etwas ungew hnlich f r einen Satzaligner ist dass der KoKS Aligner zwar keine leeren Gruppen erlaubt aber zugleich die Anzahl der Einheiten in einer Gruppe nicht nach oben beschr nkt Ein KoKS Alignment ist also eine Abfolge von n m Zuordnungen mit n m gt 0 Die Beschreibung des Aligners ist im KoKS Abschlussbericht bereits sehr ausf hrlich Hier wird trotzdem auf die Funktionsweise eingegangen da das Alignment der Schl ssel zur Identifikation der bersetzung innerhalb eines Translation Memorys ist Des Weiteren wird hier eine andere Sichtweise auf den KoKS Aligner vorgestellt mit der die konzeptio nellen Defizite des KoKS Aligners besser verstanden werden k nnen und aus denen sich Verbesserungsm glichkeiten ableiten 20 Abstandswerte und matrix Der KoKS Aligner bestimmt nicht direkt die Abst nde von Gruppen der beiden Sprachsei ten Deutsch und Englisch Es werden immer nur einzelne S tze miteinander verglichen Das hat den Vorteil dass nich
37. Fortsetzung n chste Seite bersicht zur Stichprobe Englisch 82 A FUZZY MATCHES Stichprobe Segment L nge TOP 4 hnlichkeit Rang G te 690435 13 32 5 10 8 640989 35 324 11 2 423306 22 32 3 11 5 42 630135 38 32 2 11 9 616869 33 32 1 12 3 447426 54 31 8 12 7 523404 14 31 2 13 1 457677 21 31 0 13 5 75 689832 14 30 8 13 8 635562 29 30 7 14 2 438381 22 30 7 14 6 473958 26 30 5 15 0 20 468531 43 30 2 15 4 674154 25 30 0 15 8 432351 34 29 9 16 2 481194 20 29 7 16 5 657270 45 29 7 169 32 451647 40 29 6 17 3 668727 12 29 3 17 7 445617 42 29 1 18 1 613251 33 29 0 18 5 644004 25 28 9 18 8 659079 31 28 8 19 2 514962 28 28 7 19 6 658476 43 28 7 200 60 474561 60 28 6 204 443205 54 28 6 208 674757 12 283 212 650637 53 282 215 648225 30 28 1 219 675963 12 278 22 3 422703 45 278 227 631341 49 277 23 1 436572 20 276 23 5 507123 20 275 23 8 442602 54 27 4 242 425115 49 273 24 6 470340 32 27 1 25 0 521595 23 26 9 254 495666 21 26 8 25 8 514359 23 26 7 26 2 435969 53 26 5 26 5 505314 14 26 4 26 9 465516 21 26 3 273 484812 42 26 3 277 Fortsetzung n chste Seite bersicht zur Stichprobe Englisch 83 A 1 Stichprobe A FUZZY MATCHES Segment L nge TOP 4 hnlichkeit R
38. H ufigkeiten der Klassen f r die beiden SIEs sind nur 566 unterschiedliche S tze Einer ist Fuzzy Match zu zwei verschiedenen Anfrages tzen 67 3 4 Belegsituation 3 KORPUSAUFBEREITUNG F R CAT SYSTEME Klasse Relevanz H ufigkeit Deutsch Englisch Exact Match 100 8 4 4 nur Tippfehler 95 2 2 0 gleicher Inhalt 90 5 5 0 fast gleicher Inhalt 85 20 8 12 enth lt etwas mehr 80 11 5 6 enth lt etwas weniger 75 1 1 0 hnlicher Inhalt 70 56 26 30 Subsegment Match 60 28 5 23 Term Match 20 166 71 95 keine Relevanz 0 270 147 123 Summe 567 274 293 Tabelle 3 14 H ufigkeiten der Klassen Sprachen und insgesamt 103 Fuzzy Matches haben ber 60 Relevanz also hnlichen oder sogar fast gleichen Inhalt wie der Anfragesatz Subsegment Matches sind mehr als dreieinhalb mal seltener als relevantere Matches Term Matches wesentlich h ufiger Un terschiede zwischen den Sprachen k nnen festgestellt werden Im Englischen wurden kei ne Matches mit gleichem Inhalt daf r jedoch entsprechend mehr mit fast gleichem Inhalt gefunden Subsegment Matches werden mehr als vier mal so h ufig im Englischen als im Deutschen gefunden S tze mit guter Beleglage Es wurden zu 62 S tzen der Stichprobe 31 je Sprache Klassifikationen vorgenommen Zu 17 weitere Anfrages tze gibt es keine Daten da f r sie gar keine Fuzzy Matches im Korpus gefunden wurden Betroffen sind 15 deutsche und 2 englische S tze Die Bele
39. Methoden Zum Satzalignment wurde hier nur das Grundprin zip erl utert da es nicht direkt in die automatischen Erstellung von bersetzungsvorschl gen eingebunden ist sondern zur Aufbereitung des Referenzmaterials als linguistische Res source dient Das hnlichkeitsma bestimmt dagegen die bersetzungsvorschl ge des Translation Memorys Wenn auf Fuzzy Matches zur ckgegriffen werden muss entscheidet das hnlichkeitsma welche Stellen im Referenzmaterial dem bersetzer pr sentiert wer den Es wurden daher mehrere M glichkeiten skizziert wie ein Wert f r die hnlichkeit bestimmt werden kann Am umfangreichsten dargestellt wurde das Wortalignment da in dessen Bewertung verschiedene linguistische Analysen einflie en k nnen 5Den Nutzen linguistischen Wissens beim Erstellen von Satzalignments hat Tschorn 2002 in seiner Magi sterarbeit untersucht 29 Kapitel 3 Korpusaufbereitung f r CAT Systeme In dieser Arbeit wird ein bilinguales Korpus verwendet um Fallbeispiele f r die Betrach tung einzelner Probleme der datengest tzten bersetzung untersuchen zu k nnen Das verwendete Korpus besteht aus einer Sammlung von deutschen und englischen Texten zu sammen mit ihren jeweiligen englischen und deutschen bersetzungen Ein Teilkorpus kann auch Paare von deutschen und englischen Texten enthalten die aus einer dritten Spra che bersetzt wurden In diesem Kapitel wird das Korpus vorgestellt Zuerst werden die Quell
40. Parameter Start und Ende des Subsegments in der bersetzung zu bestim men Tabelle 4 2 zeigt manuell identifizierte bersetzungen der Subsegmente aus dem Bei spiel Zum Subsegment hat die Kommission ihre ist die Auswahl eines zielsprachlichen Subsegments als bersetzung schwierig da es keine vollst ndige Phrase beinhaltet 4 1 3 Direkte Zuordnung m glicher bersetzungen Soweit der Ansatz beschrieben ist werden zu einzelnen Subsegmenten des Anfragesat zes bersetzungen aus dem Referenzmaterial extrahiert Dabei werden zwei Subsegment Alignments eingesetzt Zuerst werden monolinguale Entsprechnungen zwischen Anfrage satz und Fundstelle gesucht Zu den so gefundenen Subsegmente werden dann durch das bilinguale Alignment bersetzungen ermittelt Alternativ k nnte man die bersetzungen der Fuzzy Matches direkt mit dem Anfra gesatz alignen Dabei m sste das Optimierungsziel angepasst werden Es sollen einzelne sehr gute Alignment Beads gefunden werden Das Gesamtalignment darf schlecht sein Die Alignment Beads mit guter Zuordnungsqualit t liefern dann die Subsegmente Die zweistufige L sung berl sst die Identifikation der nutzbaren Teile des Fuzzy Matches dem monolingualen Alignment Hier k nnen strenge Kriterien wie z B das ge meinsame Auftreten aller W rter angewendet werden Die einstufige L sung muss sich hier darauf verlassen dass das bilinguale Alignment keine falschen Zuordnungen enth lt 74 4 BILI
41. Treebank Tagset unterscheiden zwischen Eigennamen und allen anderen normalen Nomen Das Penn Treebank Tagset enth lt zus tzlich Nomen Tags mit dem Suffix S die verwendet werden um im Plural stehende Nomen zu kennzeichnen 55 3 4 Belegsituation 3 KORPUSAUFBEREITUNG F R CAT SYSTEME Deutsch Englisch H ufigkeit Token H ufigkeit Token 25485 Kommission 10981 10410 9784 aid 7950 Gemeinschaft 8404 market 7184 Unternehmen 6925 something 6558 Mitgliedstaaten 6430 programme 5904 Ma nahmen 5959 development 5721 Entwicklung 5498 time 4977 Rahmen 5425 countries 4562 Jahr 5421 year 3383 Programm 5119 measures 3293 Zusammenarbeit 4900 somebody 3120 Hilfe 4547 policy Tabelle 3 7 H ufige Token mit POS Tags NN und NNS Grundformen ausgez hlt werden Hierbei k nnen aber W rter nicht ber cksichtigt wer den die der Lemmatisierer nicht kennt Auf eine Darstellung dieser H ufigkeiten wird hier verzichtet da hier nur ein grober Eindruck zur Unausgewogenheit des Korpus vermittelt werden soll Dazu sollte Tabelle 3 7 reichen 3 3 3 Alignment Daten zu dem Alignment wurden bereits im Abschnitt 2 2 3 vorgestellt Siehe insbesondere Tabelle 2 2 auf Seite 16 3 4 Belegsituation In diesem Abschnitt soll beleuchtet werden wie gut die Aussichten sind in dem verwen deten Korpus Material zu finden das bei der bersetzung eines neuen Satzes hilft 3
42. Wortalignment von Anfragesatz und Fuzzy Match tabellarisch pr sentiert und vom Benutzer die Klassifikation entgegennimmt Zus tzlich werden mit dem Trigramm hnlichkeitsma auffindbare Entsprechungen einschlie lich berkreuzungen farblich her vorgehoben Der Annotator kann bereinstimmungen an den Tabellenzeilen und Farbmu stern schnell erkennen und kann sich so auf den Inhalt der S tze konzentrieren Das Tool identifiziert automatisch Exact Matches Subsegment Matches Matches die nur wenige Tippfehler enthalten und Matches ohne Relevanz Der Benutzer bestimmt aber grunds tzlich die Klasse eines Fuzzy Matches im Dialog mit der Software Das Tool un terbreitet nur Klassifikationsvorschl ge Abbildung 3 11 zeigt die Anwendung mit einem Fuzzy Match aus dem EU Teilkorpus Die linke Tabellenspalte enth lt den Anfragesatz Rechts sieht man den zu klassifizierenden Fuzzy Match In den Zeilen der Tabelle werden abwechselnd unterschiedliche und bereinstimmende Tokenfolgen gegen bergestellt Ver schiedene Hintergrundfarben die im Schwarzwei druck gleich erscheinen kennzeichnen die Zeilen Die Hervorhebung einzelner W rter k nnen dagegen auch im Druck teilweise erkannt werden In der farbigen Darstellung springen Entsprechungen wie von Konzen tration und konzentriert und von Stillegung und stillgelegt schnell ins Auge da nur 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 4 Belegsituation gefundene Match
43. an fertigen die zum gr ten Teil vermutlich nicht dazu ausgebildet sind Des Weiteren wer den einzelne Nachrichten gar nicht bersetzt wenn die Redaktion der Ansicht ist dass sie f r die Leser uninteressant sind Auch wurde beobachtet dass zum Ende einer Nachricht weitere Ausf hrungen des Ausgangstextes ausgelassen wurden Bei den Harry Potter B chern d rften andere Gr nde vorliegen Sie wurden von Be wunderern der B cher eingescannt und am Computer in Text umgewandelt In einer klei nen Stichprobe f llt auf dass einige offensichtliche Kommata von der OCR als Punkte interpretiert wurden Des Weiteren hat der bersetzer an Stelle eines Semikolons gelegent lich einen Punkt gesetzt Das Korpus EU verh lt sich dagegen wie erwartet wenn man Merkel 2001 beobachtet hnliche Unterschiede in der Verwendung dieser Satzzeichen in einer schwedi schen bersetzung eines englischen Romans Nach Anpassung der Satzgrenzenerkennung erh ht sich der Anteil der 1 1 Zuordnungen auf das Niveau der anderen von Merkel alignten Texte Seite 3 4 6Die verwendeten Kurzbezeichnungen f r die Korpora werden im Abschnitt 3 1 eingef hrt 15 2 2 Segmentierung eines Bitexts in TUs 2 TRANSLATION MEMORY INCAT Korpus 0 1 1 0 1 1 2 1 1 2 andere DE News 1 51027 3951 1151 1469 EU 1 88511 5896 4417 3003 Harry Potter 0 29008 1477 1898 994 Gesamt 2 168546 11324 7466 5466 Tabelle 2 2 Satzzuord
44. die ffentlichkeit bestimmt sind kann leicht nachvollzogen werden warum sie nach der Fertigstellung des Auftrags nicht beim bersetzer verbleiben sollen Die Richtlinien f r den Umgang mit betriebsinternen Dokumenten werden oft re flexartig auch auf solche Dokumente angewendet die ffentlich zug nglich sind wie z B Bedienungsanleitungen Vielleicht spielt aber auch die Angst davor eine Rolle dass ein Fremder wom glich ein Konkurrent von der bezahlten Leistung profitieren k nnte Andererseits kann der Auftraggeber dem bersetzer selbst Textmaterial zur Verf gung stellen Im Falle der Verwendung mit einem Translation Memory bedeudet dies in der Regel dass die Zuordnung der S tze von Ausgangs und Zieltext erneut aufgebaut wer den muss da nur die Texte nicht jedoch das bei der bersetzung benutzte TM vorhanden sind oder da gar kein Translation Memory eingesetzt wurde Aus konomischen Gr nden muss der bersetzer bei sehr gro en Textbest nden eine Auswahl von Texten treffen die ins Translation Memory eingespielt werden Anders sieht die Situation aus wenn beim 10 2 TRANSLATION MEMORY 2 1 Integration in den bersetzungsprozess Auftraggeber zus tzlich zu den Dokumenten auch eine Repr sentation der Zuordnung vor handen ist 2 1 3 Austauschbarkeit mittels TMX Ein Translation Memory speichert die Zuordnung der S tze oder anderer Einheiten von Ausgangs und Zieltext dauerhaft zusammen mit den Texten D
45. die Anzahl der Texte nicht auf zwei beschr nkt und keiner der Texte ist als Ausgangstext ausgezeichnet Zum anderen m ssen sie auch nicht in verschiedenen Sprachen vorliegen Beispielweise entwickeln Ghorbel et al 2002 Alignment Techniken zur Behandlung verschiedener Fassungen altert mlicher Texte Ein hnliches Gebiet ist der Vergleich der neuen Evangelien bei denen Auslassungen und berkreuzungen auftreten Die Einheiten eines Textes die dem selben Alignment Bead angeh ren bilden eine Gruppe Eine Translation Unit setzt sich also aus einer ausgangssprachlichen Gruppe und einer zielsprachlichen Gruppe zusammen Wenn von Zuordnungen gesprochen wird gibt es mehrere M glichkeiten daf r was ge meint ist Obige Definition eines Alignments kann man mathematisch mit einer Funktion b beschreiben die die Einheiten auf Alignment Beads abbildet Was genau ein Alignment Bead ist spielt dabei keine Rolle Es stellt lediglich die Verbindung her zwischen den Einheiten der einzelnen Texte Als Wertebereich f r b sind 7 die nat rlichen Zahlen ge eignet Die dadurch eingef hrte Ordnung der Alignment Beads kann unabh ngig von den Ordnungen der Einheiten sein F r ein Translation Memory ist die Ordnung irrelevant da die Translation Units unabh ngig voneinander eingesetzt werden Abbildung 2 2 zeigt ein Alignment von Einheiten D Dg zu Einheiten 4 Eg Die Bezeichnungen D und E sollen dabei f r die Sprachseiten Deutsch D
46. en Kandidatenmenge erfordert ist hier anders als in einer interaktiven TM Anwendung kein Hindernis Korpuszugriff Zu jedem ausgew hlten Anfragetoken werden zuerst die Satznummern der S tze bestimmt in denen eine Form des expandierten Tokens auftritt Jeweils k Satz nummerlisten werden dann geschnitten um die S tze zu ermitteln in denen mindestens k Anfragetoken vorkommen Die Vereinigung aller 2 Schnitte ergibt schlie lich die Kan didatenmenge Auf Seite 52 im Abschnitt 3 2 7 sind diese Operationen als Formel notiert Im Abschnitt 2 3 1 ist der Spezialfall mit k 1 beschrieben Bewertung mit hnlichkeitsma Aus der Kandidatenmenge k nnen die S tze die als Fuzzy Matches gelten sollen mit auf wendigeren Methoden ausgew hlt werden da diese Menge wesentlich kleiner ist als das Gesamtkorpus Im Abschnitt 2 3 2 werden M glichkeiten angedeutet wie linguistisches Wissen in die Bewertung der Relevanz der Kandidaten einbezogen werden kann und auf Baldwin und Tanaka 2000 verwiesen die mehrere hnlichkeitsma e daraufhin untersu chen wie sie die Qualit t der bersetzungsvorschl ge in einer TM Anwendung beeinflus sen Auch hier wird ein hnlichkeitsma das den Grad der bereinstimmung von Anfrage satz und Kandidat bestimmt als Ma der Relevanz verwendet Es handelt sich um ein einfa ches zeichenbasiertes Ma das im KoKS Projekt entwickelt wurde Das hnlichkeitsma st tzt sich nicht auf einzelne Zeichen sondern a
47. er die Vorhersage mit einem Tastendruck bernehmen und so die Schreibgeschwindigkeit erh hen Interessanter ist aber die M glichkeit bereits bevor das erste Zeichen eines Wortes eingegeben wurde Vorschl ge f r das n chste Wort zu erhalten Mehrdeutigkeiten die ein MT System zu einer m glicherweise falschen Entscheidung zwingen k nnen hier offen bleiben Ein weiteres Hilfsmittel ist das Translation Memory kurz TM um das es in der vor liegenden Arbeit geht Der Begriff TM steht sowohl f r das Hilfsmittel als auch f r das zweisprachige Textmaterial auf das es zugreift Mit einem bilingualen Concordancer hat ein TM aber nicht viel gemeinsam Der Zweck eines TMs ist S tze oder andere Text einheiten die schon einmal bersetzt wurden nicht erneut bersetzen zu m ssen sondern die bersetzung aus dem vorhandenen Textmaterial abrufen zu k nnen sodass w hrend des bersetzungsprozesses die bereits geleistete bersetzungsarbeit genutzt werden kann Ein TM sucht dazu eine passende Stelle im ausgangssprachlichen Material und identifiziert dann die bersetzung in der zielsprachlichen Seite des Textmaterials Das im TM gespei cherte Material wird daher auch als Referenzmaterial bezeichnet Die Identifikation der bersetzung erfordert dass eine Sprachseite des Textmaterials bersetzung der anderen Seite sein muss Vergleichbarkeit der Texte reicht nicht aus Anders als bei einem bilin gualen Concordancer werden nicht einzelne W rte
48. form of so called reasoned opinions the second stage of infringement procedures under 91 A 2 S tze mit hoher G te der Beleglage A FUZZY MATCHES Segment 470928 Klasse fast gleicher Inhalt 0 85 a 0 6374 Anfragesatz Treffer Die Aufforderungen ergehen jeweils Die Aufforderung erging in Form einer mit Gr nden versehenen Stellungnahme in Form einer mit Gr nden versehenen Stellungnahme x Ger zweiten Stufe des Vertragsverletzungsverfahrens TEE Artikel 226 EG Vertrag Artikel 226 EG Vertrag bersetzungsvorschlag The formal request is in the form of a reasoned opinion under infringement procedures laid down by Article 226 of the EC Treaty Segment 434603 Klasse enth lt etwas mehr 0 80 a 0 6245 Anfragesatz Treffer Die Aufforderungen ergehen jeweils Diese formellen Ersuchen werden in Form einer mit Gr nden versehenen Stellungnahme in Form einer mit Gr nden versehenen Stellungnahme abgegeben der zweiten Stufe der zweiten Stufe des eines offiziellen Vertragsverletzungsverfahrens gem Artikel 226 EG Vertragsverletzungsverfahrens gem Artikel 226 EG Vertrag Vertrag bersetzungsvorschlag These formal requests will be made in the form of reasoned opinions the second stage of formal infringement procedures under EC Treaty Article 226 If there is no reply to the reasoned opinion within two months or
49. genannt die die Anzahl der notwendigen Editier schritte z hlen um den bersetzungsvorschlag in die Muster bersetzung zu berf hren Diese Zahl ist ein gutes Ma f r die Dauer der nderung Carl und Hansen 1999 benut zen ein solches maschinelles Translation Score um verschiedene Systeme zu vergleichen Durch die direkte Bewertung der bersetzungsvorschl ge wird die Benutzerschnittstel le aus der Evaluation ausgeblendet Das hei t dass die Art wie die bersetzungsvorschl ge dem Benutzer des Translation Memorys pr sentiert werden keine Rolle spielt Beim Ver gleich verschiedener Evaluationen muss man daher nicht nur ber cksichtigen welches Re ferenzmaterial und welcher Ausgangstext verwendet wurden sondern ebenso pr fen was genau evaluiert wurde H ufig gibt es gute Gr nde warum einzelne Komponenten ausgeblendet werden Wer nur eine einzelne Komponente entwickelt m chte sie mit den entsprechenden Komponen ten anderer Systeme vergleichen F r Translation Memorys k nnen folgende Komponenten identifiziert werden e Alignment des Referenzmaterials e Auswahl und Bewertung der bersetzungsvorschl ge e Pr sentation der bersetzungsvorschl ge und e Integration in den Editor Aus computerlinguistischer Sicht sind besonders die ersten beiden Komponenten inter essant da hier Methoden des Fachs im Vordergrund stehen Dennoch bieten auch die anderen Komponenten Raum f r computerlinguistische Anwendungen Somers
50. genommen m sste man hier von den Tokentupel IDs sprechen Unter der Annahme dass der IMS TreeTagger ein Token das er einmal lemmatisieren konnte nie mit lt unknown gt annotiert deckt die erstellte Grundformliste alle Tokentupel ab in denen das Token auftritt Im Bezug auf das Anfragetoken ist die Darstel lung also korrekt Jedoch ist die Vorstellung falsch die Token die mit einer Grundformliste aus der Liste der Grundformenlisten annotiert wurden w rden f r die Suche im Korpus verwendet Im Beispiel zu fiel wird dies deutlich Obwohl im Korpus das Token Gefallen achtmal mit der Grundformliste fallen gefallen annotiert wurde werden die anderen 29 Auftreten von Gefallen bei einer Suche mit der Grundformliste ignoriert da hier das Nomen vorliegt Diese Rangzahlen m ssen in etwa halbiert werden wenn sie mit einsprachigen H ufigkeitstabellen verglichen werden da in KoKS die H ufigkeiten sprach bergreifend ausgez hlt wurden Die Ausz hlung und Verwendung der Tabelle ist auf diese Weise einfacher Ein Problem sei aber nicht verschwiegen Bei Token die in beiden Sprachen auftreten ist die so bestimmte H ufigkeit die Summe der H ufigkeiten in den Einzelsprachen Unter den h ufigsten 200 Token sind hier besonders Satzzeichen und die drei Token Union national und international betroffen Sie stehen auf zu hohen Rangpl tzen Token wie Land sind nur geringf gig betroffen da sie im Engl
51. indem zu jeder Token Nummer vermerkt wird zu welchem Segment das Token geh rt Es werden gleiche Segmentnum mern f r die beiden Segmente eines Alignment Beads verwendet Entsprechend ist auch eine Satznummer vermerkt Gemeint ist die sprachliche Einheit Satz nicht ein Daten satz Zu jedem Satz wird die Herkunft Quelle Autor und Jahr und nochmal die Sprache gespeichert Die Sprache wird aufgelistet um ohne R ckgriff auf die Tokentupel Segmen te einer bestimmten Sprache abfragen zu k nnen Eventuell war auch vorgesehen dass Tokensprache und Satzsprache abweichen k nnen Die KoKS Vorverarbeitung unterst tzt dies jedoch nicht Warum diese Informationen gerade bei S tzen und nicht bei gr eren Einheiten wie Abs ztzen oder Dokumenten vermerkt werden ist nicht mehr bekannt Einen weiteren Teil der Datenbank nehmen Indizes ein Indizes auf Zeilenwerte einzel ner Spalten und Kombinationen von Spalten werden von der Datenbanksoftware angeboten und automatisch und transparent bei SQL Anfragen eingesetzt Dar ber hinaus wurden spezielle Indizes aufgebaut die eigene Tabellen erforden beispielsweise eine Auflistung aller Segmentnummern sortiert nach Satzanf ngen Im n chsten Abschnitt 3 2 7 werden diese Indizes vorgestellt Behandlung der Grundformen Das Tokentupel enth lt die Grundform so wie sie der Tagger annotiert Beimanchen Token ist dies nicht eine einzelne Grundform sondern eine Liste aus mehreren durch senkrechte Str
52. lich begrif fen hatte da er einen Basilisken in den Rohren geh rt hatte wie er und Ron den Spinnen in den Wald gefolgt waren wo Aragog ihnen sagte wo das letzte Opfer des Basilisken gestorben war wie er auf den Gedanken kam da die Maulende Myrte dieses Opfer gewe sen war und da der Eingang zur Kammer des Schreckens in ihrer Toilette sein k nnte H P Bd 2 Tabelle 3 9 Fuzzy Matches zum Beispielsatz 62 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 4 Belegsituation Klasse Relevanz Exact Match 100 nur Tippfehler 95 gleicher Inhalt 90 fast gleicher Inhalt 85 enth lt etwas mehr 80 enth lt etwas weniger 75 hnlicher Inhalt 70 Subsegment Match 60 Term Match 20 keine Relevanz 0 Tabelle 3 10 Klassifikation der Fuzzy Matches der ersten Arbeitsphase zwischen je zwei zur Klassifikation ausgew hlten Fuzzy Matches in etwa gleich viele nicht ausgew hlte liegen sollen Da der Vergleich von Fuzzy Match und Anfragesatz das aufmerksame Lesen der S tze erfordert ist es sinnvoll alle Fuzzy Matches zu einem Satz der Stichprobe in einen Ar beitsgang zu annotieren Prinzipiell erfordert dies keine nderung am obigen Auswahl verfahren Jedoch sind zu einem Satz der Stichprobe die jeweils besten Matches be sonders interessant Es wurde daher f r jeden Satz der Stichprobe der Durchschnitt der hnlichkeitswerte der besten vier Fuzzy Matches bestimmt und die Auswahl auf Grundla ge dieser Werte
53. man die Zerlegung eines Textes in eine Sequenz von Seg menten Die Art und Gr e der Segmente kann je nach Zielsetzung sehr verschieden sein In der Diskursanalyse werden sowohl grobe Segmentierungen die vergleichbar sind mit der typographisches Dokumentstruktur Abschnitte und Abs tze als auch sehr feine Segmen tierungen deren Segmente nur wenige S tze umfassen vorgenommen siehe z B Sardinha 1997 Seite 5 8 Im KoKS System wird der Begriff Segment anders verstanden In der Regel sind hier Segmente identisch mit S tzen Neben Satzgrenzen sind auch die w hrend der Aufbe reitung siehe Abschnitt 3 2 1 eingef gten Absatzgrenzen Segmentgrenzen sodass auch berschriften ein Segment bilden Segmente k nnen aber im KoKS System auch mehrere S tze umfassen oder leer sein Der Aligner siehe Abschnitt 3 2 5 verschmilzt Segmente 40 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 2 Vorverarbeitung den Zettel der am ramponierten alten Notizbrett aufgetaucht war lt segmentgrenze gt Ende Oktober an Halloween lt segmentgrenze gt Klasse sagte Fred der Harry durch das Portr tloch gefolgt war ich muss zu Zonko meine Stinkk gelchen sind fast alle lt segmentgrenze gt Harry lie sich in den Sessel neben Ron fallen H Abbildung 3 5 Segmentierungsfehler bei w rtlicher Rede um das Alignment zu repr sentieren Nach dem Alignen besteht jedes Alignment Bead aus genau einem deut
54. of the formal infringement procedure under Article 226 of the EC Treaty Segment 464651 Klasse hnlicher Inhalt 0 70 a 0 7377 Anfragesatz Treffer Die Aufforderungen ergehen jeweils Die f rmliche Aufforderung ergeht in Form einer in Form einer so genannten mit Gr nden versehenen Stellungnahme der zweiten mit Gr nden versehenen Stellungnahme der zweiten Stufe des Vertragsverletzungsverfahrens Stufe des Vertragsverletzungsverfahrens gem nach Artikel 226 EG Vertrag Artikel 226 EG Vertrag bersetzungsvorschlag The formal request takes the form of a so called reasoned opinion the second stage of infringement procee dings under Article 226 of the EC Treaty Segment 455441 Klasse hnlicher Inhalt 0 70 0 5958 Anfragesatz Treffer Die Aufforderungen ergehen jeweils in Form einer Die mit Gr nden mit Gr nden versehenen versehene Stellungnahme Stellungnahme der zweiten leitet die zweite Stufe des Vertragsverletzungsverfahrens gem Artikel Stufe des Vertragsverletzungsverfahrens gem Artikel 226 EG Vertrag 226 EG Vertrag ein Ubersetzungsvorschlag The sending of a reasoned opinion is the second stage in the infringement procedure provided for in Article 226 of the EC Treaty 93 A 2 S tze mit hoher G te der Beleglage A FUZZY MATCHES Segment 459633 Klasse hnlicher Inhalt
55. sein Da die Zahl der Alignments endlich ist gibt es immer mindestens ein optimales Alignment Die Bewertung eines Alignments kann neben der bereinstimmung des Inhalts inner halb der Alignment Beads auch die Art der Zuordnung und die Entfernungen der Einheiten ber cksichtigen Ein maschineller Aligner hat also die Aufgabe ein Alignment mit opti maler Gesamtbewertung zu finden Abschnitt 3 2 5 beschreibt einen Satzaligner der nach diesem Prinzip arbeitet 2 3 Ber cksichtigung von hnlichen TUs In einer berarbeiteten Fassung eines Dokuments weisen viele S tze nur kleine Ver nde rungen auf Es werden Fehler korrigiert die Terminologie vereinheitlicht und die Reihen folge der W rter der Lesbarkeit Willen verbessert Ein Translation Memory das nur ge nau bereinstimmende Fundstellen ber cksichtigt zwingt den bersetzer jeden auch nur geringf gig ver nderten Satz erneut zu bersetzen Ein Teil des im Translation Memory vorhandenen bersetzungswissens kann so bei berarbeiteten Dokumenten nicht genutzt werden Das gleiche Problem tritt auf wenn ein vorhandenes Dokument als Vorlage f r ein neues Dokument verwendet und dabei ein Gro teil der Formulierungen zwar bernommen aber leicht angepasst wird Eing ngigstes Beispiel hierf r sind Bedienungsanleitungen f r Nachfolgemodelle eines Produkts In vielen S tzen ist nur die Produktbezeichnung aus getauscht H ufig ist die Produktbezeichnung in Ausgangs und Zielsprache sog
56. so darzustellen dass einander hnliche Vorschl ge leicht erkannt werden k nnen bersetzungsvorschl ge die auf Fuzzy Matches basieren erfordern 1 4 Anpassun gen Ausnahmen ergeben sich z B beim bersetzen einer korrigierten Fassung eines Textes der in einer Rohfassung die viele Fehler enth lt bereits bersetzt wurde Ein Translation Memory bietet grunds tzlich nur bersetzungsvorschl ge in der Form an wie es sie im Referenzmaterial vorfindet Selbst einfache Anpassungen wie z B das Ersetzen 25 2 4 Layout Information 2 TRANSLATION MEMORY INCAT von Produktbezeichnungen Datumsangaben oder Zahlen muss der bersetzer vornehmen 2 4 Layout Information Ein Dokument ist mehr als eine Abfolge von W rtern In Abschnitt 2 2 1 wurde bereits erw hnt dass ein Absatzende besonders vermerkt wird Auf hnliche Weise sind ber schriften Listen und viele andere Elemente ausgezeichnet Sowohl strukturelle Informatio nen z B ob es sich um eine Kapitel oder Abschnitts berschrift handelt als auch konkrete Anweisungen zur Darstellungen wie die zu verwendende Schrift und Abst nde k nnen annotiert sein 2 5 Evaluationkriterien Es ist schwierig Kriterien f r den Vergleich von Translation Memory Systemen zu fin den Ma stab soll sicherlich sein wie gut das Translation Memory dem bersetzer hilft seine Arbeit auszuf hren Die G te der Hilfe kann an der Zeiterspamis gemessen wer den wenn davon ausg
57. there to have been an infringement of Community law and calling on the Member State to comply within a specified period normally two months as in this mit der Aufforderung den festgestellten Versto binnen Monats abzustellen 101 A 2 S tze mit hoher G te der Beleglage A FUZZY MATCHES Segment 461810 Klasse Term Match 0 20 a 0 3664 wird bersprungen Segment 447998 Klasse Term Match 0 20 a 0 3579 wird bersprungen Segment 442309 Klasse Term Match 0 20 a 0 3445 wird bersprungen Segment 472276 Klasse Term Match 0 20 a 0 3430 wird bersprungen Matches zum Segment 652804 de Segment 652653 Klasse gleicher Inhalt 0 90 a 0 9188 Anfragesatz Treffer Die Kommission hat das Beihilfevorhaben auf die Ver einbarkeit mit dem Beihilfenkodex f r die Stahlindu strie hin berpr ft und sich vergewissert da die Beihilfeintensit t s mtlicher Ma nahmen die zul ssige H chstgrenze von 35 nicht berschreitet und die Die Kommission hat das Beihilfevorhaben auf die Ver einbarkeit mit dem Beihilfenkodex f r die Stahlindu strie hin berpr ft und sich vergewissert da die Beihilfeintensit t s mtlicher Ma nahmen die zul ssige H chstgrenze von 35 nicht berschreitet und die in dem im Beihilfenkodex f r Beihilfenkodex f r die Stahlindustrie den Stahlsektor vorgegebenen Fristen f r
58. und Englisch stehen auch wenn diesem Beispiel kein Text zugrunde liegt Die Indizes i und j numme rieren die Einheiten in der Reihenfolge wie sie in den Texten auftreten Das Alignment enth lt sechs Alignment Beads Die Funktion b ist mit dem Symbol gt angegeben 7 Aus dem Englischen alignment Abgleich Anordnung die in der Vermessungskunde gebr uchliche franz sische Schreibung Alignement wurde nicht bernommen Folglich wird auch die Verbform alignieren nicht verwendet und stattdessen alignen von to align benutzt In der Bioinformatik haben sich die gleichen Bezeichnungen f r das Zuordnen von DNS und Proteinsequenzen durchgesetzt 17 2 2 Segmentierung eines Bitexts in TUs 2 TRANSLATION MEMORY INCAT Text 1 Text 2 Di 1 1 0 2 2 0 1 2 D4 4 E4 D55 5 4 Der 4 4 076 6 Dg 6 6 Abbildung 2 2 Ein Alignment mit sechs Alignment Beads Optimales Alignment Wenn alle Zuordnungen eines Alignments korrekt sind dann ist das Alignment zwar zul ssig aber nicht zwingend so detailiert wie gew nscht Insbesondere reicht es nicht aus alle Einheiten einem einzigen Alignment Bead zuzuordnen Au er nat rlich wenn z B ein Ausgangstext so frei bersetzt wurde dass keine feinere Zuordnung m glich ist Was ein erw nschtes Alignment charakterisiert wird aus folgend
59. 0 0 0 0 3401 0 3546 0 7 0 0 0 O 0 0 0 0 0 3293 0 3401 7 3 1 1 0 0 0 0 0 0 10 3207 0 32293 2 4 0 000000 0 0 3098 0 3207 3 10000000 0 0 3000 0 3098 33000900000 0 E angegeben durch die Relevanz in Tabelle 3 12 Klassenverteilung in hnlichkeitsintervallen Deutsch vall die absoluten H ufigkeiten der Klassen der Fuzzy Matches mit hnlichkeitswerten aus dem Intervall ermittelt Da die Verteilung der hnlichkeitswerte sprachabh ngig ist wird die Abh ngigkeit f r Deutsch und Englisch getrennt untersucht Der Idealfall w re dass solche Intervalle gefunden werden k nnen dass Intervalle und Klassen bijektiv und ordnungserhaltend einander zugeordnet sind Das hnlichkeitsma w rde dann auf den klassifizierten Fuzzy Matches keine Vorhersagefehler machen und man k nnte eine sehr gute Vorhersagequalit t bei neuen Fuzzy Matches erwarten Oder es w rde der Verdacht aufkommen der Annotator habe die S tze nicht gelesen und nur den hnlichkeitswerten Beachtung geschenkt Zu erwarten ist jedoch dass in jedem Intervall mehrere Klassen vertreten sind au er wenn man sie so schmal w hlt dass nur noch sehr wenige Fuzzy Matches vertreten sind Die Tabellen 3 12 und 3 13 listen die Klassenh ufigkeiten f r einige Intervalle auf Die Klassen sind stellvertretend mit den in Tabelle 3 10 eindeutig zugeordneten Relevanz werten angegeben um Platz zu sparen Die Intervalle wurden mit Hilfe der Rangliste aller hnlich
60. 0 6050 Anfragesatz Treffer Die endg ltige Entscheidung Die endg ltige Entscheidung der ber das Programmplanungsdokument trifft die Kommission Kommission ber die beiden Programme wird nach nach deren Pr fung durch den Ausschuss f r die Entwicklung und Pr fung durch den Ausschuss f r die Entwicklung und Umstellung der Umstellung der Regionen sowie durch Regionen 1 und den ESF Ausschuss den ESF Ausschuss ergehen bersetzungsvorschlag The final decision on this programming document will be taken by the Commission after it has been considered by the Committee on the Development and Conversion of Regions and the ESF Committee 95 A 2 S tze mit hoher G te der Beleglage A FUZZY MATCHES Segment 461241 Klasse fast gleicher Inhalt 0 85 a 0 5939 Anfragesatz Treffer Die endg ltige Entscheidung Die endg ltige Entscheidung ber das Programmplanungsdokument wird von der Kommission der Kommission ber die beiden Programme wird nach nach deren Pr fung Pr fung des Programms durch den Ausschuss f r die Entwicklung und Umstel lung der durch den Ausschuss f r die Entwicklung und Umstel lung der Regionen sowie durch Regionen 1 und den ESF Ausschuss den ESF Ausschuss ergehen getroffen bersetzungsvorschlag The final decision on this programming do
61. 1 377 575 833 5 1 9 A 129 321 681 1289 2241 3 649 6 1 11 61 231 61 1683 3653 7183 13 073 7 1 13 8 377 1289 3653 8989 19825 40081 8 1 15 113 575 2241 7183 19825 48639 108545 9 1 17 145 833 3649 13073 40081 108545 265729 10 1 19 181 1159 5641 22363 75517 224143 598417 11 1 21 221 1561 8361 36365 134245 433905 1256465 12 1 23 265 2047 11969 56695 227305 795455 2485825 13 1 25 313 2625 16641 85305 369305 1392065 4673345 14 1 27 365 3303 22569 124515 579125 2340495 8405905 15 1 29 421 4089 29961 177045 880685 3800305 14546705 16 1 31 481 4991 39041 246047 1303777 5984767 24331777 Abbildung 3 7 Anzahl der Pfade in der Abstandsmatrix Pfadrepr sentation eines Alignments In einer Abstandsmatrix fallen in der Regel l ngere Diagonalfolgen von Matrixzellen mit niedrigen Abstandswerten auf Sie deuten auf Sequenzen von 1 1 zu alignenden S tzen hin Im KoKS Projekt wurde daher entschieden zum Bestimmen eines Alignments einen Pfad in der Abstandsmatrix zu suchen der ber Zellen f hrt deren Abstandswerte in der Summe m glichst klein sind Der Pfad soll die Zellen 1 1 und m n verbinden da angenommen wird dass das erste Alignment Bead mindestens die ersten S tze der zu ali gnenden Dokumente und entsprechend das letzte Bead die letzten S tze enth lt Jeder Pfad setzt sich aus einer Abfolge von Zellen zusammen Nachfolger einer Zelle i j k nnen i 1 j 7 1 und i 1 j 1 sein sofern sie innerhalb der Matrix liegen Graphenth
62. 3 Ber cksichtigung von hnlichen TUs 2 TRANSLATION MEMORY INCAT 2 3 2 hnlichkeitsma e Die Relevanz eines bersetzungsvorschlags orientiert sich daran wie sehr der Vorschlag dem bersetzer hilft d h welchen Effizienz und Effektivit tsvorteilt er ihm bietet Um die Relevanz abzusch tzen stehen dem Translation Memory prim r der zu bersetzende Satz die Fundstelle und die zugeordnete bersetzung zur Verf gung Sekund re Informations quellen sind die alternativen Fundstellen die gesamten im TM gespeicherten Korpora und sonstige Quellen wie z B W rterb cher Wichtigstes und naheliegendstes Kriterium ist der Grad der bereinstimmung der Fundstelle mit dem zu bersetzenden Satz Sie wird mit einem hnlichkeitsma gemessen H ufig sind diese Ma e symmetrisch d h die Richtung des Vergleichs spielt keine Rolle Ob ein Wort eingef gt oder gel scht wird hat nat rlich unterschiedlichen Einfluss auf die N tzlichkeit der bersetzung Vermutlich ist es f r den bersetzer einfacher ein Wort aus dem bersetzungsvorschlag zu entfernen als eine passende bersetzung f r ein ein gef gtes Wort suchen zu m ssen Die Auswirkungen der nderungen k nnen aber kom plexer sein so dass auch scheinbar einfache F lle schwierigere Anpassungen erfordern Es w re sinnvoll dies experimentell zu untersuchen um ein asymmetrisches hnlichkeitsma entwerfen zu k nnen das auf die spezielle Problemstellung des Translation Memorys
63. 3 8 2 3 gesetzt Nur neun der 8 56 m glichen Kombinationen von Anfragetoken ergeben didaten 46 Baldwin und Tanaka 2000 geben ein zeichenbasiertes Ma Token Intersection an dass im Nenner anstatt des Maximums das arithmetische Mittel verwendet Formel 2 auf Seite 38 Im Nenner steht der Mittelwert der L ngen der Zeichenfolgen Der Bruch wurde mit zwei erweitert Das sei die bliche Form Wenn man f r die L ngen 1 einsetzt und die Summen zusammenfasst wird die hnlichkeit zum KoKS Ma offensichtlich Baldwin und Tanaka erlauben zus tzlich dass der Einfluss jedes Tokens unterschiedlich gewichtet wird Dort wird das Abstandsma 1 a betrachtet 60 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 4 Belegsituation Schnitt 0 1 2 2 Kandidaten Schnitt 0 1 4 2 Kandidaten Schnitt 0 4 6 Kandidat Schnitt 1 4 7 Kandidat Schnitt 2 3 4 2 Kandidaten Schnitt 4 5 6 1 Kandidat Schnitt 4 5 7 2 Kandidaten Schnitt 4 6 7 1 Kandidat Schnitt 5 6 7 4 Kandidaten Vereinigung 16 Kandidaten Hier ist die Summe der Anzahlen in den einzelnen Schnitten gleich der M chtigkeit der Vereinigung Dies ist ungew hnlich und bedeutet dass die Schnitte paarweise disjunkt sind Mit k 4 h tte man zu dem Beispielsatz folglich keine Kandidaten erhalten Wie f r die Stichprobe werden die elf Kandidaten mit der gr ten hnlichkeit zum An fragesatz a
64. 475 42 20 1 700 45 651843 19 20 0 704 618075 20 20 0 708 491445 30 20 0 712 664506 34 199 715 526419 14 199 719 646416 37 199 723 630738 24 198 727 483003 21 197 731 683199 37 197 173 5 532449 12 196 173 8 422100 39 196 742 525213 26 19 6 74 6 692847 30 195 75 0 452853 13 194 754 647019 23 190 75 8 454059 29 190 76 2 538479 13 189 76 5 519183 18 189 76 9 513153 17 189 773 453456 35 18 8 777 524007 27 18 8 78 1 469134 19 18 7 78 5 486621 35 18 7 788 672948 17 18 7 792 431145 49 18 6 79 6 Fortsetzung n chste Seite bersicht zur Stichprobe Englisch 86 A FUZZY MATCHES Stichprobe Segment L nge TOP 4 hnlichkeit Rang G te 505917 36 18 5 800 0 508932 22 185 804 518580 30 18 5 80 8 444411 22 18 5 812 509535 19 18 5 815 490842 29 18 4 81 9 466119 19 183 823 619281 15 183 827 631944 51 18 1 83 1 469737 31 18 0 83 5 661491 21 18 0 83 8 475164 16 18 0 84 2 427527 28 18 0 84 6 654858 23 18 0 85 0 452250 17 179 854 423909 22 178 85 8 476973 15 176 862 482400 26 174 86 5 493857 19 173 869 671139 23 17 1 873 656667 19 16 8 877 460089 18 16 6 881 627120 15 16 4 88 5 501093 15 16 4 88 8 446823 50 16 3 892 464913 12 16 3 89 6 438984 12 162 90 0 0 667521 22 159 90 4 530640
65. 5 Anfragesatz Treffer The measures however satisfy the criteria laid down The Commission approved the aid since it found the aid in the European Union to be compatible with the 1994 Community guidelines guidelines on State aid for rescuing and restructuring firms in difficulty for rescuing and restructuring firms in difficulty and can therefore be approved bersetzungsvorschlag Die Kommission genehmigte die Beihilfen gem den gemeinschaftlichen Beihilfen f r staatliche Beihilfen zur Rettung und Umstrukturierung von Unternehmen in Schwierigkeiten aus dem Jahr 1994 111 A 2 S tze mit hoher G te der Beleglage A FUZZY MATCHES Segment 471504 Klasse Sub Segment Match 0 60 a 0 3772 Anfragesatz Treffer The measures however satisfy the criteria laid down in the European Union The Commission considered the aid to be compatible with the Treaty 2 and with the guidelines for rescuing and restructuring firms in diffi culty guidelines for rescuing and restructuring firms in diffi and can therefore be approved culty Ubersetzungsvorschlag Produktionskapazit ten Nach Auffassung der Kommission steht die Beihilfe mit den Bestimmungen des EG Vertrags 2 und den Leitli nien der Gemeinschaft f r staatliche Beihilfen zur Rettung und Umstrukturierung von Unternehmen in Schwie rigkeiten im Einklang Die Beihilfe beeintr c
66. 8 million in financial support from the European Union million in financial support from the European Union bersetzungsvorschlag Die Europ ische Kommission hat den Regionalentwicklungsplan des Landes Baden W rttemberg f r den Zeit raum 2000 2006 genehmigt F r dieses Einheitliche Programmplanungsdokument werden von der Eu rop ischen Union F rdermittel in H he von 98 Mio bereitgestellt Segment 461211 Klasse fast gleicher Inhalt 0 85 a 0 9267 Anfragesatz Treffer This single programming document amounts to This single programming document amounts to 518 808 million in financial support from the European Union million in financial support from the European Union bersetzungsvorschlag von 808 Mio bereitgestellt F r dieses einheitliche Programmplanungsdokument werden F rdermittel der Europ ischen Union in H he Segment 461050 Klasse fast gleicher Inhalt 0 85 a 0 9091 Anfragesatz Treffer This single programming document amounts to This single programming document amounts to 518 35 7 million in financial support from the European Union million in financial support from the European Union bersetzungsvorschlag von 35 7 Mio bereitgestellt F r dieses einheitliche Programmplanungsdokument werden F rdermittel der Europ ischen Union in H he Seg
67. 80 22 18 9 170 8 486966 13 18 8 712 632294 21 185 716 512750 24 18 5 72 0 662766 16 183 724 685034 26 18 1 72 8 527400 21 179 732 487552 19 17 8 173 6 646944 22 17 7 74 0 687964 13 177 744 510406 24 17 6 174 8 452978 23 176 752 10 453564 14 175 75 6 457080 22 175 760 648116 16 173 764 455322 31 169 76 8 467628 18 16 6 772 510992 17 16 5 776 470558 18 163 78 0 525056 24 163 784 443602 18 162 788 645772 19 162 792 Fortsetzung n chste Seite bersicht zur Stichprobe Deutsch 80 A FUZZY MATCHES Stichprobe Segment L nge TOP 4 hnlichkeit Rang G te 593032 12 162 796 525642 20 161 800 0 423092 22 159 804 622918 26 15 6 80 8 467042 15 15 6 812 526228 12 15 0 816 616472 17 14 7 82 0 522712 21 143 824 454150 13 14 1 828 502788 17 13 7 832 665110 21 13 6 83 6 444188 16 13 1 84 0 432468 27 124 844 518610 16 12 1 84 8 521540 12 112 852 493412 12 103 85 6 671556 24 98 86 0 626434 16 90 864 505132 17 89 86 8 662180 18 8 6 872 625848 18 8 6 876 498797 33 82 880 666282 21 80 884 498100 17 5 8 888 496342 15 5 6 892 666868 28 5 2 896 518024 20 46 90 0 5 672142 22 43 904 433054 22 42 90 8 682104 18 38 912 492826 13 37 916 469456 20 32 920 0 531502 16 31 924 529744 18 31
68. Artikel 66 Segment 612370 der zweiten Stufe des Vertrags verletzungsverfahrens Segment 457666 de und sent a reasoned opinion to Segment 457677 en k nnen zugelassen werden Die gro e Zahl von bei der Klassifikation gefun denen Term Matches deutet an dass mit kleineren Subsegmentl ngen die Zahl der Matches vervielfacht werden kann Im Folgenden werden auch Fuzzy Matches mit hnlichem bis fast gleichem Inhalt ver wendet Auf eine feste L ngenbeschr nkung der Subsegmente wird verzichtet Hilfsmittel Die tabellarische Darstellung eines sequentiellen Wortalignments im Annotationstool er laubt es bereinstimmende Subsegmente schnell zu erkennen Allerdings verlangt das Tool eine genaue zeichenweise bereinstimmung Beispielsweise f hrt beim Match 612370 de 632624 Seite 89 ein Fehler bei der Eszett Korrektur zur Aufteilung des Subsegments dieser bernahme die Voraussetzungen des Artikel 66 Die Abweichung f hrt dazu dass das betroffene Wort alleine in einer Zeile steht Solche Subsegmente k nnen daher auch leicht erkannt werden Im Folgenden werden sie besonders gekennzeichent wenn sie verwendet werden Beispiele f r Subsegmente Zu zwei Segment zeigt Tabelle 4 1 Subsegmente die nicht Teil eines gr eren Subsegments sind d h maximal sind Die Anfrages tze sind 4 1 Da mit dieser bernahme die Vorau etzungen von Artikel 66 Absatz 2 EGKS Vertrag erf llt sind hat die Kommission ihre Zusti
69. B leider muss ich sagen und zu der Anschauung gelangen dass Das W rterbuch wb1 sollte in Zukunft nicht zum Aufbau der initialen Vollformenliste verwendet werden Das gleiche gilt f r das W rterbuch wb3 das die alte Rechtschrei bung benutzt aber viele falsche Umlaute z B da rnd und Baumverha enth lt und zwar bereits in der Rohfassung Eventuell lohnt es sich hier s mtlich Umlaute mit ue usw auszuschreiben und dann die KoKS Umlautkorrektur anzuwenden 8 Projektmitglied das diese Pr fung vorgenommen hat berichtete dass nach der Korrektur mehr W rter korrekt seien als zuvor Dass W rter mit Umlaut wesentlich h ufiger auftreten als dass und muss zusammen k nnte erkl ren warum letztere W rter keine Aufmerksamkeit fanden Eine andere Erkl rung k nnte sein dass vielleicht eine andere Vollformenliste verwendet wurde 35 3 2 Vorverarbeitung 3 KORPUSAUFBEREITUNG F R CAT SYSTEME Unumkehrbarkeit Im Allgemeinen ist die Tokenisierung nicht umkehrbar Zur Ausgabe von Text bietet es sich an die Token leerzeichengetrennt aneinander zu h ngen und Leerzeichen vor Satzzeichen und schliessenden Klammern und nach ffnenden Klammern zu l schen Bei nicht typo graphischen Anf hrungszeichen ist die Situation schwieriger Hier kann nur mit gr erem Aufwand entschieden werden welches Leerzeichen unerw nscht ist Es kann aber nicht garantiert werden dass das Resultat mit d
70. CHES Stichprobe Segment L nge TOP 4 hnlichkeit Rang G te 475246 17 35 4 7 6 681518 13 35 1 80 0 505718 13 34 9 84 617644 26 34 8 8 8 484622 18 34 7 9 2 471730 24 34 1 9 6 655734 36 34 1 100 35 468800 32 33 4 10 4 636396 44 33 1 10 8 490482 12 33 1 11 2 465870 17 327 11 6 32 613542 22 32 5 12 0 634638 30 32 4 12 4 474660 32 32 4 12 8 641084 28 32 3 13 2 431882 38 32 3 13 6 32 670970 14 32 1 14 0 615300 40 32 1 14 4 644014 28 32 1 14 8 421920 56 31 2 15 2 10 637568 20 30 4 15 6 648702 43 29 7 16 0 451806 28 29 7 16 4 443016 17 29 0 16 8 35 615886 43 28 9 17 2 431296 37 28 9 17 6 645502 23 28 8 18 0 516266 13 28 7 18 4 428952 54 28 5 18 8 635224 31 28 5 19 2 628778 32 28 3 19 6 434226 60 282 200 10 445360 13 28 1 204 446532 34 28 1 208 657492 40 28 1 212 447118 21 28 1 216 427780 51 28 0 220 441844 43 278 224 652218 38 27 171 228 649288 22 277 23 2 433640 59 276 23 6 450048 44 275 24 0 496928 22 275 244 498686 16 27 4 24 8 424264 55 272 25 2 Fortsetzung n chste Seite bersicht zur Stichprobe Deutsch 77 A 1 Stichprobe A FUZZY MATCHES Segment L nge TOP 4 hnlichkeit Rang G te 469972 44 27 1 25 6 461182 17 26 9 260 430710 20 269 264 436570
71. Computerlinguistik und K nstliche Intelligenz Datengesteuerte maschinelle bersetzung mit flachen Analysestrukturen MAGISTERARBEIT ZUR ERLANGUNG DES MAGISTER ARTIUM im Fachbereich Sprach und Literaturwissenschaft der Universit t Osnabr ck vorgelegt von Joachim Wagner aus Nordenham Geburtsort 2003 Inhaltsverzeichnis 1 Einleitung 1 1 Computer Aided Translation 1 1 1 Anwendungsgebiete 1 1 2 Software Werkzeuge 1 2 Zielsetzund see e a res e a nee e ee ee ng 2 Translation Memory in CAT 2 1 Integration den bersetzungsprozess 2 1 1 Anwendungsszenario 0 2 1 2 Einsatz f r mehrere bersetzungsauftr ge 2 1 3 Austauschbarkeit mittels 2 2 Segmentierung eines Bitextsin TUs 2 2 1 Granulanit t Br EH Ra we 2 2 2 bersetzung von S tzen 2 23 Se EN ee 2 3 Ber cksichtigung von hnlichen 2 3 1 Zugriff auf das 232 2 3 3 Einsatz flacher Analysestrukturen 2 3 4 Verwendung der bersetzungsvorschl ge 2 4 2 5 Eva
72. Es sollte die Zuordnung favo Nat rlich muss eine zweite bersetzung im Zieltext vorhanden sein mit der die verbleibende Einheit in ein Alignment Bead gestellt werden kann damit ein zul ssiges Alignment entstehen kann 18 2 TRANSLATION MEMORY 2 2 Segmentierung eines Bitexts in TUs risiert werden bei der die Kontexte der ber ein Alignment Bead einander zugeordne ten Einheiten sich auch entsprechen Die Zuordnung sollte die Reihenfolge der Einheiten m glichst erhalten d h berkreuzungen und Abweichungen von 1 1 Zuordnungen soll ten m glichst selten auftreten H ufig werden die m glichen Zuordnungen noch weiter eingeschr nkt Piperidis et al 2000 stellen eine Wortzuordnung nur zwischen W rtern her die in S tzen stehen die in einem zuvor durchgef hrten Satzalignment einander zugeordnet wurden Zuordnungen zwischen W rtern aus verschiedenen Alignment Beads werden dadurch ausgeschlossen So ein hierarchisches Alignment ist durchaus typisch Der Aligner der in dieser Arbeit verwendet wird f hrt erst ein triviales Absatzalignment durch d h nur 1 1 Zuordnun gen werden erlaubt Hat ein Dokument in Ausgangs und Zielsprache nicht die gleiche Anzahl von Abs tzen dann schl gt das Alignment fehl und das Dokument kann nicht wei ter verwendet werden Das Satzalignment wird dann innerhalb der Abs tze durchgef hrt So k nnen nur S tze einander zugeordnet werden die in bereits einander zugeordneten
73. F r identische Zeichenfolgen ist die hnlichkeit eins d h 100 Zu den nachfolgend angegebenen Zahlen sollte erw hnt werden dass Leerzeichen am Anfang und Ende der Zeichfolgen hinzugef gt und die Klein Gro schreibung und Satz zeichen ignoriert werden Im KoKS Abschlussbericht auf Seite 57 bis 62 beschreiben Er penbeck et al 2002 das hnlichkeitsma detailiert und geben viele Beispiele f r den bilingualen Anwendungsfall an Hier sind neue Beispiele n tig da die zu vergleichenden S tze bei der Fuzzy Match Suche einsprachig sind Tabelle 3 8 zeigt f r sieben Zeichenfol gen die hnlichkeitswerte aller Paare Beispielsweise wird den Zeichenfolgen Baumes und Baumschatten eine hnlichkeit von 20 zugeschrieben Drei von 15 Trigram men n mlich ba bau und aum treten in beiden Zeichenfolgen auf Die Tabelle ist symmetrisch um die Diagonale da das Ma symmetrisch ist Beispiel Der konstruierte Satz 3 1 Im langen Schatten eines gro en Baumes kann man sehr gut Spinnen fangen soll hier als Beispiel dienen Er wurde so gew hlt dass unterschiedliche Kombinationen von Anfragetoken zu Fuzzy Match Kandidaten f hren Folgende acht Token werden aus gew hlt 0 Schatten 1 Baumes 2 Spinnen 3 fangen 4 langen 5 sehr 6 man 7 gut Angegeben sind Indexnummern die im Folgenden verwendet werden Die Reihenfolge der Token ist aufsteigend mit der festgestellten H ufigkeit Es wird k min
74. NGUALE KORPORA IN CAT SYSTEMEN EINE ANWENDUNGSPERSPEKTIVE 2 Zusammenfassung 4 1 4 Generierung des bersetzungsvorschlags Eine M glichkeit f r die Generierung des bersetzungsvorschlags w re Subsegmente zur Abdeckung eines m glichst gro en Teils des Anfragesatzes auszuw hlen und deren bersetzung einfach aneinander zu h ngen Es w re dann Aufgabe des bersetzers die Fragmente richtig zu ordnen und anzupassen Auch hier k nnte man Alignment Techniken nutzen um die Reihenfolge der berset zungsfragmente zu dem Anfragesatz passt Im Falle von nur zusammenh ngenden Sub segmenten ist dies trivial da sie dann nur nach ihrer Startposition im Anfragesatz sortiert werden m ssen F r diskontinuierliche Subsegmente k nnte ein Aligner verschiedene An ordnungen bewerten Zus tzlich zur Plausibilit t des Alignments zwischen Ausgangssatz und bersetzungs vorschlag k nnte noch die zielsprachliche Plausibilit t bewertet werden Flache Analyse strukturen bieten hierf r Hilfsmittel Beispielsweise k nnen die POS Tagfolgen daraufhin gepr ft werden ob sie im Korpus belegt sind Grunds tzlich neu sind diese Vorschl ge nicht Beispielsweise nutzen Somers et al 1994 POS Tagfolgen des Kontexts eines Fragments die im Referenzmaterial belegt sind um aus Kombinationsalternativen die plausibelste auszuw hlen Seite 8 4 2 Zusammenfassung Im Rahmen dieser Arbeit wurde dargestellt wie ein gro es bilinguales Korpus f r die
75. STEME 3 2 Vorverarbeitung 3 1 1 Kollokationen Der Name KoKS steht f r Korpusbasierte Kollokationssuche Im KoKS Projekt sollte ein System entwickelt werden dass Kollokationen aus einem bilingualen Korpus extrahiert Kollokationen sind Mehrwortausdr cke oder Phrasen in denen nicht jedes Wort durch ein Synonym ersetzt werden Beispielsweise kann in ins Gras bei en das Nomen nicht ersetzt werden In den Wiesenbewuchs bei en hat nicht die Bedeutung sterben Zu dieser Bedeutung kann man zwar gelangen indem man um die Ecke denkt Aber bei der Ecke handelt es sich um die Kollokation ins Gras bei en Die im KoKS Projekt verwendete Definition von Kollokationen ist spezifischer als die hier dargestellte ist aber f r diese Arbeit jedoch nicht wichtig Kollokationen sind beim bersetzen nur insofern interessant als dass sie besondere Aufmerksamkeit erfordern Sie k nnen nicht kompositionell d h nicht jeder Bestandteil kann unabh ngig vom Kontext bersetzt werden Nat rlich kann man einwenden dass es f r eine gute bersetzung der Regelfall ist dass der gesamte Kontext Einfluss auf die Wortwahl hat Im KoKS Projekt wurde versucht Kollokationen daran zu erkennen dass ihre ber setzung nicht mit vorhandenen W rterbucheintr gen erkl rt werden kann Dazu verwendet das KoKS System ein Abstandsma das den Grad der bereinstimmung von Ausgangs phrase und bersetzung mit Hilfe eines
76. TIVE 4 1 1 Subsegment Suche Im Abschnitt wurde festgestellt dass Subsegment Matches wesentlich seltener als Mat ches mit hnlichem Inhalt auftreten Man k nnte daher fragen ob der Aufwand f r die Ge nerierung eines bersetzungsvorschlags aus Subsegment Matches gerechtfertigt ist Zwei Punkte sprechen daf t Zum einen muss man bedenken dass die Unterscheidung zwi schen Subsegment Matches und Matches mit hnlichem Inhalt manuell getroffen wurde In der Praxis steht nur das hnlichkeitsma zur Verf gung Es hat sich aber gezeigt dass das Ma die Klassen nicht eindeutig bestimmen kann In einem breiten Intervall von hnlichkeitswerten treten im Englischen sowohl Subsegment Matches als auch Matches mit hnlichem Inhat auf Im Deutschen gibt es berschneidungen mit beiden Nachbarklas sen Term Match und Match mit hnlichem Inhalt Die hnlichkeitsschwelle ab der wie in einem klassischen Translation Memory ein bersetzungsvorschlag aus einer Fund stelle bernommen wird sollte also so hoch gew hlt werden dass keine oder nur weni ge Subsegment Matches als Match mit hnlichem Inhalt dem bersetzer pr sentiert wird Ebenso ist denkbar bersetzungen aus Fuzzy Matches und generierte bersetzungen dem Benutzer zugleich anzubieten Als zweites kann die Mindestl nge der Subsegmente herabgesetzt werden Bei der Klassifikation wurden acht Token verlangt K rzere Subsegmente wie z B die Vor aussetzungen von
77. Translation Memorys sind dass nicht immer ein ausrei chend guter Fuzzy Match zur Verf gung steht dem ein bersetzungsvorschlag entnom men werden k nnte und dass gefundene bersetzungen im neuen Kontext unpassend sein k nnen Dar ber hinaus muss das Referenzmaterial dem f r die bersetzung gew nschten Stil und Genre entsprechen damit ein Translation Memory adequate Vorschl ge unterbrei ten kann In diesem Kapitel lag der Schwerpunkt auf die Darstellung der Funktionsweise eines Translation Memorys Zwei Phasen sind zu unterscheiden Zur Vorbereitung der Arbeit mit einem Translation Memory wird ein Satzalignment f r das Referenzmaterial erstellt Dies ist Voraussetzung daf r w hrend der bersetzungst tigkeit schnell und zuverl ssig auf die bersetzung von relevantem ausgangssprachlichen Material zugreifen zu k nnen Die zweite Phase ist die Anwendungsphase Das Translation Memory unterst tzt den bersetzer indem es bersetzungsvorschl ge unterbreitet die dem Referenzmaterial ent nommen wurden Die relevanten Stellen zum zu bersetzenden Satz werden mit einem hnlichkeitsma identifiziert Ein hnlichkeitsma ordnet die Kandidaten f r die Fuzzy Matches und wird verwendet um zu entscheiden welche S tze als Fundstelle akzeptiert 28 2 TRANSLATION MEMORY 2 6 Zusammenfassung werden Beide Bereiche Satzalignment und hnlichkeitsma bieten viel Freiraum f r den Ein satz computerlinguistischer
78. USAUFBEREITUNG F R CAT SYSTEME der Token die mit ihr annotiert wurden Es wird also f r jedes Anfragetoken mit einer Menge von Token nach Fundstellen gesucht Im Fall dass direkt mit dem Anfragetoken gesucht wird ist die Menge einelementig Die Menge enth lt aber auch im anderen Fall immer das Anfragetoken Daher wird dieser Schritt hier als Expansion der Anfragetoken bezeichnet Ermittlung der H ufigkeiten Als n chstes wird f r jedes expandierte Anfragetoken die ungef hre H ufigkeit im Korpus ermittelt um zu entscheiden welche Token f r die Suche im Korpus benutzt werden Die H ufigkeit des Anfragetokens und der zusammengestellten Grundformen wird in Tabellen der h ufigsten tausend Token bzw Grundformen nachge schlagen Die Werte sind nicht exakt da die Tabellen nicht auf dem aktuellen Stand des Korpus sind Ist keine der Formen in den H ufigkeitstabellen gelistet wird die H ufigkeit null unterstellt Sie wird hier verwendet um seltene Token zu kennzeichnen und bedeutet nicht etwa dass das Token nicht im Korpus auftr te Auswahl der Anfragetoken Ein expandiertes Token wird f r die Suche im Korpus her angezogen wenn dessen H ufigkeit unter einem Schwellwert liegt der in etwa die h u figsten 200 Token ausschlie t Wenn weniger als acht Token ausgew hlt werden wird die Schwelle abh ngig von der bisherigen Anzahl der selektierten Token moderat erh ht Nur wenn die Anzahl trotzdem unter zwei bleibt wird die Sch
79. W rterbuchs misst Ergebnisse haben Kummer und Wagner 2002 vorgestellt 3 1 2 Korpusquellen Von dem im KoKS Projekt zusammengestellten Korpus wurden nur die zwei Teilkorpora DE News und EU bernommen Die brigen Teilkorpora wurden entweder bereits im Projekt aus verschiedenen Gr nden siehe Abschlussbericht nicht weiter verwendet oder ihre Ber cksichtigung erschien wegen ihres geringen Umfangs nicht lohnenswert Im KoKS Abschlussbericht werden als Quelle der bernommenen Teilkorpora De News und EU die Webseiten http www isi edu koehn publications de news und http europa eu int rapid start welcome htm genannt Kummer und Wagner 2002 haben f r ihre Untersuchung zus tzlich die ersten vier Harry Potter B cher von Joanne K Rowling als literarischen Teilkorpus erschlossen da sie hofften dort eine h here Dichte von Kollokationen vorzufinden Die Werke wurden im Juni 2002 ber das Internet aus nicht notierten Quellen bezogen Es ist davon auszugehen dass Unbekannte die B cher eingescannt und mit einer OCR Software in Text oder PDF umgewandelt haben Die englischen und deutschen Fassungen konnten innerhalb zweier Tage zusammengestellt werden Probleme bereiteten ein Teil der PDF Dokumente Wenn die Extraktion des Textes nicht gelang musste eine weitere Quelle gefunden werden 3 2 Vorverarbeitung Die Dokumente des Korpus m ssen einige Vorverarbeitungsschritte durchlaufen bevor sie in den Program
80. ZY MATCHES A 2 S tze mit hoher G te der Beleglage Segment 430785 Klasse Term Match 0 20 a 0 2965 wird bersprungen Segment 426855 Klasse Term Match 0 20 a 0 2893 wird bersprungen Segment 423152 Klasse Term Match 0 20 a 0 2767 wird bersprungen Segment 430772 Klasse kene Relevanz 0 00 a 0 2841 wird bersprungen Segment 427943 Klasse keine Relevanz 0 00 a 0 2748 wird bersprungen Matches zum Segment 466722 en Segment 465386 Klasse fast gleicher Inhalt 0 85 0 7516 Anfragesatz Treffer There will be Provision has been made for two calls for projects with a view to selecting the deve lopment partnerships which will actually be running the schemes two calls for projects with a view to selecting the deve lopment partnerships which will actually be running the schemes bersetzungsvorschlag zur Einreichung von Vorschl gen vorgesehen F r die Auswahl der Entwicklungspartnerschaften zur Durchf hrung der Ma nahmen sind zwei Aufforderungen Segment 467269 Klasse enth lt etwas mehr 0 80 a 0 6506 Anfragesatz Treffer There will be Programme implementation Provision has been made two calls for projects with a view to selecting the deve lopment partnerships which will actually be running the schemes for two calls for projects with a view to selecting the deve lopment partnerships which
81. ale Korpora in CAT Systemen eine Anwendungsperspektive 71 4 1 Ein Ansatz zur Nutzung 71 4 1 1 Subsegment Suche 12 4 1 2 Identifikation der bersetzung eines Subsegments 73 4 1 3 Direkte Zuordnung m glicher bersetzungen EE 74 4 1 4 Generierung des bersetzungsvorschlags be he Beie 75 4 2 Zusammenfassung Cm 75 Fuzzy Matches 76 AT Stichprobe Eng een le 76 All Deutsche S tze der 76 A 1 2 Deutsche S tze der 82 2 S tze mit hoher G te der Beleglage 88 AZI Deutsch ee ar EE ar 88 Ar2 2 Englisch Die 104 Literaturverzeichnis 116 Index 119 Abbildungsverzeichnis 2 1 Satzentsprechungen im 9 2 2 Ein Alignment mit sechs Alignment Beads 18 3 1 Aufbereitetes Dokumentpaar 32 3 2 Normalisiertes Dokumentpaar 33 3 3 getaggtes Dokumentpaar 37 3 4 Einfluss der POS Wahl auf die Lemmatisierung 39 3 5 Segmentierungsfehler bei w rtlicher 41 3 6 aligntes Dokumentpaar 43 3 7 Anzahl der Pfade in der Abstandsmatrix 45 3 8 Pfadrepr sentation
82. ang G te 524610 19 26 3 281 432954 33 26 3 28 5 467325 46 26 3 28 8 652446 25 262 292 490239 13 26 1 29 6 637974 46 26 1 300 30 473355 43 26 0 30 4 624105 40 26 0 308 504108 37 26 0 312 673551 24 26 0 31 5 494460 23 25 8 319 448632 41 25 4 323 424512 13 254 327 622899 19 25 4 33 1 632547 48 25 4 33 5 462501 14 25 2 338 481797 33 24 9 342 645210 26 249 346 634959 24 24 8 35 0 634356 28 247 354 670536 34 246 358 657873 15 24 6 36 2 460692 59 24 6 36 5 488430 44 24 6 369 433557 31 244 373 517374 15 24 3 377 622296 47 24 1 381 464310 27 24 0 38 5 627723 17 24 0 38 8 654255 35 24 0 39 2 520389 25 23 9 39 6 618678 33 239 40 0 45 429336 28 23 8 404 659682 41 23 8 408 633753 25 238 412 504711 16 238 415 615060 24 23 7 419 680787 14 23 7 423 502902 29 23 5 427 486018 23 23 5 431 492651 19 234 43 5 441999 41 234 438 451044 29 23 3 442 653049 55 23 3 446 455868 19 23 3 450 Fortsetzung n chste Seite bersicht zur Stichprobe Englisch 84 A FUZZY MATCHES Stichprobe Segment L nge 4 hnlichkeit Rang G te 643401 41 23 3 454 639180 31 232 458 508329 16 232 46 2 426321 16 232 46 5 650034 32 231 469 615663 23 23 0 473 645813 58 23 0 477 478782 24 230 481 515565 17 230 48
83. ar iden tisch Dies h ngt sowohl von den Sprachen als auch vom Marketing ab Unter diesen Bedingungen w nscht sich vermutlich jeder bersetzer dass das Translation Memory die se nderungen erkennt und angepasste bersetzungsvorschl ge unterbreitet Wie einfach dies zu realisieren ist verdeutlicht die Behelfsl sung die entsprechenden Teile des Trans lation Memorys in ein Austauschformat siehe Abschnitt 2 1 3 zu exportieren dort die Produktbezeichnungen zu ersetzen und dann die Daten wieder zu importieren Seltsamerweise wird von Translation Memorys nicht die M glichkeit angeboten jedes Auftreten der Zeichenfolge A im Anfragesatz durch eine Zeichenfolge B zu ersetzen und dann im bersetzungsvorschlag wieder B durch A oder B durch A zu ersetzen Statt dessen wird versucht beliebige Ver nderungen zu erlauben und aus den zahlreichen Fund stellen diejenige mit den geringsten Abweichungen auszuw hlen oder die besten n oder die die eine bestimmte Bewertungsschwelle berschreiten Dies geschieht auf Kosten der M glichkeit den bersetzungsvorschlag mit einfachen Ersetzungsregeln automatisch anpassen zu k nnen behandelt aber zugleich die eingangs beschriebenen Probleme mit berarbeiteten Fassungen von Dokumenten Ein Translation Memory das letzteren L sungsansatz umsetzt muss zu dem zu berset zenden Satz auch Stellen im Referenzmaterial finden die nicht v llig identisch sind Es sol len Textstellen einbezogen werd
84. auf ihre linguistische Plausi bilit t hin berpr ft werden sollten Auch hier k nnen flache Analysestrukuren verwendet werden Ein so genannter Chunker markiert die Phrasen eines Satzes ohne sie hierarchisch zu ordnen Die Grenzen der Chunks k nnen mit denen der Wortgruppen verglichen wer den Die vom Aligner berechnete Bewertung des optimalen Alignments kann nicht ohne Weiteres als hnlichkeitsma der S tze verwendet werden Die Bewertungsfunktion ord net lediglich die verschiedenen Alignments der zwei vorgelegten S tze Die Werte m ssen nicht vergleichbar mit den Werten sein die sich f r andere Satzpaare ergeben Bei dem Entwurf der Bewertungsfunktion muss daher besonders ber cksichtigt werden dass die Bewertungen vergleichbar sein sollen Alternativ kann das Translation Memory das opti male Alignment mit einer zweiten Bewertungsfunktion beurteilen die die nderungen im Hinblick darauf beurteilt welcher Arbeitsaufwand bei der Anpassung der bersetzung zu erwarten ist Wortpositionen Eine einfachere M glichkeit die nderungen zu bewerten bietet die Korrelation der Posi tionen der W rter in den zu vergleichenden S tzen Tabelle 2 4 zeigt das Prinzip f r das 23 2 3 Ber cksichtigung von hnlichen TUs 2 TRANSLATION MEMORY INCAT Wort il alte 7 2 5 0 007 bericht 1 4 3 1 0 368 bericht 2 8 9 1 0 368 den 2 7 5 0 007 der 6 1 5 0 007 durch 1 6 5 0 007 ersetzt 9 10 1 0 368 neuen
85. bank erkennt dass hier viele Zwischenergebnisse wiederverwendetet werden k nnen Die Mengenoperationen werden anwendungsseitig im Fuzzy Matching Modul ausgef hrt Das Laufzeitverhalten ist sehr schlecht wenn die Mengenoperationen wie oben notiert ausgef hrt werden da dann 2 Schnittmengen bestimmt werden m ssen Liegen die Men gen R T als sortierte Listen vor dann kann in O n m m sei die L nge der l ngsten Liste d h m max R T bestimmt werden welche Satznummern mindestens k mal auftreten Dies wurde aber nicht implementiert da eine Beschr nkung von k auf k lt 3 vertretbar erschien Anpassungen sind notwendig wenn in der Anfrage Token mehrfach auftreten d rfen Man kann weiterhin mit obigen Mengenoperationen arbeiten wenn statt mit Token mit Paaren bestehend aus Token und Nummer des Auftretens im Satz gearbeitet wird Ein entsprechender Index m sste dazu aufgebaut werden Ein anderer Ansatz wurde in der Zeit zwischen KoKS Projekt und der Erstellung die ser Arbeit verfolgt Es wurden alle zwei und dreielementigen Teilmengen von Token indiziert die in S tzen des Korpus vorkommen Motivation ist dass die Mengen sehr gro sein k nnen Mit dem zus tzlichen Index k nnen Mengen R T N R T und R T NR T NR T direkt abgerufen werden 77 Der Zeitbedarf f r den Indexaufbau stell te sich jedoch als Problem heraus Im Nachhinein kann vermutet werden dass dies an den sehr langen Segmenten liegt die beim Ausm
86. bei der bersetzung der Dokumente im ande ren Format genutzt werden Die drei Formatgebiete die man in der Softwarelokalisierung antrifft n mlich Benutzerschnittstellen Hilfesysteme und Handb cher bilden laut Alesiani solche Inseln die nicht berbr ckt werden k nnen Er nennt dies Fragmentierung Zur L sung dieser Probleme hat die Localization Industry Standards Association LI SA im September 1997 ein standardisiertes Format f r den Austausch von Translation Genannt werden die Begriffe Software Help und Publications Die bersetzung trifft vermutlich das gemeinte da sp ter von WinHelp und software resource files die Rede ist 11 2 2 Segmentierung eines Bitexts in TUs 2 TRANSLATION MEMORY INCAT Memorys vorgestellt Es geh rt zu einer Gruppe von Standards OSCAR Open Standards for Container Content Allowing Re use und hei t Translation Memory eXchange TMX Es geh rt zu einer Gruppe von Standards die unter der Bezeichnung OpenTag zusammen gefasst werden Weitere OpenTag Standards sind TBX f r den Terminologieaustausch und OLIF f r W rterb cher Drei Hersteller durchlaufen zur Zeit den Zertifizierungsprozess f r die Konformit t zu diesem offenen hersteller bergreifenden Austauschformat Laut Erjavec 1999 Artikel zu einem ELAN Korpus wird in Melby 1998 TMX vorgestellt TMX besch ftige sich vor allem damit Markup Informationen der Ausgangs dokumente m glichst
87. bersetzenden Satz durchsucht und automatisch die dort vor liegende bersetzung f r die aktuelle bersetzung bernimmt ist f r das Verst ndnis der Funktionsweise und der Probleme die sich dem Anwender oder dem Entwickler eines TM Systems stellen unzureichend Kapitel 2 geht daher auf die Grundlagen ein Es beschreibt wie ein TM in den bersetzungproz eingebunden ist und wie es funktioniert insbesondere wie es die bersetzung findet Das Grundlagenkapitel endet mit einer kurzen Beschreibung der verwandten Themen Concordancing und maschinelle bersetzung und grenzt sie von Translation Memory ab Voraussetzung f r die Benutzung eines Translation Memory ist dass bereits bersetzter Text vorliegt Um mit einer TM Erweiterung experimentieren zu k nnen ben tigt man ei ne m glichst umfangreiche Sammlung von Texten zusammen mit ihrer bersetzung ein bilinguales Korpus das auf Satzebene alignt ist Mir steht das Korpus des Studienprojekt KoKS und weiteres Material aus Kummer und Wagner 2002 zur Verf gung In Kapitel 3 werden das von mir verwendete Korpus und die Schritte beschrieben die n tig sind um die Zwar kann der bersetzer mit einem leeren Translation Memory seine Arbeit beginnen Aber erst wenn zumindest ein Satz bersetzt wurde und zusammen mit dem Ausgangssatz ins Referenzmaterial aufgenommen wurde kann das Translation Memory in Aktion treten 1 EINLEITUNG 1 3 berblick Texte f r die Ben
88. beschrieben werden kann und dass weitere Kriterien notwendig sind um eine Wahl treffen zu k nnen welche Beschrei bung der nderungen am angemessensten ist M gliche Beschreibungen f r die nderun gen im Beispiel 2 4 sind u a a zwei Umstellung von vier bzw drei W rtern und eine Einf gung b zwei Umstellung von drei bzw zwei W rtern und eine Einf gung c f nf Umstellungen von Einzelw rtern und eine Einf gung und 22 2 TRANSLATION MEMORY 2 3 Ber cksichtigung von hnlichen TUs d vier Ersetzungen eine L schung und zwei Einf gungen Die Beschreibung a k nnte vorgezogen werden wenn die Kriterien das Zertrennen von Phrasen verbieten Denkbar w re zum Beispiel eine Regel dass eine Wortgruppe nicht zwischen einem Adjektiv und einem Nomen enden kann Ohne dieses linguistische Wis sen wird man vermutlich b bevorzugen da hier mehr W rter unver ndert bleiben Bericht wurde und Bericht ersetzt werden dann als unver nderte Wortgruppen interpretiert Das in Betracht Ziehen von Wortgruppen und Umstellungen kostet viel Zeit Wird darauf ver zichtet K nnten c und d in Frage kommen Die Beschreibung der nderungen hat gro e hnlichkeit mit einem Alignment das nur zusammenh ngende Gruppen erlaubt Ersetzungen sind Zuordnungen bei denen die ein ander zugeordneten Wortgruppen nicht identisch sind Ein Alignment kann weitere Arten von nderungen beschreiben als die die oben erw hnt wur
89. cument will be taken shortly as the programme has been considered by the Committee on the Development and Conversion of Regions and the ESF Committee Segment 461103 Klasse hnlicher Inhalt 0 70 a 0 6240 Anfragesatz Treffer Die endg ltige Entscheidung Die endg ltige Entscheidung der Kommission ber ber die beiden Programme das Programmplanungsdokument wird wird kurz nach nach deren dessen Pr fung durch den Ausschuss f r die Entwicklung und Umstellung der Pr fung durch den Ausschuss f r die Entwicklung und Umstellung der Regionen sowie durch Regionen 1 und den ESF Ausschuss ergehen den ESF Ausschuss ergehen bersetzungsvorschlag The final decision on this programming document will be taken shortly as the programme has been considered by the Committee on the Development and Conversion of Regions and the ESF Committee 96 A FUZZY MATCHES A 2 S tze mit hoher G te der Beleglage Segment 461189 Klasse hnlicher Inhalt 0 70 a 0 5847 Anfragesatz Treffer Die endg ltige Entscheidung Die endg ltige Entscheidung der Kommission ber ber die beiden Programme das Programmplanungsdokument wird wird kurz nach nach deren Pr fung dessen Annahme durch den Ausschuss f r die Entwicklung und Umstel lung der durch den Ausschuss f r die Ent
90. d bersetzer sind in der Regel ver schiedene Personen Trotzdem unterscheidet sich das bersetzen eines Filmskripts von dem eines Romans Der Text muss so gestaltet werden dass der Sprecher ihn lippen und atmungssynchron sprechen kann Dies beschr nkt u a die Wortwahl und die L nge der bersetzung Die obigen Beispiele aus verschiedenen Bereichen zeigen dass bersetzen mehr ver langt als Vokabular und Grammatik der beteiligten Sprachen zu beherrschen Der bersetzer muss die Funktion des Textes die kulturellen Unterschiede zwischen der alten und der neu en Zielgruppe und die Eigenheiten der jeweiligen Fachsprache und Textgattung beachten Zu seinen Aufgaben geh rt es daher sich in den Hintergrund einzuarbeiten Vorschl ge f r inhaltliche nderungen zu erarbeiten und sich mit dem Fachvokabular vertraut zu ma chen 7 Bei den notwendigen Recherchen helfen Nachschlagewerke und Dienstleister Zu griffsm glichkeiten auf solche Informationsquellen geh ren zum modernen Computerar beitsplatz eines bersetzers genauso wie Software die bei der eigentlichen bersetzungs arbeit hilft 1 1 2 Software Werkzeuge Eine ganze Reihe von Software Werkzeugen stehen dem bersetzer heute zur Verf gung Zum einen sind dies elektronische Fach W rterb cher die das Nachschlagen beschleu nigen Platz auf dem Schreibtisch sparen und die Eintr ge bersichtlicher pr sentieren k nnen Im Gegensatz zu einem normalen W rterbuchbenutzer ist es f
91. da Satzzeichen von beiden verzahnten S tzen gemeinsam genutzt werden k nnen Regelm ig geschieht dies mit satzbeendender Interpunktion wenn die Satzenden zusammenfallen Abbildung 3 5 zeigt dass auch Satzzeichen an anderen Stellen fehlen k nnen Wie soll maschinell entschieden werden ob und welches Satzzeichen zwischen Klasse und Ach muss zu Zonko gesetzt werden soll wenn die w rtliche Rede als eigenes Segment extra hiert werden w rde OSCAR Standard f r Segmentierungsregeln Die OSCAR Segmentation Working Group hat einen ersten Entwurf f r einen Standard zum Beschreiben von Segmentierungsregeln vorgestellt Der Entwurf wird hier diskutiert um zu zeigen mit welchen Methoden die Arbeitsgruppenmitglieder glauben die Segmen tierung leisten zu k nnen Grundlage des Standards sind regul re Ausdr cke die die m glichen Zeichenfolgen vor und nach einer Segmentgrenze angeben Zus tzlich k nnen Ausnahmeregeln formuliert werden Wie die Regeln zusammenwirken wird in dem Ent wurf noch nicht definiert Es sind keine Elemente vorhanden um Ausnahmen auf be stimmte Regeln zu beziehen Dies und das enthaltene Beispiel legen nahe dass eine po tenzielle Segmentgrenze mit linkem Konkext c und rechtem Kontext c genau dann als Segmentgrenze akzeptiert wird wenn V M b c AM a c VM Mbt AM b a ER b a EE wahr ist wobei M das Matching Pr dikat f r regul re Ausdr cke ist Im Entwurf wird
92. darin von der Satzindex Tabelle unterscheidet dass die Reihenfolge der Token vor der Erzeugung einer maximal 56 Zeichen langen Zeichenkette umgekehrt wird Grundformen und POS Tags Mit dem Modul f r die Satzindizes k nnen nicht nur Token indiziert werden Auch die an notierten Grundformen und POS Tags eignen sich Abbildung 3 10 zeigt einen Ausschnitt aus dem Index f r die Grundformfolgen am Satzende Mit ihm k nnen S tze abgefragt werden die auf eine vorgegebene Abfolge von Grundformen enden Bei den Grundformen tritt das Problem auf dass je Token mehr als eine Grundform annotiert sein kann Damit ein Satz mit jeder in Frage kommenden Grundformenfolge gefunden werden kann muss jede m gliche Kombination in den Index aufgenommen wer den Die Anzahl der Kombinationen ist das Produkt der Anzahlen der Grundformen die f r jedes einzelne Token annotiert sind Zwar weisen von den 271 907 deutschsprachigen Seg menten nur 1047 mehr als 16 Kombinationen auf Aber einige Segmente weisen zwischen 12288 und 134217728 Kombinationen auf Betroffen sind vor allem gro e Segmente aus n 1 Alignment Beads und Segmente die umfangreiches Tabellenmaterial enthalten 51 3 2 Vorverarbeitung 3 KORPUSAUFBEREITUNG F R CAT SYSTEME mysql gt SELECT name 1 AS i datum AS SegNr gt FROM lemmata_suffix_strict WHERE name LIKE reputation gt AND beschr2 2
93. datengest tzte bersetzung nutzbar gemacht werden kann Das KoKS Sytem wurde ent sprechend erweitert Die Ermittlung von Fuzzy Matches nahm einen gro en Raum ein Sie ist Grundlage f r den in diesem Kapitel skizzierten Ansatz zur automatischen bersetzung mit flachen Analysestrukturen 75 Anhang A Fuzzy Matches A 1 Stichprobe Die nachfolgenden Tabellen zeigen Daten zu den S tzen genauer Segmenten der Stich probe geordnet nach der durchschnittlichen hnlichkeit der besten vier Fuzzy Matches Angegeben sind zus tzlich die L ngen der S tze in Token sowie die G te der Belegsitua tion die aus der Klassifikation der Fuzzy Matches berechnet wird Fehlt letzterer Wert dann wurden die Fuzzy Matches zu dem betroffenen Satz noch nicht klassifiziert A 1 1 Deutsche S tze der Stichprobe 250 S tze der deutschen Korpush lfte wurden ausgew hlt Segment L nge TOP 4 hnlichkeit Rang G te 612370 21 93 1 04 98 457666 23 714 0 8 86 464698 29 62 1 12 85 616161 42 55 0 16 81 652804 51 53 0 20 62 448876 39 48 8 9 24 51 478762 16 46 0 2 8 36 444774 37 45 7 32 40 642256 43 43 7 36 49 520954 14 43 4 40 30 631122 27 41 9 44 32 482278 19 39 5 48 30 455908 31 37 9 5 2 621160 38 37 5 5 6 687378 12 37 3 6 0 503374 17 37 0 64 35 632880 13 36 1 6 8 456494 31 35 6 7 2 Fortsetzung n chste Seite bersicht zur Stichprobe Deutsch 76 A FUZZY MAT
94. den Tritt z B ein Komposi tum in einem Satz getrennt und im anderen zusammen geschrieben auf dann ist eine 2 1 Ersetzung als Beschreibung sinnvoll Ein Aligner kann somit die Aufgabe bernehmen aus den vielen m glichen Beschrei bungen der nderungen eine Beschreibung auszuw hlen die hinsichtlich festzulegender Kriterien optimal ist Z B m ssen Ersetzungen deutlich schlechter bewertet werden als Zuordnungen von identischen Wortgruppen damit Umstellungen L schungen und Ein f gungen erkannt werden k nnen Sonst k nnte ein Aligner f r das Beispiel 2 4 neun Ersetzungen und eine Einf gung als Beschreibung bevorzugen Der Aligner k nnte auch linguistisches Wissen einsetzen um die Ersetzungen zu be werten Beispielsweise k nnten bereinstimmende grammatische Merkmale die syntakti schen Kategorien der Wortgruppen und der semantische Abstand bewertet werden Flache Analysen reichen daf r aus Eine Flexionsanalyse gibt Hinweise darauf welche gramma tischen Merkmale vorliegen Wortartenfolgen die ein Tagger siehe Abschnitt 3 2 3 be stimmen kann k nnen benutzt werden um Wortgruppen zu klassifizieren F r das Nach schlagen der W rter in einen Thesaurus m ssen diese nur auf ihre Grundform reduziert werden Die Bewertung eines Wortalignments muss nicht auf die Bewertung der einzelnen Zu ordnungen beschr nkt bleiben Weiter oben wurde schon am Beispiel einer Adjektiv Nomen Sequenz deutlich dass die gebildeten Wortgruppen
95. den letzten Zeichen des unbekannten Wortes Informationen gewonnen werden Im n chsten Schritt dem dritten nach der Liste von van Halteren und Voutilainen ent scheidet der IMS Tagger welches Tag dem Token tats chlich zugewiesen wird Der Tagger nutzt wie viele andere POS Tagger auch ein Markov Modell innerhalb dessen mit dem Vi terbi Algorithmus die wahrscheinlichste Tagsequenz gefunden wird Die bergangswahr scheinlichkeiten zwischen den Zust nden des Modells werden vorab aus einem Trainings korpus das manuell annotiert wurde ermittelt Hier wendet der IMS TreeTagger einen Decision Tree Entscheidungsbaum an um Zust nde zusammenzulegen Auf diese Weise wird das so genannte Sparse Data Problem umgangen das darin besteht dass nicht genug Daten vorhanden sind um alle bergangswahrscheinlichkeiten zuverl ssig absch tzen zu k nnen Der Entscheidungsbaum spielt also nur in der Trainingsphase eine Rolle Das eigentliche Tagging bedient sich dann des Markov Modells dessen Parameter im Training bestimmt wurden Auf verschiedene Erweiterungen die f r das Training des deutschen Taggers notwendig waren da dort das Trainingskorpus kleiner war geht Schmid 1995 im zweiten Artikel ein Zum Verst ndnis der Artikel von Schmid sollte man mit verschiedenen bedingten Wahr scheinlichkeiten von Wort und Tagsequenzen umgehen k nnen Eine gute Einf hrung bie ten Manning und Sch tze 1999 in einem Kapitel ber Markov Modelle Seite 318 340
96. den kann Tabelle 3 11 zeigt wie viele Matches je Anfragesatz gefunden wurden 17 mal wurde gar kein Fuzzy Match ge funden Im Englischen steht deutlich h ufiger ausreichend Material zur Verf gung als im Deutschen Ob dies an der Art der Ermittlung der Kandidatenmenge liegt oder die tats chliche Belegsituation wiederspiegelt kann an dieser Stelle nicht beantwortet werden Eignung des hnlichkeitsma es Um zu beurteilen wie gut das hnlichkeitsma die Relevanz der Fuzzy Matches vorher sagt werden nun die Klassenh ufigkeiten in Abh ngigkeit von den hnlichkeitswerten betrachtet Eine Korrelationsanalyse wird hier nicht durchgef hrt da der Einarbeitungs aufwand hoch ist und dem Autor Erfahrungen fehlen wie die Resultate zu interpretieren sind Stattdessen werden die hnlichkeitswerte in Intervalle unterteilt und f r jedes Inter 65 3 4 Belegsituation 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 5 Unterteilungen a Klasse 0 20 60 70 75 80 85 90 95 100 0 2700 1 0000 37 45 5 25 1 297 6 15 2 4 0 2377 0 2700 17 9 0 1 0 0 0 0 0 2079 0 2377 38 7 0 0 0 0 0 0 0 1675 0 20799 12 6 0 0 0 0 0 0 0 0 0 0000 0 1675 33 4 0 0 0 0 0 0 0 0 die ersten 10 von 100 Unterteilungen a Klasse 0 20 60 70 75 80 8 90 95 100 10 6087 1 0000 0 0 0 2 O 3 4 4 2 4 10 5147 0 6087 0 0 2 0 1 3 1 0 0 0 4135 0 5147 1 3 1 6 1 0 1 0 0 0 0 3801 0 4135 1 5 0 4 0 0 0 0 0 0 0 3546 0 3801 L 5 1 1 0 1 0
97. die Gew hrung regionaler In vestitionsbeihilfen eingehalten werden vorgegebenen Fristen f r die Gew hrung regionaler In vestitionsbeihilfen eingehalten werden bersetzungsvorschlag The Commission examined the aid project as to its compatibility with the provisions of the Steel Aids Code and satisfied itself that the aid intensity of all these measures does not exceed the maximum ceiling of 35 allowed for and that the deadlines for granting regional investment aids provided for in the Steel Aids Code will be respected Segment 657933 Klasse hnlicher Inhalt 0 70 a 0 4138 Anfragesatz Treffer Die Kommission hat Die Kommission hat das Beihilfevorhaben auf die Vereinbarkeit mit dem Bei hilfenkodex f r die Stahlindustrie hin berpr ft und sich vergewissert da insbesondere gepr ft ob die Beihilfeintensit t s mtlicher die Beihilfeintensit t s mtlicher Ma nahmen die zul ssige H chstgrenze F rderma nahmen unterhalb der zul ssigen Obergrenze von 35 von 35 nicht berschreitet und die in dem Beihilfenkodex f r die Stahlindustrie vorgegebenen Fristen ob mit der Gew hrung der Beihilfe ein Abbau der Produktionskapazit t in den neuen Bundesl ndern ein hergeht und ob die in dem Stahlbeihilfenkodex f r die Gew hrung regionaler Investitionsbeihilfen f r die Gew hrung regionaler Investitionsbeihilfen vorgesehe
98. die Gliederung eines Textes beziehen bezeichnet Dokument die gr te zusammenh ngend gespeicherte Texteinheit 2 TRANSLATION MEMORY 2 1 Integration in den bersetzungsprozess Zuordnung Englisch Deutsch f Germany indicates acceptance Bundesregierung signalisiert of Zaire 5 new leadership den neuen Machthabern in Zaire Akzeptanz S According to the German For Die Bundesregierung ist nach eign Ministry the German go Angaben des Ausw rtigen Am vernment is basically ready to tes grunds tzlich bereit mit den collaborate with the new leaders neuen Machthabern in Zaire zu of Zaire sammenzuarbeiten A Foreign Ministry spokesper Ein Sprecher des Ausw rtigen son said the question of recogni Amtes in Bonn sagte die Fra zing the government was not an ge der Anerkennung der neuen issue since Germany recognizes Regierung stelle sich nicht Die states but not governments Bundesregierung erkenne ledig lich Staaten nicht aber Regie rungen an 2 The spokesperson called forim Der Aussenamtssprecher for mediate free and fair elections derte rasche freie und faire in Zaire Wahlen in Zaire Abbildung 2 1 Satzentsprechungen im Dokumentenpaar sind die die Zuordnung automatisch anhand von Merkmalen der Dokumente wie z B An zahl und L nge der enthaltenen Abs tze durchf hren Im n chsten Schritt wird die Zuordnung gew hnlich bis auf die Satzebene verfeinert um w
99. e hnliches Subsegment nachtr glich einzuf hren Da schon viele Fuzzy Matches klassifiziert waren wurde dies aufgegeben 63 3 4 Belegsituation 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 0 Matches zu 642256 de klassifizieren Konqueror Segment ID 624309 hnlichkeit 0 760593 E Die wegen der fehlenden langfristigen Das durch die fehlende langfristige Wirtschaftlichkeit einiger Schachtanlagen Wirtschaftlichkeit einiger Schachtanlagen n tig gewordene n tig gewordene Programm zur Umstrukturierung Rationalisierung und Umstrukturierung Rationalisierung und Modernisierung des franz sischen Modernisierung des franz sischen Steinkohlenbergbaus wird Steinkohlenbergbaus wird zur Konzentration der dazu f hren da sich die F rderung auf die Schachtanlagen mit den F rderung auf die Schachtanlagen mit den besten Wirtschaftlichkeitsperspektiven besten Wirtschaftlichkeitsperspektiven und zur Stillegung der konzentriert und die F rderkapazit ten ohne Zukunftsaussichten F rderkapazit ten ohne Zukunftsaussichten in einem sozial vertr glichen Rahmen in einem sozial vertr glichen Rahmen f hren stillgelegt werden Klasse fast gleicher Inhalt LR Bemerkung langes Sub Segment Done Abbildung 3 11 Annotationstool Annotationstool F r die Annotation der Klassen wurde eine webbasierte Anwendung implementiert die ein sequentielles
100. e die unbekannte W rter auf eine Grundform reduzieren kann wird in der Beschreibung des IMS TreeTaggers nicht erw hnt Abbildung 3 3 zeigt einen Ausschnitt aus dem getaggten Beispieldokumentpaar An den POS Tags der Artikel beider Sprachen kann man auch ohne Kenntnis der Tagsets er kennen dass sie unterschiedlich sind Funktionsweise Viele POS Tagger arbeiten laut van Halteren und Voutilainen 1999 in drei Schritten Seite 109 110 Tokenisierung bereits im Abschnitt 3 2 2 behandelt Ermittlung der Tags die f r jedes einzelne Token in Frage kommen und Auswahl eines Tags je Token mit Hilfe eines Modells der Sprache wenn mehrere Grundformen in Frage kommen annotiert der IMS TreeTagger eine Liste von Grundformen Da keine Grundform mehrmals aufgelistet wird ist auch die Anzahl dieser Grundformlisten die auch zum Tagset gez hlt werden m ssen endlich 37 3 2 Vorverarbeitung 3 KORPUSAUFBEREITUNG F R CAT SYSTEME Der IMS TreeTagger benutzt eine Vollformliste um ein Token auf einen Wahrschein lichkeitsvektor abzubilden Das hei t dass nicht nur aufgelistet wird welche Tags f r das betreffende Token m glich sind sondern dar ber hinaus auch eine Wahrscheinlichkeit f r jedes POS Tag angegeben wird Ist das Token nicht verzeichnet dann stehen dem IMS TreeTagger noch andere Methoden zur Verf gung um zu einem Wahrscheinlichkeitsvek tor zu gelangen siehe Schmid 1994 und Schmid 1995 Beispielsweise k nnen aus
101. e Summen sind 57 599 101 828 und 33 377 f r die Teilkorpora DE News EU und Harry Potter 36Es sind keine Protokolle vorhanden aus denen der genaue Ablauf der Vorverarbeitung f r jeden Teilkorpus rekonstruiert werden k nnte 54 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 3 Eigenschaften Korpus Deutsch Englisch Verh ltnis Ausgangssprache DE News 884 130 1026389 0 86 Deustch EU 2992002 3166040 0 95 unbekannt Harry Potter 475 189 464 690 1 02 Englisch Gesamt 4351321 4657119 0 93 Tabelle 3 5 Anzahl der W rter in den verwendeten Korpora Korpus Deutsch Englisch Verh ltnis Ausgangssprache DE News 961 104 1119728 0 86 Deustch EU 3309335 3493419 0 95 unbekannt Harry Potter 588 905 584 117 1 01 Englisch Gesamt 4859 344 5 197264 0 93 Tabelle 3 6 Anzahl der Token in den verwendeten Korpora Tabellen 3 4 bis 3 6 zeigen analog die Anzahl der Zeichen W rter und Token Zei chen und W rter wurden in den aufbereiten aber noch nicht tokenisierten Dateien gez hlt Die Zahlen k nnen nicht mit der in der Datenbank vorliegenden Token und Satzanzahl gleichgesetzt werden da manche Dokumente nicht vom Aligner verarbeitet werden konn en 28 Beim EU Korpus sind etwa 1 5 der Dateien betroffen bei den DE News nur 0 3 Das Harry Potter Korpus konnte vollst ndig verarbeitet werden 3 3 2 Frequente W rter Die H ufigkeiten
102. e beispielsweise f r kartesische Koordinaten sinnvoll sind werden von MySQL nicht unterst tzt 49 3 2 Vorverarbeitung 3 KORPUSAUFBEREITUNG F R CAT SYSTEME menh ngender Bereich im Index gelesen werden Ebenso k nnen alle Werte die mit einem Pr fix z B Imp beginnen schnell gefunden werden Von dieser M glichkeit wird bei den weiter unten beschriebenen Indizes Gebrauch gemacht Die Indizes einer Datenbank verhalten sich v llig transparent Man muss nur einmal an geben dass sie erstellt werden sollen und schon verwendet die Datenbank sie automatisch um die Bearbeitung von Anfragen zu beschleunigen F r die im folgenden beschriebenen Indizes gilt dies nicht Sie sind spezielle Tabellen die zwar innerhalb der Datenbank ge speichert sind aber explizit in einer SQL Anweisung eingebunden werden m ssen Ebenso muss die Anwendungssoftware daf r Sorge tragen dass diese Tabellen konsistent zum Kor pus gehalten werden 27 Das Nachschlagen innerhalb der Tabellen der manuellen Indizes erledigt die Datenbank wie f r andere Tabelle auch ber eigene Indizes Satzindex Der einfachste manuelle Index im KoKS System listet alle Segmente auf Im Regelfall sind dies S tze sodass hier vereinfachend von S tzen gesprochen werden kann F r jeden Satz werden die Token durch ein spezielles Zeichen getrennt zu einer Zeichenkette zu sammengesetzt und zusammen mit der Segmentnummer in einer Tabelle aufgef hrt Um Speicherplat
103. e nicht gefunden werdem die am Anfang und Ende Unterschiede zum Anfragesatz aufweisen Gew nscht ist dass alle S tze gefunden werden die eine vorgegebene Anzahl von Token oder Grundformen mit dem Anfragesatz gemeinsam haben Dieses Suchproblem ist be reits aus dem Information Retrieval bekannt In einem Translation Memory werden statt Dokumenten S tze gesucht Mit den datenbankseitig vorhandenen Indizes kann die Suche nach S tzen die k Token von gegebenen Token Ti enthalten bereits durchgef hrt werden ohne die S tze selbst aus der Datenbank auslesen zu m ssen Dazu werden f r jede k elementige Teil menge T T der Anfragetoken die Menge der Satznummern der S tze ermittelt die die jeweiligen k Token enthalten Die Vereinigung dieser 5 Mengen gibt die gesuchten S tze an Diese einzelnen Mengenoperationen gibt folgender Ausdruck wieder k U 1 lt lt lt lt 1 wobei ein Token auf die Menge der Satznummern der S tze abbildet in denen das Token vorkommt R kann mit einer einfachen SQL Anfrage implementiert werden Die Mengen operationen k nnen prinzipiell auch von der Datenbank ausgef hrt werden Im Rahmen 52 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 2 Vorverarbeitung genoperationen k nnen prinzipiell auch von der Datenbank ausgef hrt werden Im Rah men dieser Arbeit wurde jedoch darauf verzichtet da der Autor keine Erfahrungen darin hat ob die verwendete MySQL Daten
104. egangen werden kann dass die bersetzungsqualit t unver ndert bleibt Ansonsten muss die Qualit t mit in die Bewertung einbezogen werden Wenn die bersetzungsqualit t mit br cksichtigt wird dann k nnen Translation Memorys nicht nur untereinander sondern auch mit anderen CAT Systemen verglichen werden Des Weiteren wird h ufig behauptet vergleiche Seewald Heeg und N bel 1999 Seite 119 dass Trans lation Memorys die bersetzungsqualit t steigern da sie die Konsistenz der bersetzungen erh hen Andererseits k nnte die Qualit t auch durch Fehl bersetzungen leiden Webb 1998 Abschnitt 9 weist darauf hin dass die Benutzung eines Translation Memorys die Zahl der Nachbearbeitungszyklen reduzieren kann Der Aufwand vergleichbare Texte unter gleichen Bedingungen zu bersetzen ist sehr hoch Trotz des Aufwands d rfte es schwierig sein die Ergebnisse zu reproduzieren da die gemessenen Werte von den bersetzern abh ngen die f r den Test eingesetzt werden Man wird also m glichst einen anderen Weg suchen um ein Translation Memory zu evaluieren Eine erste Vereinfachung w re dass man S tze f r die das Translation Memory kei nen bersetzungsvorschlag unterbreitet nicht vom bersetzer bearbeiten l t sondern ei ne pauschale Dauer f r die bersetzungst tigkeit ansetzt z B von 15 Sekunden je Wort Ebenso muss der bersetzer nicht bem ht werden wenn ein bersetzungsvorschlag korri giert werden muss der berei
105. eichen keine Einheit mit dem vorangehenden Wort Sie werden entweder als eigenes Token behandelt oder ganz igno riert Der im KoKS System verwendete Tokenisierer beh lt Satzzeichen bei Weitere Sonderf lle stellen Klammern Bindestriche und Anf hrungszeichen dar Tabelle 3 1 zeigt einige problematische Textfragmente die gr tenteils einem ABC Online Interview ent nommen wurden und die Anzahl der Token Abk rzungen am Satzende absorbieren beim 3Dar ber hinaus wurden einige Zeilen vor allem berschriften die wegen vieler OCR Fehler unleserlich wa ren absichtlich entfernt Um das Satzalignment nicht zu erschweren wurden auch die entsprechenden Passagen in der anderen Spachfassung herausgenommen Hiervon ist aber nicht das gesamte Korpus betroffen da einer der beiden menschlichen Aufbereiter diese L schungen ablehnte 4Im Unterschied zur Menge der Zeichen ist die Menge der Token nicht endlich 5Wenn in dieser Arbeit von der Anzahl der Token oder W rter z B eines Satzes die Rede ist sind also Satzzeichen mitgez hlt 34 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 2 Vorverarbeitung KoKS Tokenisierer den Punkt der dann nicht mehr als eigenes Token zur Verf gung steht Die Tokenisierung ist im KoKS System kein eigenst ndiges Modul sondern wird zu sammen mit dem POS Tagging siehe unten vom IMS TreeTagger ausgef hrt Zwar k nnen die einzelnen Komponenten des IMS TreeTaggers nicht angepasst werden Aber zwischen
106. ein geht Denkbar w re auch Kriterien in die Bewertung der Relevanz einflie en zu lassen die die bersetzung isoliert betrachten wie die Komplexit t der grammatischen Struktur oder den lexikalischen Schwierigkeitsgrad den z B Wible et al 2002 aus der H ufigkeit der auftretenden W rter im Gesamtkorpus ermitteln So k nnten verst ndlichere ber setzungsvorschl ge bevorzugt werden die 1 4 auch leichter angepasst werden k nnen Im Folgenden werden zwei hnlichkeitsma e kurz umschrieben um einen Eindruck davon vermitteln zu k nnen welche Schwierigkeiten auftreten Das erste Beispiel kn pft an Abschnitt 2 2 3 an indem ein Wortalignment hergestellt wird um die nderungen ad quat zu beschreiben Als zweites Beispiel wird ein einfaches symmetrisches Abstands ma beschrieben Wortalignment Eine Bewertung sollte ber cksichtigen welche Arten von nderungen vorliegen Hier zu m ssen sie zuerst bestimmt werden Das ist keine triviale Aufgabe da Ersetzungen und Umstellungen auch durch eine Kombination von L schungen und Einf gungen be schrieben werden k nnen und da Zuordnungen nicht eindeutig sind wenn W rter doppelt vorkommen 2 4 Durch den neuen Bericht wurde der alte Bericht ersetzt Der alte Bericht wurde vollst ndig durch den neuen Bericht ersetzt Das konstruierte Beispiel 2 4 ist sicherlich ein Extremfall der selten vorkommt Es macht aber deutlich dass eine nderung auf unterschiedliche Weise
107. ein Beispielregelsatz angegeben der Punkt Fragezeichen und Aus rufezeichen als Satzendemarkierungen erkennt und als Ausnahmen Nummerierungen von Listen und die Abk rzung etc ber cksichtigt Um die XML Notation des Standard hier nicht vorstellen zu m ssen sind die Regeln im folgenden als Mengen passend zur obigen Formel wiedergegeben Bes s C nit s 0 9 Teil U Die Muster s und n stehen dabei f r beliebigen Leeraum und Zeilenumbr che Letz teres Muster wurde im Entwurf nicht definieren Die erste Ausnahmeregel setzt voraus 17 pers nliche Kommunikation Bnttp lisa org oscar seg 19Dies muss nicht den Stand der Entwicklung in den einzelnen beteiligten Unternehmen wiederspiegeln Wom glich werden Informationen zur ckgehalten um den Mitbewerbern keinen Einblick in die eigenen L sungsans tze zu gew hren Dann w re allerdings zu Fragen warum berhaupt an einem gemeinsamen Standard f r den Austausch von Segmentierungsregeln gearbeitet wird 42 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 2 Vorverarbeitung Token POS Tag Lemmata Token POS Tag Lemmata Die ART d The DT the Fete NN Fete school NN school zum APPRART zum e VBZ be Ferienbeginn NN Ferienbeginn out IN out fiel VVFIN fallen party NN party ins APPRART ins was VBD be Wasser NN Wasser called VBN call off RP off weil KOUS weil SATZ P die ART d lt SATZ gt Disco NN
108. eit soll ein Ansatz mit Hilfe von Beispielen aus einem Deutsch Englischen bersetzungskorpus skizziert werden der sich nur auf einfache linguistischer Werkzeuge n mlich POS Tagging und Lemmatisierung und parallele Korpora st tzt Dies ist eine gute Voraussetzung daf r dass es sich leicht an andere Sprachen anpassen l sst Spezielle Pro bleme des Deutschen z B Partikelverben und Komposita sollen soweit es sich vermeiden l sst in dieser Arbeit nicht behandelt werden Eine wichtige Grundlage f r das Verfahren ist das zweisprachige Referenzmaterial das es erlaubt einzelne S tze mit ihrer bersetzung abzurufen Dessen Aufbereitung f r die Nutzung in der zum Ziel gesetzten Anwendungsperspektive wird einen gro en Teil dieser Arbeit einnehmen Zusammengefasst ist also das Ziel meiner Arbeit einen Ansatz zur Generierung von bersetzungsvorschl gen auf Basis eines bilingualen Korpus soweit zu beschreiben dass seine Realisierbarkeit beurteilt werden kann Die Konkretisierung soll soweit gehen dass der Ansatz zumindest manuell auf einen Testkorpus angewendet werden kann Dabei ist klar dass keine Ergebnis genannt oder gar eine Evalution der bersetzungsleistung durch gef hrt werden kann Ziel soll es sein die einzelnen Schritte des Verfahrens angemessen zu beschreiben und mit Korpusbelegen zu erl utern 1 3 berblick Die Beschreibung eines Translation Memory als eine Software Komponente die das Re ferenzmaterial nach dem zu
109. elnen W rter aus dem Subsegment und im vorangehenden Satzteil bersetzt sind Zum Alignen kann fest vorgeben dass je Sprache nur zwei Gruppen vorhanden sind n mlich die Token die zum Subsegment geh ren und alle brigen Token Im ausgangs 73 4 1 Ein Ansatz zur N 4zBA amp INhleAd HKORPORA IN CAT SYSTEMEN EINE ANWENDUNGSPERSPEKTIVE Subsegment bersetzung die Vorau etzungen von Artikel 66 Absatz 2 EGKS Vertrag erf llt sind ihre Zustimmung erteilt hat die Kommission ihre it meets the test of authorisation in Article 66 2 ECSC Treaty granted its authorisation The Commission has mit Gr nden versehenen Stellungnahme der zweiten Stufe des Vertragsverletzungs verfahrens Artikel 226 EG Vertrag reasoned opinion the second stage of infringement proceedings Article 226 of the EC Treaty hnliche Subsegmente die Kommission hat deshalb ihre Zustim mung erteilt the Commission has therefore granted its authorisation hat die Kommission ihre Genehmigung The Commission has authorized erteilt Die Aufforderung an Belgien ergeht The request will be made Tabelle 4 2 bersetzungen der Subsegmente sprachlichen Satz ist die Zugeh rigkeit bereits festgelegt Der Aligner muss nur die beste Zuordnung der zielsprachlichen Token zu den beiden Alignment Beads bestimmen Wenn man annimmt dass die bersetzung des Subsegments wieder zusammenh ngend ist dann sind nur zwei
110. em urspr nglichen Text identisch ist da der Toke nisierer nicht entsprechend entworfen wurde Dies wird an der Behandlung von Whitespace deutlich Ob und welche Art von Whitespace zwischen zwei Token im urspr nglichen Text steht wird nicht repr sentiert Wenn dort irgendetwas ungew hnliches auftritt wie z B abger ckte Satzzeichen oder doppelte Leerzeichen dann kann der Text nicht von den To ken rekonstruiert werden Man k nnte argumentieren dass die Dokumentaufbereitung Abweichungen von den normalen Regeln der Typografie korrigieren also z B Satzzeichen an die vorangehen den W rter heranr cken m sse Dies w rde aber bedeuten dass die Aufbereitung viele Aufgaben der Tokenisierung bernehmen m sste 3 2 3 POS Tagging und Lammatisierung Beim Tagging wird jedes Token mit Informationen angereicht Die Art der Informationen kann sehr unterschiedlich sein Ebenso vielf ltig sind die Anwendungen bei denen Tag ging n tzlich ist Einen Einblick bieten Leech und Smith 1999 Die Bezeichnung die mit Etikett oder Anh ngsel bersetzt werden kann deutet darauf hin dass Tags sich immer auf genau ein Token beziehen Der Aufbau token bergreifender Strukturen wie z B beim Parsing wird nicht unter Tagging zusammengefasst Prinzipiell ist es aber m glich Relationen zwischen Token mit Tags zu annotieren Im KoKS System werden die Wortart Part of Speech POS und das Lemma die Grundform jedes Tokens a
111. en die Ersetzungen Einf gungen L schungen und Um stellungen von W rtern aufweisen Die ungenauen Fundstellen die auch Fuzzy Matches genannt werden m ssen bewertet werden damit die Fundstellen dem bersetzer geordnet nach Relevanz angezeigt werden k nnen Viele Benutzer verf gen nicht ber die F higkeit L sungswege dieser Art zu Computerproblemen selbst entwickeln zu k nnen Unterst tzung durch die Software oder zumindest durch das Benutzerhandbuch ist hier notwendig 20 2 TRANSLATION MEMORY 2 3 Ber cksichtigung von hnlichen TUs 2 3 1 Zugriff auf das Referenzmaterial Die einfachste Art Fuzzy Matches zu finden ist alle S tze der ausgangssprachlichen Sei te des Referenzmaterial auf ihre Relevanz hin zu pr fen Dieses Vorgehen hat aber den Nachteil dass die Dauer der Suche das Produkt von der Anzahl der S tze und der Dauer der Pr fung eines einzelnen Satzes ist Durch eine Beschleunigung der Berechnung der Relevanz wird das Problem also nur verlagert da eine Verdoppelung des Umfangs des Referenzmaterials auch den Suchaufwand wieder verdoppelt Es sind andere Vorgehens weisen zur Ermittlung der in Frage kommenden Stellen notwendig die sich bei steigendem Umfang besser verhalten Im Falle von genau bereinstimmenden Stellen reicht zur L sung dieses Problems ein einfacher Index aus Ein Index listet hnlich einem Index in einem Buch alle Stellen auf an denen ein Suchschl ssel im Text vorkommt
112. en genannt Dann werden die Schritte der Vorverarbeitung beschrieben die das Korpus in eine Form bringen in der es leichter genutzt werden kann Anschlie end werden kurz einige quanti tativen Abgaben zum Korpus gemacht Schlie lich wird eine Stichprobe aus dem Korpus vorgestellt die zeigen soll welche Arten von Fuzzy Matches erwartet werden k nnen und wie h ufig sie auftreten Die Stichprobe wird Grundlage f r die Betrachtungen im Kapitel 4 sein 3 1 Studienprojekt KoKS Im Studienprojekt KoKS wurde ein bilinguales Korpus aufgebaut das wie in einem Trans lation Memory auf Satzebene alignt ist Es kann daher ohne gro e Anpassungen in dieser Arbeit verwendet werden Die Nutzung des Korpus wird wesentlich dadurch erleichtert dass der Autor selbst Projektmitglied war und mit den Datenformaten und Werkzeugen vertraut ist die im KoKS Projekt entwickelt wurden Am Studienprojekt KoKS nahmen insgesamt sechs Studenten des Studiengangs Com puterlinguistik und K nstliche Intelligenz teil Die geplante Dauer betrug ein Jahr Sie konnte aber nicht eingehalten werden Das Projekt erstreckte sich von Oktober 2000 bis Januar 2002 Die Projektergebnisse sind in einem 641 Seiten umfassenden Abschlussbericht von Er penbeck et al 2002 dokumentiert der in einer um die Sitzungsprotokolle und pers nliche Schilderung der Projekterfahrungen gek rzten Fassung ffentlich auf der Projektwebseite zug nglich ist 30 3 KORPUSAUFBEREITUNG F R CAT SY
113. en von Artikel 66 die Vorau etzungen von Artikel 66 Absatz m 2 EGKS Vertrag erf llt sind 2 EGKS Vertrag erf llt sind hat S die Kommission die Kommission hat deshalb ihre Zustimmung erteilt ihre Zustimmung erteilt bersetzungsvorschlag The examination of this transaction has shown that it meets the competition safeguarding tests of Article 66 2 of the ECSC Treaty and the Commission has therefore granted its authorisation 89 A 2 S tze mit hoher G te der Beleglage A FUZZY MATCHES Segment 625460 Klasse hnlicher Inhalt 0 70 a 0 5229 Anfragesatz Treffer Da mit dieser bernahme Die Pr fung der Anmeldung hat ergeben da die Vorau etzungen von Artikel 66 die Vorau etzungen von Artikel 66 Absatz 2 2 EGKS Vertrag des EGKS Vertrages erf llt sind erf llt sind Die Kommission hat hat die Kommission deshalb ihre Zustimmung erteilt ihre Zustimmung erteilt bersetzungsvorschlag Consideration of the proposed transaction showed that it meets the tests for authorization in Article 66 2 ECSC Treaty and the Commission therefore granted its authorization Segment 625456 Klasse hnlicher Inhalt 0 70 a 0 5147 Anfragesatz Treffer Da Da mit dieser bernahme das Vorhaben die Vorau etzungen von Artikel 66 die Vorau etzungen von Artikel 66 Absatz 2 2 EGKS Vertrag des EGKS V
114. eoretisch gesprochen handelt es sich um einen gerichteten Graphen mit mn Knoten und 1 n 1 n m 1 m n 1 3mn 2 m n 1 Kanten Die Zahl der m glichen Pfade von 1 1 zu jeder einzelnen Zelle zeigt Abbildung 3 7 f r eine 9 x 16 Matrix In der Darstellung liegt 1 1 oben links In dieser Matrix kann man die Anzahl der m glichen Alignmentpfade f r verschieden gro e Abstandsmatrizen ablesen Beispielsweise gibt es 41 Alignmentpfade in einer 5 3 Abstandsatrix Eine einfache nicht rekursive Formel f r die Anzahl der Pfade liegt nicht nahe Im KoKS Abschlussbericht wird ein exponentielles Verhalten zur Gr e der Matrix vermutet Die Werte in der N he der in der Abbildung hervorgehobenen Diagonalen wachsen berexponentiell zu i j 2 23 Wie ein Pfad als Alignment interpretiert werden kann ist nicht offensichtlich Andere Bei einer Beschreibung der Pfadanzahl v mittels v b i 2 liegen die Basen b i j 5 7 in einem Bereich der Matrix ber zwei der sich ca 27 Grad um die Diagonale herum ffnet Soweit die Folge b i i mit dem Python Modul math berechnet werden kann und vorausgesetzt es treten keine numerischen Probleme auf w chst sie streng monoton mit abnehmender Zuwachsrate Die gr te quadratische Matrix die berechnet werden konnte reicht bis i 405 Die Basen wachsen ber 2 4 nur noch sehr langsam M glicherweise konvergiert die Folge sodass die Pfadanzahl in O b mit b gt 2 403 liegt
115. er Be schr nkung auf kurze POS Tagfolgen im Index kann dieses Problem gel st werden Die Anfrage kann weiterhin aus langen POS Tagfolgen bestehen wenn weiterhin nachgefiltert wird Dazu muss die Anfragefolge in indexgerechte St cke zerteilt werden Freiheiten bei der Zerlegung k nnten genutzt werden um m glichst seltene POS Tagfolgen f r die Indexanfrage zu nutzen 3 3 Eigenschaften Die Gr enangaben im KoKS Abschlussbericht von Erpenbeck et al 2002 beziehen sich auf das gesamte Korpus das aufbereitet wurde Bereits im KoKS Projekt wurde nicht das ganze Korpus weiterverarbeitet Nach Verbesserungen an einigen Komponenten wur de die Vorverarbeitung nochmal durchgef hrt unter Verwendung von Zwischenergebnissen aus vorangegangenen Durchl ufen Dabei standen nicht f r alle Teilkorpora die notwen digen Daten zur Verf gung da nicht von Anfang an die Zwischenergebnisse gespeichert wurden und wom glich auch gespeicherte Ergebnisse gel scht wurden um Platz f r neue Ergebnisse zu schaften 28 Einige Jahrg nge des EU Korpus und der DE News Nachrichten stehen daher nicht zur Verf gung sodass eine Neuausz hlung dieser Teilkorpora ange bracht ist Schlie lich ist das Harry Potter Korpus neu hinzugekommen f r das im KoKS Abschlussbericht keine Daten vorhanden sind 3 3 1 Gr e Die Anzahl der S tze wurde bereits in Tabelle 2 1 auf Seite 15 angegeben Die Segmen tanzahlen ergeben sich aus den Zeilensummen in der Tabelle 2 2 Di
116. er Definition der Opti malit t eines Alignments deutlich Ein Alignment ist optimal wenn es zul ssig ist und kein Alignment Bead so in zwei nicht leere Beads aufgeteilt werden kann dass die neuen Zuordnungen immer noch korrekt sind Die Definition der Optimalit t eines Alignments setzt die Definiton der Korrektheit der Zuordnung der Einheiten zu den Alignment Beads voraus Die dem gleichen Alignment Bead zugeordneten Einheiten aller Texte die alignt werden sollen sich in irgendeiner Form entsprechen Im Falle des Alignments eines Ausgangstextes mit seiner bersetzung kann diese Entsprechung die bersetzungsentsprechung sein Die zielsprachlichen Einheiten eines Alignment Beads sollen eine korrekte bersetzung der ausgangssprachlichen Ein heiten bilden Allgemein scheint die Semantik ein geeignetes Kriterium zu sein Dies muss aber nicht so sein Z B k nnte man sich eine Anwendung vorstellen in der die Abs tze von Reden die inhaltlich nicht zusammenh ngen aber von einem Autor stammen nur nach stilistischen Merkmalen paarweise alignt werden Genau genommen fehlt in obiger Definition des optimalen Alignments eine Ber ck sichtigung der Reihenfolge der Einheiten innerhalb der zu alignenden Texte Wenn z B im Ausgangstext eine Einheit doppelt vorkommt dann w ren sie nach der Definition aus tauschbar Es w rde keine Rolle spielen ob das erste oder zweite Auftreten der ersten bersetzung zugeordnet wird Das ist aber nicht gewollt
117. er M decins Sans Fronti res Spanien abgewickelt Segment 656051 Klasse hnlicher Inhalt 0 70 a 0 6697 Anfragesatz Treffer The project will be implemented by ECHO s The project will be implemented by ECHO s operational partner M decins partner M decins sans Fronti res Netherlands Sans Fronti res Belgium Ubersetzungsvorschlag Dieses Hilfsma nahmen werden von der NRO M decins Sans Fronti res Belgique durchgef hrt die mit dem Amt f r humanit re Hilfen der Europ ischen Gemeinschaft zusammenarbeitet 112 A FUZZY MATCHES A 2 S tze mit hoher G te der Beleglage Segment 657916 Klasse hnlicher Inhalt 0 70 a 0 6342 Anfragesatz Treffer The project Some ECU 500 000 will be implemented by ECHO s partner will be implemented by ECHO s partner in the operation M decins sans M decins sans Fronti res Netherlands Frontieres Netherlands bersetzungsvorschlag M decins Sans Fronti res Niederlande ist der Partner des Europ ischen Amtes f r humanit re Hilfe ECHO der das mit 500 000 ECU bezifferte Projekt abwickelt Segment 656264 Klasse hnlicher Inhalt 0 70 a 0 5455 Anfragesatz Treffer The project will be implemented by ECHO s The project will be implemented by ECHO s NGO partner M decins partner M decins sans Fronti re
118. er gemeinschaftlichen Regeln f r staatliche Beihilfen und dabei insbesondere der Gemeinschaftlichen Leitlinien f r staatliche Beihilfen zur Rettung und Umstrukturierung von Unternehmen in Schwierigkeiten zugestimmt werden kann weil die italie nische Regierung nachgewiesen hat dass sie Bestandteil eines umfassenden Umstrukturierungsplanes sind mit dem die Rentabilit t des Unternehmens innerhalb eines angemessenen Zeitraums unter vorsichtigen Annahmen hinsichtlich der Marktentwicklung wieder hergestellt werden kann Segment 458469 Klasse enth lt etwas mehr 0 80 a 0 3930 Anfragesatz Treffer That is why the Commission concluded that the aid gran ted to Fesa Enfersa meets the conditions The measures however satisfy the criteria laid down in the laid down in the European Union Community guidelines guidelines on State aid for rescuing and restructuring firms in difficulty andcan for rescuing and restructuring firms in difficulty and can therefore be therefore be approved authorised Ubersetzungsvorschlag Deshalb ist die Kommission zu dem Schluss gekommen dass die Fesa Enfersa gew hrte Finanzhilfe in Einklang steht mit den in den Leitlinien der Gemeinschaft f r staatliche Beihilfen zur Rettung und Umstrukturierung von Unternehmen in Schwierigkeiten festgelegten Bedingungen und daher genehmigt werden kann Segment 459838 Klasse hnlicher Inhalt 0 70 0 361
119. ericht 36 Working Paper CARL MICHAEL UND WAY ANDY 2003 Introduction In Recent Advances in Example Based Machine Translation herausgegeben von Carl Michael und Way Andy Kluwer Academic Publishers CARLETTA JEAN 1996 Assessing agreement on classification tasks the kappa stati stics Computational Linguistics 22 2 S 249 254 CRANIAS LAMBROS PAPAGEORGIOU HARRIS UND PIPERIDIS STELIOS 1994 A Matching Technique in Example Based Machine Translation In Coling S 100 104 DENNETT GERALD 1995 Translation Memory Concept products impact and pro spects project report South Bank University ERJAVEC TOMAZ 1999 The ELAN Slovene English Aligned Corpus In Procee dings of the Machine Translation Summit VII S 349 357 ERPENBECK ARNO HELLMANN DANIELA PETERS TONY SCHMEIER FRAUKE STEFFENS TIMO SURREY ANNIKA UND WAGNER JOACHIM 2000 Translation Memory Seminararbeit http www lehre informatik uni osnabrueck de jwagner tm 116 LITERATURVERZEICHNIS LITERATURVERZEICHNIS ERPENBECK ARNO KOCH BRITTA KUMMER NORMAN REUTER PHILIP TSCHORN PATRICK UND WAGNER JOACHIM 2002 KOKS Korpusbasierte Kol lokationssuche Technischer Bericht Institut f r Kognitionswissenschaft Universit t Osnabr ck Abschlussbericht FEDER MARCIN 2001 Computer Assisted Translation A Proposal for Tool Evaluation Methodology Dissertation Adam Micki
120. ertrages erf llt erf llt sind hat die Kommission ihre hat die Kommission ihre Zustimmung Genehmigung erteilt erteilt bersetzungsvorschlag The Commission has authorized the transaction since it meets the condi tions laid down in Article 66 2 of the ECSC Treaty Segment 631388 Klasse Sub Segment Match 0 60 a 0 5950 Anfragesatz Treffer Da mit dieser bernahme Die Kommission hat diesen Erwerb genehmigt da die Vorau etzungen von Artikel 66 Absatz 2 EGKS Vertrag erf llt sind die Vorau etzungen von Artikel 66 Absatz 2 EGKS hat die Kommission ihre Zustimmung erteilt Vertrag erf llt sind bersetzungsvorschlag Consideration of the proposed transaction has shown that it meets the tests for authorisation in Article 66 2 ECSC Treaty and the Commission therefore granted its authorisation 90 A FUZZY MATCHES A 2 S tze mit hoher G te der Beleglage Segment 614934 Klasse Sub Segment Match 0 60 a 0 5281 Anfragesatz Treffer Da Der Erwerb wurde von der Kommission genehmigt da mit dieser bernahme die Vorau etzungen von Artikel 66 mit dieser bernahme die Vorau etzungen von Artikel 66 Absatz 2 2 EGKS Vertrag erf llt sind EGKS Vertrag erf llt sind hat die Kommission ihre Zustimmung erteilt bersetzungsvorschlag Considerat
121. es H ufigkeit Deutsch Englisch 0 17 15 2 1 16 14 2 2 10 6 4 3 11 5 6 4 4 2 2 5 10 7 3 6 12 10 2 7 6 4 2 8 4 2 2 9 5 3 2 10 415 182 233 Summe 510 250 260 Tabelle 3 11 H ufigkeiten der Anzahlen der Fuzzy Matches das Fehlen einer Farbe in einer Zeile entdeckt und die Stelle ihres Auftretens gefunden werden muss Unten links wird in einer Auswahlliste die Klasse annotiert Das Sternchen zeigt an dass der Fuzzy Match bereits annotiert wurde Der Benutzer kann beliebig oft die Klassifikation ndern Innerhalb der Fuzzy Matches eines Stichprobensatzes kann mit dem Rollbalken rechts au en gewechselt werden F r die einzelnen S tze der Stichprobe gibt es eine Auswahlseite Ein Nachteile dieser Form der Annotation sollen nicht verschwiegen werden n mlich die Reihenfolge in der die Fuzzy Matches zur Klassifikation vorgelegt werden Innerhalb eines Anfragesatzes sind die Matches absteigend nach ihrer hnlichkeit zum Anfragesatz geordnet Dies kann dazu verleiten eine entsprechende Ordnung der Klassen anzunehmen Besser w re es die Reihenfolge zu randomisieren Mit diesem Problem einher geht die Anzeige der hnlichkeitswerte Sie sollte w hrend der Annotationsarbeit unterbleiben 3 4 4 Ergebnisse 4476 Fuzzy Matches wurden zu den 510 S tzen der Stichprobe gefunden Das sind 624 weniger als gew nscht Offensichtlich gibt es nicht f r jeden Satz gen gend Material im Korpus das mit den k 3 Anfragetoken gefunden wer
122. es beeinflussen den Erfolg der maschinellen bersetzung erheblich 1 1 Computer Aided Translation 1 EINLEITUNG hnlich verh lt es sich im Bereich der Politik Z B wird von der ffentlichkeit kaum beachtet dass f r die Europ ischen Kommissionen viele Fachaufs tze Pressemateriali en und Dokumente zu Gesetzen und Reden zwischen den elf offiziellen EU Sprachen bersetzt werden Wie in der Wirtschaft werden je nach Verwendung des Dokuments un terschiedliche Anforderungen an die bersetzung gestellt F r die Au endarstellung ist es wichtig dass Begriffe einheitlich wiedergegeben werden und zwar nicht nur innerhalb eines Textes sondern auch im Bezug auf zur ckliegende Ver ffentlichungen Bei Verord nungen und Richtlinien tritt u a hinzu dass die Textstruktur soweit erhalten bleiben muss dass Verweise auf einzelne Abs tze und S tze auch in der bersetzung korrekt sind Schlie lich sei noch die Kultur betrachtet Auch wenn die Entscheidung ein Buch in eine andere Sprache zu bersetzen meistens wohl von wirtschaftlichen Gewinnerwar tungen bestimmt wird kann der Einfluss der vielen angebotenen B cher anderssprachiger Autoren auf die eigene Kultur nicht geleugnet werden Die verschiedenen Kategorien von B chern wie z B Biografien Krimis und Reisef hrer stellen unterschiedliche An forderungen an den beretzer Das gleiche gilt f r Filme Sie werden nicht etwa von Dolmetschern simultan bersetzt Synchronsprecher un
123. esiani betrachtet die Formate in denen die zu bersetzenden Texte und das Referenzmaterial verarbeitet werden k nnen Er behauptet dass das bersetzungswissen des Translation Memorys kaum genutzt werden k nne wenn das zu bersetzende Textmaterial in einem anderen Format vorliegt als das in dem die Do kumente kodiert waren die dem vorhandenen Referenzmaterial zus Grunde liegen Diese Aussage macht nach der bisherigen Beschreibung von TM in dieser Arbeit keinen Sinn Ein bersetzungsvorschlag wird von TM immer dann unterbreitet wenn ein zu bersetzender Satz im Referenzmaterial gefunden wird Man w rde annehmen dass nur die W rter oder Zeichen des Satzes aber nicht das Format f r die Suche eine Rolle spielen Eine Erkl rung der Behauptung k nnte sein dass Alesiani TM Produkte verwendet die formatspezifische Informationen mit im TM speichern und bei der Suche diese auch ber cksichtigen Wie dem auch sein zu der Schlussfolgerung dass Barrieren bei der Nutzung des in einem TM gespeicherten bersetzungswissens bestehen gelangt man auch einfacher Kein TM un terst tzt alle denkbaren Formate Liegen in einem bersetzungsauftrag inhalts hnliche Dokumente in verschiedenen Formaten vor dann kann es passieren dass dem bersetzer kein TM Produkte zur Verf gung steht dass beide Formate unterst tzt Es m ssen zwei verschiedene TM Produkte eingesetzt werden Die zu den Dokumenten im einen Format gemachten bersetzungen k nnen so nicht
124. etzer kann auf den nummerierten Aus gangstext zugreifen und anhand der Nummern erkennen welche Bereiche bereits durch das 2 1 Integration in den bersetzungsprozess 2 TRANSLATION MEMORY INCAT Translation Memory bersetzt wurden Wenn der zu bersetzende Text viele Wiederholun gen von Passagen oder Einzels tzen enth lt die nicht im Referenzmaterial vorhanden sind dann kann der bersetzer in diesem Beispielszenario davon profitieren von Zeit zu Zeit die neuen Satzpaare in das Translation Memory einzuspielen und mit einer neuen Zieltext vorlage weiterzuarbeiten Da die S tze nummeriert sind entf llt das aufwendige Zuordnen der bersetzungen das beim Einspielen neuer Texte ins Translation Memory notwendig ist Das Beispiel macht deutlich dass isolierte CAT Werkzeuge und der R ckgriff auf Stan dardwerkzeuge die f r die monolinguale Textverfassung gedacht sind keine optimale Ar beitsumgebung f r den bersetzer sind Im Beispiel wurde die Verbindung zwischen Aus gangstext und bersetzung durch die Nummerierung der S tze hergestellt W nschenswert w re jedoch dass das Abrufen der sich entsprechenden Textstellen von der CAT Software erleichtert wird Besser in den bersetzungsprozess integrierte Translation Memorys sind des Weiteren inkrementell d h sie bernehmen automatisch fertig bersetzte S tze mit ihrer bersetzung ins Referenzmaterial sodass sie sofort f r andere noch zu bersetzende S tze zur Verf gung s
125. eview Article Example based Machine Translation Ma chine Translation 14 2 S 113 158 SOMERS HAROLD MCLEAN IAN UND JONES DANIEL 1994 Experiments in Mul tilingual Example Based Generation In Proceedings of the 3rd Conference on the Cognitive Science of Natural Language Processing Dublin TOUTANOVA KRISTINA KLEIN DAN MANNING CHRISTOPHER D UND SINGER YORAM 2003 Feature Rich Part of Speech Tagging with a Cyclic Dependency Network HLT NAACL 2003 http nlp stanford edu manning papers tagging pdf TSCHORN PATRICK 2002 Automatically aligning English German parallel texts at sen tence level using linguistic knowledge Magisterarbeit Universit t Osnabr ck UNBEKANNT 2001 Ohne Titel Laut Language Automation Inc handelt es sich um ein von Trados bereitgestelltes Dokument das von SDL und Brian Chandler MultiLing Corp aktualisiert wurde http www lai com tmcompet htm VAN HALTEREN HANS UND VOUTILAINEN ATRO 1999 Automatic Taggers An Introduction In Syntactic Wordclass Tagging herausgegeben von van Halteren Hans Kluwer Academic Publishers S 109 115 VERONIS JEAN Herausgeber 2000 Parallel Text Processing Alignment and Use of Translation Corpora Dordrecht Niederlande Kluwer ISBN 0 7923 6546 1 WEBB LYNN E 1998 Advantages and Disadvantages of Translation Memory A Cost Benefit Analysis Magisterarbeit Monterey Institute of International Studies MI IS
126. ewicz University Pozna Polen Bibliographie online verf gbar GHORBEL HATEM CORAY GIOVANNI LINDEN ANDRE COLLET OLIVIER UND AZZAM WAGIH 2002 L alignement multicrit res des documents m di vaux Lexi cometrica Num ro sp cial Corpus align s KUMMER NORMAN UND WAGNER JOACHIM 2002 Phrase processing for detecting collocations with KoKS Workshop on Computational Approaches to Collocations http www ai univie ac at colloc02 kummer_wagner_final pdf LEECH G UND SMITH N 1999 The Use of Tagging In Syntactic Wordclass Tagging herausgegeben von van Halteren Hans Kluwer Academic Publishers S 23 36 MANNING CHRISTOPHER D UND SCH TZE HINRICH 1999 Foundations of statisti cal natural language processing Cambridge MA London MIT Press MCTAIT KEVIN 2001 Memory Based Translation Using Translation Patterns In Proceedings of the 4th Annual CLUK Colloquium Sheffield S 43 52 MELBY ALAN 1998 Data exchange standards from the OSCAR and MARTIF pro jects In First International Conference on Language Resources and Evaluation LREC 98 ELRA Granada S 3 8 MERKEL MAGNUS 2001 Comparing source and target texts in a translation corpus 13th Nordic Conference on Computational Linguistics NoDaLiDa 01 http www ida liu se magme publications merkel comparing pdf PIPERIDIS STELIOS PAPAGEORGIOU HARRIS UND BOUTSIS SOTIRIS 2000 From sentences t
127. fikation 32 SQL 47 Stichprobe 56 Stoppwortliste 58 STTS Tagset 36 Subsegment Match 59 63 Szenario 8 Tag 36 Tagging siehe POS Tagging Tagging Fehler 40 Tagset 36 TELA Ebenen 25 Term Match 63 Terminologie 2 TMX 12 Tokenanzahl 55 Tokenisierung 34 Translation Unit 12 m H ufigkeiten 16 TreeTagger 35 36 Trigramm 59 TU siehe Translation Unit Umlautkorrektur 35 69 Viterbi Algorithmus 38 Vorverarbeitung des Korpus 31 W rteranzahl 55 W rterb cher 2 W rterbuch 44 W rtliche Rede 41 Whitespace 33 Wortart siehe POS Zeichenanzahl 55 Zul ssigkeit Alignment 18 Zuordnung H ufigkeiten 16 121 Erkl rung Hiermit versichere ich dass ich die vorliegende Arbeit selbst ndig verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel benutzt habe Dublin den 11 September 2003
128. formen in Frage dann annotiert der Tagger alle Alternativen Tabelle 3 2 zeigt einige Beispiele aus dem Teilkorpus EU 1998 Die POS Tags sind mit angegeben 15Zumindest wird von der M glichkeit den Parameterraum des Markov Modells zu vergr ern indem die Grundformen in die Zust nde mit aufgenommen werden und es dann dem Decision Tree Verfahren zu berlassen den Parameterraum wieder geeignet zu verengen keinen Gebrauch gemacht Die entsprechenden bedingten Wahr scheinlichkeiten enthalten nur POS Tags als Vorbedingung siehe Formeln in Schmid 1995 Seite 2 38 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 2 Vorverarbeitung H ufigkeit Token POS Tag Lemmata 2 Andreas NE Andrea Andreas 12 Antworten NN Antwort Antworten 14 f hren VVFIN fahren f hren 26 gelangt gelangen langen 54 gew hrt VVPP gew hren w hren 14 Listen NN List Liste Listen 15 Mitteln NN Mittel Mitteln 23 Studien NN Studie Studium Tabelle 3 2 Token mit mehreren annotierten Grundformen Auswahl Token POS Tag Lemmata Token POS Tag Lemmata Gefallen NN Gefallen Gefallen VVPP fallen gefallen findet VVFIN finden ist VAFIN sein er PPER er er PPER er daran PAV daran nicht PTKNEG nicht bestimmt VVPP bestimmen Gefallen VVINF gefallen Gefallen VVINF gefallen wird VAFIN werden wird VAFIN werden es PPER es sie PPER sie ihr PPOSAT ihr nicht PTKNEG nicht jedoch
129. g lage f r die Anfrages tze l sst sich mit der Tabelle 3 14 schlecht einsch tzen da aus ihr nicht hervorgeht ob sich die Fuzzy Matches mit hoher Relevanz auf einige wenige An frages tze zur ckgehen oder ber viele verteilt sind Dies ndert sich wenn man f r jede Klasse ausz hlt wie h ufig sie den besten Fuzzy Match eines Anfragesatzes stellt Der Tabelle 3 15 k nnen die H ufigkeiten entnommen werden Selbst wenn man annimmt die nicht klassifizierten Matches h tten keine Relevanz haben 36 von 510 S tze der Stichpro be mindestens einen Fuzzy Match mit Relevanz ber 60 Das sind immerhin 7 im Deutschen etwas weniger 6 4 und im Englischen etwas mehr 7 7 Zur Beurteilung der Belegsituation k nnen auch die Tabellen im Anhang A 1 beitragen die zu jedem Satz der Stichprobe die G te der Fuzzy Matches angeben die als Durchschnitt der Relevanzwerte der jeweils besten vier Matches definiert wurde 3 4 5 Bewertung Es wurde gen gend Material f r die Diskussion im nachfolgenden Kapitel gefunden Le diglich die Fuzzy Match Klassen Tippfehler und enth lt etwas mehr nicht sehr schwach vertreten Im Englischen gibt es dar ber hinaus keine Beispiele f r Matches der 52F r die einzelnen Sprachen sind die Werte die Spaltensummen der Tabellen 3 12 und 3 13 68 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 5 Zusammenfassung Klasse Relevanz H ufigkeit Deutsch Englisch Exact Match 100
130. g der Richtlinie 97 9 EG ber Anlegerentsch digungssysteme siehe IP 97 138 f r das Gebiet von Gibraltar getroffen hat 107 A 2 S tze mit hoher G te der Beleglage A FUZZY MATCHES Segment 457671 Klasse hnlicher Inhalt 0 70 a 0 2976 Anfragesatz Treffer Specialist doctors Payment systems The Commission has The Commission has senta decided to send reasoned reasoned opinions to Luxembourg France and Italy because they opinion to Portugal requiring that it notifies p req E have not yet notified the Commission of measures measures taken to implement to implement the Settlement Finality Directive Directive 1999 46 EC 98 26 Ubersetzungsvorschlag Zahlungssysteme Die Kommission hat beschlossen Luxemburg Frankreich und Italien eine mit Gr nden ver sehene Stellungnahme zuzuleiten da diese L nder der Kommission bislang keine Ma nahmen zur Umsetzung der Richtlinie ber die Wirksamkeit von Abrechnungen Richtlinie 98 26 EG mitgeteilt haben Segment 442333 Klasse hnlicher Inhalt 0 70 0 2874 Anfragesatz Treffer Specialist doctors The Commission has On 23 December 1999 the Commission sent areasoned opinion to sent reasoned opinion to Portugal requiring that it notifies Luxembourg in which it requested that the necessary measures measures to implement be ta
131. g der Textstellen k nnen Ergebnisse einer liguistischen Analyse einfliessen Nach einer kurzen Bemerkung zur Ber cksichtigung von Layout Informationen folgt eine Zusammenstellung von Evaluationskriterien 2 1 Integration in den bersetzungsprozess In diesem Abschnitt soll ein Eindruck davon vermittelt werden wie ein TM eingesetzt wer den kann Auf andere Werkzeuge die dem bersetzer zur Verf gung stehen bin ich bereits in der Einleitung kurz eingegangen Bowker 2002 liefert eine allgemeinverst ndliche Einf hrung in CAT 2 1 1 Anwendungsszenario Ein Translation Memory kann seinen vollen Nutzen nur entfalten wenn bereits bersetzte Texte zur Verf gung stehen die gro e hnlichkeit mit dem zu bersetzenden Text haben Der erste Schritt ist daher solche Texte in das Translation Memory einzuspielen Wenn das Textmaterial dabei auf viele Dokumente verteilt ist stellt sich die Aufgabe die aus gangssprachlichen Texte und die bersetzungen einander zuzuordnen Eventuell k nnen hier Regeln nach denen die Dokumente benannt wurden ausgenutzt werden Z B werden h ufig die Zus tze de und en verwendet um deutsche und englische Texte zu unterschei den Sofern der Name der Dokumente nicht mit bersetzt wurde gibt dann der restliche Teil der Dateinamen die Zuordnung vor Mir ist nicht bekannt ob TM Produkte verf gbar Dokument und Datei verwende ich synonym Anders als Begriffe wie Absatz Abschnitt und Kapitel die sich auf
132. gef llten 51 x 52 Matrizen bestimmt Auch hier trat kein Pfad auf der ber Eck f hrt 46 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 2 Vorverarbeitung auch n 0 Beibehalten wurde dass die Gruppen zusammenh ngend sein m ssen und nicht ber kreuz alignt werden k nnen Die Beschr nkung der Abstandswertberechnung auf Satzpaare wurde aufgegeben zugunsten einer Berechnung nach Bedarf f r beliebige Grup penpaare Erste Experimente zeigten ein gutes Laufzeitverhalten Jedoch war keine Zeit vorhanden f r einen gr ndlichen Test des Aligners und die Feinabstimmung der Parameter Es ist unklar ob sich der Aufwand f r die Entwicklung eines neuen Aligners lohnt da der KoKS Aligner bereits eine f r die Anwendungen im KoKS Projekt und in dieser Arbeit zufrieden stellende Alignmentqualit t erreicht Das ist ein weiterer Grund warum der Ansatz nicht weiter verfolgt wurde 3 2 6 Datenbank Die alignten Dokumente werden in einer Datenbank abgelegt Dabei wird jedes Tupel aus Token POS Tag Grundform und Sprache nur einmal gespeichert und mit einer eindeutigen Zahl der Token ID versehen die zur Identifikation des Tupels dient Der Dokumentinhalt reduziert sich damit auf eine Folge von Token IDs die in der Datenbank als funktionale Relation zwischen den nat rlichen Zahlen und den Token IDs realisiert ist Als Tabelle dargestellt ergibt das die zwei Spalten Token Nummer und Token ID Das Alignment wird in der Datenbank repr sentiert
133. gen dass die Wortarten vollst ndig bereinstimmen Dann werden in der Regel die syntaktischen Strukturen angefangen von der Abfolge der einzelnen Satzteile bis hin zu der inneren Struktur der Phrasen den gleichen Aufbau haben Eventuell m ssen f r bestimmte Wortarten z B Pr positionen und Verben auch die W rter bzw Grundformen bereinstimmen um unbrauchbare Referenzs tze auszu Trotz gleicher Folge von Wortarten kann die syntaktische Struktur abweichen Vergleiche z B Er sah den Mann mit dem Hut und Er sah das Reh mit dem Fernglas 1 3 berblick 1 EINLEITUNG schlie en Dies in Ans tzen zu untersuchen wird der zentrale Gegenstand der vorliegenden Magisterarbeit sein Ein weiteres Problem ist die Identifikation der bersetzung von den Teilen der Refe renzs tze auf die zur ckgegriffen werden soll Hier bieten sich zwei grunds tzliche Vorge hensweisen an Zum einen k nnte man auf einen der verschiedenen bereits ver ffentlichten Ans tze zur ckgreifen Problematisch ist dass die meisten Ans tze Terminologie oder Phrasen aus gr eren Korpora und nicht aus einzelnen Satzpaaren extrahieren Alternativ k nnte man den Ansatz aus dem Studienprojekt KoKS Erpenbeck et al 2002 verwenden mit dem ich vertraut bin da ich Mitglied dieses Projekts war Die Ergebnisse des Studi enprojekts zeigen aber dass der Ansatz noch nicht ausgereift ist Es treten viele falsche Zuordnungen auf In dieser Arb
134. gend so geht die Kommission die Kommission zur zweiten Phase ber und uebermittelt dem Mitglied staat nicht berzeugt leitet die Kommission die zweite Stufe des Verfahrens ein und gibt eine mit Gr nden versehene Stellungnahme eine mit Gr nden versehene Stellungnahme mit der Aufforderung den ab um den Mitgliedstaat aufzufordern dem festgestellten Versto festgestellten Versto binnen innerhalb eines Monats eines Monats abzustellen ein Ende zu setzen bersetzungsvorschlag In the absence of a reply or if the reply is not convincing the Commission moves on to the second stage and adopts a reasoned opinion enjoining the Member State to put an end to the infringement within a period of one month Segment 615383 Klasse hnlicher Inhalt 0 70 a 0 4022 Anfragesatz Treffer Erfolgt keine Wenn eine Antwort Antwort auf dieses Schreiben ausbleibt oder oder ist diese Antwort nicht berzeugend so geht die Kommission die Kommission zur zweiten Phase ber und uebermittelt dem Mitglied staat nicht berzeugt leitet die Kommission die zweite Stufe des Verfahrens ein und gibt eine mit Gr nden versehene Stellungnahme eine mit Gr nden versehene Stellungnahme mit der Aufforderung den ab um den Mitgliedstaat aufzufordern dem festgestellten Versto festgestellten Versto
135. gsvorschl ge EBMT Ans tze unterscheiden sich sehr in der Art des linguistischen Wissens das sie einsetzen Ein Teil der Ans tze extrahiert Transferregeln aus den Daten die dann in ei nem klassischen MT System verwendet werden McTait 2001 bildet in einer Vorverar beitungsphase flache Strukturen die Variablen enthalten um sie in der bersetzungsphase auf die zu bersetzenden S tze anzuwenden Die Extraktion der Strukturen die er Trans lation Patterns nennt erfolgt mit einem machinellen Lernverfahren Linguistisches Wissen in Form von POS Tags oder Grundformannotationen wird nicht eingesetzt Einf hrungen und bersichten zu EBMT bieten Carl und Way 2003 und Somers 1999 In Nachfolgendem wird eine Anwendungsperspektive gezeigt die keinen dieser Ans tze verfolgt sondern sich im wesentlichen auf Alignment und hnlichkeitsma e st tzt 4 1 Ein Ansatz zur Nutzung mehrerer TUs Der in diesem Abschnitt skizzierte Ansatz nutzt mehrere Translation Units des Refen renzmaterial die mindestens ein Subsegment mit dem zu bersetzenden Satz gemeinsam haben Kennzeichnet f r diesen Ansatz ist dass er f r alle drei grundlegenden Schritte Subsegment Suche Identifikation der bersetzungen und Kombination derselben Align ment Techniken nutzt Dies erm glicht es je nach Verf gbarkeit unterschiedlich viel lin guistisches Wissen einzusetzen 71 4 1 Ein Ansatz zur 2 MWht Ad H KORPORA IN CAT SYSTEMEN EINE ANWENDUNGSPERSPEK
136. gut zu erhalten Andererseits sagt Erjavec dass das TMX Format Strukturinformation er nennt das DIV Tag nicht repr sentiert w rde Des Weiteren erw hnt er dort das Text Encoding and Interschange Format TEI P3 als Alternative TEI erhalte die urspr nglichen Dokumente und speichere die Zuordnung in einer getrennten Datei Ein weiteres offenes Format das f r den Austausch von TMs adaptiert werden k nnte ist CES Corpus Encoding Standard 2 2 Segmentierung eines Bitexts in TUs Ein Translation Memory wird eingesetzt um Textst cke die bereits einmal bersetzt wur den nicht von neuem bersetzen zu m ssen sondern die bersetzung vom Computer automatisch einf gen zu lassen Wichtig f r ein TM ist es dass es die bersetzung der vorgegebenen Einheit im zweisprachigen Textmaterial zuverl ssig identifizieren kann Der Ausgangs und Zieltext des Referenzmaterials werden dazu so segmentiert dass das i te Segment des Zieltextes die bersetzung des i ten Segments der Ausgangstextes ist In nerhalb der Segmentpaare k nnen andere Zuordnungen als 1 1 Zuordnung vorliegen wie in diesem Abschnitt noch erl utert wird Insbesondere ist es m glich dass ein Segment mehrere Einheiten umfasst oder leer ist Sind die Einheiten S tze dann wird h ufig genau eine Einheit der Ausgangssprache einer Einheit der Zielsprache zugeordnet Ein Segment paar dessen zielsprachlicher Teil bersetzung des ausgangssprachlichen Teils ist wird als Translatio
137. h entsprechenden Stellen erfolgen damit die resultierenden Dokumente bersetzungen voneinander bleiben Hierzu wurden die beiden Sprachfassungen in zwei Texteditoren ge ffnet und an geeigne ten Stellen Trennzeilen eingef gt an denen die Texte anschlie end in Einzeldateien aufge teilt wurden Ein weiteres spezielles Problem des Harry Potter Korpus ergibt sich daraus dass die Dokumente per OCR von einer Buchvorlage erfasst wurden Der Text wird daher in re gelm igen Abst nden durch Seitenzahlen unterbrochen und Zeichen k nnen falsch er kannt sein Die Zeilen die die Seitenzahlen enthalten wurden mit einem Suchmuster identifiziert und entfernt Weil die Erkennungsqualit t der OCR bei den Seitenzahlen sehr schlecht war mussten neben Ziffern auch weitere Zeichen wie 1 und in das Suchmu ster aufgenommen werden M glicherweise wurden dadurch einige zum Text geh rende Sammelbezeichnung f r Elemente einer Zeichenfolge String die den Fluss der Zeichen unterbrechen z B Leerzeichen Zeilenumbruch vorschub Seitenwechsel und Tabulatoren 33 3 2 Vorverarbeitung 3 KORPUSAUFBEREITUNG F R CAT SYSTEME Text erwartete Tokenanzahl KoKS Tokenanzahl John O Brien 2 2 award winning 1 1 film and television 4 4 John s other television credits include 5 6 Water Rats 5 3 done five 4 4 That s nice 4 4 Abk f Abk rzung 3 3 von S tzen usw Der Name steht 6 Tabelle 3 1 Schwierig
138. h h ufig vorkommen Auch in dem Beispiel in dem Zustim mung durch Genehmigung ausgetauscht ist ist das Ma ungeeignet da sich sehr viele Trigramm H ufigkeiten durch die Substitution ndern Um die hnlichkeitsschwelle weiter absenken zu k nnen ohne viele irrelevante Sub segmente zu finden sind weitere Kriterien erforderlich die ein Subsegment erf llen muss Beispielsweise k nnte man verlangen dass das Subsegment die gleiche POS Tagfolge auf weisen muss wie das entsprechende Subsegment im Anfragesatz Im Fall 612370 de 625456 w rde dies die nderung von Zustimmung zu Genehmigung erlauben den Einschub hat deshalb in 612370 de 613006 dagegen verbieten Entwickelt man diese Kriterien weiter stellt man schlie lich fest dass ein monolingualer Subsegment Aligner vorliegt Wenn die erste Fuzzy Match Anfrage mit dem Ausgangssatz nicht genug Material aus dem Korpus extrahiert hat k nnte man neue Anfragen mit den bereits identifizierten Sub segmenten und mit den noch nicht abgedeckten Textfragmenten starten 4 1 2 Identifikation der bersetzung eines Subsegments Naheliegend w re es ein Wortalignment zu erstellen und dann als bersetzung eines Sub segments die zugeordneten W rter zu verwendet Dies erfordert aber mehr Aufwand als n tig Soll z B das Subsegment die Kommission hat deshalb ihre Zustimmung erteilt im Segment 613006 Seite 89 bersetzt werden dann ist es irrelevant wie die einz
139. hilfeinten sit t unter der zul ssigen H chstgrenze liegt bersetzungsvorschlag The Commission has checked that the proposed aid is compatible with Article 5 of the Steel Aid Code and in particular has established that the aid is to be granted under the regional and general investment aid schemes approved by the Commission and that the aid intensity does not exceed the ceiling set Segment 646149 Klasse Term Match 0 20 a 0 3917 wird bersprungen Segment 658887 Klasse keine Relevanz 0 00 a 0 3708 wird bersprungen Segment 647600 Klasse keine Relevanz 0 00 0 3398 wird bersprungen Segment 650343 Klasse keine Relevanz 0 00 a 0 3387 wird bersprungen Segment 649865 Klasse keine Relevanz 0 00 a 0 3382 wird bersprungen Segment 647518 Klasse keine Relevanz 0 00 a 0 3366 wird bersprungen Segment 647722 Klasse keine Relevanz 0 00 a 0 3366 wird bersprungen 103 A 2 S tze mit hoher G te der Beleglage A FUZZY MATCHES A 2 2 Englisch S tze mit G te ber oder gleich 70 Die S tze Segmente sind absteigend nach G te sortiert 461295 en 457677 en 466722 en 429939 en 656064 en 441396 en Matches zum Segment 461295 en Segment 473824 Klasse fast gleicher Inhalt 0 85 0 9352 Anfragesatz Treffer This single programming document amounts to This single programming document amounts to 518 9
140. hrungszeichen einfach in ein Nummernzeichen verwandelt Die bessere L sung w re gewesen in der SQL Dokumentation nachzuschau en wie Anf hrungszeichen gesch tzt werden m ssen und eine entsprechende Funktion zu implementieren In den im Rahmen dieser Magisterarbeit erstellten neuen Softwarekom ponenten wurde dies umgesetzt da im Harry Potter Korpus oft w rtlich Rede vorkommt Die Umstellung s mtlicher Komponenten wurde aber aus Zeitmangel aufgegeben Die unvollst ndige Umstellung f hrt leider zu neuen Problemen Eine Anfrage die Anf hrungszeichen enth lt findet im Korpus keine Treffer Erst eine Umstellung der ge samten Korpusvorverarbeitung w rde hier Abhilfe schaffen In dieser Arbeit tritt das Pro blem nicht auf da f r die Anfragen nur S tze aus dem Korpus selbst verwendet werden 3 27 Indizierung Die Struktur der KoKS Datenbank erlaubt einen sehr schnellen Zugriff auf alle Segmente die ein bestimmtes Tokentupel Token POS Tag Grundform Sprache enthalten Die Da tenbank kann dabei auch Listen von Tokentupeln verarbeiten von denen eines im Segment auftreten muss damit das Segment gefunden wird Auf diese Weise k nnen alle Segmen te zu z B einer Grundform und Sprache unabh ngig von POS Tag und Token mit einer Datenbank Anweisung abgefragt werden Komplexere Anfragen bereiten jedoch Probleme Beispielsweise m chte man alle Seg mente erfragen k nnen die eine Kombination von W rtern oder Grundformen enthalten
141. htige die Handelsbedingungen in keiner dem gemeinsamen In teresse zuwiderlaufenden Weise und erf lle die folgenden Kriterien 3 Die Firma Sernam entspricht der Definition eines Unternehmens in Schwierigkeiten Die bernahme durch das Unternehmen Geodis und der durchzuf hrende Umstrukturierungsplan d rften eine Wiederherstellung der Rentabilit t innerhalb von vier Jahren erm glichen Auf expandierenden M rkten mit hohen Wachstumsraten bedeutet die Beihilfe keine Beeintr chtigung des Wettbewerbs insbesondere aufgrund des beabsichtigten Abbaus von Arbeitspl tzen und Segment 425367 Klasse Term Match 0 20 a 0 4338 wird bersprungen Segment 454689 Klasse Term Match 0 20 a 0 3935 wird bersprungen Segment 451139 Klasse Term Match 0 20 a 0 3884 wird bersprungen Segment 465134 Klasse Term Match 0 20 a 0 3693 wird bersprungen Segment 441489 Klasse Term Match 0 20 a 0 3682 wird bersprungen Segment 424594 Klasse Term Match 0 20 a 0 3613 wird bersprungen Matches zum Segment 656064 en Segment 655225 Klasse hnlicher Inhalt 0 70 a 0 6827 Anfragesatz Treffer The project will be implemented by The project will be implemented by Spanish M decins Sans Fronti res an ECHO ECHO 5 partner partner M decins sans Fronti res Netherlands bersetzungsvorschlag Diese Hilfe wird ber den ECHO Partn
142. i stuttgart de projekte corplex TagSets stts 1999 ps gz 36 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 2 Vorverarbeitung Token POS Tag Lemmata Token POS Tag Lemmata Die ART d The DT the Fete NN Fete school NN school zum APPRART zum e VBZ be Ferienbeginn NN Ferienbeginn out IN out fiel VVFIN fallen party NN party ins APPRART ins was VBD be Wasser NN Wasser called VBN call off RP off weil KOUS weil SATZ P die ART d lt SATZ gt Disco NN Disco lt segmentgrenze gt abgebrannt VVPP abbrennen The DT the war VAFIN sein club NN club SATZ P had VBD have lt SATZ gt burned VBN burn lt segmentgrenze gt down RP down Au erdem ADV au erdem i SATZ P kam VVFIN kommen lt SATZ gt auch ADV auch lt segmentgrenze gt Abbildung 3 3 getaggtes Dokumentpaar weiter um detailiertere Informationen z B zu Kasus Numerus und Genus bei Nomina annotieren zu k nnen wird aber vom IMS TreeTagger nicht benutzt Die Lemmatisierung wird h ufig nicht als Tagging sondern nur als Nebenprodukt des POS Tagging wahrgenommen da sie von den meisten POS Taggern optional angeboten wird Da jedem Token eine Grundform zugewiesen wird kann man auch hier von Tag ging sprechen Das Tagset umfasst alle Grundformen die potentiell vom Tagger annotiert werden k nnen Im Falle des IMS TreeTaggers ist das Tagset eine endliche Menge da die Grundformen mit der Vollform also dem Token nachgeschlagen werden Eine Analy sekomponent
143. iche getrennte Grundformen Tabelle 3 2 im Abschnitt 3 2 2 zeigt ausgew hlte Beispie le Wenn nach Stellen im Korpus gesucht wird die Token mit einer vorgegebenen Grund form enthalten werden diese Grundformenlisten vom KoKS System nicht ber cksichtigt Dies hat sowohl Vor als auch Nachteile Zum einen werden viele relevante Stellen mit Token in deren Grundformenliste die gesuchte Grundform erscheint nicht gefunden Zum anderen werden falsche Treffer vermieden die auftrete w rden wenn in einer Grundfor menliste die die gesuchte Grundform enth lt eine andere Grundform zutrifft Im KoKS System wurde also Wert darauf gelegt dass m glichst viele Fundstellen korrekt sind die 26801 ist eine Sprache in der eine Anwendung Fragen und Anweisungen die Datenbanksoftware richtet 47 3 2 Vorverarbeitung 3 KORPUSAUFBEREITUNG F R CAT SYSTEME Precision also hoch ist Das geht auf Kosten des Recalls also des Anteils der gefundenen und korrekten Fundstellen an den im Korpus tats chlich vorhandenen relevanten Stellen Im Rahmen dieser Magisterarbeit wurde eine zus tzliche Tabelle in der Datenbank an gelegt die die einzelnen Grundformen der Grundformenlisten verzeichnet und auf die je weiligen Tokentupel verweist Es wurde ein Modul implementiert dass zu einer Grund form alle infrage kommenden Token Nummern ermittelt und darauf basierend verschien dene Suchm glichkeiten im Korpus anbietet Beispielsweise besteht die M
144. ie einmal geleistete Ar beit diese Zuordnung herzustellen kann somit in beliebig vielen bersetzungsprojekten genutzt werden Allerdings ist die Art wie diese Daten gespeichert werden nicht einheit lich Jeder Hersteller l st auf eigene Weise das Problem die Daten so zu speichern dass die gew nschten Zugriffsarten ausreichend schnell erfolgen k nnen Auch ist unterschied lich welche zus tzlichen Informationen ber das Referenzmaterial abgelegt werden Die Daten eines TMs k nnen daher nicht direkt in einer TM Software eines anderen Herstellers benutzt werden Bis vor kurzem gab es auch keine M glichkeit die Daten in einem von mehreren Herstellern unterst tzten Austauschformat zu exportieren oder zu importieren Wenn Re ferenzmaterial in einem anderen TM genutzt werden sollte musste das Textmaterial er neut s mtliche Vorverarbeitungsschritte einschlie lich der aufwendigen Zuordnung der bersetzungsentsprechungen durchlaufen Dies bedeutete zum einem dass dem einzel nen bersetzer eine H rde gestellt wurde das Produkt zu wechseln Zum anderen musste der bersetzer verschiedene TM Software besitzen oder zumindest mit ihnen umgehen k nnen um vorhandene Translation Memorys nutzen zu k nnen die der vorausschauende Auftraggeber bereits zusammen mit den bisher erstellten bersetzungen erworben hat Des Weiteren werden die Verwendungsm glichkeiten des vorhandenen Referenzmaterials ein geschr nkt wie Alesiani 1997 darlegt Al
145. if the reply is unsatisfactory the Commission may decide to refer the case to the European Court of Justice Segment 435175 Klasse enth lt etwas mehr 0 80 a 0 6177 Anfragesatz Treffer Die Aufforderungen ergehen jeweils Die Aufforderung an Belgien ergeht in Form einer mit Gr nden versehenen Stellungnahme in Form einer mit Gr nden versehenen Stellungnahme der zweiten Stufe des im Rahmen eines Vertragsverletzungsverfahrens Vertragsverletzungsverfahrens gem nach Artikel 226 EG Vertrag Artikel 226 EG Vertrag bersetzungsvorschlag The request will be made in the form of a reasoned opinion under the infringement procedure provided for in Article 226 of the Treaty 92 A FUZZY MATCHES A 2 S tze mit hoher G te der Beleglage Segment 472951 Klasse enth lt etwas mehr 0 80 a 0 5697 Anfragesatz Treffer Die Aufforderungen ergehen jeweils Die formelle Aufforderung Schwedens wird in Form einer in Form einer sogenannten mit Gr nden mit Gr nden versehenen versehene Stellungnahme Stellungnahme der zweiten zweite Stufe des Stufe des Vertragsverletzungsverfahrens gem formellen Vertragsverletzungsverfahren nach Artikel 226 EG Vertrag Artikel 226 EG Vertrag erfolgen bersetzungsvorschlag The formal request to Sweden will take the form of a so called reasoned opinion second stage
146. ihnen kann die Ein und Ausgabe manipuliert werden Im KoKS Projekt wurde davon Gebrauch gemacht um das Verhalten bei Punkten zu ndern Nicht jeder Punkt ist automatisch ein Satzzeichen Punkte treten in Abk rzungen Zahlen und Nummerierungen auf Der IMS Tagger setzt eine Liste von Abk rzungen ein um Punkte unterschiedlich zu behandeln Wird nach einem Punkt klein geschrieben dann wird der Punkt anscheinend grunds tzlich zum vorangehenden Token gez hlt Manning und Sch tze 1999 diskutieren weitere Probleme der Tokenisierung Seite 124 131 U a ist die Situation bei Klitika im Englischen komplizierter als in der Tabelle 3 1 dargestellt Ein Problemfall von mehreren ist das Possessivum im Plural wie in the boys toys Anpassung der Schreibung Die zweite KoKS Erweiterung des IMS Taggers betrifft die Orthographie Ein Teil der Do kumente verwendet keine Umlaute und Eszett Vor den weiteren Vorverarbeitungsschritten m ssen diese W rter korrigiert werden Dazu werden Regeln und die Vollformenliste der bereits verarbeiteten Dokumente verwendet Mit dem Harry Potter Korpus stellt sich die neue deutsche Rechtschreibung als weite res Problem heraus Die beiden h ufigsten betroffenen W rter dass und muss sollten eigentlich durch die Umlaut und Eszettkorrektur angepasst werden Dies geschieht aber nicht da die Vollformenliste die W rter auch in der neuen Schreibung enth lt Mit der Absicht eine korrekte Vollformenlis
147. ikely to create or strengthen a dominant position a dominant position being created or strengthened on the relevant markets bersetzungsvorschlag Die Untersuchung der Kommission hat ergeben dass das Vorhaben nicht geeignet ist auf den relevanten M rkten eine beherrschende Stellung zu begr nden oder zu verst rken Segment 435491 Klasse hnlicher Inhalt 0 70 a 0 3687 Anfragesatz Treffer However Commission investigations revealed that the market position of the two firms posed no likelihood The Commission Ze investigation showed that the pro posed concentration will not lead to the creation of a dominant position of a dominant position being created or strengthened on the market bersetzungsvorschlag Der Pr fung der Kommission zufolge wird dieser Zusammenschlu keine beherrschende Marktposition bewirken Segment 436847 Klasse hnlicher Inhalt 0 70 a 0 3512 Anfragesatz Treffer However Commission investigations revealed that the market position of the two firms posed no likelihood of Following investigations the Commission concluded that the transaction will not create or reinforce a dominant position a dominant position being created or strengthened on the relevant markets bersetzungsvorschlag Die von der Kommission vorgenommene Pr fung l sst den Schluss zu dass die Ma
148. in den beim Taggen erstellten Datei en ergeben dass mindestens ein deutsches Dokument einen englischsprachigen Anhang enth lt Das Auffinden eines Satzes erfolgt nun indem er mit der gleichen Funktion wie bei der Erstellung des Indexes auf eine maximal 56 Zeichen lange Zeichenkette abgebildet und die Anzahl der Token bestimmt wird Mit diesen Daten wird dann in der Index Tabelle nachgeschlagen Sofern die 56 Zeichen nicht den gesamten Anfragesatz abdecken m ssen die S tze auf die verwiesen wird noch daraufhin berpr ft werden ob sie tats chlich identisch mit dem Anfragesatz sind 3 Wenn die Bl tter des B Baums nicht verkettet sind dann stehen die Indexeintr ge nicht explizit zusammen Mit einer Traversierung des Baums startend mit dem Pfad zum ersten relevanten Eintrag und endend sobald ein nicht relevanter Eintrag erreicht wird kann der Indexbereich trotzdem effizient ermittelt werden 32MySQL unterst tzt keine Stored Procedures und Triggers 3Es wurden anwendungsunabh ngige Spaltennamen gew hlt da erwartet wurde dass das Modul f r diesen Index auch in anderen Zusammenh ngen benutzt werden k nnte in denen die ganzzahligen Beschr nkungen andere Bedeutungen haben 50 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 2 Vorverarbeitung mysql gt SELECT name beschri AS datum AS SegNr FROM token_strict gt WHERE name BETWEEN Imperium AND Import AND beschr2 1 Hes
149. ion million in financial support from the European Union bersetzungsvorschlag von 717 Mio bereitgestellt F r dieses einheitliche Programmplanungsdokument werden F rdermittel der Europ ischen Union in H he 105 A 2 S tze mit hoher G te der Beleglage A FUZZY MATCHES Segment 473447 Klasse fast gleicher Inhalt 0 85 a 0 7732 Anfragesatz Treffer This single programming document This single programming document amounts to 518 provides to 970 million in financial support from the European Union million in financial support from the European Union bersetzungsvorschlag Die Europ ische Kommission hat den Regionalentwicklungsplan des Landes Nordrhein Westfalen f r den Zeit raum 2000 2006 genehmigt F r dieses Einheitliche Programmplanungsdokument werden von der Eu rop ischen Union F rdermittel in H he von 970 Mio bereitgestellt 106 A FUZZY MATCHES A 2 S tze mit hoher G te der Beleglage Matches zum Segment 457677 en Segment 457682 Klasse enth lt etwas mehr 0 80 a 0 3273 Anfragesatz Treffer Specialist doctors Lawyers freedom to establish The Commission has sent The Commission has sent a reasoned reasoned opinions to Belgium Spain France Ireland Italy Luxembourg Netherlands and Portugal requiring that Por
150. ion of the proposed transaction has shown that it meets the tests for authorization in Article 66 2 of the ECSC Treaty and the Commission therefore granted its authorization Matches zum Segment 457666 de Segment 461809 Klasse gleicher Inhalt 0 90 a 0 7755 Anfragesatz Treffer Die Diese Aufforderungen Aufforderungen ergehen jeweils erfolgen in Form einer mit Gr nden versehenen Stellungnahme in Form einer mit Gr nden versehenen Stellungnahme der zweiten Stufe des Vertragsverletzungsverfahrens der zweiten Stufe des Vertragsverletzungsverfahrens gem nach Artikel 226 EG Vertrag Artikel 226 EG Vertrag bersetzungsvorschlag Article 226 of the EC Treaty These requests take the form of so called reasoned opinions the second stage of infringement procedures under Segment 461790 Klasse gleicher Inhalt 0 90 a 0 7062 Anfragesatz Treffer Die Diese Aufforderungen Aufforderungen ergehen jeweils erfolgen in Form in Form einer von mit Gr nden versehenen mit Gr nden versehenen Stellungnahme Stellungnahmen der zweiten Stufe des Vertragsverletzungsverfahrens der zweiten Stufe des Vertragsverletzungsverfahrens gem nach Artikel 226 EG Vertrag Artikel 226 EG Vertrag bersetzungsvorschlag Article 226 of the EC Treaty These requests take the
151. ischen selten gro geschrieben werden 58 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 4 Belegsituation Auswahl der Kandidaten steuert Je kleiner k gew hlt wird desto mehr S tze werden als Fuzzy Match in Betracht gezogen F r ein Translation Memory das nur ganze S tze mit geringem Korrekturbedarf als bersetzungsvorschl ge anbieten will w rde es Sinn machen nur eine feste Anzahl von Abweichungen zu erlauben Wenn beispielsweise maximal zwei W rter unterschiedlich sein d rfen k nnte man k n 2 w hlen Dagegen muss ein kleiner Wert f r k einge setzt werden wenn auch S tze mit wenigen bereinstimmungen gefunden werden sollen Ein sehr kleiner Wert z B k 3 k nnte zum Auffinden von kurzen Satzfragmenten so genannte Subsegment Matches dienen Hierbei ist wichtig dass h ufige Token zuvor von der Suche ausgeschlossen wurden da sonst viele irrelevante S tze gefunden werden die nur in Artikeln Pr positionen Konjunktionen oder anderen h ufigen W rtern mit dem Anfragesatz bereinstimmen F r die Fuzzy Matches der Stichprobe wurde k min 3 5 gesetzt um die Anzahl der auszuf hrenden Korpusanfragen klein zu halten Sie liegt in O n da in der Anzahl 2 mit k lt 3 h chstens der dritten Potenz auftreten kann Mit dieser Wahl von k werden viele S tze als Kandidaten zugelassen Nur selten sollten also relevante S tze nicht enthal ten sein Die zus tzliche Zeit die die Verarbeitung der gro
152. k nnen sie dem bersetzer alle Fundstellen im Referenzmaterial anzeigen Aber letztendlich muss er einen Satz ausw hlen dessen bersetzung als Vorlage dienen soll Das Zusammensetzen der bersetzung aus verschie denen Fundstellen wird von TM Software aus guten Gr nden nicht unterst tzt Wenn man auf mehrere im Translation Memory gespeicherte S tze die nur teilweise mit dem zu bersetzenden Satz bereinstimmen zur ckgreifen m chte um eine Roh ber setzung zu generieren dann treten viele Probleme auf Die bersetzungen der bereinstim menden Passagen der Referenzs tze m ssen identifiziert und zu einem neuen Satz zusam mengesetzt werden Hierbei kann je nach Zielsprache die Reihenfolge der Teile eine Rolle spielen und die Teile k nnen aus verschiedenen Gr nden nicht zusammen passen Zum Beispiel kann die bersetzung sprangen aus dem Zug hopped off the train im Deutschen nur in der ersten und dritten Person Plural benutzt werden Maschinell zu berpr fen ob wie im Beispiel Person und Numerus abweichen ist schwierig Es ist aber auch nicht notwendig da es f r einen bersetzer einfach ist die Flexion anzupassen Die Idee ist nun diese Probleme zu reduzieren indem nur solche Referenzs tze her angezogen werden deren syntaktische Struktur mit der des zu bersetzenden Satzes ber einstimmt Die Struktur kann u a an der Abfolge der Wortarten erkannt werden Ein sehr einfacher Ansatz k nnte verlan
153. k ab gefragt Da der Anfragesatz selbst in der Datenbank vorhanden ist sind unter den Treffern zehn neue Fundstellen In Folgendem wird beschrieben wie die Fuzzy Matches ermittelt werden Wie bereits in Abschnitt 2 3 1 erw hnt habe ich keine Literatur zu diesem Spezialthema gesucht Eine Implementation des im Abschnitt 2 3 1 skizzierten Ansatzes schien mit den im KoKS System vorhandenen Komponenten leicht umsetzbar zu sein Wie in der nachfolgenden Darstellung deutlich wird mussten jedoch mehrere Detailprobleme gel st werden Einschr nkung der Kandidaten Im ersten Teil der Fuzzy Match Suche wird die Kandidatenmenge soweit eingeschr nkt dass nur ein kleiner Teil des Gesamtkorpus genauer gepr ft werden muss Im wesentlichen wird dazu die im Abschnitt 3 2 7 Methode zum Zugriff auf S tze die eine Teilmenge der Token des Anfragesatzes enthalten verwendet Expansion der Anfragetoken Verwendet man nur die Token des Anfragesatzes f r die Suche im Korpus dann werden Abweichungen in der Flexion genauso behandelt wie Er setzungen durch andere W rter Hat der Satz sonst nicht genug W rter mit dem Anfrag satz gemeinsam wird er nicht in die Menge der Kandidat aufgenommen Ein solcher Fall kann beispielsweise eintreten wenn das Subjekt eines kurzen Satzes den Numerus wech selt Verb Nomen Artikel und Adjektive die zum Subjekt geh ren k nnen sich dann geringf gig ver ndern sodass die S tze auf Tokenebene wenig oder nichts gemeinsa
154. keiten bei der Tokenisierung Zeilen gel scht Zu erwarten w re dass die Silbentrennung der gedruckten Vorlage einen so gro en Teil der W rter zertrennt dass die meisten S tze betroffen sind Jedoch sind innerhalb der einzelnen Seiten W rter am Zeilenende nur extrem selten getrennt Da dagegen am Seite nende W rter h ufig getrennt sind ist dies vermutlich kein Merkmal der B cher sondern erkl rt sich als nachtr gliche Korrektur derjenigen die die Texte im Internet verbreiten oder als automatische Anpassung durch die OCR Software W hrend getrennte W rter f r das KoKS System nur eine h here Quote unbekannter W rter zur Folge haben ver ringern sie in der Translation Memory Anwendung beim Fuzzy Matching die hnlichkeit zum Anfragesatz unn tig 3 2 2 Tokenisierung Vor der Tokenisierung sind die Dokumente Zeichenfolgen die nur gelegentlich von Absat zendemarkierungen unterbrochen werden Die Tokenisierung legt fest welche Zeichenfol gen in der weiteren Verarbeitung als eine Einheit betrachtet werden Die Einheiten werden Token genannt was selbst soviel wie Zeichen bedeutet Damit soll betont werden dass sie immer nur als ganzes verarbeitet werden Token sind gew hnlich W rter oder Zahlen H ufig k nnen sie am sie umgebenen Leeraum erkannt werden Eine gute Tokenisierung einer l ngeren Zeichenfolge ist aber nur in Ausnahmef llen identisch mit einer einfachen Zerlegung der Eingabe an Leerzeichen So bilden z B Satzz
155. keitswerte der 2 035 deutschen bzw 2441 englischen Fuzzy Matches so festgelegt dass je Intervall m glichst gleich viele Fuzzy Matches auftreten Es wurden zwei verschiedene Unterteilungen vorgenommen Die erste nur f nf Inter valle umfassende Unterteilung zeigt dass bei hnlichkeitswerten a lt 0 25 nur sehr selten 50Die Zeilensummen in den Tabellen schwanken stark da nur klassifizierte Fuzzy Matches gez hlt wurden und die Intervalleinteilung jedoch auf der Verteilung aller Matches beruht Dies mag man bedauern ist aber notwendig um unabh ngige und abh ngige Gr en in der Darstellung klar voneinander zu trennen 66 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 4 Belegsituation 5 Unterteilungen a Klasse 0 20 60 70 75 80 8 90 95 100 10 2593 1 000 27 62 23 27 0 6 2 0 0 4 0 2227 0 2593 21 10 01000000 0 1988 0 2227 26 7 2 0 1675 0 1988 30 0 0000 0 1675 19 5 0 die ersten 10 von 100 Unterteilungen Klasse 0 20 60 70 75 80 85 9 95 100 10 6112 1 0000 0 0 0 4 0 1 2 0 0 4 10 4363 0 6012 0 6 6 0 1 0 0 0 0 10 3971 0 4363 0 9 5 4 0 1 0 0 0 0 0 3693 0 3971 1 6 2 4 01 0 0 0 0 10 3395 0 3693 2 8 1 3 0 0 0 0 0 0 0 3234 0 3395 1 4 O 1 0 1 0 0 0 0 10 3108 0 3234 2 0 10 01 0 0 0 0 0 3031 0 3108 2 3 3 10 O 0 0 0 0 10 2948 0 3031 12 3 1 1 0 0 0 0 0 0 0 2906 0 2948 2 1 1 0 0 0 0 0 0 0
156. ken in order to transpose Directive Directive 1999 46 EC 96 92 EC into national law bersetzungsvorschlag Die Kommission forderte Luxemburg am 23 Dezember 1999 in einer mit Gr nden versehenen Stellungnahme auf die zur Umsetzung der Richtlinie 96 92 EG in nationales Recht erforderlichen Ma nahmen einzuleiten Luxemburg antwortete da der Entwurf eines Gesetzes zur Umsetzung der Richtlinie 96 92 EG dem Staatsrat vorliege und nach dessen Stellungnahme der Abgeordnetenkammer zur endg ltigen Pr fung sowie zur Verab schiedung unterbreitet werden solle Segment 423239 Klasse hnlicher Inhalt 0 70 a 0 2805 Anfragesatz Treffer Specialist doctors Portugal incorrect implementation of Services Directi ve The Commission has The Commission has sent decided to send a reasoned opinion to Portugal a reasoned opinion to Portugal requiring that it notifies measures concerning its failure to implement to implement fully and correctly the Directive Directive 1999 46 EC on procurement of services 92 50 bersetzungsvorschlag Portugal Unvorschriftsm ige Umsetzung der Richtlinie ber ffentliche Dienstleistungsauftr ge Die Kom mission hat beschlossen wegen der unvollst ndigen und unkorrekten Umsetzung der Dienstleistungsrichtlinie 92 50 EWG eine mit Gr nden versehene Stellungnahme an Portugal zu richten 108 A FUZ
157. lage Segment 632624 Klasse nur Tippfehler 0 95 a 0 7308 Anfragesatz Treffer Da mit Damit dieser bernahme die dieser bernahme die Vorau etzungen von Artikel Voraussetzungen des Artikels 66 66 Absatz s 2 2 EGKS Vertrag EGKS Vertrag erf llt sind hat die Kommission ihre Zustimmung er erf llt sind hat die Kommission ihre Zustimmung er teilt teilt Ubersetzungsvorschlag The proposed transaction is in line with the criteria for the maintenance of competition laid down in Article 66 2 of the ECSC Treaty and has been authorised by the Commission Segment 619902 Klasse hnlicher Inhalt 0 70 a 0 6087 Anfragesatz Treffer Die Kommission hat ihre Zustimmung erteilt weil die Da mit dieser bernahme Pr fung der Anmeldung ergeben hat da die Vorau etzungen von Artikel 66 Absatz 2 EGKS die Vorau etzungen von Artikel 66 Absatz 2 EGKS Vertrag erf llt sind Vertrag erf llt sind hat die Kommission ihre Zustimmung erteilt bersetzungsvorschlag Consideration of the proposed transaction has shown that it meets the tests for authorisation in Article 66 2 ECSC Treaty and the Commission therefore granted its authorisation Segment 613006 Klasse hnlicher Inhalt 0 70 0 5498 Anfragesatz Treffer Da mit dieser bernahme Die Pr efung der Anmeldung hat ergeben da die Vorau etzung
158. lignment bietet sehr viel Spielraum f r den Einsatz computerlinguistischer Me thoden Die Wortgruppen k nnen auf linguistische Plausibilit t hin gepr ft werden se mantische Netze k nnen eingesetzt werden um die hnlichkeit unterschiedlicher W rter zu messen und syntaktische Strukturen k nnen ein hierarchisches Alignment induzieren Aber auch ohne Wortalignment l t sich linguistisches Wissen in ein hnlichkeitsma in tegrieren Dazu folgen einige Beispiele Carl und Hansen 1999 ber cksichtigen bei der Bewertung nur die Grundformen der W rter Voraussetzung daf r ist dass das Referenzmaterial und der Anfragesatz auf mit Grundformen sind Das resultierende System wird von Carl und Hansen lexem basiertes TM kurz LTM genannt 24 2 TRANSLATION MEMORY 2 3 Ber cksichtigung von hnlichen TUs Viele hnlichkeitsma e die f r das Erstellen von Satzalignments zwischen verschie densprachigen Texten entworfen wurden lassen sich f r den monolingualen Einsatz anpas sen Beispielsweise nutzt das Ma von Piperidis et al 2000 nur Wortarteninformationen aus Sie bilden eine Linearkombination der H ufigkeiten einiger Wortarten im Ausgangs satz und vergleichen diese Zahl mit der Anzahl der W rter aus offenen Wortklassen im Zielsatz Seite 121 124 Dies kann ohne nderung f r S tze einer Sprache vorgenommen werden Problematisch ist nur die Wahl der Gewichte der Linearkombination Wenn keine S
159. ls Fuzzy Matches bernommen Tabelle 3 9 zeigt die Fuzzy Matches geordnet nach Relevanz Von den f nf brigen nicht aufgef hrten Kandidaten sind vier wesentlich l nger als der schon lange elfte Fuzzy Match und stammen aus dem EU Korpus Der 16 Kandidat ist zwar kurz hat aber nur sehr gut und man mit dem Anfragesatz gemein sam Die Fuzzy Matches und auch die brigen Kandidaten zu diesem Beispielsatz sind nur sehr eingeschr nkt oder gar nicht f r die bersetzung des Anfragesatzes n tzlich Ledig lich die Phrasen Schatten der B ume und die langen Schatten der B ume lassen ir gendeine Hilfe erwarten die ber eine reine Einzelwort bersetzung hinausgeht Da selbst solche Kandidaten noch von der entwickelten Fuzzy Match Suche ermittelt werden kann man hoffen dass nur sehr wenige relevante Korpusstellen bersehen werden 29 3 4 3 Klassifikation der Fuzzy Matches Die vielen Fuzzy Matches insgesamt sind es 4476 m ssen genauer betrachtet wer den um die Frage nach der Belegsituation beantworten zu k nnen Es soll bestimmt wer den wie viele Fuzzy Matches tats chlich relevant sind Interessant ist weiter welche Arten von Fuzzy Matches wie h ufig auftreten Dazu werden weiter unten Klassen definiert die zur Annotation der Fuzzy Matches verwendet werden sollen Alle Fuzzy Matches manuell zu beurteilen w re mit einem gro en Zeitaufwand ver bunden Dies k nnte vermieden werden wenn sich heraus
160. lt des Ausgangstextes zu erschlie en MT hei t nicht zwangsl ufig dass ein Ausgangstext in das System eingegeben wird und ohne jede Benutzerinteraktion eine bersetzung entsteht Nach der Art der Interak tion werden zwei Strategien unterschieden HAMT human aided machine translation und MAHT machine aided human translation Bei der vom Menschen unterst tzten ma schinellen bersetzung HAMT stellt der Computer dem Benutzer Fragen z B wenn es Unsicherheiten bei der Interpretation des Ausgangstextes gibt Gerne gew hltes Beispiel ist hier die Anaphernresolution d h das Finden des Bezugs eines Pronomens Das System zeigt den Ausgangstext an hebt das Pronomen und in Frage kommende Antezedenzien hervor und bitten den Benutzer eine Entscheidung zu treffen Dieser Art der bersetzung hat den Nachteil dass der Benutzer in eine passive Rolle gezwungen wird Die Fragen sind zahlreich und h ufig anspruchslos Nicht jede Mehrdeutigkeit wird erkannt sodass immer noch eine Nachbearbeitung der bersetzung notwendig ist Im Gegensatz dazu bernimmt bei der maschinengest tzten bersetzung MAHT der bersetzer die aktive Rolle Die Art wie der Computer dem bersetzer hilft kann sehr unterschiedlich sein Es gibt Systeme die aufgrund des Ausgangstextes w hrend der Eingabe der bersetzung Vorhersagen treffen welches Wort gerade geschrieben werden soll Da ein erfahrender Schreiber beim Maschinenschreiben auf den Bildschirm schaut kann
161. lt w rtliche Rede dar Da die Gren zen im KoKS System nach Satzzeichen gezogen werden geh rt das schlie ende Anf h rungszeichen zum n chsten Segment das dann je nach Situation eine ungerade Anzahl von Anf hrungszeichen enth lt mit zwei Anf hrungszeichen beginnt und oder dessen Passa gen genau invers in w rtliche Rede und normalen Text eingeteilt sind Abbildung 3 5 zeigt einen kurzen Ausschnitt aus dem Harry Potter Korpus in dem einige dieser Proble me auftreten Eine einfache L sung die aus Zeitgr nden nicht mehr umgesetzt wurde w re die Segmentendemarkierungen immer dann hinter ein Anf hrungszeichen zu ver schieben wenn die Anzahl der Anf hrungszeichen im aktuellen Segment ungerade ist Pa 16Die f r die Markierung verwendete Zeichenfolge lt segmentgrenze gt ist irref hrend Dem letzten Segment muss eine Segmentmarkierung folgen w hrend vor dem ersten Segment keine Markierung stehen darf Es handelt sich also um eine Endemarkierung und nicht um eine Grenzmarkierung 41 3 2 Vorverarbeitung 3 KORPUSAUFBEREITUNG F R CAT SYSTEME trick Tschorn weist darauf hin dass dies Verfahren scheitert wenn Anf hrungszeichen fehlen z B aufgrund von OCR Fehlern Ein weiteres Problem der w rtliches Rede ist ihre Verzahnung mit dem sie umgebenen Text Mit einer sequentiellen Segmentierung k nnen solche S tze nicht getrennt werden Aber selbst diskontinuierliche Segmente reichen zur L sung des Problems nicht aus
162. luationkriterien 28 1 Ae ar et ae nal nal 2 6 Zusammenfassung sa esii e a 3 Korpusaufbereitung f r CAT Systeme 3 1 Studienprojekt Kokz oaa a 3 121 K llokationen say ne ee an rs 3 1 2 Korpusquellen 2 Cm oo 3 2 Vorverarbeitung naar 3 2 1 Aufbereitung und Normalisierung 3 2 2 Tokenisier np zu ned Dana 3 2 3 POS Tagging und 3 2 4 SESMENHET NE et a e a Er 3 29 SAUSHMENT 2 u Bi a ed EEN 3 2 62 Datenbank near er a 3 27 Indizier ng riefen 10 11 12 13 15 17 20 21 22 24 25 26 26 27 28 INHALTSVERZEICHNIS INHALTSVERZEICHNIS 3 3 Eigenschaften 2 22 2 n 54 GBE amp EEE 54 3 3 2 Frequente Water 55 333 Alignment EEE 56 3 4 Belegsit atlon em 56 34 1 Stichprobe EE se E 56 3 4 2 Ermittlung der 77 lt 57 3 4 3 Klassifikation der Fuzzy Matches 61 344 Ergebnisse na retail EE 65 349 Bewertung un a Da ee 68 3 3 Zusammenfassung Din a Babes ne 69 Alsblick 422 22 83 28 a a a e e 69 Bilingu
163. lure to comply with Community law and asking the Member State concerned to submit its comments within a month Segment 635882 Klasse gleicher Inhalt 0 90 0 5287 Anfragesatz Treffer Erfolgt Ergeht keine Antwort keine Antwort auf dieses Schreiben gt oder ist oder ist diese die Antwort nicht Antwort nicht berzeugend ueberzeugend SO SO geht leitet die Kommission die Kommission zur zweiten die zweite Phase Phase ber und uebermittelt dem Mitgliedstaat ein indem sie eine mit Gr nden versehene Stellungnahme eine mit Gr nden versehene Stellungnahme mit der Aufforderung den festgestellten Versto binnen abgibt und den Mitgliedstaat auffordert die festgestellte Vertragsverletzung innerhalb eines Monats eines Monats abzustellen aufzuheben Ubersetzungsvorschlag If no reply is received or if the arguments are not convincing the Commission moves on to the second stage adopting a reasoned opinion requiring the Member State to terminate the infringement within one month 99 A 2 S tze mit hoher G te der Beleglage A FUZZY MATCHES Segment 615173 Klasse enth lt etwas weniger 0 75 0 4369 Anfragesatz Treffer Erfolgt keine Wenn eine Antwort Antwort auf dieses Schreiben ausbleibt oder oder ist diese Antwort nicht berzeu
164. m wie es im Beispiel 2 2 der Fall ist da es hier um einen L fter zur K hlung eines Computers geht und somit die Alternativen Gebl se oder Triebwerk keine geeigneten bersetzungen sind Das Genus muss aber nicht verschieden sein damit die bersetzung nicht in den Kon text passt Zum einen bernimmt ein bersetzer das Muster von Nomen und Pronomen 1 d R nichts aus dem Ausgangstext sondern entscheidet bei der Produktion des Zieltextes neu wann eine Wiederholung des Nomens und wann ein Pronomen die Lesbarkeit erh ht Wenn im Beispiel 2 1 der bersetzer nochmal das Nomen Festplatte aufgreift dann w rde das Translation Memory dem bersetzer zu 2 2 einen bersetzungvorschlag un terbreiten der inhaltlich falsch ist und den bersetzer irritiert Zum anderen kommt es vor dass durch das ver nderte Antezedens weitere W rter des Satzes betroffen sind Im obigen Beispiel w rde dies eintreten wenn der Text 2 3 The washing machine provides best spin performance It spins at 1200 RPM konstruiertes Beispiel zu bersetzen w re nachdem die ersten beiden Beispieltexte bersetzt und im Translation Memory gespeichert wurden Zwar ist in einem der beiden bersetzungsvorschl ge die das Translation Memory macht das Pronomen Femininum Aber die bersetzungen des Verbs spin die aus anderen Kontexten stammen sind hier zu unspezifisch Das Verb sollte mit schleudern bersetzt werden und nicht mit r
165. m ha ben Das Problem k nnte leicht mit einer Suche mittels der annotierten Grundformen gel st werden wenn die Annotation eindeutig und vollst ndig w re Der Tagger annotiert je doch Grundformlisten wenn die Grundform nicht eindeutig aus dem Lexikon des Taggers hervorgeht oder gar keine Grundform wenn die Vollform unbekannt ist Siehe auch Ab schnitt 3 2 3 Im letzteren Fall kann nur mit dem Token gesucht werden Der erste Fall kann sowohl im Anfragesatz als auch im Korpus auftreten F r die Suche werden daher s mtliche Grundformlisten zusammengestellt die eine Grundform enthalten die in der Li ste der Grundformen des Anfragetokens vorkommen Eindeutige Grundformannotationen werden dabei als einelementige Listen behandelt Beispielsweise werden zum Token fiel die drei Grundformlisten fallen fallen gefallen und fallen f llen gebildet Die se Aufgabe wird mit der im Abschnitt 3 2 6 beschriebenen Grundformentabelle effizient durchgef hrt Da bei der Abfrage von Fundstellen zu Grundformlisten grunds tzlich die Tokentupel tabelle verwendet wird bersetzt die Datenbank implizit jede Grundformliste in die Menge 1 Dies w re jedoch leicht zu realisieren gewesen und h tte die Auswertung vereinfacht Der Anfragesatz muss nicht unter den ersten elf Treffern sein wenn mindestens zw lf Exact Matches vor handen sind Bei der Stichprobe trat dieser Fall aber nicht auf 57 3 4 Belegsituation 3 KORP
166. me wird nach nach deren dessen Pr fung durch den Ausschuss f r die Entwicklung und Umstellung der Pr fung durch den Ausschuss f r die Entwicklung und Umstellung der Regionen sowie durch den ESF Ausschuss ergehen Regionen 1 2 bersetzungsvorschlag The final decision on this programming document will be taken by the Commission after it has been considered by the Committee on the Development and Conversion of Regions 1 98 A FUZZY MATCHES A 2 S tze mit hoher G te der Beleglage Matches zum Segment 616161 de Segment 629438 Klasse gleicher Inhalt 0 90 0 8339 Anfragesatz Treffer Erfolgt keine Antwort auf dieses Schreiben oder ist Erfolgt keine Antwort auf dieses Schreiben oder ist diese die Antwort nicht berzeugend Antwort nicht berzeugend so geht unternimmt die Kommission die Kommission zur den zweiten zweiten Phase ber Schritt und uebermittelt dem Mitgliedstaat eine mit Gr nden versehene Stellungnahme mit der Aufforderung den festgestellten Versto binnen eines Monats abzustellen und uebermittelt dem Mitgliedstaat eine mit Gr nden versehene Stellungnahme mit der Aufforderung den festgestellten Versto binnen eines Monats abzustellen bersetzungsvorschlag The opening of an infringement procedure is formalized by the despatch of a letter of formal notice detailing an alleged fai
167. men des KoKS Projekts und den f r diese Arbeit speziell erstellten Softwa rewerkzeugen verwendet werden k nnen Die Vorverarbeitung ist bis auf die zus tzliche Indizierung mit der des KoKS Projekts identisch Die einzelnen Schritte beschreiben Er penbeck et al 2002 im KoKS Abschlussbericht ausf hrlich Hier ist die Darstellung lEs gibt andere Verwendungsweisen des Begriffs Sehr verbreitet ist auch eine rein statistische Sichtweise nach der jede Wortverbindung eine Kollokation ist die h ufiger auftritt als dies von den einzelnen H ufigkeiten der beteiligten W rter zu erwarten w re 31 3 2 Vorverarbeitung 3 KORPUSAUFBEREITUNG F R CAT SYSTEME lt Hl gt Mein Wochenende lt Hl gt Letztes Wochenende war langwei lig Die Fete zum Ferienbeginn fiel ins Wasser weil die Disco lt em gt abgebrannt lt em gt war Aus serdem kam auch nichts Anstaendi lt 1 gt My weekend lt Hl gt Last weekend was boring The school s out party was called off The club had lt em gt burned down lt em gt Also there was nothing on the telly ges im Fernsehn Abbildung 3 1 Aufbereitetes Dokumentpaar knapper gehalten und richtet sich vor allem auf Aspekte die f r diese Arbeit relevant sind oder im KoKS Abschlussbericht nicht behandelt werden Ziel der Vorverarbeitung ist eine einheitliche Speicherung der Dokumente und zus tz licher Information die f r die Anwendung relevant sind wie z B das Satzalig
168. ment 461171 Klasse fast gleicher Inhalt 0 85 0 9091 Anfragesatz Treffer This single programming document amounts to This single programming document amounts to 518 854 million in financial support from the European Union million in financial support from the European Union bersetzungsvorschlag von 854 Mio bereitgestellt F r dieses einheitliche Programmplanungsdokument werden F rdermittel der Europ ischen Union in H he 104 A FUZZY MATCHES A 2 S tze mit hoher G te der Beleglage Segment 461192 Klasse fast gleicher Inhalt 0 85 a 0 9091 Anfragesatz Treffer This single programming document amounts to This single programming document amounts to 518 189 million in financial support from the European Union million in financial support from the European Union bersetzungsvorschlag von 189 Mio bereitgestellt F r dieses einheitliche Programmplanungsdokument werden F rdermittel der Europ ischen Union in H he Segment 473950 Klasse fast gleicher Inhalt 0 85 a 0 9091 Anfragesatz Treffer This single programming document amounts to This single programming document amounts to 518 171 million in financial support from the European Union million in financial support from the European Union bersetzungsvorschlag
169. mit denen W rter im Korpus auftreten geben einen Anhaltspunkt wel che Themen oder Themenfelder dominieren Eine kurze Liste der h ufigsten W rter reicht hierzu aber nicht aus In den h chsten R ngen stehen fast ausschlie lich Artikel Pr posi tionen und Satzzeichen Beispielsweise steht das Token der das 174 292 mal im Korpus auftritt auf Rang drei hinter den Satzzeichen Komma und Punkt Inhaltstragend sind W rter offener Wortklassen Tabelle 3 7 zeigt die h ufigsten To ken die als gew hnliches Nomen getaggt wurden Die Liste best tigt dass das Korpus haupts chlich aus EU Dokumenten besteht die den politischen Rahmen der wirtschaftli chen Zusammenarbeit beschreiben In der Rangliste der Eigennamen die hier nicht ab gebildet ist steht der Name Harry auf dem ersten Rang vor ECU Dies zeigt dass auch kleine Teilkorpora einen Einfluss auf das Gesamtkorpus haben k nnen wenn sie un gew hnliche Merkmale aufweisen Hier wurden die H ufigkeiten der Token ermittelt Flektierte Formen und Gro schrei bungen am Satzanfang werden dadurch als eigenes Wort aufgef hrt Will man die verschie denen Formen eines Wortes zusammenfassen dann m ssen statt der Token die zugeh rigen 37 Shell Kommando wc wc 38Die eingangs genannten Segmentanzahlen k nnen sich nur auf die vollst ndig verarbeiteten Dokumente be ziehen da Segmente erst im letzten Verarbeitungsschritt dem Alignment gebildet werden i 391MS Tagset und Penn
170. mmengestellt Man beachte dass Produktbezeichnungen und Hersteller sich ge ndert haben oder vom Markt Bnttp www compapp dcu ie kkeogh 14Titel und Bibliographie sind vielversprechend 27 2 6 Zusammenfassung 2 TRANSLATION MEMORY INCAT Hersteller Produkt Alchemy Catalyst Alpnet Joust TSS Translation Support System Atril DejaVu ESTeam ESTeam Translation Memory Eurolang Optimizer IBM TranslationManager linguatec Personal Translator 2000 MorphoLogic MoBiMem SDL SDLX STAR Transit Trados Translator s Workbench Zeres Zeresztrans Tabelle 2 5 einige Translation Memory Produkte verschwunden sein k nnen Der Leser m ge diese Liste als Ausgangspunkt f r eigene Re cherchen nutzen In dieser Arbeit wird auf die Marktsituation nicht weiter eingegangen Arbeiten die sich mit Produkten besch ftigen sind Dennett 1995 die Seminararbeit von Erpenbeck et al 2000 und der von Language Automation Inc verbreitet Text der im Literaturverzeichnis unter Unbekannt 2001 gelistet ist 2 6 Zusammenfassung Ein Translation Memory erm glicht die Wiederverwendung bereits erstellter bersetzun gen F r S tze zu denen ein indentischer oder hnlicher Satz im Referenzmaterial gefun den werden kann pr sentiert es bersetzungsvorschl ge die im Referenzmaterial belegt sind und somit in sich korrekt sind wenn das Material auf der zielsprachlichen Seite keine Fehler enth lt Prinzipielle Schw chen eines
171. mmung erteilt 4 2 Die Aufforderungen ergehen jeweils in Form einer mit Gr nden versehenen Stellungnahme der zweiten Stufe des Vertragsverletzungsverfahrens gem Artikel 226 EG Vertrag Siehe Anhang A 2 Fuzzy Matches werden im Folgenden als Tupel von Anfragesegment Sprache und Refe renzsegment angegeben 72 4 BILINGUALE KORPORA IN CAT SYSTEMEN EINE ANWENDUNGSPERARBKTAMENutzung mehrerer Anfrage Match Subsegment die Vorau etzungen von Artikel 66 Absatz 2 EGKS Vertrag erf llt sind 612370 de 613006 ihre Zustimmung erteilt 612370 de 625456 hat die Kommission ihre mit Gr nden versehenen Stellungnahme der zweiten Stufe des Vertragsverletzungsverfahrens 612370 de 619902 457666 de 464651 457666 de 470928 Artikel 226 EG Vertrag hnliche Subsegmente 612370 de 613006 die Kommission hat deshalb ihre Zustimmung erteilt 612370 de 625456 hat die Kommission ihre Genehmigung erteilt 457666 de 435175 Die Aufforderung an Belgien ergeht Tabelle 4 1 Beispiele f r Subsegmente Deutsch In der Tabelle wurden auch mehrere Subsegmente mit hnlichem Inhalt aufgef hrt In einem Fall wie 457666 de 435175 k nnte das Trigramm hnlichkeitsma benutzt wer den um die hnlichkeit festzustellen F r kurze Subsegmente ist dies nicht m glich da kleine nderungen bereits zu einem gro en Anteil von Trigrammen f hren die nicht in beiden Subsegmenten gleic
172. n H P Bd 4 14 Die letzten Strahlen der untergehenden Sonne tauchten das Land und die langen Schatten der B ume in blutrotes Licht H P Bd 3 14 Man sieht auch in der Wettbewerbspolitik wirft die WWU ihren langen und wohlt nden Schatten voraus EU 1991 12 Dann verstecken wir uns am besten hinter einem Baum und halten Ausschau Gut aber hinter den Gew chsh usern lang H P Bd 3 12 Ron hatte ihm den ganzen Abend lang Ratschl ge erteilt zum Bei spiel Wenn er versucht dir einen Fluch anzuh ngen dann weich ihm besser aus ich wei n mlich nicht wie man sie abblocken kann H P Bd 1 12 Moody langte in das Glas fing eine Spinne ein und legte sie auf seinen Handballen so da alle sie sehen konnten H P Bd 4 10 Au erdem will sie auch ihre Bem hungen f r eine bessere Ausbil dung des Personals verst rken Da in der Gemeinschaft bereits sehr lange Kernkraftwerke bestehen wurden umfangreiche Betriebser fahrungen gesammelt die ein betr chtliches Kapital darstellen EU 1990 8 Der Kobold las den Brief sorgf ltig durch Sehr gut sagte er und gab ihn Hagrid zur ck Ich werde veranlassen da man Sie in beide Verliese f hrt H P 1 7 Und dann fing er an ihnen alles zu erz hlen Fast eine Viertelstun de lang sprach er in das gespannte Schweigen hinein Er erz hlte von der k rperlosen Stimme und wie Her mine schlie
173. n obwohl die Anzahl der m glichen Pfade bei 6 6 x 10728 liegt Teilpfade wie in b bis e Abbildung 3 7 k nnen nur gew hlt werden wenn eine Ab k rzung der Ecke wie in Teilbild f nicht zu einer geringeren Abstandswertsumme f hrt Das ist nur m glich wenn die Eckzelle den Abstandswert null hat da negative Abstands werte nicht erlaubt sind 2 Treten k solche Eckzellen am Alignment Pfad auf dann gibt es 2 optimale Pfade Welchen der Alignmentoptimierer w hlt h ngt von Details der Im plementation ab Da nicht positive Abstandswerte sehr ungew hnlich sind erzeugt der KoKS Aligner also im Regelfall nur n 1 und 1 n Zuordnungen mit n gt 1 25 Ausblick Um die hier geschildertert Probleme des Aligners und andere zu l sen die bereits im KoKS Abschlussbericht beschrieben werden wurde eine neue Pfadrepr sentation und Pfad bewertung entworfen und implementiert Die Repr sentation erlaubt alle Zuordnungsarten 24 KoKS Abstandsma gibt leider doch negative Werte aus In den vorhandenen Abstandsmatrizen wurden Werte zwischen 1078 und 107 beobachtet Vermutlich sind numerische Probleme die Ursache und die Werte m ssten eigentlich null sein 25Es wurde nochmal der Quellcode des Aligners durchgesehen ob nicht doch weitere Faktoren in die Pfadbe wertung einflie en Des Weiteren wurde mit einer manuell erstellten Matrix versucht eine 3 3 Zuordnung zu erzwingen Ebenso wurden die Alignmentpfade zu 10 mit Zufallswerten
174. n weitere Verwaltungsstrukturen f r jede neue Zeile angepasst werden Sollen Zeilen mit vorgegebenen Spaltenwerten in einer unsortierten Tabelle ausgelesen ver ndert oder gel scht werden muss die gesamte Tabelle durchsucht werden Bei gro en Tabellen kann dies sehr viel Zeit in Anspruch nehmen Anwendung die diese Operatio nen verwenden w rden also von zus tzlichen Datenstrukturen die den Zugriff auf Zeilen mit vorgegebenen Spaltenwerten beschleunigen profitieren Indizes dienen genau diesem Zweck Der Benutzer oder der Verwalter der Datenbank kann angeben zu welchen Spal ten oder Kombinationen von Spalten Strukturen aufgebaut und gepflegt werden sollen die sp tere Anfragen beschleunigen MySQL verwendet eine spezielle Baumstruktur den B Baum f r Indizes Diese Struktur erlaubt ein effizientes Suchen Ver ndern Einf gen und L schen von Indexein tr gen Blendet man den Aspekt der Effizienz aus kann ein MySQL Index als alphabetisch oder numerisch sortierte Liste aller Werte der indizierten Spalte mit einem Verweis auf die Zeilen die den jeweiligen Wert aufweisen verstanden werden Auf dieser Betrach tungsebene ist ein MySQL Index wie ein Index eines Buches aufgebaut Die Stichw rter entsprechen den Werten die in der indizierten Spalte auftreten und die angegebenen Sei tenzahlen den Verweisen auf die Zeilen der Tabelle Die alphabetische Reihenfolge der Indexeintr ge erm glicht nicht nur ein schnelles Auffinden vo
175. n Tabellenzeilen mit vorgegebenen Spaltenwerten Auch Bereichsanfragen k nnen mit solchen Indizes effizient ausgef hrt werden Wenn beispielsweise alle Zei len mit Werten zwischen Imperium und Import gesucht werden muss nur ein zusam Realisiert ist dies ber eine n malige Verkn pfung der Korpustabelle mit sich selbst wobei n die Anzahl der vorgegebenen Tokentupel ist die im Segment auftreten sollen In KoKS Projekt wurde davon ausgegangen dass eine anwendungsseitige L sung notwendig sei vermutlich weil die von der eingesetzten Version der MySQL Datenbanksoftware unterst tzten Elemente der Abfragesprache SQL f r unzureichend gehalten wurden Die Version unterst tzt beispielsweise keine Subselects 29 in MySQL verwendete Tabellentyp MyISAM enth lt zwar die Bezeichnung ISAM index sequential access method eine Methode bei der die Daten sortiert abgelegt werden und ein d nn besetzter Index verwendet wird MySQL setzt aber ohne Anweisung keine Indizes ein und erzeugt voll besetzte Indizes wenn der Benutzer einen Index w nscht 30MySQL unterst tzt auch Indizes zu Kombinationen von Spalten Die Sortierreihenfolge richtet sich dann nach der ersten in den Index einbezogenen Spalte Bei gleichen Werten wird die n chste Spalte herangezo gen Typisches Beispiel ist die Kombination von den Spalten Nachname und Vorname in einer Tabelle mit Personendaten Mehrdimensionale Suchb ume z k d B ume di
176. n Unit TU bezeichnet Segmentpaare von verschiedenen Segmenten mit gleichem Index sind also nach Wahl der Segmentierung immer TUs Die Zuordnung der Einheiten die z B durch die im vorangegangenen Absatz beschrie bene Segmentierung vorgegeben werden kann wird Alignment genannt Am Ende dieses Abschnitts wird in Grundz gen auf die verschiedenen Arten von Alignments ein eingegan gen die zum Teil flexibler als die beschriebene Segmentierung sind Zun chst jedoch wird ein kurzer berblick gegeben welche Einheiten in Frage kommen und welche Probleme sich mit ihnen verbinden Dann werden speziell S tze als Einheiten betrachtet Es wird mit Material aus dem in dieser Arbeit verwendeteten Korpus verdeutlicht dass selbst bei S tzen das Auftreten von nicht trivialen bersetzungsentsprechungen nicht ungew hnlich ist Konkrete Verfahren mit denen ein Alignment hergestellt werden kann werden in die sem Abschnitt nicht beschrieben Hier soll nur ein grundlegendes Verst ndnis geschaffen werden Ein Beispiel f r ein Verfahren kann im Abschnitt 3 2 5 gefunden werden in dem der f r diese Arbeit verwendete maschinelle Satzaligner vorgestellt wurd Eine bersicht ber Alignmentverfahren bietet V ronis 2000 Viele CAT Programme alignen jedoch nicht automatisch sondern unterst tzen den Benutzer lediglich bei der Herstellung eines Alignments 12 2 TRANSLATION MEMORY 2 2 Segmentierung eines Bitexts in TUs 2 2 1 Granularit t
177. n Vorverarbeitungsschritt werden die Formate der Dokumente normalisiert um in den weiteren Schritten ein einheitliches Format voraussetzen zu k nnen F r jedes Dateiformat das in einer Korpusquelle verwendet wird steht ein Normalisierungsmodul bereit das Dokumente auf eine Abfolge von berschriften und Abs tzen reduziert und s mtliche Layout und sonstige Strukturinformationen entfernt Dies ist ein Unterschied zu gew hnlichen Translation Memorys Dort bleiben die Formatanweisungen erhalten sodass ein Exact Match nur m glich ist wenn auch die Formatierungen bereinstimmen Im Translation Memory dieser Arbeit werden Formatierung beim Matching nicht ber ck sichtigt da sie nicht gespeichert sind Die Normalisierung f gt nach Abs tzen und berschriften eine Markierung ein Mar 32 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 2 Vorverarbeitung Mein Wochenende lt ABSATZ gt Letztes Wochenende war langwei lig Die Fete zum Ferienbeginn fiel ins Wasser weil die Disco abge My weekend lt ABSATZ gt Last weekend was boring The school s out party was called off The club had burned down Also brannt war Ausserdem kam auch there was nothing on the telly nichts Anstaendiges im Fernsehn lt ABSATZ gt lt ABSATZ gt Abbildung 3 2 Normalisiertes Dokumentpaar kierungen werden in spitzen Klammern gesetzt da sie dann im nachfolgenden Vorverar beitungsschritt keine Probleme bereitet siehe Abbildung 3 2 Die
178. nahme nicht zu einer Begr ndung oder Verst rkung einer beherrschenden Stellung auf den fraglichen M rkten f hrt Segment 441392 Klasse Term Match 0 20 a 0 3618 wird bersprungen Segment 440091 Klasse Term Match 0 20 a 0 3591 wird bersprungen Segment 431923 Klasse Term Match 0 20 a 0 3512 wird bersprungen Segment 652088 Klasse Term Match 0 20 a 0 3483 wird bersprungen 115 Literaturverzeichnis ALESIANI EMILIO 1997 Considerations in Open Translation Memory The LISA Newsletter XI 3 6 Online verf gbar BALDWIN TIMOTHY UND TANAKA HOZUMI 2000 The Effects of Word Order and Segmentation on Translation Retrieval Performance In Proceedings of the 18th In ternational Conference on Computational Linguistics COLING 2000 Saabruecken S 35 41 PDF online verf gbar BOWKER LYNNE 1998 Using Specialized Monolingual Native Language Corpora as a Translation Resource A Pilot Study META XLIII 4 BOWKER LYNNE 2002 Computer Aided Translation Technology A Practical Introduc tion Ottawa University of Ottawa Press ISBN 0 7766 3016 4 BRANTS THORSTEN 2000 TnT A Statistical Part of Speech Tagger In Procee dings of the Sixth Applied Natural Language Processing Conference ANLP 2000 Seatt le S 224 231 CARL MICHAEL UND HANSEN SILVIA 1999 Linking Translation Memories with Example Based Machine Translation Technischer B
179. nen Fristen eingehalten eingehalten werden worden sind bersetzungsvorschlag In particular the Commission verified that the aid intensity of all the proposed measures remains below the maximum ceiling allowed 35 for that the aid is accompanied by an overall reduction of production capacity in the territory of the former GDR and satisfied itself that the deadlines for granting regional investment aids as provided for in the Steel Aids Code will be respected 102 A FUZZY MATCHES A 2 S tze mit hoher G te der Beleglage Segment 643332 Klasse hnlicher Inhalt 0 70 0 3953 Anfragesatz Treffer Die Kommission hat Die Kommission hat das Beihilfevorhaben auf die Vereinbarkeit die Vereinbarkeit mit dem Beihilfenkodex f r die Stahlindustrie hin berpr ft und sich vergewissert der vorgesehenen Beihilfen mit den Bedingungen des Artikels 5 des Stahlbeihilfenkodex gepr ft und insbe sondere festgestellt da die da die Beihilfeintensit t s mtlicher Ma nahmen die zul ssige H chstgrenze von 35 nicht berschreitet und die in dem Beihilfenkodex f r die Stahlindustrie vorgegebenen Fristen f r die Gew hrung regionaler Investitionsbeihil fen eingehalten werden Beihilfen im Rahmen von durch die Kommission ge nehmigten regionalen und allgemeinen Investitionsbei hilferegelungen gew hrt werden und die Bei
180. ng im Blick und erlauben zur Vereinfachung der Berechnung der Matches keine Einf gungen und Erset zungen Letzteres ist keine starke Einschr nkung da eine Ersetzung erst vorliegen w rde wenn an der Wortposition alle TELA Ebenen nicht bereinstimmen 2 3 4 Verwendung der bersetzungsvorschl ge Translation Memorys bieten gew hnlich zwei Arten an wie sie dem Benutzer berset zungsvorschl ge unterbreiten Zum einen kann der am besten bewertete Vorschlag ohne Nachfrage in den Editierbereich in dem die bersetzung verfasst wird als Vorlage ein gef gt werden Eventuell wird annotiert dass es sich um einen Fuzzy Match handelt da mit der bersetzer den Vorschlag gr ndlicher pr ft als einen bersetzungsvorschlag der auf einem Exact Match zur ck geht Zum anderen kann der bersetzer eine Liste aller Fundstellen abrufen die nach der berechneten Relevanz geordnet ist Auf der ausgangsprachlichen Seite k nnen f r jede Fundstelle die Unterschiede zu dem zu bersetzenden Satz hervorgehoben werden Ein in der Bewertungsphase erstelltes Wortalignment ist hierf r eine idelae Grundlage Die jeweiligen bersetzungen werden ohne jede Hervorhebung mit angegeben und k nnen vom bersetzer als Vorlage f r die zu erstellende bersetzung ausgew hlt werden Mir ist nicht bekannt ob die Wahl von bersetzern anhand der Ausgangstexte oder der bersetzung getroffen wird In letzteren Fall k nnte es n tzlich sein die bersetzungsvorschl ge
181. nment das sowohl im KoKS System als auch in dieser Arbeit Ausgangspunkt f r jede Weiterverarbei tung ist W hrend beim KoKS System zus tzlich die Annotation der Wortarten im Vorder grund stehen spielen in dieser Arbeit flexible Suchm glichkeiten eine wichtigere Rolle 3 2 1 Aufbereitung und Normalisierung Die Dokumente aus denen sich das KoKS Korpus zusammen setzt stammen aus ver schiedenen Quellen Entsprechend vielf ltig sind die Probleme die bei der Zuordnung der deutschen und englischen Fassung eines Dokuments auftraten Mit computerlinguisti schen Methoden konnten diese im KoKS Projekt gel st werden Zur Sprachidentifikation wurden H ufigkeitsverteilungen der auftretenden Buchstaben n Gramme gemessen und zur berpr fung des Dokumentalignments einer Quelle wurde der KoKS Aligner in einer modifizierten Fassung eingesetzt Nach dieser Aufbereitung liegen die Dokumente in einem Verzeichnisbaum und werden durch eine XML Datei index xml je Teilkorpus beschrieben Die Beschreibung schlie t die Zuordnung der deutschen und englischen Fassungen ein I d R wurden zus tzlich die Dateinamen f r die Dokumente so gew hlt dass Dokumente die bersetzungen vonein ander sind durch ein Pr fix erkannt werden k nnen Abbildung 3 1 aus der Abschlusspr sentation des KoKS Projekts adaptiert wurde zeigt ein sehr kurzes Dokumentpaar das im folgenden verwendet wird um die einzelnen Vorverarbeitungsschritte zu illustrieren Im zweite
182. nnotiert Dazu wird der IMS TreeTagger eingesetzt der die Sprachen Deutsch und Englisch die im KoKS Projekt auftreten unterst tzt Tagsets Ein Tagset ist die Menge der Tags die annotiert werden k nnen Der IMS TreeTagger verwendet f r die unterst tzen Sprachen unterschiedliche POS Tagsets F r Englisch ist es das Penn Treebank Tagset f r Deutsch das kleine s u STTS Tagset Informationen zu den Tagsets stehen auf der Webseite zum IMS TreeTagger siehe Fu note 9 und zur Verf gung die auch im KoKS Abschlussbericht zusammengefasst sind Die Tagsets gehen ber die Hauptwortarten deutlich hinaus Sie umfassen 48 Penn Treebank bzw 54 IMS TreeTagger POS Tags Das STTS Tagset ist hierarchisch aufge baut Jedes Tag geh rt zu einer von elf Hauptwortarten Nomina Verben Artikel Adjek tive usw oder ist ein spezielles Tag z B f r Satzzeichen Sieben Hauptwortarten sind weiter unterteilt in Unterwortarten Beispielsweise sind Nomina gegliedert in Eigennamen und normale Nomina Zitat STTS Tagging Guideline Die Pronomina sind noch in einer dritten Hierarchieebene unterteilt Das gro e STTS Tagset gliedert die Tags noch http www ims uni stuttgart de projekte corplex TreeTagger Ofnzwischen stehen auch angepasste Versionen f r Altfranz sisch Franz sisch und Italienisch zur Verf gung Unttp www cis upenn edu treebank 12 Auf der TreeTagger Webseite verf gbar siehe Fu note 9 Bnttp www ims un
183. nungen in den verwendeten Korpora Korpus 0 1 1 0 1 1 2 1 1 2 andere DE News 0 0 88 6 6 9 20 2 6 EU 0 0 86 9 5 8 43 29 Harry Potter 0 0 86 9 44 5 7 3 0 Gesamt 0 0 874 59 39 2 8 Tabelle 2 3 Anteil der Satzzuordnungen annimmt dass die Texte mehrheitlich von Englisch nach Deutsch bersetzt wurden Die Zunahme der Anzahl der S tze durch das bersetzen um etwa zwei bis drei Prozent kann durch die Neigung von bersetzern S tze aufzuteilen erkl rt werden Um ein genaueres Bild zu erhalten muss man untersuchen welche Zuordnungen tat s chlich auftreten Einen guten Anhaltspunkt gibt das maschinell erstellte Alignment Die H ufigkeiten der verschiedenen Zuordnungen sagen mehr aus als die Satzanzahlen Wenn z B neben 1 1 Zuordnungen nur vereinzelt m 0 Zuordnungen mit gro em m auftr ten dann w rde dies bedeuten dass lediglich einige Textpassagen weggelassen wurden Hin gegen w rden viele 1 2 Zuordnungen die Annahme st tzen dass bersetzer zum Auftei len von S tzen neigen Tabelle 2 2 zeigt die H ufigkeiten der wichtigsten Zuordnungsarten aufgeschl sselt nach den verwendeten Korpora Unabh ngig von der bersetzungsrichtung bedeutet hier eine n m Zuordnung dass n S tze des Deutschen zusammen mit m S tzen des Engli schen eine Translation Unit bilden Die Richtung der bersetzung kann der Tabelle 2 1 entnommen werden Im EU Korpus k nnen auch Dok
184. o words and clauses In Parallel Text Processing Alignment and Use of Translation Corpora herausgegeben von Jean Kluwer S 117 138 PLANAS EMMANUEL UND FURUSE OSAMU 2000 Multi level Similar Segment Mat ching Algorithm for Translation Memories and Example Based Machine Translation In Proceedings of the 18th International Conference on Computational Linguistics CO LING 2000 Saarbr cken S 35 41 REINKE UWE 1999 Evaluierung der linguistischen Leistungsf higkeit von Translation Memory Systemen LDV Forum 16 S 100 117 SARDINHA ANTONIO PAULO BERBER 1997 Automatic Identification of Segments in Written Text Dissertation University of Liverpool SCHMID HELMUT 1994 Probabilistic Part of Speech Tagging using Decision Trees berarbeitete Online Fassung verwendet http www ims uni stuttgart de ftp pub corpora tree taggerl pdf 117 LITERATURVERZEICHNIS LITERATURVERZEICHNIS SCHMID HELMUT 1995 Improvements in Part of Speech Tagging with an App lication to German berarbeitete Online Fassung verwendet http www ims uni stuttgart de tp pub corpora tree tagger2 pdf SEEWALD HEEG UTA UND N BEL RITA 1999 Ausblick LDV Forum 16 S 118 121 SIMARD MICHEL UND LANGLAIS PHILIPPE 2001 Sub sentential exploitation of translation memories In Proceedings of MT Summit VIII Santiago de Compostela Spanien SOMERS HAROLD 1999 R
185. ohl theoretisch als auch praktisch seit Jahren untersucht sodass ein TM Entwickler auf bestehende Softwarekomponenten zur ckgreifen kann Die Zuordnung der Einheiten der bersetzung zu den Einheiten des Ausgangstextes gestaltet sich auf der Ebene der Phrasen aber nicht einfach da die Reihenfolge ver ndert sein kann und Verschmelzungen und Aufteilungen wesentlich h ufiger sind als bei S tzen Wiederverwendbarkeit Ein anderer Aspekt der durch die Gr e der Einheit beeiflusst wird ist die Wiederverwend barkeit der bersetzung in anderen Kontexten Es reicht nicht aus wenn der bersetzungs vorschlag des Translation Memorys eine belegte bersetzung der Ausgangseinheit ist Er muss auch in den neuen Kontext passen Handelt es sich bei der Einheit des Translation Memorys um einen Satz dann sind meistens in der Einheit selbst gen gend Kontextinfor mation vorhanden die auftretende W rter aus offenen Wortklassen wie z B Verben und Nomen disambiguieren H ufig bereiten aber Anaphern Probleme z B Pronomina wenn ihr Bezugspunkt au erhalb des Satzes liegt 2 1 The drive has a2 MB buffer It spins at 5400 RPM John Martin Southern Nevada User s Group 2 2 The fan is the problem It spins at 5000 rpm www pureoc com Im Beispiel 2 1 geht es um eine Computerfestplatte Eine naheliegende bersetzung des Antezendens the drive ins Deutsche ist Femininum Festplatte oder Neutrum Ger t nicht aber Maskulinu
186. oject will be implemented by ECHO s partner in the operation M decins sans M decins sans Fronti res Netherlands Frontieres France bersetzungsvorschlag Das Projekt das eine Laufzeit von sechs Monaten soll von M decins Sans Fronti res Frankreich als operationellem Partner des Europ ischen Amtes f r humanit re Hilfe abgewickelt werden Segment 622264 Klasse Term Match 0 20 a 0 4415 wird bersprungen Segment 656072 Klasse Term Match 0 20 a 0 4228 wird bersprungen Segment 616675 Klasse Term Match 0 20 a 0 3778 wird bersprungen Matches zum Segment 441396 en Segment 456281 Klasse hnlicher Inhalt 0 70 a 0 4530 Anfragesatz Treffer However Commission The Commission s investigations investigations have revealed that the market position of the revealed that the market position of the two firms posed no likelihood parties precludes the emergence or strengthening of a dominant position of a dominant position being created or strengthened on the market bersetzungsvorschlag Die Untersuchungen der Kommission haben ergeben dass die Marktstellung der Parteien die Entstehung oder Verst rkung von Marktbeherrschung ausschlie t Segment 455823 Klasse hnlicher Inhalt 0 70 0 4338 Anfragesatz Treffer However Commission The Commission s
187. otieren laufen oder drehen Diese Unsicherheiten k nnen immer dann auftreten wenn die zu bersetzende Ein heit nicht genug Informationen enth lt Man k nnte also vermuten dass der Anteil der geeigneten bersetzungsvorschl ge des Translation Memorys mit der L nge der Einheit Im Beispiel sind die Zahlen und Einheiten nicht identisch Ein striktes Translation Memory w rde daher keinen bersetzungsvorschlag liefern wenn nur 2 1 mit einer bersetzung in der Datenbasis st nde und der letzte Satz von 2 2 zu bersetzen w re Praxistaugliche Translation Memorys erkennen jedoch Zahlen und Einheiten und zeigen auch Fundstellen an die kleine nderungen enthalten 14 2 TRANSLATION MEMORY 2 2 Segmentierung eines Bitexts in TUs Korpus Deutsch Englisch Verh ltnis Ausgangssprache DE News 64 432 59 732 1 08 Deutsch EU 112828 110326 1 02 unbekannt Harry Potter 35 902 36951 0 97 Englisch Gesamt 213162 207009 1 03 Tabelle 2 1 Anzahl der S tze in den verwendeten Korpora in W rtern oder Zeichen zunimmt Allerdings ist die L nge der Einheit nur ein Anhalts punkt Auch eine sehr lange Einheit kann eine Abh ngigkeit vom Kontext enthalten die die Verwendung der bersetzung in einem anderen Kontext verhindert Bei kleineren Einheiten als dem Satz stehen der Wiederverwendbarkeit der im Transla tion Memory gespeicherten bersetzungen die in den vorangehenden Ab
188. r sondern l ngere Einheiten meistens ganze S tze abgefragt Des Weiteren ist ein TM nicht als Recherchewerkzeug ausgelegt Es tritt gew hnlich von selbst in Aktion bevor ein Satz bersetzt werden soll 5Z B lassen verschiedene kanadische Einrichtungen Wetterberichte u durch das MT System METEO von der Firma Chandioux http www chandioux com ins Franz sische bersetzen 6Denkbar w re auch ein Vorhersagesystem zu entwickeln dass monolingual arbeitet d h nur die bisher geschriebene bersetzung und Wissen ber die Zielsprache nutzt 7 k nnte sich auch ein System vorstellen das mit lediglich vergleichbaren Texten arbeitet und anhand von Merkmalen des Ausgangssatzes einen Satz des Textmaterials als bersetzungsvorschlag ausw hlt Wenn die Menge der im Textmaterial vorzufindenen Kontexte des Satzes nicht zu den verwendeten Merkmalen geh rt dann ben tigt man also nur Texte der Zielsprache Im Prinzip l uft es dann auf ein MT System hinaus das nur sprachliche Ausgaben produziert die wortw rtlich im Textmaterial belegt sind 1 EINLEITUNG 1 2 Zielsetzung Beim bersetzen von Bedienungsanleitungen Handb chern und anderen Texten zu denen eine ltere Fassung bereits bersetzt wurde kann ein Translation Memory hel fen Zeit zu sparen Zu S tzen die wortw rtlich im Referenzmaterial vorhanden sind kann die alte bersetzung i d R ohne R ckfragen bernommen werden Der bersetzer muss nur eing
189. reifen wenn zum Ausgangstext kein Referenzmaterial gefunden werden kann Zentrales Werkzeug f r den bersetzer ist jedoch ein spezielles Textverarbeitungspro gramm das den bereits vorhandenen Ausgangstext besonders ber cksichtigt Das Anfer tigen einer bersetzung unterscheidet sich vom Verfassen eines neuen Textes insbesonde re in folgenden Punkten So k nnen die Struktur und Formatierung des Ausgangstextes bernommen werden Auch macht es Sinn w hrend des Schreibens die zugeh rige Stelle im Ausgangstext fortlaufend auf dem Bildschirm anzuzeigen oder eine M glichkeit anzu bieten auf Verlangen zu ihr zu springen Dieses und viele andere Kleinigkeiten k nnen die Produktivit t erheblich steigern Ein weiterer wichtiger Aspekt ist das Zusammenspiel der einzelnen Komponenten Z B darf es nicht zu umst ndlich sein w hrend des Schreibens m gliche bersetzungen zu einem Wort des Ausgangstextes oder Synonyme eines gerade geschriebenen Wortes abzu fragen Ziel ist es den bersetzer bei seiner Arbeit so gut wie m glich durch den Computer zu unterst tzen Man spricht daher von computer assisted translation CAT Der Begriff berschneidet sich mit machine aided human translation siehe oben 1 2 Zielsetzung In dieser Arbeit m chte ich eine Idee aufgreifen die mir mein Zweitbetreuer Helmar Gust im Anschluss an einen Vortrag vorstellte Gew hnliche Translation Memorys nutzen nur einen Satz aus dem Referenzmaterial Zwar
190. rt abgesch tzt Be troffen sind hiervon beispielsweise S tze aus Abs tzen die sich nicht entsprechen Siehe KoKS Abschlussbericht f r Details Das Laufzeitverhalten des KoKS Aligners ist trotz dem mindestens quadratisch da die volle Abstandsmatrix mit mn Eintr gen erzeugt werden muss und die Dokumentl ngen m und n deutlich 22 In der Praxis ist vor allem ein Problem dass der Speicherbedarf der Abstandsmatrix quadratisch mit der L nge der Eingabedateien w chst in diesem Zusammenhang m chte der Autor auch Patrick Tschorn der wesentlich Komponenten des KoKS Aligner entwickelt hat f r die zahlreichen Gespr che ber Alignment danken 21 Ausschlaggebend f r diese Trennung war im KoKS Projekt dass so die Entwicklung des Aligners auf zwei Projektmitglieder verteilt werden konnte Sp ter nach der Einf hrung der Umlautkorrektur konnten gespeicherte Abstandsmatrizen tats chlich wiederverwertet und so mehrere Tage Rechenzeit eingespart werden 2 m KoKS Projekt wurden zwar einige Komponenten f r eine kompaktere Repr sentation der Matrizen ange passt Es gelang aber nicht mehr ein reibungsfreies Zusammenspiel herzustellen sodass auf eine Darstellung die s mtliche Werte der Matrix auflistet nicht ganz verzichtet werden konnte 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 3 2 Vorverarbeitung III 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1 2113 5 7 9 11 13 15 17 1 5 13 25 41 61 85 113 145 4 1 7 5 6 129 23
191. s Netherlands du Monde France Ubersetzungsvorschlag Durchgef hrt wird das Projekt von der franz sischen NRO M decins du Monde einem Partner von ECHO Segment 655217 Klasse hnlicher Inhalt 0 70 a 0 4635 Anfragesatz Treffer The This project will be implemented by project will be implemented by a number of ECHO s ECHO s partner NGO partners including the Spanish Red Cross M decins M decins sans Fronti res Netherlands Sans Fronti res and M decins du Monde Ubersetzungsvorschlag Diese Aktion wird von mehreren NRO durchgef hrt mit denen ECHO zusammenarbeitet darunter die spani schen Abteilungen des Roten Kreuzes von M decins Sans Fronti res und von M decins du Monde Segment 614322 Klasse hnlicher Inhalt 0 70 a 0 4286 Anfragesatz Treffer The project It will be implemented by will be implemented by ECHO s partner the Belgian branch of the NGO M decins sans M decins sans Fronti res Netherlands Fronti res Ubersetzungsvorschlag Die Abwicklung besorgt der belgische Zweig der nichtstaatlichen Organisation M decins sans fronti res 113 A 2 S tze mit hoher G te der Beleglage A FUZZY MATCHES Segment 657925 Klasse Sub Segment Match 0 60 a 0 5953 Anfragesatz Treffer The The six month project will be implemented by ECHO s partner pr
192. s tzen beschrie benen Probleme wesentlich h ufiger im Weg Wenn Subjekt Verb Objekte und Adjunkte isoliert abgerufen werden fehlt der Kontext ganz der Mehrdeutigkeiten aufl sen K nnte Das ist auch ein Grund warum man sich meistens auf S tze als Einheiten beschr nkt 2 2 2 bersetzung von S tzen Der Leser der eine Fremdsprache gelernt hat wird sicherlich nachvollziehen k nnen dass auf der Ebene der W rter und Phrasen keine sequentielle 1 1 Zuordnung m glich ist d h dass die Reihenfolge dort nicht immer beibehalten ein Wort durch mehrere wiedergege ben oder auch Teile kompakter bersetzt werden k nnen Aber bei S tzen und Abs tzen liegt dies nicht gleich auf der Hand In diesem Unterabschnitt werden daher Zahlen aus dem Korpus vorgestellt das in dieser Arbeit verwendet und in Abschnitt 3 1 ausf hrlich vorgestellt wird Wenn man die Anzahl der S tze im Ausgangstext mit der der bersetzung vergleicht dann ergibt sich eine untere Schranke f r die Anzahl der S tze die nicht 1 1 einem anderen Satz zugeordnet werden k nnen Man k nnte vermuten dass beim bersetzen be stimmte Alignment Beads neben den dominierenden 1 1 Zuordnungen unabh ngig vom bersetzer oder von der bersetzungsrichtung bevorzugt werden Tabelle 2 1 zeigt ein et was unklareres Bild Der R ckgang der Anzahl der S tze um ber sieben Prozent bei den DE News Texten kann darauf zur ckzuf hren sein dass Freiwillige die bersetzungen
193. scheidung Die endg ltige Entscheidung der ber dieses Programmplanungsdokument wird die Kommission Kommission ber die beiden Programme wird nach nach deren Pr fung durch den Ausschuss f r die Entwicklung und Pr fung durch den Ausschuss f r die Entwicklung und Umstellung der Regionen Umstellung der Regionen sowie durch und den ESF Ausschuss den ESF Ausschuss ergehen erlassen bersetzungsvorschlag The final decision on this programming document will be taken by the Commission after they have been consi dered by the Committee on the Development and Conversion of Regions and the ESF Committee Segment 461083 Klasse fast gleicher Inhalt 0 85 0 6057 Anfragesatz Treffer Die endg ltige Entscheidung der Kommission Die endg ltigen Entscheidungen ber ber die beiden Programme wird nach diese Programmplanungsdokumente werden kurz deren Pr fung durch den Ausschuss f r die Entwicklung deren Pr fung durch den Ausschuss f r die Entwicklung und Umstellung der und Umstellung der Regionen sowie durch Regionen 1 und den ESF Ausschuss ergehen den ESF Ausschuss ergehen bersetzungsvorschlag The final decisions on these programming documents will be taken shortly as they have been considered by the Committee on the Development and Conversion of Regions and the ESF Committee Segment 461208 Klasse fast gleicher Inhalt 0 85 a
194. schen und einem englischen Segment In Abbildung 3 3 sieht man wie vor dem Alignment jedes Satzende mit einem Segmentende zusammenf llt Die Segmen tendemarkierungen nach dem Alignen zeigt Abbildung 3 6 Segmente spielen im KoKS System und im Translation Memory dieser Arbeit eine zen trale Rolle Die Suche im Korpus erfolgt grunds tzlich segmentweise Alle Indizes siehe Abschnitt 3 2 7 verweisen auf Segment Nummern Eine gute Erkennung der Satzgrenzen ist daher sehr wichtig Der IMS TreeTagger entscheidet bereits im Tokenisierungsmodul f r jeden Punkt ob er ein Satzende kennzeichnet Ein Punkt wird nur als eigenst ndiges Token behandelt wenn er als Satzzeichen eingestuft wurde Der Tokenisierer verf gt ber eine Abk rzungsliste und erkennt auch F lle wie z B der 5 Punkt der Tagesordnung Die Qualit t der Klassifizierung der Punkte konnte im KoKS Projekt mit einfachen Regeln noch weiter erh ht werden Z B wird grunds tzlich ein Satzende angenommen wenn nach einem Punkt ein Wort gro geschrieben wird dessen Lemma klein geschrieben wird Das Lemma wird vom IMS Tagger annotiert Details finden sich im Anhang des KoKS Abschlussberichts Bei Water Rats in Anf hrungszeichen siehe Tabelle 3 1 verschluckt der KoKS Satz endenerkenner das Wort Rats Ist das Anf hrungszeichen nicht das letzte Zeichen der Eingabe dann verschwindet dieser Fehler W rtliche Rede Ein spezielles Problem f r die Segmentierung stel
195. sens Essen ESS en BES Eee name SegNr 27 523242244383 HE ee 4 Impfstoffe gibtles bislanglnicht 6 497752 Impfstoffe werden nurlin Notf llenleingesetzt 7 446191 Impfstoffe werden nurlin Notsituationen verwendet 7 456814 Impfungen gegen Typhus im Hochwassergebiet 5 495533 Impfungenlin den Niederlanden Der Ausschuss gableine bef 39 466312 Impfung gegen Typhus 3 566826 Implementationlof the lvarious Directivesland sociall part 19 422412 Implementierung und Zusammenschaltung europaweiter Netze 68 640588 Implementing theleuro does not thereforellead tolany del 11 437346 eebe Ee 4 H 9 rows in set 0 00 sec Abbildung 3 9 Ausschnitt aus dem Index f r Satzanf nge Satzanf nge und enden Im Rahmen dieser Arbeit wurde festgestellt dass sich die erstellte Tabelle f r den Satzin dex auch eignet um S tze mit vorgegebenen Satzanfang abzurufen Das Satzpr fix wird dazu genauso wie die Anfrages tze beim Satzindex in eine Zeichenkette umgewandelt In der Tabelle zum Satzindex wird dann eine Pr fixsuche ausgef hrt Diese wird von der Da tenbank effizient durchgef hrt Die Treffermenge wird durch die Vorgabe einer minimalen Tokenanzahl und der Sprache weiter reduziert Analog zur Satzsuche m ssen bei zu langer Anfrage die Ergebnisse die der Index liefert noch berpr ft werden F r die Suche nach Satzenden wurde eine zweite Tabelle aufgebaut die
196. spra che der bersetzung nicht die Muttersprache des bersetzers ist Es k nnen Belege f r Formulierungen gesucht und typische sprachliche Muster erkannt werden Wie bereits weiter oben erw hnt steht auch Software zur Verf gung die eine berset zung automatisch erstellt Zur maschinellen bersetzung machine translation MT sind einige popul re Irrt mer verbreitet die solche Systeme in ein schlechtes Licht r cken So sei MT grunds tzlich unbrauchbar da sie den Sinn entstelle und zu viele Korrekturen erfor dere Richtig ist zwar dass durch ein heutiges MT System erstellte bersetzungen grobe und sehr eigensinnige M ngel aufweisen Welcher Anteil der bersetzung unverst ndlich wird h ngt aber von den beteiligten Sprachen dem benutzten MT System und von den Eigenschaften des Ausgangstextes ab Wenn bereits bei der Erstellung des Ausgangstextes auf einen einfachen Satzbau geachtet wurde kann mit MT eine Roh bersetzung erstellt werden deren Nachbearbeitungsaufwand geringer ist als der Aufwand einer manuellen 1 1 Computer Aided Translation 1 EINLEITUNG bersetzung Das h ngt nat rlich auch von der Arbeitsweise des bersetzers ab MT Systeme haben aber schon dadurch Berechtigung dass bersetzungsdienstleister mit ih nen eine schnelle Roh bersetzung anbieten k nnen Nicht jeder Auftraggeber ben tigt eine sprachlich einwandfreie bersetzung F r viele Zwecke reicht eine bersetzung aus die es erlaubt den Inha
197. stellt dass das hnlichkeitsma die Relevanz gut vorhersagt Bearbeitungsreihenfolge Um m glichst fr h ein Bild ber den Zusammenhang von hnlichkeit und Klasse der Fuzzy Matches zu erhalten werden zuerst solche mit m glichst verschiedenen hnlich keitswerten klassifiziert Dann werden L cken in Wertebereichen geschlossen in denen unterschiedliche Klassen auftreten Die absoluten hnlichkeitswerte sind ungeeignet f r die Auswahl da kleine Werte do minieren Verwendet wird der Rang in der sortierten Liste der Werte Das bedeutet dass in 8 berpr fen k nnte man dies indem man k weiter absenkt Mit k 2 kommen im Beispiel 331 neue Kan didaten hinzu Es tritt ein neuer Fuzzy Match auf der eine hnlichkeit von 23 zum Anfragesatz hat und die Phrase im Schatten eines Baumes enth lt Es werden also tats chlich Stellen im Korpus bersehen Man darf aber weiter hoffen dass es nicht viele sind 61 3 4 Belegsituation 3 KORPUSAUFBEREITUNG F R CAT SYSTEME Fuzzy Match Quelle 18 Zwei einzelne Spinnen entflohen dem Licht des Zauberstabs in den Schatten der B ume H P Bd 2 16 Und so folgten sie den huschenden Schatten der Spinnen in das Dickicht der B ume H P Bd 2 14 Zwanzig Minuten lang gingen sie durch den Wald laut redend und scherzend bis sie endlich auf der anderen Seite zwischen den B umen hervortraten und sich im Schatten eines gigantischen Sta dions fande
198. sweise d rfte Rpos NN fast alle Satznuummern des Korpus enthalten Zum anderen d rfte auch das 3 Im KoKS Projekt wurde nur der Sonderfall k n implementiert bei dem die Vereinigung entf llt 35Durch eine geschickte Verteilung der k Anfragetoken auf Indexanfragen die die H ufigkeit der Token gemessen am Gesamtkorpus ber cksichtigt kann man sehr kleine Ergebnismengen erhalten 53 3 3 Eigenschaften 3 KORPUSAUFBEREITUNG F R CAT SYSTEME Korpus Deutsch Englisch Verh ltnis Ausgangssprache DE News 7 045 756 6502884 1 08 Deustch EU 24 167 152 21050021 1 15 unbekannt Harry Potter 3055845 2675042 1 14 Englisch Gesamt 34268753 30227947 1 13 Tabelle 3 4 Anzahl der Zeichen in den verwendeten Korpora Endergebnis des Retrievals viele S tze enthalten die beim anschlie enden Filtern verwor fen werden m ssen Aus dem Information Retrieval ist der Ansatz bekannt dass im Index zus tzlich zur Satznummer auch die Position des indizierten POS Tags im Satz vermerkt wird Die Rei henfolge und Kontinuit t der POS Tags kann dann ohne Auslesen der gesamten S tze ge pr ft werden Die Zahl der berpr fung ndert sich damit aber nicht Wenn nicht einzelne POS Tags sondern alle Folgen von POS Tags indiziert w rden k nnte direkt im Index nachgeschlagen werden Dies ist aber nicht praktikabel da die Zahl der Sequenzen in einem Satz quadratisch von der Satzl nge abh ngt Mit ein
199. t Merkel nur sehr wenige 2 1 Zuordnun gen Bei der Interpretation der Zahlen muss man beachten dass unterschiedliche Aligner verwendet wurden Der KoKS Aligner erzeugt nur 0 n oder n 0 Zuordnungen wenn in einer Sprachseite ein leerer Absatz vorliegt Der von Merkel 2001 eingesetzte Aligner aus der Werkzeugsammlung DAVE kann solche Zuordnungen in gro er Zahl hervorbringen wenn ein Text frei bersetzt ist Zumindest folgert er im ersten Absatz vom Abschnitt 3 2 umgekehrt dass ein Teilkorpus frei bersetzt sein m sse da sein Aligner L schungen und Einf gungen erkannt hat The OS2 text has a strikingly high proportion of deletions 1 0 and insertions 0 1 which indicate that the translation is not particularly close to the original but is rather a kind of communicative more target oriented translation 2 2 3 Alignment Ein Alignment ist eine Zuordnungen der Einheiten von Ausgangs und Zieltext Jede Einheit geh rt genau einer Translation Unit an Eine Translation Unit kann sich jedoch aus beliebig vielen Einheiten der beiden Sprachseiten zusammen setzen Gew hnlich wird eine andere Terminologie verwendet Alignment ist auch in ande ren Bereichen als Translation Memory wichtig In der Fu note 7 wird die Bioinformatik erw hnt Die Einheiten der zu alignenden Texte werden Alignment Beads zugeord net die hier Translation Units sind Im Allgemeinen m ssen Alignment Beads aber keine Translation Units sein Zum einen ist
200. t so viele Kombinationen von zu vergleichenden Satzgrup pen auftreten Wenn das deutsche Eingabedokument m S tze und das englische n S tze umfasst dann m ssen maximal mn Abstandswerte berechnet werden Diese Werte k nnen vorab bestimmt und in einer Matrix die Abstandsmatrix abgelegt werden auf die der Alignment Optimierer zur ckgreift In die Berechnung der Abstandswerte flie en verschiedene linguistisch motivierte Be wertungen ein Es werden die POS Tags und Lemmata genutzt die vom IMS TreeTagger annotiert wurden und auf ein umfangreiches bilinguales W rterbuch zur ckgegriffen das im KoKS Projekt aus verschiendenen Quellen zusammengestellt wurde Zu W rtern aus offenen Wortklassen werden die Entsprechungen zwischen den S tzen gez hlt die mit Hilfe des KoKS W rterbuchs und den annotierten Grundformen gefun den werden k nnen Die brigen W rter aus offenen Wortklassen werden zu einer Zei chenkette je Sprachseite zusammengef gt und mit einem Abstandsma verglichen das bereits auf kurze bereinstimmenden Zeichenfolgen anspricht und die Reihenfolge der bereinstimmungen nachrangig behandelt Schlie lich werden die W rter aus geschlosse nen Wortklassen gez hlt um ihre Anzahl zu vergleichen Weitere Informationen z B der Anteil der einzelnen Wortarten werden nicht ausgewertet Da die Abstandswertberechnung viel Zeit beansprucht werden unter verschiedenen Bedingungen Werte durch den minimalen oder maximalen Abstandswe
201. te aufzubauen wurden zuerst die W rterb cher und Teilkorpora verarbeitet die keine Umlaut und Eszettkorrektur erfordern Dann wurde das Korrekturmodul aktiviert und die restliche Teilkorpora verarbeitet Da das Ziel die Korrek tur der Teilkorpora war die keine Umlaute und Eszett verwenden wurde nicht beachtet dass eines der W rterb cher die neue Rechtschreibung verwendet Warum nicht bei der berpr fung der Ausgabe des Korrekturmoduls aufgefallen ist dass die h ufigen W rter dass und muss weiterhin auftreten l sst sich nicht mehr rekonstruieren Analog k nnte die im vorangehenden Abschnitt erw hnte Silbentrennung an Zeilenum br chen von einem Tokenisierer entfernt werden Eine berpr fung ob die verschmolze nen W rter bereits im System bekannt sind k nnte verhindern dass Gedanken oder Bin destriche die zuf llig am Zeilenende stehen als Trennstrich bewertet werden Dies w re ein Beispiel daf r dass Whitespace nicht immer Token trennt Der KoKS Tokenisierer leistet dies jedoch nicht Din KoKS kann das Satzende trotzdem repr sentiert werden da eine Tokenfolge von Markierungen analog zu Absatzendemarkierung unterbrochen werden kann Beispiele hierzu finden sich im Abschnitt 3 2 3 siehe Abbildung 3 3 7Betroffen ist das W rterbuch mit der KoKS internen Bezeichnung wb1 Es scheint vollst ndig der neuen Rechtschreibung verfasst zu sein und enth lt neben Einzelworteintr gen auch Phrasen wie z
202. tehen 2 1 2 Einsatz f r mehrere bersetzungsauftr ge Das vom bersetzer erstellte Textmaterial ist zusammen mit den Ausgangstexten eine wert volle Informationsquelle f r sp tere bersetzungen Wie im vorangegangenen Abschnitt beschrieben kann das Material mit einem Translation Memory genutzt werden Dar ber hinaus erm glichen Concordancer und Terminologie Extraktion einen tieferen Einblick in die getroffenen bersetzungsentscheidungen Diese wertvolle Ressource m chte ein bersetzer nat rlich auch f r sp tere bersetzungsauftr ge nutzen Das Textmaterial sollte mindestens nach Auftraggeber und Textsorte geordnet archi viert werden damit bei sp teren Auftr gen das zu verwendende Material passend einge schr nkt werden kann Z B kann die verwendete Terminologie in der Ausgangs und oder Zielsprache zwischen einzelnen Auftraggebern so sehr abweichen dass die Verwendung keinen Nutzen bringt Die Textsortenbeschr nkung kann Sinn machen um nicht beim Kor rekturlesen darauf achten zu m ssen ob das Translation Memory wom glich Material ein gesetzt hat dessen sprachliche Merkmale von den Textkonventionen des zu bersetzenden Textes abweichen oder um die Suche nach relevanten Informationen dadurch zu beschleu nigen dass Texte von denen keine Suchergebnisse erwartet werden von der Suche ausge schlossen werden Der Nutzung der Texte stehen aber h ufig die W nsche des Auftraggebers im Wege Bei Dokumenten die nicht f r
203. ten in die Sprachen der Ziell nder bersetzt werden Sprachbarieren m ssen im Wirtschaftsleben nicht nur bei Kunden und Gesch ftsbeziehungen berwunden werden Auch innerhalb internationaler Unternehmen besteht Bedarf an bersetzungen Insbeson dere nach einer Fusion von Partnern aus unterschiedlichen Sprachregionen stellt sich das Problem wie die verschiedensprachigen Mitarbeiter Zugang zum in Dokumente abgeleg ten Wissen des neuen Unternehmens erhalten Moderne Sprachtechnologie erm glicht es zwar zu einer Fragestellung relevante Dokumente ber Sprachgrenzen hinweg ausfindig zu machen Anschlie end wird aber eine bersetzung ben tigt sofern die Sprachkennt nisse der Mitarbeiter nicht ausreichen In der Regel wird dies eine vom Computer erstellte bersetzung sein die es erlaubt den Inhalt grob zu verstehen Leider sind durch Compu tersoftware erstellte bersetzungen h ufig un oder missverst ndlich da es derzeit noch sehr schwierig ist Satzbau Wortbeziehungen und Fachbegriffe inhaltlich angemessen zu interpretieren Daher muss wenn es auf hohe Genauigkeit ankommt ein professioneller bersetzer beauftragt werden Dem bersetzer wird dabei nicht nur Sprach sondern auch Fachkompetenz abverlangt Die Qualit t h ngt von vielen Faktoren ab und zwar nicht nur von den beteiligten Sprachen und dem machi nellen Verfahren Das Genre das verwendete Vokabular der Satzbau und andere stilistische Eigenschaften des Ausgangstext
204. the Member State concerned the Commission may decide to address a second written warning or Reasoned Opinion to the Member State clearly setting out the reasons why it considers there to have been an infringement of Community law and calling on the Member State to comply within a specified period normally two months binnen eines Monats abzustellen Segment 466355 Klasse hnlicher Inhalt 0 70 a 0 3340 Anfragesatz Treffer Erfolgt keine Nach Eingehen oder Ausbleiben einer Antwort Antwort auf dieses Schreiben oder ist diese Antwort nicht berzeugend so geht k nn die Kommission die Kommission 67 2 Phase ber und uebermittelt dem Mitglied beschlie en dem betreffenden Mitgliedstaaten eine staat eine mit Gr nden versehene Stellungnahme mit Gr nden versehene Stellungnahme zweites Mahnschreiben zu bermitteln in der sie klar und eindeutig darlegt weshalb ihrer Ansicht nach ein Versto gegen das Gemeinschaftsrecht vorliegt und den Mitgliedstaat auffordert innerhalb eines eines bestimmten Zeitraums in der Regel zwei Monaten dieser Situation abzuhelfen bersetzungsvorschlag In the Tight of the reply or absence of a reply from the Member State concerned the Commission may decide to address a Reasoned Opinion or second written warning to the Member State clearly and definitively setting out the reasons why it considers
205. ts von einem anderen Translation Memory zur gleichen Text stelle unterbreitet wurde Hier kann die Dauer der erstmaligen Korrektur unterstellt wer 2 Im Falle von Exact Matches wird h ufig vereinfachend davon ausgegangen dass die bersetzungsvorschl ge immer richtig und keine Nachbearbeitungen notwendig seien M gliche Ambiguit ten oder Kontextabh ngigkeiten werden ignoriert Eine wesentlich weitergehende Vereinfachung w re ganz auf die Messung der bersetzungsdauer zu ver zichten und diese nur abzusch tzen Somers 1999 berichtet im Zusammenhang mit der Evaluation von MT Systemen dass es blich ist die bersetzungsvorschl ge mit einer Muster bersetzung zu vergleichen Seite 145 146 Diese Art der Evaluation bietet den Vorteil dass kein bersetzer ben tigt wird wenn Testtext und Muster bersetzung dem Referenzmaterial entnommen werden Zwar geht es bei Somers 1999 um die Messung F r die N tzlichkeit im Berufsalltag spielen nat rlich auch andere Faktoren eine Rolle insbesondere die Akzeptanz des Systems Diese k nnen aber nur mit wesentlich h heren Aufwand evaluiert werden Din beiden F llen wird vereinfachend davon ausgegangen dass die S tze isoliert also unabh ngig vom Kontext bersetzt werden k nnen 26 2 TRANSLATION MEMORY 2 5 Evaluationkriterien der Qualit t der bersetzung und nicht um die Dauer der Erstellung Aber als verwendete Vergleichsmethoden werden selbst solche
206. tugal requiring that it notifies they notify measures measures taken to implement Directive to implement Directive 1999 46 98 5 EC on the right of lawyers to establish in any EU Member State bersetzungsvorschlag Niederlassungsfreiheit von Rechtsanw lten Die Kommission hat Belgien Spanien Frankreich Irland Italien Luxemburg den Niederlanden und Portugal mit Gr nden versehene Stellungnahmen bermittelt in denen sie diese L nder auffordert die Ma nahmen mitzuteilen die sie zur Umsetzung der Richtlinie 98 5 ergrif fen haben Die Richtlinie betrifft das Recht von Rechtsanw lten sich in einem beliebigen EU Mitgliedstaat niederzulassen Segment 457674 Klasse enth lt etwas mehr 0 80 a 0 3199 Anfragesatz Treffer Specialist doctors Investor compensation schemes The Commission has sent a reasoned opinion to The Commission has sent a reasoned opinion to Portugal the United Kingdom requiring requiring that it notifies to notify measures measures taken to implement to implement within the territory of Gibraltar Directive Directive 97 9 EC on investor compensation schemes see RE 1 97 138 i bersetzungsvorschlag Anlegerentsch digungssysteme Die Kommission hat dem Vereinigten K nigreich eine mit Gr nden versehene Stellungnahme bermittelt in der sie dieses auffordert die Ma nahmen mitzuteilen die es zur Umsetzun
207. tze als Trainingsmaterial vorliegen die trotz unterschiedlicher Wortarth ufigkeiten den gleichen Inhalt haben gibt es keinen Grund Gewichte ungleich eins zu w hlen Planas und Furuse 2000 unterteilen das Referenzmaterial in mehrere Ebenen die sie TELA Ebenen nennen Die einfachste Ebene enth lt den Text als Zeichenfolge Dann folgt eine Ebene in der die W rter isoliert sind Weitere Ebenen speichern Schriftauszeichnun gen Informationen f r die Indexverwaltung und Verweise Dar ber hinaus gibt es abgelei tete Ebenen die flache Analysestrukturen enthalten Abgeleitet bedeutet dass sie jederzeit neu bestimmt werden k nnen n mlich durch die zugrunde liegende Analyse Diese Ebe nen annotieren Grundformen Wortarten und unstrukturierte Phrasen so genannte Chunks Planas und Furuse skizzieren ein Matching Verfahren das je Wortposition die spezifischte Ebene ermittelt auf der eine bereinstimmung gefunden werden kann Ein Beispiel ist an gegeben in dem NTT really stayed strong Monday und Sony stayed stronger Tuesday verglichen werden Das erste und letzte Wort stimmen nur in der Wortart berein Das zweite Wort wurde gel scht Dann folgt ein bereinstimmendes Wort An der vorletzten Position stimmen die Grundformen aber nicht die W rter berein Diese Informationen k nnen benutzt werden um die Unterschiede im Fuzzy Match zu markieren Planas und Furuse 2000 haben jedoch eine Anwendung in der automatischen bersetzu
208. u pr fenden S tze w chst also wie im ersten Ansatz linear mit dem Umfang des Referenzmaterial Im Abschnitt 3 2 7 wird ein Index beschrieben der die Zahl der zu pr fenden S tze im Vergleich zu diesem Ansatz sehr klein h lt aber prinzipiell das gleiche Problem hat Eine echte L sung des Problems ist mir nicht bekannt Da der benutzte Ansatz auf dem vorhandenen Textmaterial mehr als befriedigend schnell l uft habe ich nicht nach Lite ratur gesucht Eine Implementation einer Fuzzy Match Suche wird im Abschnitt 3 4 2 beschrieben Baldwin und Tanaka 2000 beschreiben auf Seite 38 ihrer Vergleichsstudie zu hn lichkeitsma en s u einige Methoden zum effizienten Zugriff auf das Referenzmaterial Beispielsweise k nnten viele S tze bereits aufgrund ihrer L nge von der Suche ausge schlossen werden Wie Simard und Langlais 2001 in ihrer Einleitung schreiben kann die Suche nach Matches auch als Information Retrieval Aufgabe gesehen werden Umfangrei che Literatur aus einem anderen Themenbereich ist also f r Translation Memory relevant 10 Anfangs treten noch viele neue W rter auf die Anzahl der Eintr ge im Index w chst schnell und die L nge der Eintr ge nimmt scheinbar nur langsam zu Mit zunehmender Gr e des Index treten nicht indizierte W rter immer seltener auf Man k nnte meinen dass die L nge der Eintr ge nun schneller wachsen m sse Das ist aber nicht der Fall Die Wachstumsrate f r den Eintrag X ist p 21 2
209. uf alle Sequenzen von drei Zeichen die im Satz auftreten Diese Sequenzen nennt man Trigramme Seien c f und c2 t die H ufigkeiten der Trigramme f in den zu vergleichenden Zeichenfolgen Dann wird als hnlichkeit der Wert _ Lmin c t c2 t E max c1 0 c20 45 Alternativ k nnte man nach der Bildung der k elementigen Teilmengen der Anfragetoken diejenigen ausfil tern die zu wenig seltene W rter enthalten um eine kleine Kandidatenmenge erwarten zu k nnen Zus tzlich k nnte man verlangen dass die Token im Anfragesatz eng zusammenstehen Die gleiche Bedingung k nnte man auch an die zu findenen S tze kn pfen Mit den vorhandenen Indizes kann dies aber nicht effizient durchgef hrt werden So w re es m glich nach Sequenzen von W rtern offener und geschlossener Wortklassen wie z B im Schatten der B ume zu suchen 59 3 4 Belegsituation 3 KORPUSAUFBEREITUNG F R CAT SYSTEME 1 2 3 4 5 6 7 100 20 10 24 3 4 3 20 100 0 37 21 27 21 10 0 100 3 18 24 18 24 37 3 10 29 35 29 3 21 18 29 10 58 44 4 27 24 35 58 10 69 3 21 18 29 44 69 100 Sau rs 1 Baumes 2 Baumschatten 3 B ume 4 der Schatten eines Bau mes 5 der lange Schatten der B ume 6 im Schatten der B ume 7 im Schatten der gro en B ume Tabelle 3 8 hnlichkeitswerte f r einige kurze Zeichenfolgen eingesetzt Der Wert liegt zwischen null und eins
210. ufigkeiten der Klassen 68 Klassenh ufigkeiten bei den besten Fuzzy Matches 69 Beispiele f r Subsegmente 73 bersetzungen der Subsegmente 74 bersicht zur Stichprobe 82 bersicht zur Stichprobe Englisch 88 iv Kapitel 1 Einleitung 1 1 Computer Aided Translation Um das Thema meiner Magisterarbeit auch f r Leser ohne Kenntnis der Begriffe verst nd lich zu machen die ich im Titel verwendet habe m chte ich zuerst erl utern in welchem Kontext ein Translation Memory verwendet wird Ich werde dabei etwas weiter ausholen um das Thema besser von verwandten Themen wie z B Example Based Machine Transla tion abgrenzen zu k nnen F r das Verst ndnis der verschiedenen Ans tze ist es zudem hilfreich die verschiedenen Anwendungsgebiete vor Augen zu haben aus denen sich un terschiedlichen Anforderungen ableiten lassen 11 1 Anwendungsgebiete Das Anfertigen von bersetzungen hat durch die Globalisierung und Internationalisie rung von Wirtschaft Politik und Kultur in den letzten Jahrzehnten stark an Bedeutung gewonnen Waren die in vielen L ndern verkauft werden m ssen an die Vorschriften der Ziell nder und an die Kundenw nsche angepasst werden Hierzu z hlt insbesondere dass die aufgedruckten oder beigelegten Texte die z B wichtige Hinweise zur Handhabung enthal
211. ultiplizieren der Grundformen bereits Proble me bereiteten Alle beschriebenen Indizes wurden auch f r die Suche mit Grundformen implementiert Anpassung f r Grundformen und POS Tags Mit Grundformen oder POS Tags kann auf gleiche Weise gesucht werden Die notwendige Anpassung der Retrieval Funktion R erfordert nur einen R ckgriff auf andere Tabellen Zur Erinnerung Die Token sind nicht direkt mit der Korpustabelle verkn pft sondern stehen in einer Tokentupel Tabelle bestehend aus Token Grundform POS Tag und Sprache Wenn die Zeichenketten der Token Grundformen und POS Tags auf genau gleiche Weise mit der Tokentupel Tabelle verkn pft w ren m sste nur der Name einer Tabelle in den Datenban kanfragen ersetzt werden Leider ist dies nicht der Fall Die Token stehen direkt in der Tokentupel Tabelle die Grundformen in einer Extratabelle und die POS Tags in mehreren Tabellen je Tagset eine Tabelle Suche nach POS Tagfolgen Die Suche nach POS Tagfolgen wurde vorbereitet da erwartet wurde dass sie f r diese Arbeit interessant werden k nnte Soweit ist es aber nicht gekommen sodass sie nicht implementiert wurde Ein spezieller Index ist sinnvoll da ein einfacher Ansatz der das Retrieval aus dem vorangehenden Unterabschnitt nutzt und dann die Ergebnisse danach filtert ob die POS Tags in der richtigen Reihenfolge und zusammenh ngend auftreten zwei Probleme auf wirft Zum einen sind die Zwischenergebisse sehr umfangreich Beispiel
212. umente enthalten sein die aus einer dritten Sprache bersetzt wurden Wie gro deren Anteil am Korpus ist kann der KoKS Dokumentation nicht entnommen werden Die Zahlen machen deutlich dass wesentlich mehr von 1 1 Zuordnungen abweichen de Zuordnungen auftreten als notwendig w ren um die Differenz in den Satzanzahlen zu berbr cken Beispielweise h tten beim EU Korpus 2502 2 1 Zuordnungen und 107 824 1 1 Zuordnungen ausgereicht um ein Alignment zwischen den Texten herzustellen Da bei w rden durch Dokument und Absatzgrenzen implizierte Ankerpunkte des Alignment h chstwahrscheinlich verletzt Tats chlich treten mehr als f nf mal so viele n mlich 13317 nicht 1 1 Zuordnungen auf darunter viele 1 2 Zuordnungen Vergleicht man den Anteil der 1 1 Zuordnungen der in Tabelle 2 3 prozentual ange geben ist mit den Werten aus einer Untersuchung von Merkel 2001 und den Zahlen zum ARCADE Korpus 2000 Seite 374 375 f llt auf dass die Werte im KoKS Korpus kaum variieren Merkel findet deulich mehr 1 1 Zuordnungen Nur einer von zwei Romanen kommt beim ihm mit 91 in die N he des Wertes f r die Harry Potter B cher 16 2 TRANSLATION MEMORY 2 2 Segmentierung eines Bitexts in TUs Im ARCADE Korpus weist das literarische Teilkorpus dagegen nur zu 76 1 1 Zuord nungen auf Das Verh ltnis von 2 1 und 1 2 Zuordnungen im KoKS Korpus scheint ungew hnlich zu sein Gerade bei Romanen finde
213. ungsvorschlag The proposed transaction is in line with the criteria for the maintenance of competition laid down in Article 66 2 ofthe ECSC Treaty and may be authorized by the Commission Segment 613389 Klasse Exact Match 1 00 a 1 0000 Anfragesatz Treffer Da mit dieser bernahme die Vorau etzungen von Ar tikel 66 Absatz 2 EGKS Vertrag erf llt sind hat die Kommission ihre Zustimmung erteilt Da mit dieser bernahme die Vorau etzungen von Ar tikel 66 Absatz 2 EGKS Vertrag erf llt sind hat die Kommission ihre Zustimmung erteilt bersetzungsvorschlag The proposed transaction is in line with the criteria for the maintenance of competition laid down in Article 66 2 ofthe ECSC Treaty and was therefore authorized by the Commission Segment 625492 Klasse mur Tippfehler 0 95 0 9928 Anfragesatz Treffer Da mit dieser bernahme die Vorau etzungen von Ar tikel 66 Absatz 2 EGKS Vertrag erf llt sind hat die Kommission ihre Zustimmung erteilt Da mit dieser bernahme die Vorau etzungen von Ar tikel 66 Absatz 2 EGKS Vertrag erf llt sind hat die Kommission ihre Zustimmung erteilt bersetzungsvorschlag The proposed transaction is in line with the criteria for the maintenance of competition laid down in Article 66 n 2 ofthe ECSC Treaty and has been authorized by the Commission 88 A FUZZY MATCHES A 2 S tze mit hoher G te der Beleg
214. ustellen Sind die Einheiten kleiner dann tritt das Problem der Erkennung der Einheiten in den Vordergrund Dieses Problem wird gew hnlich mit computerlinguistischen Methoden wie Parsing oder Chunking gel st Es wird also linguistisches Wissen ber die Wortarten der W rter und ihre grammatische Struktur ben tigt Dies bedeutet zum einen dass der An passungsaufwand der Verfahren an weitere Sprachen die der TM Softwareanbieter mit sei nem Produkt unterst tzen will sehr gro ist und dass h ufiger falsche Einheiten identifiziert werden da nicht alle Ausnahmen und Sonderf lle nat rlicher Sprachen ber cksichtigt wer 3Dies trifft nicht immer zu Im Format Nur Text gibt es zwar die Konvention entweder jeden Absatz als eine lange Zeile zu repr sentieren und es dem Textverarbeitungsprogramm zu berlassen bei der Bildschirmausgabe oder beim Drucken Zeilenumbr che einzuf gen oder aber nach jedem Absatzende eine Leerzeile zu speichern Diese Konvention wird aber mitunter verletzt oder es wird bei der Verarbeitung der Dokumente nicht beachtet welche Bedeutung die Zeilenumbr che haben Des Weiteren kann bei der optischen Erfassung OCR gedruckter Dokumente die korrekte Erkennung der Absatzgrenzen fehlschlagen wenn die Vorlage keine Anhaltspunkte z B Einr ckungen enth lt die die OCR Software nutzen kann 13 2 2 Segmentierung eines Bitexts in TUs 2 TRANSLATION MEMORY INCAT den k nnen Zum anderen wird das Gebiet sow
215. utzung im Translation Memory aufzubereiten Besonders ausf hrlich wer de ich die Annotation der Wortarten POS Tagging darstellen da sich mein Ansatz durch die Nutzung der Wortarteninformation von einfachen TMs unterscheidet Abgeschlossen wird das Kapitel mit der Ermittlung einer Stichprobe von Beispiels tzen zu denen Fuzzy Matches gesucht und klassifiziert werden Kapitel 4 stellt dann den Ansatz zum Kombinieren mehrerer nur teilweise berein stimmender Fundstellen im Referenzmaterial vor Es werden M glichkeiten zur Umset zung aufgezeigt die sich auf die in den vorangehenden Kapiteln entwickelten Grundlagen st tzen Das Kapitel schlie t mit einer kurzen Bewertung ab Kapitel 2 Translation Memory in CAT In diesem Kapitel wird die Funktionsweise von Translation Memorys beschrieben Zu erst wird kurz verdeutlicht wie sie beim bersetzen eingesetzt werden Dann wird darauf eingegangen wie ein Translation Memory arbeit Zwei Phasen werden dabei unterschie den Vor der eigentlichen bersetzungst tigkeit wird das in zwei Sprachen vorliegende Textmaterial der Bitext segmentiert In der bersetzungsphase wird dieses aufbereite te Material benutzt um bersetzungsvorschl ge abzurufen Interessant ist hier der Fall der eintritt wenn keine exakte bereinstimmung im Referenzmaterial gefunden werden kann Dann wird eine hnliche Textstelle gesucht um doch noch eine bersetzung auto matisch erzeugen zu k nnen In die Beurteilun
216. von Alignments a 46 3 9 Ausschnitt aus dem Index f r Satzanf nge 51 3 10 Ausschnitt aus dem Index f r Grundformfolgen am Satzende 52 3 11 Annotationstool soeg Besen 64 iii Tabellenverzeichnis 2 1 2 2 2 3 2 4 2 5 Anzahl der S tze in den verwendeten 15 Satzzuordnungen in den verwendeten 16 Anteil der Satzzuordnungen 16 Positionsabst nde und eine einfache Bewertung 24 einige Translation Memory 28 Schwierigkeiten bei der 1 34 Token mit mehreren annotierten Grundformen Auswahl 39 H ufige Token mit unbekannter Grundform 40 Anzahl der Zeichen in den verwendeten 54 Anzahl der W rter in den verwendeten 55 Anzahl der Token in den verwendeten 55 H ufige Token mit POS Tags NN und NNS 56 hnlichkeitswerte f r einige kurze Zeichenfolgen 60 Fuzzy Matches zum Beispielsatz 2 oo 62 Klassifikation der Fuzzy Matches 63 H ufigkeiten der Anzahlen der Fuzzy Matches 65 Klassenverteilung in hnlichkeitsintervallen Deutsch 66 Klassenverteilung in hnlichkeitsintervallen Englisch 67 H
217. von Ausgangstexten und ihren bersetzungen aktive Forschungsgebiete Ein Terminologie Manager kann sich in der Art der Benutzung von einem W rterbuch unterscheiden Da Terminologie innerhalb eines Projekt und h ufig dar ber hinaus einheit lich bersetzt wird kann er dem bersetzer unaufgefordert auf die bersetzung hinweisen Ein weiteres Werkzeug ist der Concordancer Er zeigt in verschiedenen Darstellun gen alle mit einer Eingabe bereinstimmenden Textstellen an Bereits wenn einsprachige Texte in beiden an der bersetzung beteiligten Sprachen vorliegen k nnen Unterschiede in der Verwendung eines Begriffs und seiner vermuteten bersetzung untersucht wer den Um zu wertvollen Erkenntnissen zu gelangen reicht es v llig aus dass die Texte aus vergleichbaren Bereichen kommen Man spricht hier auch von Vergleichskorpora oder vergleichbaren Korpora comparable corpora Da normalerweise beim bersetzen ein nat rlich wirkender Text enstehen soll w hlt man auch f r die Zielsprache Texte die in dieser Sprache urspr nglich verfasst wurden Bowker 1998 zeigt dass einsprachiges Ma terial dem bersetzer helfen kann den Ausgangstext besser zu verstehen und sich in der Zielsprache treffender auszudr cken Bowker hat in seinem Experiment Testpersonen ne ben einen Concordancer auch zwei statistische Werkzeuge zur Verf gung gestellt Das eine Werkzeug extrahiert auff llige Wortkombinationen sogenannte Kollokationen siehe Ab schnitt
218. vorgenommen Klassen Wo die Grenze zwischen relevanten und irrelevanten Fuzzy Matches zu ziehen ist kann nicht im Allgemeinen beantwortet werden und h ngt von der Anwendung ab Im Falle eines Translation Memorys spielt die Arbeitsweise des bersetzers sicherlich eine Rolle Verschiedene Klassen von Fuzzy Matches k nnen unterschieden werden Bereits ein gef hrt wurden Exact Match und Subsegment Match F r einen Subsegment Match wird hier verlangt dass eine Folge von mindestens acht Token bereinstimmt K rzere Sub segmente k nnen einen Term Match begr nden wenn es sich um einen gebr ulichen Aus druck eine Kollokation oder einen Fachausdruck handelt Ansonsten wird der Inhalt be trachtet Tabelle 3 10 listet die festgelegten Klassen auf Die Grenzen zwischen den vier Klassen von fast gleicher Inhalt bis hnlicher Inhalt sind schwer zu ziehen und haben sich w hrend der Klassifikationsarbeit vermutlich verschoben Die Klassen bilden keine lineare Skala Beispielsweise sind die Pole enth lt mehr weniger unabh ngig vom Grad der inhaltlichen hnlichkeit Um die Klassifikation leichter mit den Trigramm hnlichkeitswerten vergleichen zu k nnen werden den Klassen die in der Tabelle angegebenen Relevanzwerte zugewiesen Als Indikator f r die G te der Belegsituation wird der Mittelwert der Relevanzwerte der besten vier Fuzzy Matches jedes Stichprobensatzes bestimmt Es wurde in Erw gung gezogen die Klass
219. w hnlich lexikalische Kategorien Nomen Verb etc phrasale Kategorien z B Nominalphrasen Teils tze und S tze unterschieden Abs tze erweitern diese Hierarchie nach oben hin indem sie eine Folge von S tzen umfassen In der anderen Richtung w re denkbar die Gliederung der Lexeme in Morpheme hinzuzuneh men Letzteres k nnte auf ein Translation Memory hinauslaufen das die Bestandteile von Komposita die Ausgangsformen von Derivationen und Stamm und Flexionsendung flek tierter Formen als Einheiten behandelt und entsprechend eine bersetzung unabh ngig vom Kontext aus dem Referenzmaterial liefert Hier spricht man aber gew hnlich nicht von Translation Memorys Systeme die einzelne W rter als Einheiten w hlen w rde man eher als eine sehr einfache Form der Lexikonextraktion bezeichnen Jede dieser Gr enstufen erfordert angepasste Methoden um die Einheiten in der ber setzung erkennen und der Suchvorgabe zuordnen zu k nnen Die Art der Behandlung von Abs tzen wurde weiter oben schon angedeutet Bei S tzen gibt es verschiedene Verfahren die sich u a darin unterscheiden wie weit sie den Text analysieren und welches lingui stische Wissen sie investieren Die meisten Schwierigkeiten bereitet es die Zuordnungen richtig zu erkennen die nicht 1 1 verlaufen Siehe unten In der Praxis berlassen die Translation Memorys der CAT Anbieter es dem Benutzer einmal zu Beginn der Arbeit die Zuordnungen f r das gesamte Textmaterial herz
220. welle so weit erh ht dass selbst Formen von sein werden Deutsch und Englisch ausgew hlt werden Die Beschr nkung auf nicht zu h ufige Token hat gro e hnlichkeit mit der Verwen dung von so genannten Stoppwortlisten die nicht zu ber cksichtigende W rter benennen Hier w rde eine solche Liste alle W rter enthalten die keinen Beitrag zur Einschr nkung der Kandidatenmenge erwarten lassen Der Unterschied des hier gew hlten Auswahlver fahrens zu Stoppwortlisten ist die Anpassung der H ufigkeitsschwelle an die Zahl der bis her aufgenommenen Token Beispielsweise werden zu der Anfrage Sein oder nicht sein die Anfragetoken oder und nicht verwendet obwohl sie auf den H ufigkeitsr ngen 109 und 47 stehen Hl Der beste Fuzzy Match Sein oder Nichtsein wird in den W rterb chern des KoKS Systems gefunden Zur Berwertung der G te eines Treffers siehe weiter un ten Der zweitbeste Treffer Oder nicht stammt aus dem Harry Potter Korpus Band 4 Kapitel Der Mit einer Stoppwortliste h tte kein expandiertes Token f r den Korpuszugriff zur Verf gung gestanden sodass die Treffermenge leer gewesen w re Wahl der Mindestanzahl der bereinstimmungen Die Zahl k die angibt wie viele der n ausgew hlten Anfragetoken in einem Satz vorkommen m ssen damit er in die Kan didatenmenge f r die Fuzzy Matches aufgenommen wird ist der zweite Faktor der die 3Genau
221. wicklung und Umstel lung der Regionen sowie durch Regionen 1 und den ESF Ausschuss ergehen den ESF Ausschuss ergehen bersetzungsvorschlag The final decision on this programming document will be taken shortlyfollowing the approval by the Committee on the Development and Conversion of Regions and the ESF Committee Segment 474379 Klasse hnlicher Inhalt 0 70 a 0 5690 Anfragesatz Treffer Die endg ltige Entscheidung Die endg ltige Entscheidung der ber das Programmplanungsdokument trifft die Kommission Kommission ber die beiden Programme wird nach nach deren Pr fung durch den Ausschuss f r die Entwicklung und Umstellung der Regionen Pr fung durch den Ausschuss f r die Entwicklung und Umstellung der Regionen sowie durch den ESF Ausschuss ergehen bersetzungsvorschlag The final decision on the programming document will be taken by the Commission after it has been considered by the Committee on the Development and Conversion of the Regions Segment 461062 Klasse hnlicher Inhalt 0 70 a 0 5589 Anfragesatz Treffer Die endg ltige Entscheidung Die endg ltige Entscheidung der Kommission ber ber die beiden Programme das Programmplanungsdokument wird wird kurz nach nach deren dessen Pr fung durch den Ausschuss f r die Entwicklung und Umstellung der Pr
222. will actually be running the schemes bersetzungsvorschlag Durchf hrung des Programms Vorgesehen sind zwei Aufrufe zur Einreichung von Vorhaben zwecks Auswahl der Entwicklungspartnerschaften die die Ma nahmen durchf hren werden Segment 462898 Klasse hnlicher Inhalt 0 70 a 0 3388 Anfragesatz Treffer There will be two Two calls for calls for projects with a view to selecting the development part nerships which will actually be running the schemes proposals are scheduled for selecting partnerships for development to implement these activities bersetzungsvorschlag die die Ma nahmen durchf hren werden Vorgesehen sind zwei Aufrufe zur Einreichung von Vorhaben zwecks Auswahl der Entwicklungspartnerschaften 109 A 2 S tze mit hoher G te der Beleglage A FUZZY MATCHES Segment 465532 Klasse Sub Segment Match 0 60 a 0 3072 Anfragesatz Treffer The regions are directly responsible for running local schemes 80 of resources while the Ministry of La d bour takes on the national coordination of the program There will be me and is directly responsible for running the sectoral schemes 20 of resources Provision has been made for two calls for projects with a view to selecting the deve lopment partnerships which will actually be running the schemes two calls for projects with a view to selecting the deve
223. z zu sparen wurden nur die ersten 56 Zeichen gespeichert Die meisten S tze k nnen trotzdem eindeutig identifiziert werden Um auch in den F llen in denen ver schiedene S tze mit der gleichen Wendung beginnen eine m glichst kleine Treffermenge erhalten zu k nnen wird zus tzlich die Satzl nge in Token und die Sprache vermerkt Prinzipiell w ren auch andere Eigenschaften der S tze zum Einschr nken der Treffer menge geeignet Wenn die Eigenschaften so gew hlt sind dass unterschiedliche S tze sehr selten die gleichen Eigenschaften haben dann ist die Spalte die die Satzanf nge enth lt zum Auffinden von S tzen nicht n tig Werden dar ber hinaus die Eigenschaften auf den Wertebereich eines kurzen Datentyps der Datenbank abgebildet dann belegt der Index sehr wenig Speicherplatz Abbildung 3 9 zeigt einen Ausschnitt aus der Tabelle zusammen mit einer SQL Anfrage die die Eintr ge von Imperium bis Import mit der Sprache Deutsch kodiert mit dem Wert 1 ausw hlt und die Spaltennamen f r die Ausgabe umbenennt Die Spalte f r die Sprache wurde nicht abgebildet da sie in den ausgew hlten Zeilen nur den Wert 1 hat Zwei Zeilen enthalten englischen Text Dies ist weder ein Fehler des Moduls f r die In dexerstellung noch der KoKS Datenbank Die POS Tags und Grundformen sind die die sich einstellen wenn der englische Text vom IMS TreeTagger f r das Deutsche getaggt wird F r das Segment 422412 hat eine Recherche

Download Pdf Manuals

image

Related Search

Related Contents

EPSON GP-700 詳細取扱説明書  Serial #001-068 - Himmelstrutz Elektro Art  BENDIX TCH-008-024 User's Manual  Massive Kico Wall light 45557/55/30  Istruzioni per l`uso  USB2.0 microscope „Pen Scope“  dichiara - Policlinico  Zotac GeForce 9800GT 1024MB GeForce 9800 GT 1GB  ASUS UX303LA User's Manual  サーモスタット シャワー金具・バス水栓  

Copyright © All rights reserved.
Failed to retrieve file