Home

Anfragesprachen für Internet-Informationssysteme

image

Contents

1. URLESServer has the following classes URLESServer Connection Responder Predicate Variable VarList Link and HTMLList URLESServer and Connection are classes for communication between client and server Responder Predicate Variable and VarList are classes for executing the logical queries a parse the query with help of class StringTokenizer b determine predicates variables and logical operators c execute the logical expression find semantics bind variables Link and HTMLList are classes to represent the structure of hypertext links and lists After successful executing the logical query the responder sends the answer HTML coded to the client through the socket connection The last step is to close the connection to the client or to establish a new connection for the next query For further documentation look at the classes and methods public class Server extends Thread Main program loop to handle communication with the clients The class variable DEFAULT PORT names the port if the user does not specify a port The instance variable port names the port number and listen socket names the main server socket If the client knocks at the door has a request it creates a new connection which handles further communication with the client The server listens to further client requests So it is not blocked up
2. public final static int DEFAULT_PORT 4712 protected int port protected ServerSocket listen_socket public static void fail Exception e String msg Exit with an error message when an exception occurs System err println msg e System exit 1 public Server int port Create a ServerSocket to listen for connections on start the thread if port 0 port DEFAULT_PORT this port port try listen_socket new ServerSocket port catch IOException e fail e Exception creating server socket System out println URLES Server listening on port port start public void run The body of the server thread Loop forever listening to and accepting connections from clients For each connection creates a Connection object to handle communication through the new Socket try while true Socket client_socket listen_socket accept Connection c new Connection client_socket catch IOException e fail e Exception while listening for connections public static void main String args Starts the server up and listens to an optionally specified port int port 0 if args length 1 try port Integer parselnt args 0 catch NumberFormatException e port 0 new Server port ur z eA Ei 8 Ey A ET FLAN g a A Me 7 BT E E E E D D D D TERTA A a za D gt m
3. test test AL wa vA xy EZ u a ur 8A 74 211 termChoice4 new Choice termChoice4 addItem URL termChoice4 addItem Var comma Label4 labelComma4 new Label labelComma4 setFont fo30 Depth Choice 2 depthChoice2 new Choice depthChoice2 addItem 1 depthChoice2 addItem 2 depthChoice2 addItem 3 depthChoice2 addItem 4 Close Bracket Label 2 labelCloseBracket2 new Label labelCloseBracket2 setFont fo30 Query Result Label result new Label Query Result fo20 new Font TimesRoman Font BOLD 20 result setFont fo20 result reshape 10 320 140 30 add result Lambda Choice 1 lambdaChoicel new Choice lambdaChoicel addItem None lambdaChoicel addItem u03BB x lambdaChoicel addItem u03BB y lambdaChoicel addItem u03BB z lambdaChoicel select 1 lambdaChoicel reshape 160 320 60 30 add lambdaChoicel r r r Lambda Choice 2 lambdaChoice2 new Choice lambdaChoice2 addItem None lambdaChoice2 addItem u03BB x lambdaChoice2 addItem u03BB y lambdaChoice2 addItem u03BB z lambdaChoice2 reshape 240 320 60 30 add lambdaChoice2 Start Search Button searchButton new Button Start searching searchButton reshape 70 400 100 30 add searchButton Stop Search Button finis
4. T bzw If T von Ul x x U auf U und jedem Pr di katensymbol C gt bzw P TR genau eine Relation S C bzw S T gt auf U x x U zuordnet Interpretation der Individuen Funktions und Pr dikatensymbole 1 S ci e U Ii U 2 IK e T UT x x U gt U IE TT UT x x U gt U IE EEE PT e m a UT x x U Interpretation der Funktionsausdr cke 4 DREI A de AR I KTE a a SAW IE IT An Anya OO SAD cig OAS Interpretation der Pr dikatausdr cke 5 3 ist Modell von CT A1 An gdw lt A IAn gt e Ic 3 ist Modell von PT TWA An gdw lt 3 Aj IAn gt e IET 6 3 ist Modell von A gdw I ist nicht Modell von F S ist Modell von A A A2 gdw 3 ist Modell von Al und 3 ist Modell von A2 S ist Modell von A V A2 gdw 3 ist Modell von Al oder 3 ist Modell von A2 S ist Modell von A gt A2 gdw 3J ist Modell von A2 wenn S ist Modell von Aj S ist Modell von A gt A2 gdw 3 ist Modell von Al gdw 3 ist Modell von A2 S ist Modell von 4 xj A gdw IVi ist Modell von A f r mindestens ein U e U J ist Modell von V x A gdw i ist Modell von A f r alle U e U 3 ist Modell von 3 P A gdw lpi ist Modell von A f r mindestens eine Relation ber U x x U 3 ist Modell von V PCP A gdw 3 ist Modell von A f r alle Relationen ber U x x U Interpretation der Anfragen 7 3 xi A
5. import java net import java util RSS TE URL Echo Sounder URLES Server aa URLES Server is the main program that establishes a K connection query from a client to an original RA query response thread ys URLES Server has the following properties Key 1 it is reliable The system guarantees that the data that ava fe is to be sent will be sent The client sends a query wp ce and is blocked up till the server has sent the request ES Ex The answer of the server is quasi the confirmation of K successful communication Kp 2 it is not blocked up All further requests can be executed JE directly For each query the main server process starts ye a new connection thread AA 3 it is buffered Communication between server and client k is established through a socket Input and ouput of that EJ JR is a buffered byte stream not packet stream TCP IP EJ 199 as the basis for sockets guarantees their reliability fF Queries and answers contain a sequence of bytes of any ie length The client sends 8 Bit characters ISO 8859 X to the server The 16 Bit availability of Java cannot be used 4 it uses internet addresses The client is localizing the Vs server with a global internet host name and an identifying fe number for the server process port on that host 5 it is open to security Authentification and cryptography are available for sockets with Java JDK 1 1
6. lt U gt lt 97 Ta aR IT T Schulte R gt e IT 2 Author 8 und a ale m 2X gU ce w x gt gU u2 x2 Date und lt 37 Ma oi x x Sr gt x2 Buch gt Se rea ptlype re f r U e U und f r mindestens ein U e U lt U gt lt Un Schulte R gt AUTHOR und lt U Us gt DATE und lt U Buch gt e Typpi string f r U e U f r mindestens ein U e U lt 1 980 gt Frage 12 Welches sind die Co Autoren von Freitag G E I gering 3 zus Author stins gunit Freitag G E A Author vnit string UNI gering N Zingsting string Freitag G E lt U gt Ut ist Modell von 3 x Author stine gunit Freitag G E A Author unitstring UN ring N zstring string string Freitag G E fiir U DR oe lt U gt IT Y x2 ist Modell von Author amp x it Freitag G E A Author tsrs gmit xe A a gy string Freitag G E f r U e U und f r mindestens ein U e U lt U gt lt 3 N re Freitag G E gt gV V2 Authors und zul a w x gU uzi gt gU ey Author esting und lt J u2 xe gU Yi o Freitag G E gt gU aoa See f r U e U und f r mindestens ein U e U 118 lt U gt lt Up Freitag G E gt e AUTHOR und lt Uo U gt AUTHOR und lt Uj Freitag G E gt e SU estins f r U e U und f r mindestens ein U e U lt Deckert K
7. lt U gt IVi ist Modell von A f r U e U 3a CT A lt rel gt SG ist Modell von A 3a PC A lt rel gt Sp ist Modell von A 20 Beispiel Individuenbereich U NAT 0 1 2 3 Relationen LT lt 0 1 gt lt 0 2 gt lt 0 3 gt lt 1 2 gt lt 1 3 gt lt 1 4 gt lt 2 3 gt lt 2 4 gt TRANS lt LT gt lt lt 0 1 gt lt 0 2 gt lt 0 3 gt lt 1 2 gt lt 1 3 gt lt 1 4 gt lt 2 3 gt lt 2 4 gt gt In der Sprache der mehrstufigen Pr dikatenlogik wird definiert 1 2 3 seien Individuenkonstanten Lessthan sei eine Pr dikatenkonstante vom Typ 0 0 P sei eine Pr dikatenvariable vom Typ 0 0 Pp sei eine Pr dikatenvariable vom Typ 0 0 1 Welche Beziehungsarten bestehen zwischen den beiden nat rlichen Zahlen 1 und 2 A PO POY 1 2 lt rel gt I ist Modell von P 1 2 lt rel gt lt 3 17 Sp 2 gt SPO lt rel gt lt 1 2 gt e IPO A lt rel gt lt 1 2 gt e NAT x NAT lt LT gt 2 Welche Eigenschaften hat die Beziehungsart Lessthan A PO PO Tessthan 9 lt rel gt S p ist Modell von P Lessthan lt rel gt lt 3 p Lessthan gt e Sp A lt rel gt lt lt 0 1 gt lt 1 2 gt lt 2 3 gt gt e NAT x NAT lt TRANS gt 2 4 4 Mehrstufige mehrsortige Pradikatenlogik Syntax Wir definier
8. CONN und lt U Ug gt e CONN und U Up U und f r mind ein FU FU2 FU gt und f r mind ein U1 Un U21 Um U31 U21 U und f r Ua Up Uy U lt Up gt S html 3 f3 x31 fo Ka1 2 1 K1 2 5 Xa er Xn X2m X21 und lt Ua U gt CONN und lt U Ug gt e CONN und U U U und f r mind ein FU FU2 FU3 gt und f r mind ein Uj Un U21 Um U31 U21 U und fiir Ua Up Uy E U lt Us gt HTML S 3 3 x31 IEAI R21 5 IEAI E1 5 Ka 5 Kn S Kam gt 5 K21 und lt U U gt CONN und lt U Ug gt CONN und Ua Up U und f r mind ein FU FU2 FU gt und f r mind ein Uj Un U21 Um U31 U21 U und f r Ua Up U U lt Up gt HTML gt U3 gt Ua1 gt U1 Ua Un Uam U31 und lt Ua U gt CONN und lt U Ug gt e CONN und Ua Up U und fiir mind ein Ui Foai Un Ud a Uzm U31 ee Uz e U und f r Ug Us U E U lt N7 gt lt Ng gt Frage 3 Welche Dateien haben den Dateinamen test txt und die Benutzerkennung er hard cs tu berlin de und liegen unterhalb des Dateiverzeichnisses ftp cs tu berlin de pub bis zur Stufe 3 SA x axis File name g x test txt A User id s x erhard es tu berlin de A File name x le ftp cs tu berlin de pub A en gi xe lt U
9. body title title gt Gr SE arr t rete X Fives X X 15 X X ea X X 1 el u di 3 Individuenkonstanten f r Stufen 1 2 4 Individuenvariable f r eine Stufe m 5 Funktionskonstanten von Sorten s Sn auf die angegebene Sorte html head gt sahad body ty sn body title ne chapters a ia abstracts sysn abstract 6 Funktionsvariablen von Sorten s4 Sn auf die Sorte s Ph 5 gl 7 Pradikatenkonstanten RN chapter chapter gt XE X p 1 TEFA gt 129 a Dokumente einstellig Unit b Beziehungen zweistellig Conn c Gleichheit zweistellig Equal 8 Pr dikatenkonstanten f r Teile a Teile einer Stufe zweistellig V b Teile bis zu einer Stufe zweistellig V c Beh lter einer Stufe zweistellig A d Beh lter bis zu einer Stufe zweistellig A e Geschwister zweistellig 9 Pr dikatenvariablen P 4 PS 5 10 Pr dikatenkonstanten 2 Stufe Reflexive Nonreflexive Irreflexive Symmetric Asym metric Antisymmetric Transitive NegativelyTransitive Nontransitive EquivalenceRelation Complete StronglyComplete 11 Logische Symbole nicht A und v oder Implikation lt gt Aquivalenz 3 es gibt ein V f r alle A die Menge 12 Technische Symbole sl s2 Mit diesen Symbolen werden induktiv die Terme und Formeln gebildet Terme 1 Individuenkonstanten und variablen der Sorte s sind Terme der So
10. dt LANGUAGE FILENAME CONTAINS NEWSGROUP CON TENT aus Kapitel 4 1 3 CONN aus Kapitel 4 2 3 USED MATERIAL aus Kapitel 4 3 3 UNIT CONN SYMMETRIC aus Kapitel 4 4 3 Zus tzlich enth lt CONTENT 8 noch das Element lt Ni Boyer Moore Algorithmus f r gt CONND news 53 CONN Inews lt HTML gt N7 gt lt HTML3 Ns gt lt HTML is N7 gt lt HTML is Ng gt CONN WS mews 3 CONN lt N7 No gt lt N7 Nio gt lt Nio N11 gt lt Nui Ni2 gt lt Ni2 N13 gt DESCRIPTION 3 Description bstaet lt HTML ABSTRACT gt IDENTIFIER S Identifier 8 lt HTML http www cs tu berlin de josefw phd index html gt lt HTML http www cs tu berlin de josefw phd introduction html gt lt HTML http www cs tu berlin de josefw phd state html gt lt HTML http www cs tu berlin de josefw phd query html gt lt HTMLs http www cs tu berlin de josefw phd hynternetQL html gt lt HTML http www cs tu berlin de josefw phd literature html gt lt HTML http www cs tu berlin de josefw phd literature A biteboul Beeri1995 html gt lt HTML http www cs tu berlin de josefw phd literature Ackermann Hilb1972 htm gt lt HTMLs http www cs tu berlin de josefw phd literature A frati Koutras1990 html gt lt HTMLipo http www cs huji ac il beeri gt lt HTMLi1 http www rocq inria fr abitebou pub icdt97 semistructur
11. internet browsers main window here a Javascript aes understanding browser ae DataInputStream in URLESClient urlesClient public StreamListener DataInputStream input URLESClient cl in input urlesClient cl start public void showData String data set cursor back to normal arrow Object frame urlesClient getParent while frame instanceof Frame frame Component frame getParent Frame frame setCursor Frame DEFAULT_CURSOR show result E JSObject win JSObject getWindow urlesClient JSObject doc JSObject win getMember document urlesClient initSocket doc eval writeln data close public void run String line String htmlDocument for try line in readLine answer is read line by line till empty line uA if line null this showData htmlDocument htmlDocument htmlDocument line catch IOException el System err println Error tel Die Datei index html lt html gt lt head gt lt title gt HyQOL Client lt title gt lt head gt lt body gt lt applet codebase http anaconda cs tu berlin de 1111 applets URLESClient URLESClient prj code URLESClient class width 600 height 600 MAYSCRIPT gt lt applet gt lt body gt lt head gt Die Methode nextToken package java util import java lang public String nextToken String beginString String endString boolean ignore
12. lt Dis gt Frage 10 Welche Dokumente sind au erhalb der Jahre 1960 1980 ver ffentlicht worden Im xy 3 Sn Date tdate Got x A Kan 1960 x 117 Sea 980 lt U gt I ist Modell von J maa Date tdate unit Gate N ate date eee 1960 es a ya 1980 f r U e U lt U gt IT Y a ist Modell von Date xu x A lt iate date Ks 1960 A gt date date za 1980 f r U e U und f r mindestens ein U y lt U gt lt J g as gU yni x gt gU vi 2 Date t tate und lt J nes te gU kop x2 1960 gt gU U2 so und lt J De ar gU ee x2 1980 gt gU a les f r U e U und f r mindestens ein U U1 lt U gt lt U U gt e DATE und lt Up 1960 gt e JT Y1 a S und lt Us 1980 gt e gU ee Sree f r U e U und f r mindestens ein U U lt D gt lt Da gt lt Do gt lt D12 gt lt D13 gt lt Di4 gt lt Dis gt lt D16 gt Frage 11 In welchem Jahr hat Schulte R ein Buch geschrieben I er ax Author setts Schulte R A Date date unit x A Typeset Buch lt U gt SU ist Modell von Gxt Author sexu Schulte R A Date tdate unit x1 A Typet tsting unit Buch f r U ven lt U gt 30 x2 ist Modell von Author tstrins gonit Schulte R A Date tdate unit xe A Typel bstring unit Buch f r U e U und f r mindestens ein U e U
13. CONN f r U e U lt UNIT2 gt lt UNIT3 gt lt UNIT4 gt lt UNITs gt lt UNIT6 gt lt UNIT7 gt lt UNITs gt lt UNITo gt Frage 5 Welche Dokumente ie und ie3 stehen in Beziehung miteinander wenn die Doku mente ie und ie gt miteinander in Beziehung stehen und die Dokumente ie2 und ie miteinander in Beziehung stehen Transitivit tsgesetz S A x x3 4 x2 Conn x 1 X2 A Conn x2 x3 gt Conn x1 x3 lt U U3 gt IV Y1 x3 ist Modell von 3 x2 Conn x1 x2 A Conn x2 x3 gt Conn x1 x3 fiir U U3 E oe lt U1 Us gt JV Y U3 1 x2x3 ist Modell von Conn x1 x2 A Conn x2 x3 gt Conn xi x3 f r U U U und f r mindestens ein U e U lt U U gt 37 U2 U3 x2 x3 ist Modell von Conn x x3 wenn IY Y Y3 1 x2 x3 ist Modell von Conn x1 x2 A Conn x2 x3 f r U Us e U und f r mindestens ein U e U lt U U gt lt J P 9 3K IT P Ba 2303 E ITP B1 2 3 Conn wenn 121 eo UI U2 U3 U1 U2 U3 oe Ul U2 U3 lt S xl x2 x3 X1 3 x x2 x3 X2 gt EJS xl x2 x3 Conn und U1 U2 U3 U1 U2 U3 U1 U2 U3 lt 3 xl x2 x3 X2 3 xl x2 x3 X3 gt es f xl x2 x3 Conn f r U U3 e U und f r mindestens ein Uze U lt U U3 gt lt U1 U3 gt gt CONN wenn lt Uj U2 gt CONN und lt Us U3 gt CONN f r U U3 e U und f r mindestens ein Uze U lt UNIT UNIT7 gt 4 3 LinkQL Eine Anfragesprache f r link struktur
14. J ist Modell von V t x S ist Modell von Am t x gdw 3J ist Modell von Af 4x1 IXan Am 1 f X1 t 5 Xn X 3 ist Modell von A t x gdw J ist Modell von Sf 4x1 3 n Equal x f x1 t Xn 3J ist Modell von Am t x gdw 3J ist Modell von Am t x und SI ist Modell von Am 1 t x und und J ist Modell von Ai t x 3 ist Modell von t x gdw 3J ist Modell von 3f 4x Equal f t x x x1 A Equal f x t X X1 A A Equal f x x t X1 4 3 ist Modell von F gdw 3 ist nicht Modell von F S ist Modell von FL A F2 gdw 3 ist Modell von F1 und 3 ist Modell von Fo 3 ist Modell von Fi v Fx gdw SI ist Modell von F1 oder S ist Modell von Fp 3 ist Modell von FL gt F2 gdw 3 ist Modell von F2 wenn 3 ist Modell von F 3 ist Modell von F gt F2 gdw 3 ist Modell von F1 gdw 3 ist Modell von F2 3 ist Modell von 4x5 F gdw SI ist Modell von F f r mindestens ein U U 3 ist Modell von Y x5 F gdw SI ist Modell von F f r alle U e U 3 ist Modell von 3 f SF se gdw 3V ist Modell von F f r mindestens ein FU e U x x U gt UN 3 ist Modell von Vf S F gdw SV ist Modell von F f r alle FU e U x x U gt UN 3 ist Modell von 4 f F gdw 3 ist Modell von F f r mindestens ein FU gt 3 ist Modell von Y f F gdw 3 ist Modell von F f r alle FU gt 3 ist Modell von 3 P F gdw 3 el ist Modell von F f r mindestens eine
15. Ua U TITLE Un und U U2 Lig gt Uj wets URN Uhn Sine Unm und Ua gt U Uys Un f r mind ein FU FU2 gt und f r mind ein Ua Ui Un U21 U2m U und f r U e U lt http www cs tu berlin de josefw phd index html gt lt URL gt lt HEAD gt lt TITLE gt lt BODY gt lt H1 gt lt H12 gt lt UL gt lt PICT gt lt VIDEO gt Bemerkung Die maximale Anzahl von Stufen wird aus bersichtlichkeitsgr nden mit m 2 festgesetzt Weiterhin werden aus demselben Grund einzelne Interpretationsschritte ber sprungen 137 Frage 8 Welche Geschwister hat das Teilobjekt li S A x lii x lt U gt 3Y ist Modell von Olli x fiir U U lt U gt 3 ist Modell von Jf 3x Equal fllii x X X1 A Equal f x lii x X1 A A Equal f x x li x1 f r U U lt U gt gY UI FU gist Modell von Equal fllii x X X1 A Equal f x lii x X1 A A Equal f x x li x1 f r mind ein FU e gt f r mind ein U U f r U e U lt U gt JVV FU x fist Modell von Equal fili x x x1 und SU FY x f ist Modell von Equal f x lii x X1 und und IY V Y x f ist Modell von Equal f x x li1 x1 f r mind ein FU gt f r mind ein U e U f r U e U SEEN re FY x1 x1 und SUN HR ET x1 f x1 und und JUU FU fx x lis SU FO x
16. erweitert werden Dieses kann dann mit einem Attribut abgefragt werden 997 83 Beispielanfragen Anfragen nach Dokumenten 1 Welche Dokumente enthalten Zeichenfolgen die mit sing beginnen gt sing 2 Welche Dokumente enthalten die Zeichenfolge dog gefolgt von cat gefolgt von mouse in einem Wortabstand von h chstens 3 Worten gt near dog cat mouse 3 true Anfragen mit Attributen 3 Welche Dokumente enthalten im Attribut title die Zeichenfolge dog gt dog within title 4 Welche Dokumente enthalten im Attribut surname innerhalb des Attributs author die Zeichenfolge Salton salton within surname within author 5 Welche Dokumente enthalten im Attribut title die Zeichenfolge dog mit einem Wortab stand von 5 Worten zu cat gt near dog cat 5 within title Boolesche Anfragen 6 Welche Dokumente enthalten im Attribut title eine Zeichenfolge die mit sing beginnt und die Zeichenfolge Take That oder die Zeichenfolge Madonna und enthalten im Attribut url nicht die Zeichenfolge com gt sing and Take That or Madonna within title not com within url Terminologische Anfragen 7 Welche Dokumente enthalten die Zeichenfolge car oder Unterbegriffe von car bis zur Tiefe 3 in dem Thesaurus vehicles gt nt car 3 vehicles 8 Welche Dokumente enthalten die Zeichenfolge car oder Synonyme oder deutsche Uber setzungen von car in dem Thesaurus vehicl
17. gende in dieser Sprache Fragen an das Informationssystem stellen kann Der Terminus l t offen wonach gefragt wird Weitverbreitet ist der Terminus Abfragesprache der den Abrufproze des Ged chtnisses Speichers betont Reiner 1991 7 8 5 Von besonderem Interesse sind in diesem Zusammenhang allgemeine Systemschnittstellen die es dem Nutzer erlauben seine Suchanfrage unabh ngig vom System in einer einheitlichen Suchsprache zu formulieren Die Sy stemschnittstelle sollte dann diese allgemeine Suchsprache in die unterschiedlichen Systemsprachen der einzel nen Informationssysteme bersetzen System bergreifende Benutzerschnittstellen sind deshalb u erst n tz lich weil sie dem Nutzer die M he abnehmen sich mit internen Details der einzelnen Informationssysteme aus einanderzusetzen Von weit gr erem Interesse sind Systeme die selbst entscheiden welche Informationsquelle bei einer bestimmten Anfrage abzufragen ist Der Entwurf eines solchen intelligenten Informationssystems ist zur Zeit noch nicht m glich Salton McGill 1987 454 23 gesprache mit Hilfe einer Methode aufgebaut die eine Trennung von Syntax und Semantik vorsieht vgl Kutschera 1975 S 223 und Konrad Reiner 1985 Reiner 1991 Welches Vokabular steht f r die Anfrage zur Verf gung und in welcher Kombination kann es benutzt werden Syntax Welche Interpretationsvorschriften werden gegeben Was bedeutet eine syntaktisch
18. ist Vorzugsbegriff von I x 2 3 ist Modell von Path x Xn gdw S ist Modell von Conn x 1 x2 und 3 ist Modell von Conn x gt x3 und und S ist Modell von Conn Xn 1 Xn und I x1 I x2 I amp n 3 ist Modell von YO xa xp gdw 3S ist Modell von Path x X1 X2 X3 22 Xs 1 xp 3 ist Modell von T xa Xs gdw 3 ist Modell von 4e xp Xa 3 ist Modell von U xa xp gdw 3 ist Modell von 1 x xp oder 3 ist Modell von xq Xg oder oder 3 ist Modell von 4 xo Xp ist Modell von 1 xa xp gdw 3 ist Modell von VO xp Xa ist Modell von xa xp gdw 3 ist Modell von Conn x Xa und 3 ist Modell von Conn x xg und I xa 3 Xg 3 ist Modell von xa Xp Xy gdw 3 ist Modell von Path xa Xy X2 X3 Xn Xp und 3 ist Modell von Path xa X1 Xy X3 Xn Xp und und 3 ist Modell von Path x X1 X2 X3 5 Xy Xp wobei n bel aber fest aan nm nm mn a ar 2 ist phonetisch hnlich zu 3 x string strin strin xi 8 S x 8 1 5 gdw ae 1 3 3 142 3 f sei Funktion Konstante oder Variable bel Sorte und bel aber fester Stellenzahl S ist Modell von Vm t x gdw 3 ist Modell von Af 3x1 IXn Vm 1 t f X1 X 5 Xn 3 ist Modell von Vi t x gdw J ist Modell von Sf 4x1 3 n Equal t f x1 X Xn 3 ist Modell von Ym t x gdw 3J ist Modell von Vm t x und I ist Modell von Vm 1 t x und und
19. return true Lambda variable 1 is not bound 297 if lambdaVarl equals var2 lambdaVarl equals var3 lambdaVarl equals var4 lambdaVarl equals 7 else ErrorDialog errDialog new ErrorDialog parent Error true errDialog showError Lambda Variable lambdaVarl is not bound return true Lambda variable 2 is not bound KY if lambdaVar2 equals var2 lambdaVar2 equals var3 lambdaVar2 equals var4 lambdaVar2 equals i else ErrorDialog errDialog new ErrorDialog parent Error true errDialog showError Lambda Variable lambdaVar2 is not bound return true if logop equals Or if components 2 varChoicel comps 2 varChoice3 ErrorDialog errDialog new ErrorDialog parent Error true errDialog showError The determination of the answer would spent ntoo much time left argument should not be Variable return true if lLogOp equals And not 2 argument of 1 predicate and 1 argument ee of 2 predicate are variables and are equal or not 1 argument of 1 predicate and 2 argument ie of 2 predicate are variables and are equal 215 if components 4 varChoice2 amp amp comps 2 varChoice3 amp amp var2 equals var3 components 2 varChoicel amp amp comps 4 varChoice4 amp amp varl equals var4 ErrorDialog errDialog new ErrorDialog parent Error true
20. verfeinerung bitten etc Basis f r KQML ist die logische Sprache KIF knowledge interchange format Finin Genesereth 1992 KIF ist eine Erweiterung des Pr dikatenkalk ls erster Stu fe Informationsagenten sind beispielsweise Autonomy 2001 InfoMagnet 2001 InfoSleuth Jacobs Shea 1996 WebWhacker 2001 etc Weitere werden in UMBC 2001 aufgelistet Beispielanfragen 101 1 Welche Dokumente bis zur Suchtiefe 4 ausgehend vom Dokument mit der URL http www cs tu berlin de existieren und enthalten nicht die Zeichenfolge wbs in ihrer URL Nach Herstellerangaben ist die Anfrage bis auf den negierten Teil der Anfrage mit Web Whacker 1997 m glich 2 Welche Dokumente interessieren mich mein Benutzerprofil zum Thema Verbrechen z B die Dokumente der Orte auf die ich besonders h ufig zugreife oder die ich gesondert markiere Nach Herstellerangaben ist die Anfrage mit AutonomyAgentWare 1997 und InfoMagent 1997 m glich 3 Welche Dokumente handeln von Superusereingriffen und sind von deutschen Suchma schinen indexiert Die Anfrage soll ab heute periodisch alle zwei Wochen gestellt und das Ergebnis lokal gespeichert werden Im Suchergebnis soll das Fehlen von Dokumenten im Vergleich zu den vorherigen Suchergebnissen markiert werden Nach Herstellerangaben ist die Anfrage bis auf die Markierung fehlender Dokumente mit WebWhacker 1997 und Netriever 1997 m glich 102 3 7 Vergleich der unte
21. 1995 Garcia Molina H Hammer J Ireland K Papakon stantinou Y Ullman J und J Widom Integrating and accessing heterogeneous information sources in TSIMMIS In Proceedings of the AAAI Symposium on Information Gathering pp 61 64 Stanford California M rz 1995 Gilster 1995 Gilster P Suchen und Finden im Internet Wien Hanser Verlag 1995 Goldfarb Prescod 2001 Golfarb Charles and Paul Prescod The XML Handbook 3rd ed Prentice Hall 2001 G vert Pfeifer 1996 G vert N Pfeifer U SFgate The WWW Gateway for freeWAIS sf Edition 0 1 for SFgate 5 0 Mai 1996 Unter 1s6 informatik uni dortmund de ir projects SFgate SFgate html G vert 1996a G vert N Information Retrieval in vernetzten heterogenen Datenbanken 1996 unter Is6 informatik uni dortmund de ir reports 96 Goevert 96 html und unter 1s6 informatik uni dortmund de ir projects SFgate heterogeneous html G vert 1996b G vert N SFgate 5 019 Searching for databases Unter 1s6 informatik uni dortmund de ir projects SF gate index html Guha Lenat 1990a Guha L und Lenat Douglas Building large knowledge based systems representation and inference in the cyc project Addison Wesley 1990 Guha Lenat 1990b Guha R und Lenat Douglas CycL The Cyc Representation Language Part 4 Technischer Bericht ACT CYC 154 90 1990 anzufordern bei library mcc com oder unter www cyc com tech reports act cyc 154 90 act cyc 154 90 html 176 Gu
22. 1995 oder Dejanews 2000a bieten Anfragem glichkeiten nach Newsgruppen und Artikeln News Dejanews bietet die m chtigsten Anfragem glichkeiten Beispielanfragen Anfragen nach Newsgruppen 1 Welche Newsgruppen existieren Netnews gt nn gt Y News URL news Ausgabe als Baum Dejanews Anfrage gt http www dejanews com toplevel html Ausgabe der obersten Hierarchiestufe 2 Welche Newsgruppe ist alphabetischer Nachfolger der selektierten Newsgruppe Netnews gt nn gt N Newsgruppe wird ausgew hlt bzw aktiviert oder A Newsgruppe wird nicht ausge w hlt bzw aktiviert Tin gt tin gt j Newsgruppe wird nicht ausgew hlt bzw aktiviert 47 3 Welche Newsgruppe ist der alphabetische Vorg nger der selektierten Newsgruppe Netnews gt nn gt P Newsgruppe wird ausgew hlt bzw aktiviert B Newsgruppe wird nicht ausgew hlt bzw aktiviert Tin gt tin gt k Newsgruppe wird nicht ausgew hlt bzw aktiviert 4 Welche Newsgruppen sind die Nachfolger der selektierten Newsgruppen so viele wie auf den Bildschirm darstellbar Tin gt tin gt Ctrl d 5 Welche Newsgruppen sind die Vorg nger der selektierten Newsgruppen so viele wie auf den Bildschirm darstellbar Tin gt m gt Ctrl u 6 Welche Newsgruppen enthalten Artikel die die Zeichenfolge www im Attributwert des Attributs Inhalt enthalten geordnet nach der H ufigkeit des Vorkommens Dejan
23. 9 15 1998 Maurer 1996 Maurer Hermann HYPERWAVE The Next Generation Web Solution Addi son Wesley 1996 Mendelzon Mihaila Milo 1997 Mendelzon A Mihaila G und T Milo Querying the World Wide Web In Journal of Digital Libraries 1 1 pp 68 88 1997 Middendorf Singer Strobel 1996 Middendorf Stefan Reiner Singer und Stefan Strobel Java Programmierhandbuch und Referenz Heidelberg Dpunkt Verlag 1996 Miller 1995 Miller George WordNet A Lexical database for English Communications of the ACM November 1995 39 41 Nelson 1993 Nelson Ted Literary Machines Mindful Press California USA 1993 Niedermair 1995 Niedermair Klaus Hyperkatalog mit BIBOS Daten am Beispiel der WWW Site info uibk ac at c108 pub_uibk In ONLINE MITTEILUNGEN der Oesterreichi schen Online Benutzergruppe Nr 52 Juni 1995 ISSN 1015 1869 oder unter info uibk ac at c108 c10806 voeb om52 html Klaus Niedermair52 Nielsen 1996 Nielsen Jakob Multimedia Hypertext und Internet Grundlagen und Praxis des elektronischen Publizierens Braunschweig Vieweg Verlag 1996 Nilsson 1982 Nilsson N Principles of Artificial Intelligence Springer 1982 178 O Donell 1994 O Donell S Programming for the world a guide to internationalization Prentice Hall New Jersey 1994 Papakonstantinou Garcia Molina Widom 1995 Papakonstantinou Y Garcia Molina H und Widom J Object exchange across heterogeneous informat
24. ACM Transactions on Database Systems Vol 23 No 4 December 1998 pp 369 410 Konrad 1976 Konrad Erhard Formale Semantik von Datenbanksprachen Dissertation an der TU Berlin Fachbereich Informatik Konrad Reiner 1985 Konrad Erhard Ulrike Reiner Eine semantische Analyse der Such komponente des Information Retrieval Systems GRIPS Technische Universitat Berlin Fachbe reich Informatik Fachgebiet Computergestiitzte Informationssysteme LIVE Bericht Nr 2 85 1985 177 Konrad 1986 Konrad E Informationssysteme I Skript zur gleichnamigen Lehrveranstaltung Fachbereich Informatik TU Berlin 1986 Konrad 1992 Konrad Erhard Zur Effektivit tsbewertung von Information Retrieval Syste men In Experimentielles und Praktisches Information Retrieval ed Kuhlen Schriften zur Informationswissenschaft Bd Universit tsbibliothek Konstanz S 119 130 Kreitzberg Shneiderman 1988 Kreitzberg C Shneiderman B Restructuring knowledge for an electronic encyclopedia In Proceedings International Ergonomics Association 10th Con gress 31 vol 2 Sydney Australia Aug 1 5 1988 615 620 Kuhlen 1991 Kuhlen Rainer Hypertext ein nichtlineares Medium zwischen Buch und Wis sensbank Berlin Heidelberg Springer Verlag 1991 Kumar Raghavan et al 1999 Kumar R Raghavan P Rajagopalan S und A Tomkins Extracting large scale knowledge bases from the web In IEEE International Conference on Very Large Databas
25. ISO 9594 X 500 The Directory Part 1 Overview of Concepts Part 2 X501 Models Part 3 X 511 Abstract Service Part 4 X 518 Procedures for Distributed Operation Part 5 X 519 Pro tocol Specifications Part 6 X 520 Selected Attribute Types Part 7 X 521 Selected Object Classes Part 8 X 509 Authentication Framework Part 9 X 525 Replication Part 10 Use of Systems Management for Administration of the Directory Genf ISO 1995 ISO 10021 MOTIS Message oriented text interchange system Genf 19 ISO 10162 Information and documentation Open Systems Interconnection Search and Re trieve Application Service Definition Genf ISO 1993 siehe auch ANSI Z39 50 ISO 10163 1 Information and documentation Open Systems Interconnection Search and Re trieve Application Protocol Specification Part 1 Protocol specification Genf ISO 1993 siehe auch ANSI Z39 50 ISO DIS 10163 2 Information and documentation Open Systems Interconnection Search and Retrieve Application Protocol Specification Part 2 Protocol Implementation Conformance Statement PICS proforma siehe auch ANSI Z39 50 ISO 10646 Information technology Universal Multiple Octet Coded Character Set UCS Part 1 Architecture and Basic Multilingual Plane Genf ISO 1993 ISO 10744 Information Technology Hypermedia Time based Structuring Language HyTi me Genf ISO 1992 oder unter ftp imgftp uml edu pub hytime oder unter ftp ftp 1fi uio no pub SGML
26. RFC 1714 RFC 1835 RFC 1913 Netfind Pu Schwartz 1994 erm glicht die Suche nach Rechnern Es wird eine einfache Volltextsuche mit allen Attributen durchgef hrt F r Netfind existiert eine einfache WWW Benutzeroberfl che Netfind 1997 Archie s u bietet eine Suche nach Archie und FTP Servern und nach Rechnerdomainna men 29 Chemie 1997 bietet eine Suche nach WWW Servern mit einer WWW Benutzeroberflache Suchmittel ist ein regul rer Ausdruck f r alle Attribute Folgende Felder werden unterschie den Stadt Name des Servers Land WWW Adresse Beispielanfragen 1 Welche Rechner Domainnamen existieren gt telnet archie th darmstadt de gt domains 2 Welches Netzwerk hat die IP Adresse 130 149 whois h whois internic net 130 149 3 Welches Netzwerk hat die IP Adresse 129 17 gt whois h whois internic net 129 17 4 Welche Rechner enthalten in einem ihrer Attributwerte die Zeichenfolge snake gt telnet ds internic net gt netfind o gt 2 gt snake 5 Welche Archie Server existieren gt telnet archie th darmstadt de servers 6 Welche FTP Server benutzt Archie f r den Aufbau seiner Datenbank gt telnet archie th darmstadt de gt list 3 1 3 Dateisuche Dateiinformationssysteme geh ren zu den am h ufigsten benutzten Systemen im Internet Wir untersuchen die wichtigsten Dateisysteme und die Systeme Telnet FTP Alex und Archie 3 1 3 1 Dateisysteme Dateisy
27. Sadri Subramanian 1996 ist eine logische Anfragesprache 3 2 1 HTTP URL Das Hypertext Transfer Protokoll HTTP ist ein zustandsloses Protokoll fiir ein verteiltes Hypertext Informationssystem RFC 1945 F r jede Anfrage werden vier Operationen in fol gender Reihenfolge durchgef hrt 1 Verbindungsaufbau durch den Client 2 Anfrage durch den Client 3 Antwort durch den Server und 4 Verbindungsabbbau durch den Server oder den Client durch Abbruch Folgende Anfragen sind in HTTP Version 1 0 m glich 1 get Anfrage nach einem WWW Dokument unter der angegebenen URL 2 head Anfrage nach dem HTTP Kopf des WWW Dokuments der angegebenen URL 3 put Speichern der im Datenteil gesendeten Daten unter der angebenen URL 4 post bergabe der im Datenteil gesendeten Daten an das unter der URL angegebene Pro gramm Common Gateway Interface CGI Durch den URL Mechanismus RFC 1738 k nnen bisherige Anfragem glichkeiten im Inter net nachgebildet werden Beispielsweise werden die Protokolle ftp http gopher mailto news nntp telnet wais file und prospero f r URL Anfragen zur Verf gung gestellt Weiterhin bie tet der URL Mechanismus die M glichkeit Parameter zu bergeben Ergebnis einer URL Anfrage ist genau ein WWW Dokument Mit HTTP k nnen Dokumente unter ihrer spezifizierten URL angefordert werden Durch bergabe von Daten an eine CGI URL k nnen andere Informationssysteme dynamisch ange sprochen werden Beispie
28. Tt hesaurus Zeichenfolgen in einer Zeile beginnen mit dem Zeichen T oder t gefolgt von der Zeichenfolge hesaurus und enden beliebig gt http www tu berlin de harvest bin BrokerQuery broker TUB alle WWWs amp query 5BTt 5Dhesaurus 2E 2A amp descflag on amp opaqueflag on 8 Welche Dokumente enthalten den regul ren Ausdruck unit Zeichenfolgen in einer Zeile die beliebig beginnen gefolgt von der Zeichenfolge unit und dem Zeichen und die beliebig enden Harvest Anfrage mit einer WWW Benutzeroberflache gt http www tu berlin de harvest bin BrokerQuery broker TUB alle WWWs S amp query 2E 2Aunit 5C 2E 2E 2A amp descflag on amp opaqueflag on Boolesche Anfragen nach Dokumenten 9 Welche Dokumente enthalten die Zeichenfolgen information und hypertext gt http www tu berlin de harvest bin BrokerQuery broker TUB alle WWWs amp query informationt and retrieval amp descflag on amp opaqueflag on 10 Welche Dokumente enthalten die Zeichenfolgen information oder retrieval gt http www tu berlin de harvest bin BrokerQuery broker TUB alle WWWs amp query information or retrieval amp descflag on amp opaqueflag on 63 Anfragen mit Attributen 11 Welche Dokumente enthalten im Attributwert des Attributs Titel die Zeichenfolge Fachinformation gt http www tu berlin de harvest bin BrokerQuery broker TUB alle WWWs amp query Title 20 3A 20Fachinfo
29. Wenn F eine Formel ist dann ist Ax F eine Anfrage 2 Das sind alle Anfragen Semantik Eine Interpretation I ist eine Abbildung welche jedem Individuensymbol ci bzw x genau ein Element I c bzw I x aus U jedem Funktionssymbol k 1S bzw ff genau eine Abbildung I k 15 bzw I f 1 von U x x U auf U und jedem Pr dika tensymbol C5 S bzw P genau eine Relation S C bzw IP auf US x x U zuordnet Jedem Term t der Sorte s kann nun ein Element I t aus U zugeordnet werden F r jede For mel kann erkl rt werden wann sie bei einer Interpretation ber U x x U gilt Interpretation der Individuen Funktions und Pr dikatensymbole 1 3 c8 e US Ic e U B x e US B x e U 23ER K U RU IE EU SO ISCH A ee SP Ore UT he CU Interpretation der Terme ASA lt le ne Slt S t2 S th Sf tte Sol Seles SCD Interpretation der Formeln 18 5 3 ist Modell von CS i th tn gdw lt 3 t ShP e BIC 3 ist Modell von P ti tn gdw lt It Ita gt e IP 6 3 ist Modell von F gdw S ist nicht Modell von F J ist Modell von F A F2 gdw 3 ist Modell von Fl und 3 ist Modell von F2 3J ist Modell von F v F2 gdw 3J ist Modell von F1 oder 3 ist Modell von F2 S ist Modell von FL gt F2 gdw 3 ist Modell von F2 wenn S ist Modell von F S ist Modell von F gt F2 gdw 3 ist Modell von F1 gdw
30. ae oe werden bei der Volltextsuche auf die Zeichen 6 abgebildet keine einheitlichen booleschen Anfragen boolesche Anfragen und Suche mit Attributen nur im Suchraum des Hyper G Bestandes kein einstelliger boolescher Operator not m glich Operator f r Nachfahren kann nicht universell f r alle Anfragen verwendet werden kein Operator f r Vorfahren Verweise etc W3QS 8 Bit Zeichensatz kein zweistellige Verkniipfung andNot und kein einstelliger boolescher Operator not kein Operator fiir Vor fahren Verweise einer best Beziehungsart etc WebSQL 8 Bit Zeichensatz Erweiterung auf Unicode durch Java einfach m glich kein einstelliger boolescher Operator not kein Opera tor f r Vorfahren Suche TSIMMIS 8 Bit Zeichensatz keine Volltextanfragen kein einstelliger boo in ge lescher Operator not m glich kein Operator f r Verweise Nach schacht fahren Vorfahren etc elten XQL 8 Bit Zeichensatz Beschr nkung auf ein Dokument kein Ope Doku rator f r Verweise Nachfahren Vorfahren etc keine komple menten xen Volltextanfragen Intermedia Unicode Zeichensatz kein Plus Operator kein einstelliger boo lescher Operator not kein Operatoren f r Verweise Nachfahren Vorfahren etc keine regul ren Volltextanfragen Unicode Zeichensatz keine regul ren Volltextanfragen keine Operatoren f r Nachfahren Vorfahren Verweise etc schen Eintr gen lich lich Tabelle 10b Forts Leistungsgren
31. der Suchbegriff wird um verwandte Begriffe erweitert Synonyme der Suchbegriff wird um synonyme Begriffe erweitert 4 bersetzungen der Suchbegriff wird um seine bersetzungen Angabe der Sprache m g lich erweitert 5 Synonyme und bersetzungen der Suchbegriff wird um seine synonymen Bezeichnungen und deren bersetzungen Angabe der Sprache m glich erweitert 6 Vorzugsbegriff anstelle des Suchbegriffs wird der Vorzugsbegriff in der Anfrage verwen det 7 Wurzelbegriff bzgl der Oberbegriffsrelation top term anstelle des Suchbegriffs wird der oberste Begriff des Suchbegriffs bzgl der Oberbegriffsrelation in der Anfrage verwen det F r alle terminologischen Operatoren gilt da der Thesaurus der verwendet werden soll mit dem Namen angegeben werden kann Intermedia bietet eine sogenannte automatische Themengenerierung f r die Dokumente an um die Pr zision der Ergebnisse zu verbessern Mit Hilfe des Operators about k nnen dann thematische Anfragen gestellt werden Momentan ist dies nur in den Sprachen Englisch und Franz sisch m glich Die deutsche Sprache soll Mitte bis Ende 2001 unterst tz werden F r das Suchergebnis kann spezifiziert werden welche Felder dargestellt werden sollen und nach welchem Kriterium das Ergebnis geordnet werden soll z B zeitlich nach dem Datum alphabetisch nach dem Domainnamen Um einen Suchraum f r Dokumente zu spezifizieren kann das Dokument um ein Feld se arch area
32. errDialog showError Variables in 2 argument of 1 predicate and nl argument of 2 predicate of your logical AND Expression are nnot equal n or nVariables in 1 argu ment of 1 predicate and n2 argument of 2 predicate of your logical AND Expression are nnot equal return true parent setCursor Frame WAIT_CURSOR String infixQueryString infixQueryString infixQueryString logOp first predicate if predl equals Conn infixQueryString infixQueryString predl if components 2 varChoicel infixQueryString infixQueryString vari else infixQueryString infixQueryString urll if components 4 varChoice2 infixQueryString infixQueryString var2 else infixQueryString infixQueryString url2 if predl equals Desc infixQueryString infixQueryString predl if components 2 varChoicel infixQueryString infixQueryString vari else infixQueryString infixQueryString urli if components 4 varChoice2 infixQueryString infixQueryString var2 else infixQueryString infixQueryString url2 infixQueryString infixQueryString depthl second predicate ay if pred2 equals Conn infixQueryString infixQueryString pred2 if comps 2 varChoice3 infixQueryString infixQueryString var3 else infixQueryString infixQueryString u
33. gdw J ist Modell von Sf 4x1 3 n Equal t f x1 X Xn S ist Modell von Ym t x gdw J ist Modell von Vm t x und S ist Modell von Vm 1 t x und und J ist Modell von V t x S ist Modell von Am t x gdw 3 ist Modell von If 3x1 IXn Am 1 f K1 t 5 Xn X 3 ist Modell von Ai t x gdw J ist Modell von Sf 4x1 3 n Equal x f x1 t Xn S ist Modell von Am t x gdw J ist Modell von Am t x und S ist Modell von Am t x und und J ist Modell von Ai t x S ist Modell von t x gdw J ist Modell von 3f 4x Equal f t x x x1 A Equal f x t X X1 A A Equal f x x t X1 6 3 ist Modell von F gdw 3 ist nicht Modell von F S ist Modell von Fi A F2 gdw 3 ist Modell von F1 und 3 ist Modell von Fo 3 ist Modell von Fi v Fx gdw 3 ist Modell von F1 oder 3 ist Modell von Fp 3 ist Modell von Fi gt F2 gdw 3 ist Modell von F2 wenn 3 ist Modell von F S ist Modell von Fi gt F2 gdw 3 ist Modell von F1 gdw 3 ist Modell von F2 3 ist Modell von 4 x5 F gdw SI ist Modell von F f r mindestens ein U U 3 ist Modell von Y x5 F gdw 3 ist Modell von F f r alle U e U 3 ist Modell von 3 ff F gdw 132 SU ist Modell von F f r mindestens ein FU e U x x U gt UN 3 ist Modell von Y f gt S F gdw SV ist Modell von F f r alle FU e U x x U gt UN 3 ist Modell von 4 f F gdw 3 ist Modell von F f r mindestens ein
34. gt UR Echo Sounder New Query lt a gt href http www cs tu berlin de josefw gt Josef Willenborg lt a gt date 1 lt BODY gt lt HTML gt String infixQueryString infixNotation String HTMLQueryString Your Query was infixQueryString lt br gt lt hr gt if logop equals Or predl or pred2 if logOp equals And predl and pred2 if logOp equals predl execute String lambdaAnswer getLambdaAnswer String queryResult HTMLHeadString HTMLQueryString lambdaAnswer HTMLEndString return queryResult class HTMLList extends Vector This class is a vector ordered list of HTMLLists It is Ay used to represent an HTML list lt ul gt lt ol gt etc It recursively contains HTMLLists down to the leafs In one Kp hierarchy level the entries are ordered alphabetically a double entries if link source and link dest of two entries af are equal are removed amp The instance variable type names the type ul ol of the HTMLList link names the entry link and depth names the depth of hierarchically deeper entries ef An HTMLList is a directed cyclic graph of links ae public String type public Link link public int depth public HTMLList String type super this type type public HIMLList String type Link link int depth super this type type this link link this depth de
35. nnen boolesche Operatoren und den Operator near enthalten In der vorliegenden Intermedia Version 8 16 k nnen Anfragen mit Attributen geschachtelt werden Als Wortabstandsoperator wird near bereitgestellt Der maximale Wortabstand zwischen den Suchzeichenfolgen kann durch eine Zahl angegeben werden Standard ist 100 Near lie fert ein hnlichkeitsma f r die Dokumente zur ck Near kann zusammen mit dem Opera tor within verwendet werden Als boolesche Operatoren werden das logische und and das logische oder or und das logische bin re nicht not unterschieden Boolesche Ausdr cke k nnen geschachtelt verwendet werden Normalerweise wird bei den booleschen Operatoren die Ergebnismenge nicht geordnet Bei Intermedia wird bei den booleschen Anfragen eine Ordnung der Ergeb nismenge durchgef hrt das logische und von terml und term2 liefert das Minimum der hnlichkeitswerte f r terml und term2 beide Terme m ssen mindestens einmal vorkom 82 men das logische oder von terml und term2 liefert das Maximum der hnlichkeitswerte f r terml und term2 ein Term mu mindestens einmal vorkommen und das logische bin re nicht von term1 und term2 liefert den Ahnlichkeitswert von term1 Der zweistellige Anh ufungs Operator bzw accumulate hnlich dem logischen oder beeinflu t die Anordnung der Ergebnismenge Je mehr Suchbegriffe der Anh ufung in einem Dokument vorkommen desto h her ist
36. predl argl Variable var new Variable predl argl new HTMLList ul vars addElement var if isVar predl arg2 Variable var new Variable predl arg2 new HTMLList ul vars addElement var if isVar pred2 argl Variable var new Variable pred2 argl new HTMLList ul vars addElement var if isVar pred2 arg2 Variable var new Variable pred2 arg2 new HTMLList ul vars addElement var this dummy variable is needed for logical and execution Variable testVar new Variable g new HTMLList ul vars addElement testVar vars sort this vars vars public boolean isVar String v if xyzg indexOf v 1 return true else return false public String infixNotation Delivers an infix string from the query expression String result String lambdaVars lambdaVars lambdaVars String predlString infixNotation predl result Lambda lambdaVars predlString if logop equals And logOp equals Or String pred2String infixNotation pred2 result result logOp pred2String return result public String lambdaVars Delivers a string of all lambda variables seperated by blanks int max lambdaVars size 1 StringBuffer buf new StringBuffer for int i 0 i lt max i Variable var Variable lambdaVars elementAt i buf append var name if
37. u fungsoperator verkn pfte Suchbegriffe Einzelwort oder Phrase liefern h here Anord nungen von Ergebnis Dokumenten je mehr von diesen Suchbegriffen und je h ufiger die se Suchbegriffe in den Dokumenten vorkommen Ein Suchbegriff mu mindestens einmal vorkommen Eine genaue Definition der hnlichkeitsfunktion wird von den Suchmaschi nenherstellern meist leider nicht ver ffentlicht 2 Plus Operator einstellig Der Plus Operator angewendet auf einen Suchbegriff Einzelwort oder Phrase liefert h here Anordnungen von Ergebnis Dokumenten je h u figer dieser in den Dokumenten vorkommt Voraussetzung ist da dieser Suchbegriff mindestens einmal vorkommen mu 3 Minus Operator einstellig Der Minus Operator angewendet auf einen Suchbegriff Einzelwort oder Phrase liefert Ergebnis Dokumente in denen dieser nicht in den Do kumenten vorkommt Boolesche Operatoren und Operatoren zur Anordnung k nnen nicht verkn pft werden F r das Suchergebnis kann spezifiziert werden welche Felder dargestellt werden sollen und nach welchem Kriterium das Ergebnis geordnet werden soll z B zeitlich nach dem Datum alphabetisch nach dem Domainnamen etc Beispielanfragen Anfragen nach Dokumenten 1 Welche Dokumente im globalen Raum der HTML Dokumente enthalten im Attribut In halt eine Zeichenfolge die mit sing beginnt Altavista URL gt http altavista digital com cgi bin query pg q amp what web amp fmt d amp q
38. x t LoC Books f r U e U8 lt U gt lt SU xt 3 LoC Books gt e SV Database f r U e US lt U gt lt U LoC Books gt DATABASE f r U e U 8 lt UNIT gt lt UNIT gt gt Frage 4 Welche Artikel aus der Newsgroup comp lang java programmer stammen von meier cs mit edu oder miller cs mit edu und sind am 1 1 1998 ver ffentlicht worden I Ax Newsgroup ss 2 x S comp lang java programmer A User id x S meier cs mit edu v User id 2x7 miller cs mit edu A Date Wdate news 1 1 1998 lt U gt 3 ist Modell von Newsgroup stins y e s comp lang java programmer A User id 0s stins x meier cs mit edu v User id 2x7 miller cs mit edu A Date x75 1 1 1998 f r U e U lt U gt 3 ist Modell von Newsgroup ss 2 x comp lang java programmer A User id x S meier cs mit edu v User id KW miller cs mit edu A Date Sting news 11 1998 f r U e UNS lt U gt lt ZU amp 3 comp lang java programmer gt IY Newsgroup und 115 lt 3 x75 3 meier es mit edu gt e I User id 8 oder lt 3 x75 S miller es mit edu gt e IS User id 0 8 und lt 31 S 11 1998 IY Date fir Ue lt U gt lt U comp lang java programmer gt e NEWSGROUP und lt U meier cs mit edu gt e USERID s oder lt U miller cs mit edu gt e USERID
39. 1 i lt max i Variable elem Variable thisCopy elementAt i int maxResult size 1 for int j 0 j lt maxResult j Variable elemResult double Entries Variable elementAt j if elem name is lexically equal to elemResult name removes this entry if elem name compareTo elemResult name 0 doesn t do anything break if elem is lexically smaller than elemResult if elem name compareTo elemResult name lt 0 insertElementAt elem j break if elem is lexically the last Element if j maxResult addElement elem break E aA aA Ef 74 5 EA ai true 206 public Variable getVar String v Delivers the variable named v E int max size 1 for int i 0 i lt max i Variable var Variable elementAt i if var name equals v return var Variable va new Variable new HTMLList ul return va class Link extends Object Link is an Object to represent an HTML link Instance 7 variable source names the source region of a link and iar dest names the destination URL string x public String source public String dest public Link String source String dest this source source this dest dest public String toHTMLString Delivers the HTML coded string of this link E String result lt a href this dest gt source lt a gt retur
40. 3 ist Modell von F2 3 ist Modell von 3 x F gdw Vi ist Modell von F f r mindestens ein U e U 3 ist Modell von V x F gdw I ist Modell von F f r alle U e U Interpretation der Anfragen 7 3 A xj F lt U gt IVi ist Modell von F f r U e U 2 4 3 Mehrstufige Pradikatenlogik Die Pr dikatenlogik 1 Stufe wird zur mehrstufigen Pr dikatenlogik vgl Carnap 1958 S 80ff und Ackermann Hilbert 1972 S 164 erweitert Um sogenannte logische Antinomien zu vermeiden f hrte Bertand Russell Typen ein Syntax Der Typ wird induktiv definiert 1 0 ist ein Typ 2 Sind Tj Tn Typen dann ist auch Ti Tn ein Typ Stufe Die Stufe eines Ausdrucks ergibt sich aus der maximalen Anzahl von umgebenden Klammerpaaren einer der 0 des Typs dieses Ausdrucks Beispielsweise ist ein Ausdruck des Typs 0 0 0 ein Ausdruck der 2 Stufe Der Typ wird im Folgenden hochgestellt hinter die Symbole und Ausdr cke geschrieben Alphabet 1 Individuenkonstanten c C2 Individuenvariablen x1 X2 2 Funktionskonstanten von Typen Ty Ta auf den Typ T ee iste TaT Funktionsvariablen von Typen Ti Ta auf den Typ T re hs seta cu 3 Pr dikatenkonstanten der Typen T Ta C277 Cm Pr dikatenvariablen der Typen Tj Tn PD PIE 4 Logische Symbole nicht A und v oder Implikation lt gt quivalenz 3 es gibt ein V f r alle X die Menge 5 Technische
41. 374r eine berufliche Karriere im Bereich der Oa 2 http URL http www tu berlin de presse pi 96 3 html Titel Medieninformationen der TU Berlin M rz 1996 title Medieninformationen der TU Berlin M rz 1996 keywords Die Geldf lscherwerkstatt von body Die Geldf lscherwerkstatt 3 http URL http www tu berlin de zuv IIIC foerder iff iff6 Titel informationen zur forschungsfoerderung vom 29 11 199 body Programmbudget von LEONARDO SOKRATES und TSER di title informationen zur forschungsfoerderung vom 29 11 4 http URL http www tu berlin de presse pi 1996 pi83 htm Titel TU Berlin Medieninformation Nr 83 15 April 199 title TU Berlin Medieninformation Nr 83 15 April L ke Ee Lar 1 ara IdJumasncdo Jo ni ii Fa Document De a Abbildung 7 Harvest Anfrage mit Netscape im M rz 1997 64 3 1 8 3 Suchmaschinen Es existiert eine Vielzahl von Suchmaschinen wie z B Aliweb 2000 AltaVista 2000 Ex cite 2000 Fireball 2000 Google 2000 Harvest 2000 InfoSeek 2000 Inktomi 2000 Kolibri 2000 Lycos 2000 MetaCrawler 2000 OpenText 1997 Webcrawler 2000 und Yahoo 2000 Eine vergleichende Untersuchung wird in Bekavac 1996 Koch 1995 1996 und Masermann Vossen 1998 durchgef hrt Eine Auflistung von Suchmaschinen findet sich in Koster 2001b Definition Roboter vgl Koster 2001a Roboter sind Programme die rekursiv von Startdo kumente
42. Ausf lle vermieden Datenbest nde werden gespiegelt beim Ausfall einzelner Hardwarekomponenten bernehmen andere Hardwarekomponenten automatisch Hardware wird im laufendem Betrieb erweitert und ausgetauscht Das System wird mit offenen Schnittstellen realisiert so da Fremdsysteme eingebunden und Erweiterungen einfach durchgef hrt werden k nnen Als Protokolle kommen Standard Internet Protokolle HTTP IIOP RMI FTP NEWS Z39 50 JDBC etc und als Aus tauschformate Standard Internet Austauschformate XML HTML MS Word Doc etc zum Einsatz W nschenswert ist eine Erweiterung des Systems zur Unterst tzung der Faktensuche der Su che nach terminologischen Eintr gen und weiterer Sucharten im Bereich intelligenter Agenten z B Relevanzfeedbackverfahren personalisierte Suche etc Daf r mu die universelle An fragesprache f r diese Belange erweitert werden und nderungen im System nachgezogen werden Durch den Einsatz von Techniken aus Volltextsuchsystemen kann die Volltextsuche perfor mant im Internet Massenzugriff bereitgestellt werden siehe Suchmaschinen etc Die per formante Realisierung der Suche in strukturierten Dokumenten mit hunderttausenden gleich zeitigen Nutzern mu noch geleistet werden und bleibt mittelfristig eine spannende Aufgabe Zwischenl sungen f r kleine bis mittlere Nutzerzahlen sind jedoch schon jetzt in skalierbarer Architektur machbar 7 4 Terminologiebasiertes Information Retrieval Der Zugrif
43. B Bib 1 oder STAS STAS 1996 Unterschiedliche boolesche Anfrageformate umgekehrt polnische Notation information retrieval and ISO 8777 etc Verwendung von Attributen unterschiedlicher Attributmengen in einer Anfrage e Anfragen an Ergebnismengen e Ordnung von Ergebnismengen 55 e Anfragen nach Attributen von Z39 50 Servern verwendete Datenbasen Attributmengen Server Administrator etc e Zeichensatzangaben fiir Z39 50 Sitzungen e Unterstiitzung von ISO 10162 10163 WAIS ist ein Z39 50 basiertes Informationssystem zur Volltextsuche und zur Suche mit At tributen in verteilten WAIS Best nden WAIS ist eine Teilmenge von Z39 50 Version 1 er weitert dieses jedoch durch Sitzungen WAIS ist in einer Client Server Architektur mit dem WAIS Protokoll realisiert Seit 1992 wird die nicht kommerzielle Weiterentwicklung von WAIS unter dem Namen FreeWAIS FreeWAIS 2001 fortgef hrt WAIS Server WAIS Dokumente WAIS Index Abbildung 6 Architektur von WAIS Der Dokumentenbestand zusammen mit seinem Index wird Datenbasis genannt Dokumente k nnen unterschiedlichen Typen zugeordnet werden WAIS baut mit Hilfe des Indexiersy stems einen Index ber den Bestand auf Weltweit existiert eine Vielzahl von WAIS Datenbasen F r eine globale WAIS Suche wird zun chst eine Auswahl von WAIS Datenbasen durchgef hrt Daf r existieren WAIS Datenbasen von WAIS Datenbasen directory of servers Beim Einrichten von WAIS Dat
44. Dokumenten Datenbank Benutzer Datenbank Server Suche nach Terminologi Fachgebietssammlung Universalsammlung spezifische schen Eintr gen Sammlungen Intelligente Agenten siehe Suche in link strukturierten Dokumenten siehe Suche in geschachtelten Dokumenten siehe Faktensuche Tabelle 7 Bestand von Internet Informationssystemen 104 Suchart Suchmittel Suche in Person Gruppe einfache Volltextsuche mit Attributen einfach Rechner einfache und regul re Volltextsuche mit Attributen struktu Datei einfache Volltextsuche mit Attributen regul re Volltextsu rierten che f r das Attribut Dateiname Nachfahren einer Datei Doku logische Und Verkn pfung teilweise m glich menten einfache Volltextsuche mit Attributen logische Und Verkn pfung teilweise m glich einfache Volltextsuche mit Attributen logische Und bzw Oder Verkn pfungen einfache Volltextsuche mit Attributen komplexe boolesche Verkn pfungen Dokument einfache Volltextsuche mit Attributen zus tzlich Links Hinweise und Innenmaskierung Unterscheidung von Gro Kleinschreibung komplexe boolesche Verkn pfun gen Wortabstandsoperatoren near before und adjacent maximale Wortabstandszahl spezifizierbar WAIS einfache Volltextsuche mit Attributen phonetische hnlich keit von Zeichenfolgen Wortabstandsoperator Worth ufig keiten Harvest regul re Volltextsuche mit Attributen komplexe boolesche Verkn pfungen einfache Volltexts
45. FU gt S ist Modell von V f F gdw 3 ist Modell von F f r alle FU gt 3 ist Modell von 3 P F gdw 3 ist Modell von F f r mindestens eine Relation ber U x U 3 ist Modell von Y P F gdw 3 ist Modell von F f r alle Relationen ber U x U 3 ist Modell von Prop P gdw lt I P gt e I Prop Prop sei Pr dikatenkonstante 2 Stufe Interpretation der Anfragen 7 SOR ex F lt U Un gt IV xn ist Modell von F f r U e U Un e UM 3 A PS F lt rel gt 3 p ist Modell von F 4 4 3 Beispiele F r die Beispielanfragen werden Individuenbereiche Abbildungen und Relationen vorgege ben Zun chst wird das HTML Dokument diss html als Beispiel f r geschachtelte Dokumente vorgestellt Individuenbereiche sind die Grundlage f r die Abbildungen Mit den Abbildungen wird die Struktur von 6 Dokumenten HTML HTML 6 dargestellt Mit der einstelligen Re lation UNIT werden Dokumente ausgezeichnet mit der zweistelligen Relation CONN werden Beziehungen zwischen den Dokumenten hergestellt lt HTML gt lt BASE HREF http www cs tu berlin de josefw phd index html gt lt HEAD gt lt TITLE gt Anfragesprachen f r Internet Informationssysteme lt TITLE gt lt HEAD gt lt BODY gt lt H1 gt Anfragesprachen f r Internet Informationssysteme lt H1 gt lt H1 gt Inhalt lt H1 gt lt UL gt lt LI gt lt A HREF http www cs tu berlin de josefw phd intro
46. Grep Einbeziehung von Relationsarten in die Beziehungen zwischen Dokumenten Darstellung des Anfrageergebnisses als geordnete Menge oder als Hierarchie Ordnung des Anfrageergebnisses nach Kriterien alphabetisch absteigend und aufsteigend nach Zeitpunkt der Erstellung nach dem Autor nach der urspr nglichen Reihenfolge im Dokument etc Es k nnte dann z B die folgende Anfrage gestellt werden Welche Dokumente sind Nachfolger des Dokuments http www thesaurus com auto html bis zur Tiefe 5 bez glich der Relations NT narrower term sind vom Protokolltyp http ent halten die Zeichenfolge automobil in ihrem Inhalt und haben einen Erstellungszeitraum zwi schen 1995 und 1996 Das Ergebnis wird alphabetisch geordnet und erscheint als Hierarchie Als Lambda Anfrage Ax Desc http www thesaurus com auto html x z 5 A Relation NT z A Attribut content automobil x A Attribut date y x A Conn 1 1 1995 y gt oder Conn 31 12 1996 y lt A Attribut presentation alphabetically x A Attribut presentation hierarchy x 10 5 10 Programmlisting Im Folgenden dr cken wir jeweils durch ein FLAN rechts neben die Zeile des Quellpro grammcodes aus da es sich um Code aus Flanagan 1996 Copyright 1996 O Reilly amp As sociates handelt F r den eigenentwickelten Code gilt die GNU General Public License cc Die Datei Server java import java io import java lang
47. Modell von Conn unit x und gE Urus xB x1 x2 ist Modell von Conn x1 x2 und 125 SUB UI U2 xB x1 x2 ist Modell von Conn x2 xg und SUB UL U2 UB UI U2 UB UI U2 UB UI U2 xB x1 x2 unit I B xB x1 x2 X1 IS B Se xB xl x2 X2 xB xl x2 Xp und f r U e U lt Up gt Zone xp x1 x2 unit San xB x1 x2 X1 gt URUNU xB x1 x2 Conn und lt J oru xB xl x2 X1 UP iis xB xl x2 X2 gt au nm xB xl x2 Conn und lt J giya xB xl x2 X2 SUP En se xl x2 Xp gt oP me xB xl x2 Conn und zu Ul U2 g 1x2 uniti 4 SUB UI U2 g costae SUB UI We Xs SUB UI U und f r U e U lt Up gt lt UNIT U gt gt CONN und lt U2 U3 gt e CONN und lt U3 U gt CONN und UNIT U Ui Up und f r U e U lt UNIT 10 gt lt UNIT 11 gt gt ext x2 Xp Frage 3 Welches sind die Vorg nger der 2 Stufe des Dokuments unitjo bzgl der Beziehung Conn HR Xa HO a Xo unitio lt U gt I a ist Modell von T amp unit o f r U e U lt U gt IT T a x1 ist Modell von Path xa X1 unitio und g Te Ul RU x181 Se unity und f r U e UN lt U gt at ax ist Modell von Conn x x1 und 3V U ax ist Modell von Conn x1 unity und SU x181 So xi Xa und f r U e U U lt I a Ka I a xt K E I a x Conn und eg ET x1 X1 a ne unit o gt oe ia x1 Conn und SU x1 x1 SR IT V a x unity und f r U e U lt U gt lt U U1 gt e CO
48. Nachrichten d h Information Rauschen Redundanz und Wissen sind in Bit me bar Wissen ist eine besonders effiziente Informationskompression Es ist als eine begr ndete Information zu verstehen Wissen ist vorausschauend und probabilistisch Sein Wert ist hoch wenn die Voraussagen korrekt sind im Gegensatz zur Information die possibilistisch ist da die unwahrscheinlichsten Zeichen den h chsten Informationsgehalt tra gen Umst tter 1998 S 221 224 Wissen l t sich in Wissensarten einteilen sicheres Wissen unsicheres Wissen unvollst ndi ges Wissen vages Wissen etc Wissensbasierte Systeme bestehen aus den Komponenten Wissensbasis Fakten Regeln Inferenzsystem und Benutzerschnittstelle Wissensbasierte Systeme bieten die M glichkeit mit Hilfe logischer Regeln Induktion Deduktion etc aus vorhandenem Wissen weiteres Wissen Fakten Regeln abzuleiten Die Suche mit einem wissensbasierten System kann das Retrievalergebnis verbessern weil das Wissen des Systems nutzbar ist So kann 1 A die Effizienz der Suche nach Dokumenten mit einem Thesaurus erh ht werden Traditionell h ufig verwendete Ma e zur Bestimmung der Effizienz von Informa tionssystemen sind Recall Ratio Precision und Noise Recall Ratio ist die Anzahl der gefundenen relevanten Dokumente im Verh ltnis zu allen rele vanten Dokumenten in der zugrundeliegenden Dokumentenbasis bez glich einer Anfrage Precision ist die Anzahl der gefunde
49. Operatoren f r Teile mit der Sprache Datalog Datalog wird seit langem in der Forschung diskutiert und es existieren mehrere Implementierungen der Sprache Das Fuhr Modell kann relativ einfach durch Pro grammierung der gew nschten Sprachelemente erweitert werden StructuredQL modelliert die Suche in einfach strukturierten Dokumenten Suche mit Attribu ten Sorten von Individuenbereichen die Suche in link strukturierten Dokumenten Netzwer koperatoren und die Suche in geschachtelten Dokumenten Operatoren f r Teile Beh lter Zus tzlich werden komplexe boolesche Operatoren bereitgestellt Weiterhin werden Operato ren zur Volltextsuche linguistische Operatoren und Thesaurusoperatoren abgebildet Der gr te Vorteil bei der Entwicklung einer universellen Anfragesprache f r Internet Suchsysteme liegt darin einheitlich auf Internet Best nde zugreifen zu k nnen Gleichzeitig bleibt die bisherige Anfragem chtigkeit erhalten Die Retrievaleffektivit t im Internet kann insgesamt verbessert werden Die Benutzung universeller Anfragem glichkeiten ist in der Regel einfacher als parallel oder hintereinander auf mehrere unterschiedliche Systeme mit ihren jeweiligen Anfragem glichkeiten inklusive Benutzeroberfl che Syntax und Semantik der Anfragesprachen Dokumenttypen Dokumentbestand und Suchergebnissen zuzugreifen Der Benutzer hat mehr Zeit f r seine eigentliche Arbeit und steigert letztendlich seine Zufrie denheit Weiterhin werden durch d
50. Relation ber U x U 3 ist Modell von Y P5 F gdw st ist Modell von F f r alle Relationen ber US x U 3 ist Modell von Prop P gdw lt 3 P gt e 3 Prop Prop sei Pr dikatenkonstante 2 Stufe Interpretation der Anfragen 5 SOS x F lt U Un gt IV nist Modell von F f r U e U Un e UM I A PS F lt rel gt I p ist Modell von F 4 5 3 Beispiele Es werden z T Individuenbereiche Abbildungen und Relationen aus den vorangegangenen Beispielen verwendet 143 Individuenbereiche u U aus Kapitel 4 1 3 or ure do De Dar U U UE U U aus Kapitel 4 4 3 U H11 Hl H13 H14 H15 H16 H17 H13 ust ABSTRACT u HTML HTML HTML HTML4 HTMLs HTML lt HTML HTMLs HTML HTML HTML HTML 2 HTML 3 HTML 4 HTML s HTML 16 HTML r HTMLis pent pra y Lrbstract Abbildungen URL TITLE gt LI HEAD BODY gt BODY2 gt HTML aus Kapitel 4 4 3 SS Sh 7s 2 lt Anfragesprachen f r Internet Informationssysteme H1 gt lt Inhalt H12 gt lt Einleitung H13 gt lt Grundlagen H14 gt lt Anfragen in Internet Informationssystemen H15 gt lt Anfragesprachen f r Internet Informationssysteme H16 gt lt Literatur H17 gt lt Abstract H1 gt ABSTRACT I abstract lt Hls Es wird zun chst ein berblick ABSTRACT gt hl string abstracty Relationen SUBJECT DATE
51. Sammlungen von Dokumenten wie zum Bei spiel Array Menge Liste und Record mit Nested amp LinkQL nachgebildet werden In objektorientierten Sprachen ist die Bildung von Objekten im Gegensatz zu der hier vorge stellten Sprache keine Funktion im mathematischen Sinne Die Anwendung eines Konstruk tors kann mehrere Werte liefern Beispielsweise liefert STRING Hallo zweimalig ange wendet zwei unterschiedliche Objekte mit verschiedenen Identifikationskennzeichen F r die Bildung von Teilobjekten k nnte als Alternative zu den mehrstelligen Funktionssym bolen der Punktoperator verwendet werden Beispielsweise w rde dann mit html body ul eine ungeordnete Liste bezeichnet werden Allerdings h tte dies den Nachteil da mehrere gleich artige Teilobjekte derselben Ebene nicht mehr exakt bestimmt werden k nnten Beispielswei se w re html body h1 in dem Dokument UNIT in Kapitel 4 4 3 mehrdeutig Als Anwendungsgebiet werden Internet Informationssysteme gew hlt die Dokumente ber wiegend mit Teilsprachen von SGML vgl ISO 8879 wie z B XML strukturieren Dement sprechend werden in Nested amp LinkQL Funktionskonstanten f r SGML Elemente bereitgestellt z B html xml book ul li usw Nested amp LinkQL enth lt Pr dikate mit denen Teile Beh lter und Geschwister von Doku menten bzw Teilen von Dokumenten bestimmt werden k nnen F r die Teile und Beh lter pr dikate kann eine Stufe Suchtiefe spezifiziert werden Mit HyQ vgl D
52. TO 3 ree lt M josefw es tu berlin de gt lt M2 lewis cs mit edu gt lt M3 lewis cs mit edu gt lt M dalitz zib de gt lt Ms smith cs mit edu gt 114 FROM 3 From stins lt M erhard cs tu berlin de gt lt M2 smith cs mit edu gt lt M3 smith cs mit edu gt lt Mg l gger zib de gt lt Ms lewis cs mit edu gt Bemerkung Es werden nur bei den doppeldeutigen Relationen die Sorten explizit hochge stellt Frage 1 Welche Artikel liegen in der Newsgroup comp lang java programmer 3 x Newsgroup amp x S comp lang java programmer lt U gt JY ist Modell von Newsgroup string News comp lang java programmer f r U e U8 U gt lt 3 x 3 comp lang java programmer gt 3 Newsgroup f r U e U8 lt U gt lt 3 U comp lang java programmer gt e NEWSGROUP f r U e U 8 lt N gt N gt lt N3 gt lt N4 gt lt N5 gt N gt news stringy Frage 2 Von was handelt das Dokument unit IR xine Subject 8 unit x lt U gt x ist Modell von Subj ect ame unit x fire lt U gt lt 3 uniti IV 78 gt e IV Subjects f r U e UE lt U gt lt UNIT U gt e SUBJECT f r U e U 8 lt information gt lt retrieval gt Frage 3 Welche Dokumente liegen in der Datenbank LoC Books 3 A x Database SU LoC Books lt U gt JY ist Modell von Database amp
53. Ta Lauer Scholz bles Directory Entry Tables FAT Super 1996 FAT Compact Disk File System HSFS nach ISO 9660 weitere Dateisysteme durch names spaces HPFS MacFS und network file system nfs nach RFC 1094 Windows NT Micro New Technology File System NTFS Custer 1993 soft FAT HPFS Netware File System Com pact Disk System HSFS nach ISO 9660 AIX IBM HP UX system V file system s5 unix file system Handschuch HP Sinix Siemens ufs boot file system bfs Compact 1995 Gulbins Solaris Sun OS SUN Disk Systeme HSFS nach ISO 9660 Obermayr 1995 network file system nfs remote file sy Stern 1995 stem rfs Unixware Novell veritas file system vxfs GE Linux extended file system ext FAT einge Kofler 1995 schr nkt HPFS read only Compact Disk Systeme HSFS nach ISO 9660 nfs Ultrix OSF 1 DEC unix file system ufs network file system nfs Tabelle 4 Haufig verwendete Dateisysteme Momentan werden Anstrengungen unternommen Dateisysteme f r das WWW bereitzustel len Beispiele sind WebNFS WebNFS 2001 CIFS CIFS 1997 und IFS IFS 2000 31 3 1 3 1 2 Physikalische und logische Sicht F r den Zugriff auf Daten sind folgende Ebenen zu unterscheiden 1 Physikalische Ebene 2 Logische Ebene 3 Benutzer Pr sentationsebene Auf der physikalischen Ebene werden Anfragen in Abh ngigkeit von den verwendeten Daten strukturen z B auf physikalischer Datei
54. Terminolgie und Informationsbest nde k nnen Anfrageverfahren universell konzipiert werden Eine universelle terminologische Anfra gesprache erm glicht den einheitlichen Zugriff auf alle Terminologieformate und damit auf den gesamten Informationsbestand Weitere Grundlagenforschung ist f r den Bereich des terminologiebasierten Information Re trieval n tig Durch Interdisziplin re Forschungsprojekte wie ATLAS ATLAS 1993 k n nen weitere Forschungsergebnisse erzielt werden 75 Zuk nftige Entwicklungsm glichkeiten Eine Erweiterung von StructuredQL lohnt sich in mehreren Bereichen Suche in einfach strukturierten Dokumenten e Hinzunahme weiterer Deskriptoren aus Z39 50 1995 STAS 1996 und ISO 8777 e Funktionen f r Worth ufigkeiten e Funktionen f r Namens hnlichkeiten Suche in link strukturierten Dokumenten e Welche Nachfolger bis zur Stufe 5 und Suchbreite 10 hat das Dokument a e Welche Nachfolger bis zur Stufe 5 und Suchbreite 10 die von information und retrieval handeln hat das Dokument a e Welche Dokumente rekursiv nur dann bis maximal zur Stufe 5 und Suchbreite 10 absteigend wenn sie jeweils von information und retrieval handeln sind Nachfolger des Dokuments a Suche in geschachteltenen Dokumenten e Welche Dokumente und alle darin zitierten Dokumente handeln von Information Re trieval e Welche Dokumente enthalten letzter an Stelle als hinterstes Objekt ein Video e Welche Beziehung
55. URL url url url See 2 Individuenvariablen f r eindeutige Namen von einfachen Dokumenten URL X y Z 3 Individuenkonstanten f r die Suchtiefe 1 2 3 4 Pradikatenkonstanten f r Beziehungen zwischen Dokumenten 2 stellig und f r Nachfah ren bis zu einer Stufe 3 stellig Conn Desc 5 Logische Symbole A logisches und v logisches oder alle die 6 Technische Symbole die 3 Symbole Formeln 1 Conn url url und Mischungen mit den Individuenvariablen z B Conn url x sind Formeln 2 Desc url urlz 1 und Mischungen mit den Individuenvariablen und der Suchtiefe z B Desc url y 1 sind Formeln 3 Wenn F und F Formeln sind dann auch FR A F2 und Fy v Fo 4 Das sind alle Formeln Anfragen 1 Wenn F eine Formel ist dann ist A x F eine Anfrage 2 Das sind alle Anfragen Semantik URL sei eine nichtleere Menge von URL nach RFC 1738 NAT sei eine nichtleere Menge von nat rlichen Zahlen f r die Suchtiefe Interpretation der nichtlogischen Symbole 3 X e URL X ist Individuenvariable oder Individuenkonstante f r URL N e NAT N ist Individuenkonstante f r die Suchtiefe Conn c URL x URL Desc c URL x URL x NAT Formeln 3 ist Modell von Conn X Y gdw lt 3 X 3 Y gt e I Conn 3 ist Modell von Desc X Y N gdw lt 3 X 3 Y S N gt e 3 Desc 3 ist Modell von F A F2 gdw 3 ist Modell von Fl und 3 ist Modell von F gt 3 ist Modell von F v F2
56. Ug U gt e Ux Uund lt U U gt e Ux U und lt U2 U3 gt e Ux U und lt U3 U gt E Ux U und Ua U ZU ZU U3 oder lt U U gt e Ux Uund lt U U gt e Ux U und lt U2 U gt E Ux U und Ua Us ZU U2 oder lt Ug U gt Ux U und lt U Ua gt Ux U und Ua Ug U1 und lt Ua U gt e CONTENT und U enth lt den regul ren Ausdruck String arbeitung f r Ua U und f r mindestens ein Us U und f r mindestens ein U e U und f r mindestens ein U U2 U3 U lt N3 gt lt N4 gt lt Ni1 gt 4 6 Vergleich mit anderen Anfragesprachen Die Anfragesprache StructuredQL wird im Folgenden mit anderen logischen Anfragesprachen verglichen mit dem Beeri Kornatzky Modell Beeri Kornatzky 1990 mit IQL Reiner 1991 und mit dem DATALOG Modell von Fuhr Fuhr 1995 Jede Anfragesprache wird kurz vorgestellt und anhand von Vergleichskriterien eingeordnet Eine genaue Klassifikation z B nach Anfragemachtigkeit bleibt der weiteren Forschung vorbehalten 4 6 1 Beeri Kornatzky Modell Beeri Kornatzky bauen eine logische Anfragesprache auf deren Hauptziel darin liegt die Netzstruktur von Hypertexten abzubilden Anfragen mittels netzspezifischer Angaben ergeben wiederum Hypertextnetzwerke so da geschachtelte Anfragen wie in SQL m glich sind An fragen werden ausgehend von ein oder mehreren Dokumenten gestellt Der besondere Schwerpunkt bei Beeri Kornatzky liegt in der Verwendung von Modalopera
57. WAIS Datenbasen enthalten in einem Attributwert die Zeichenfolge computer Waissearch gt waissearch h s6 informatik uni dortmund de p 210 d directory of servers computer WAIS URL gt wais ls6 informatik uni dortmund de directory of server computer SFgate Anfrage gt http ls6 informatik uni dortmund de ir search cgi bin SF gate database 1s6 informatik uni dortmund de 2Fdirectory of servers amp computer 2 Welche WAIS Datenbasen enthalten im Attribut Titel die Zeichenfolge information SFgate Anfrage gt http ls6 informatik uni dortmund de ir search cgi bin SFgate database 1s6 informatik uni dortmund de 2Fdirectory of servers amp title 3Dinformation Anfragen nach Dokumenten 3 Welche Dokumente der WAIS Datenbasis bibdb html auf dem WAIS Server Is6 informatik uni dortmund de enthalten die Zeichenfolge information Waissearch gt waissearch h 1s6 informatik uni dortmund de p 210 d bibdb html information WAIS URL 58 gt wais ls6 informatik uni dortmund de bibdb html information SFgate Anfrage gt http ls6 informatik uni dortmund de ir search cgi bin SFgate database 1s6 informatik uni dortmund de 2Fbibdb html amp information 4 Welche Dokumente in der WAIS Datenbasis bibdb html auf dem WAIS Server Is6 informatik uni dortmund de enthalten die Zeichenfolge information die Gr e der Ergebnismenge soll maximal 20 sein zu jedem Dokument sollen folgende Felder angezeig
58. aus Word Net 1997 im M rz 1997 Glossar Register Index Inhaltsverzeichnis Sachgebietsdarstellung 2 Pflanze Tier Mensch K rperliches 2 1 Pflanze 2 8 Tier 2 2 Pflanzenarten 2 9 Tierarten 2 3 Pflanzenteile 2 10 Tierzucht 2 4 Pflanzenkrankheiten 2 11 Jagd 2 5 Pflanzenanbau 2 12 Tierkrankheiten 2 6 Fruchtbarkeit 2 13 Mensch 2 7 Unfruchtbarkeit Abbildung 26 Sachgebietsdarstellung aus Dornseiff 1959 S 8 93 Graphische Darstellung Abbildung 27 Ober Unterbegriffssystem Ernste Musik Sologesang Abbildung 28 Polyhierarchische Listendarstellung Ernste Musik Vokalmusik Sologesang Abbildung 29 Polyhierarchische Graphdarstellung Form und Inhalt vgl DIN 1463 S 8 Unterhaltungsmusik Der hier vorliegenden Kreuzklassifikation werden die Modelle jedoch kaum gerecht da zu kleine Untermengen mit nur einem Merkmal entstehen Musik kann besser nach Merkmalpaa ren wie z B ernst unterhaltend vokal instrumental und mit ohne Solisten eingeteilt werden 94 18 29 30 TQ Luft Wasser 4 Dreirad nn wy fahrzeug fahrzeug 5 w Fiat Zweirad N ESN Landfahrzeug Diesel Mercedes on we o ane we Sie mR ere a twsa Merkmalsarten 1 nach Antriebsart 2 nach r umlicher Eingliederung 3 nach Hersteller 4 nach Anzahl der R der 5 nach Verwendung Abbildung 30 Polydimensional
59. besteht zwischen der Menge von Dokumenten M und dem Doku ment a e Bestimmte Anfragen in XQL bzw XPath Suche in Multimedia Dokumenten vgl HyQ in DeRose Durand 1994 e 2 dimensionales Bild Zeige den oberen 1 5 Teil Zeige den Ausschnitt von Punkt 1 30 obere linke Ecke bis zum Punkt 300 400 untere rechte Ecke Angaben auch in anderen Ma einheiten m glich e 3 dimensionales Bild Zeige den Ausschnitt 1 1 1 30 1 1 170 e Tonsequenz La die Tonsequenz von der 3 Sekunde bis zum Ende des Dokuments a h ren e Bildsequenz Zeige die ersten 10 Minuten des Dokuments a Zeige die Passagen in dem Dokument a in denen Robert de Niro mitspielt e Virtuelles Bild Zeige den Hauptbahnhof in dem Dokument a Vage Suche e Welche Dokumente enthalten weit vorn ein Video in dem viel geschossen wird e Welche Dokumente vom Typ Video enthalten Dokumente vom Typ Ton der h her ist als die Stimme von Marilyn Monroe Statistische Suche e Auf welche Dokumente wird h ufig zugegriffen e Wieviele Teile hat das gr te Dokument Anfragen zum verwendeten Zeichensatz Alphabet e Welche Dokumente enthalten kyrillische Zeichen Zeichensatz ISO 8859 5 oder Zei chen des Zeichensatzes Unicode im Intervall i bis iz Entscheidungsfragen e Existiert das Dokument a Je umfangreicher und komplexer die Syntax und Semantik einer Sprache aufgebaut ist desto schwieriger wird ihre Erlern und Beherrschbarkeit F r verschie
60. direkt last name Elemente dessen Wert Bob ist und price Elemente dessen Wert gr er als 50 ist gt author last name Bob and price gt 50 14 Welche first name Elemente und last name Elemente existieren gt first name union last name 15 Welche author Elemente enthalten direkt last name Elemente deren Werte alle nicht Bob sind gt author all last name Bob 81 3 3 3 Intermedia Intermedia Oracle 2000a Oracle 2000b ist ein Informationssystem das die Speicherung von und den Zugriff auf Volltexte und multimediale Dokumente erm glicht Intermedia ist eine Teilkomponente des Datenbanksystems Oracle und liegt uns in der Version 8 16 vor Es wurde insbesondere im letzten Jahr stark ausgebaut und unterst tzt seitdem beispielsweise Operatoren f r den Zugriff auf geschachtelte Dokumente In den Suchzeichenfolgen kann als Zeichensatz Unicode UTF8 oder der 8 Bit Zeichensatz nach ISO 8859 X verwendet werden Als Maskierung wird die Rechts Links und Innenmas kierung angeboten Mehrzeichenmaskierung mit dem Zeichen Einzeichenmaskierung mit dem Zeichen _ Weiterhin k nnen Operatoren zur Bestimmung linguistisch hnlicher Worte verwendet werden 1 Phonetische hnlichkeit Operator momentan f r den 7 Bit Zeichensatz ASCII und etwas ineffizienter f r ISO 8859 X Beispielsweise w rde smith erweitert zu smit und smythe 2 V
61. einer Java basierten Darstellung aus Word Net 1997 im M rz 1997 Filter Aus und Einblenden von Information Fischaugenprinzip e Welche Dokumente wurden von M ller erzeugt e Welche Nachbartermini existieren von Europa bis zur Tiefe 2 entlang der Teil von Relation Abbildung 35 Bestandssystem Markierung Schriftart Schriftgr e Schriftstil Farbe etc beispielsweise werden Relationen fett und Definitionen kursiv angezeigt 99 Ikonen und Symbole Durch die Verwendung von Ikonen Symbolen und anderen multimedialen Elementen kann gegebenenfalls die aufwendige Ubersetzung der terminologischen Eintrage in die verschiede nen Sprachen vermieden werden Sortierung e Nach alphabetischer Reihenfolge e Nach Autor e Nach Entstehungszeitpunkt etc Navigationsmittel Browsing Wandering e Gerichtet e Ungerichtet e Springen von Terminus zu Terminus entlang einer spezifizierten Relation beispielsweise von Fahrzeug zu Auto entlang der Unterbegriffsrelation Orten e Die Position in der alphabetischen Anordnung der 2341 ste Knoten auf S 20 e Die Position in der r umlichen Anordnung die 2 Hierarchiestufe zu Fahrzeug entlang der UB Relation e Die Position im Inhaltsverzeichnis Sachgebiet Umwelt Echolot e Die Umgebung der momentanen Position abtasten Welche Nachfahren bis zur Tiefe 2 und vom Typ Bild existieren ausgehend von dem terminologischen Eintrag dessen Name fahrzeug ist History e Markierung
62. find geeignet gt telnet snake cs tu berlin de gt find usr user laszlo ls 7 Welche Dateinamen befinden sich auf dem Rechner snake cs tu berlin de im Verzeichnis usr oder in einem Unterverzeichnis von usr die vom Typ Dateiverzeichnis sind oder deren Benutzerkennung laszlo hei t gt telnet snake cs tu berlin de gt find usr type d o user laszlo ls 8 Welche Dateinamen befinden sich auf dem Rechner snake cs tu berlin de im Verzeichnis usr oder in einem Unterverzeichnis von usr die vom Typ Dateiverzeichnis sind und de ren Benutzerkennung laszlo hei t telnet snake cs tu berlin de gt find usr type d a user laszlo Is 9 Welche Dateinamen befinden sich auf dem Rechner snake cs tu berlin de im Verzeichnis usr oder in einem Unterverzeichnis von usr oder in mit den Unterverzeichnissen durch symbolischen Link in Beziehung stehenden Verzeichnissen die vom Typ Dateiverzeichnis sind und deren Gruppenkennung wbs hei t telnet snake cs tu berlin de gt find usr type d follow a group wbs ls Anfragen mit regul ren Ausdr cken 10 Welche Dateinamen auf dem Rechner snake cs tu berlin de im Verzeichnis usr ent halten in ihrem Inhalt den regul ren Ausdruck f m Textstellen die mit dem Zeichen f beginnen gefolgt von einer beliebigen Zeichenfolge und die mit dem Zeichen m abschlie Ben gt telnet snake cs tu berlin de gt grep l f m usr 11 Welche
63. gdw 3 ist Modell von Fl oder 3 ist Modell von F gt Anfragen 3X F URL I ist Modell von F wobei X ist Individuenvariable f r URL 10 5 4 Backus Naur Form der Anfragesprache ist das Zeichen f r Definition ist das Zeichen f r Alternative Wiederholungen von Ausdr cken werden mit umschlossen elementare Zeichen werden mit umschlossen 192 Query Lambda Expr Pred Expr Lambda Expr Varlist Varlist Var Var Var Var kly z PredExpr Pred Pred Expr Pred Opr Pred Expr Pred Connection Descendants Connection Conn Var Var Conn URL Var Conn Var URL Conn URL URL Descendants Desc Var Var Int Desc URL Var Int Desc Var URL Int Desc URL URL Int URL alle nach RFC 1738 bildbaren URL Int T I L Pred Opr W V Die Backus Naur Form ftir URL wird in Lucyga 1996 gegeben e 10 5 5 Architektur Internet Browser 1 Internet Browser 2 Internet Browser 3 Internet WWW or a Client Internet Server gt Applet 1 Applet 2 Applet 3 Java Client Java Server Listener Protokoll PLCTP Y Connection 1 Connection 2 Connection 3 Java Server Y Y Query Machine 1 Query Machine 2 Query Machine 3 i y Y Applet 2 Applet 3 Abbildung 47 Architektur 10 5 6 Predic
64. getText String url3 inputFieldURL3 getText String url4 inputFieldURL4 getText if components length 0 ErrorDialog errDialog new ErrorDialog parent Error true errDialog showError No query specified return true Arguments in first predicate are not yet specified ay if components 2 termChoicel components 4 termChoice2 ErrorDialog errDialog new ErrorDialog parent Error true errDialog showError Argument s in first predicate is are nnot specified return true if components 2 inputFieldURL1 amp amp components 4 inputFieldURL2 ErrorDialog errDialog new ErrorDialog parent Error true errDialog showError Arguments in first predicate are both URL return true if lambdaVarl equals amp amp lambdaVar2 equals ErrorDialog errDialog new ErrorDialog parent Error true errDialog showError Lambda Variable is not specified return true 214 query without bool operator if comps length 0 1 argument of predicate is variable Ef if components 2 varChoicel ErrorDialog errDialog new ErrorDialog parent Error true errDialog showError The determination of the answer would spent ntoo much time left argument should not be Variable return true first attribute URL second attribute Variable GA if components 2 inputFieldURL1 amp amp components 4 varChoice2 L
65. gt 3 ist Modell von 3 x File name x test txt A User id ins x le_ erhard es tu berlin de A File name x le ftp cs tu berlin de pub A VG u f r U u 2 lt Ua gt I UB ie xp ist Modell von File name 2 x test txt und Se xp ist Modell von User id te stine x fle erhard cs tu berlin de und 3V UP a xp ist Modell von File name amp x ftp cs tu berlin de pub und Sau xp ist Modell von Contains gle xe f r Ua e U und f r mindestens ein Us U lt U gt lt a a x a IC test txt gt e I File name und lt I x S erhard es tu berlin de gt e IS User id 8 und lt I x 3 ftp cs tu berlin de pub gt e S File name und 5 YP a xp ist Modell von 410S xg x oder Seo xp ist Modell von pentan gale x oder Sen xp ist Modell von Peona 6 Sam xe f r Ua e U und f r mindestens ein Us U lt U gt lt U test txt gt FILENAME und lt U erhard cs tu berlin de gt USERID und lt Us ftp cs tu berlin de pub gt e FILENAME und Ua UB U1 U2 U3 eens ist Modell von Path omans x fe x xi tae x oder Ua UB U1 U2 ne ist Modell von Path insga are gie x oder 146 Sue xp x1 Ist Modell von Path s x gs ae f r U e U und f r mindestens ein Us U1 U2 U3 Ute Bemerkung Aus bersichtlichkeitsgr nden wird im Folgenden jeweils bei den Interpretati onssymbolen die Interpretationsumgebung weggelassen hier 3V Y
66. i lt max buf append n r return buf toString Kl 3y 7 EJ AY ur 202 public String infixNotation Predicate pred Delivers an infix string of a predicate Ei String result if pred isConn result pred name pred argl pred arg2 if pred isDesc result pred name Til pred argl um pred arg2 ue n String valueOf pred arg3 return result public String getLambdaAnswer Delivers an HTML coded answer string Starts the execution of the logical query Then variables are bound The result is u sent back to the client ey int max lambdaVars size 1 StringBuffer buf new StringBuffer for int i 0 i lt max i Variable var Variable lambdaVars elementAt i buf append For Lambda Variable buf append var name buf append the answer is lt br gt HTMLList lambdaHAnswer HTMLList vars getVar var name value String lambdaAnswer lambdaHAnswer toHTMLString buf append lambdaAnswer buf append lt hr gt return buf toString public String getAnswer String date new Date toString String HTMLHeadString lt HTML gt lt HEAD gt lt TITLE gt URL Echo Sounder Ans wer lt TITLE gt lt HEAD gt lt BODY gt lt H1 gt URL Echo Sounder Answer lt H1 gt String HTMLEndString lt A HREF http anaconda cs tu berlin de 1111 applets hyqlClient index html
67. in einem Verzeichnis bis zur Tiefe 3 unterhalb von pub Das Ergebnis soll al phabetisch nach den Namen geordnet werden 9 Welche Dateien befinden sich auf dem FTP Server ftp zrz tu berlin de im Verzeichnis pub und haben in ihrem Inhalt die Zeichenfolge bla enthalten Die Anfragen 7 8 und 9 sind mit einer kommandoorientierten FTP Anwendung und mit einer WWW Benutzeroberflache nicht m glich Leistungsgrenzen 7 Bit bzw 8 Bit Zeichensatz F r den FTP Zielrechner ist eine Benutzerkennung erforderlich Keine regul ren Ausdr cke m glich Spezifizierung von Attributen ist bei der Suche nur teilweise m glich Bestand ist auf ein FTP System beschr nkt Keine einheitliche booleschen Verkn pfungen m glich Keine Operatoren f r Nachfahren Vorfahren Verweise etc 3 1 3 4 Alex Alex Cate 1992 stellt Datenbest nde von FTP Servern zur Nutzung in lokalen Dateisyste men zur Verf gung Dadurch k nnen Anfragekommandos des lokalen Betriebssystems f r die Suche im entfernten FTP Bestand benutzt werden Voraussetzung f r die Benutzung von Alex ist das verteilte Dateisystem NFS NFS ist sowohl auf Client als auch auf Server Seite in vielen Betriebssystemen verf gbar Unix Netware MS Windows VAX VMS MVS DOS etc NFS verf gt ber einen Cache Mechanismus mit dem die Zugriffe auf Eintr ge in ent fernten Dateisystemen effizienter durchgef hrt werden k nnen Die Bereitstellung von Alex kann beispielsweise auf folgende Weise d
68. ist Modell von Conn unit x1 und Uy UI U2 1x2 ist Modell von Conn x1 xy und ae ral x2 ist Modell von Conn x unit o und 2 unit X1 Xy unito xy xl x2 X2 N Uy U1 U Uy U1 U2 Uy U1 U2 xy xl x2 unit 3 xy xl x2 Xy 3 r Uy U1 U it g xy x1 x2 unitio und f r U e UT Uy U1 U2 Uy UI U2 Uy U1 U2 37 xyx x2 unit I wie ea xy x1 x2 Conn und Uy UI U2 lt 3 xy x1 x2 Xy Sun a x1x2 X3 gt ss 5 x1 x2 Conn und ok as ae x2 X3 Se a x2 unitio gt a a x1 x2 Conn und 3 oa i uniti IVT a ITT X 3 xy xl x2 uniti9 oder ae ee xl x2 unit sun ine xl x2 X2 gt So ee xl x2 Conn und an U2 yx 282 ITT yt gt E IT Y yx x2 Conn und Sr UI a xl x2 Xy gv ui Woe x1 x2 unit 9 gt zv pi Aa x1 x2 Conn und Se gi S xl x2 unit gau n xl x2 Xy F an se xl x2 X1 7 zur 10 unit o und f r U e U lt U gt lt UNIT U gt CONN und lt U U gt gt CONN und lt U2 UNITj0 gt CONN und UNIT U U2 UNIT 1o oder lt UNIT U gt CONN und lt U U gt CONN und lt Uy UNIT o gt CONN und und UNIT U U2 UNIT jo und f r U e U lt UNIT6 gt lt UNIT7 gt xy xl x2 X1 lt U gt lt Frage 6 Welches sind die Nachfolger bis zur 3 Stufe des Dokuments unit bzgl der Bezie hungen Conn oder Used Material S A xp Yor unit Xp V Used Meter unity Xp lt Up gt IP g ist Modell von yeon unit Xp V
69. ist P t t2 tn eine Formel 2 Wenn F F und Fz Formeln sind dann auch F Fr A Fo Fi v Fo Fr gt Fo Fico Fo 3 Xi F Vx F 3 Das sind alle Formeln Anfragen 1 Wenn F eine Formel ist dann ist A xj F eine Anfrage 2 Das sind alle Anfragen Semantik In der Semantik wird den Ausdr cken einer Sprache eine Bedeutung gegeben Daf r legen wir den nichtleeren Individuenbereich U wie Universum im Folgenden zur Unterscheidung grunds tzlich kursiv gesetzt zugrunde 16 Eine Interpretation 3 der Sprache ber U ist eine Abbildung welche jedem Individuensymbol ci bzw x genau ein Element I c bzw I x aus U jedem Funktionssymbol k bzw fj genau eine Funktion I k bzw 3 fi von U x x U auf U und jedem Pr dikatensymbol C bzw Pi genau eine Relation I C bzw 3 P auf U x x U zuordnet Jedem Term t kann nun ein Element S t aus U zugeordnet werden F r jede Formel kann erkl rt werden wann sie bei einer Interpretation ber U gilt Interpretation der Individuen Funktions und Pr dikatensymbole 1 S c U I c2 U S K1 U ISx2 U 2 ki e Ux x U gt U S fi e Ux x U gt U 3 I C c U x x U I P cT U x x U Interpretation der Terme 4 3 f ti ta IAS I tn wobei f sei Funktionssymbol Konstante oder Variable Interpretation der Formeln 5 3 ist Modell von P t tn gdw lt It I ta IP wobei P
70. lt M MOM M x M x x M lt M Mo Mn gt RCM xMx xM in z aea Be R 7 pn gms fol sn s Menge aller Objekte X mit der Eigenschaft E x ist Element der Menge M M ist echte Teilmenge von M2 Vereinigungsmenge von M und M2 n faches kartesisches Produkt Tupel aus M x M2 x x Mn n stellige Relation ber M x M2 x x Mn nicht und oder Implikation Aquivalenz es gibt ein fiir alle alle die Lambda Operator Interpretation Pr dikatenkonstante der Sorten S Sn Pr dikatenvariable der Sorten s Sn Funktionskonstante von Sorten S Sn auf die Sorte s Funktionsvariable von Sorten s Sn auf die Sorte s 189 10 5 URL Echo Sounder 10 5 1 Einf hrung und Grundlagen URL Echo Sounder URLES ist nicht performant Er dient lediglich dazu die prinzipielle Machbarkeit zu zeigen URLES ist ein Prototyp eines Internet Informationssystems das es dem Benutzer gestattet Beziehungen zwischen Dokumenten connections und Nachfahren von Dokumenten descendants zu betrachten Die benutzte Anfragesprache URLESQL ist eine kleine Teilmenge der im vorigen Kapitel beschriebenen universellen Anfragesprache URLES besteht aus einem Client Applet und einem Server Der Client erlaubt dem Benutzer seine nach URLESQL spezifizierte logische Anfrage zu stellen Der Server beantwortet die Anfrage und schickt dem Client das Ergebnis HTML codiert zur ck Java F r die Re
71. r n gt 2 R quivalent lt gt R reflexiv A R symmetrisch R transitiv R linkseindeutig lt gt Vx Vy Yz xRy A zR y gt x 2 R rechtseindeutig Vx Vy Vz k Ry A x Rz gt y 2 R eineindeutig lt gt R linkseindeutig A R rechtseindeutig R linkstotal lt gt Vx dy x R y R rechtstotal gt Vy 3x x R y R bitotal lt gt R linkstotal A R rechtstotal R funktion R linkstotal A R rechtseindeutig R injektiv lt R linkstotal A R eineindeutig R surjektiv lt gt R bitotal A R rechtseindeutig R bijektiv lt R bitotal A R eineindeutig R zyklisch lt Vx VXn X R x2 A A Xn 1 R Xn A Za R X1 R azyklisch lt Vx VXn amp X R X2 A A Xn 1 R Xn A Xn R X1 Konsistenz durch Argumenttypen F r die Argumente jeder einzelnen Beziehung wird berpr ft ob sie vom Typ her den Argu menten gegeben durch das kartesische Produkt der Typen der beteiligten Relation entspre chen Zusammen mit Sch nfeldt 1994 wird die Anwendung formaler Eigenschaften auf zweistel lige terminologische Relationen untersucht Diese Untersuchung wird hier zusammengefa t Relation refl irrefl sym antisym trans atrans Abstraktionsrelation ja ja nein nein Functional component ja Segmented whole ja ja j Collection member ja ja 160 Logische Gleichordnung nein nein ja nein ja nein monohierarchisch Logische Gleichordnung nein nein ja ne
72. sehr h ufig eingesetzt 1986 erstes auf einem PC lauff higes System GUIDE University of Kent Brown 1988 Mac PC INTERMEDIA Brown Univ A van Dam Lernen englischer Literatur Mac SunOS HyperTIES Univ of Maryland Kreitzberg Shneiderman 1988 SunOS DOS 1987 HYPERCARD von Bill Atkinson Hypercard 1997 Mac wird beim Kauf eines MacIntosh Computers kostenlos mitgeliefert erste Hypertext Konferenz ACM Hypertext 1987 in Chapel Hill North Caroli na mit 250 Teilnehmern 1989 HAUPT AUTOREN SYSTEM PC TOOLBOOK PC zweite Hypertext Konferenz ACM Hypertext 1989 in Pittsburgh 600 Teilneh mer erste wissenschaftliche Zeitschrift Hypermedia 1990 erste europ ische Konferenz ECHT 1990 in Versailles 1992 Gr ndung ACM SIGLINK 3 Rundschreiben im Jahr 1993 Web Standards CERN Genf URL HTTP HTML 1 0 und 2 0 erste Web Server CERN NSCA erste Web Benutzeroberflachen MOSAIC 1 01 September MOSAIC 2 0 Unix Mac PC 1994 erste Konferenz WWW 1994 Mai in Genf 380 Teilnehmer zweite europ ische Konferenz ECHT 1994 September in Edinburgh zweite Konferenz WWW 1994 17 20 Oktober in Chicago 1300 Teilnehmer davon 650 aus der Industrie HTML 3 0 erste Hyper G Systeme Web Benutzeroberfl chen Mosaic 2 5 Netscape Panorama WebExplorer von IBM HotMetal Editor Lynx 2 3 Harmony 1995 dritte Konferenz WWW 1995 10 14 April in Darmstadt ACM Hypertext 1995 in Washington IBM und Microsoft Betriebssysteme mit di
73. tar Z Tuchman 1993 Tuchman Allan e mail a tuchman uiuc edu Xgopher Version 1 3 Computing and Communications Services Office CCSO University of Illinois at Urba na Champaign 1304 W Springfield Ave Urbana Illinois 61801 USA 1993 UMBC 2001 UMBC AgentWeb Unter agents umbc edu Januar 2001 Unicode 2001 Unicode Homepage Unter www unicode org Februar 2001 UNIMARC 1997 Die Deutsche Bibliothek UNIMARC 182 Unter www ddb de profil zsarbeit stabil unimare htm M rz 1997 W308 1999 Unter www cs technion ac 1l W3QS August 1999 Waissearch 1992 Waissearch 1 Manual Pages von Thinking Machines Corp Brewster think com Februar 1992 Waisq 1992 Waisq 1 Manual Pages von Thinking Machines Corp Brewster think com Februar 1992 Webcrawler 2000 WebCrawler Unter www webcrawler com Oktober 2000 WebNES 2001 WebNFS Unter www sun com webnfs Februar 2001 WebSQL 1999 Unter www cs toronto edu websql August 1999 WebWhacker 2001 Web Whacker 2000 Unter www webwhacker com Januar 2001 Word Net 1997 WWW interface to WordNet 1 5 unter www cogsci princeton edu wn w3wn html Marz 1997 X 500 WWW 1997 X 500 White Pages Directory Unter ds2 internic net 8888 Marz 1997 Xwais 1992 Xwais 1 Manual Pages von Thinking Machines Corp Brewster think com Februar 1992 Yahoo 2000 Yahoo Unter www yahoo com Oktober 2000 Yellow Pages 1996 World Wide Yellow Page
74. und f r U e U lt UNIT gt gt lt UNIT3 gt lt UNIT gt lt UNITs gt lt UNITs gt lt UNIT7 gt lt UNITs gt lt UNITo gt lt UNIT o gt lt UNIT gt lt UNIT 2 gt lt UNIT 3 gt lt UNIT4 gt lt UNIT 5 gt lt UNIT 16 gt lt UNIT gt e BUIU ex ta BUIU G ta BUIU a x B U1 U e ta BUIU a tad BUIU E x B U1 U G ta BUIU a tad BUIU tad Up U1 U NON NY DD NN NN NNN tad UB U1 U L L L L L L e L L L UL A UB UI a ioe co UB UI U2 xB xl x2 X1 gt es B ZUR U1 U amp 1 SUB UI U x x1 x2 Conn und xBx1x2 X2 gt aa x1 x2 Conn und tad tad tad BUIU tad BUIU BUIU BUIU tad tad tad BUIU tad lt 3 lt J lt J lt J lt J lt J lt J lt J lt gUB UI U tad U UI U tad NN NY NY NY NN N N N N 4 4 Nested amp LinkQL Eine Anfragesprache fur geschachtelte und link strukturierte Dokumente Anwender von Nested amp LinkQL sind Benutzer die einen Zugriff auf geschachtelte und link strukturierte Dokumente wiinschen In Nested amp LinkQL haben Individuen und Funktionen eine bestimmte Sorte Beziehungen bestehen zwischen Elementen unterschiedlicher Sorte Geschachtelte Dokumente werden mit den Funktionen aufgebaut vgl Abiteboul Beeri 1995 Jedem Funktionssymbol wird genau 128 eine Abbildung zugeordnet Dadurch k nnen
75. untersuchenden Verbin dungen auf 1000 beschrankt SELECT FROM nl Il n2 I2 13 n3 WHERE nl in http www cs technion ac il Il in cs technion ac il I2 in cs technion ac il n3 PERLCOND n3 format image n3 in cs technion ac il Using ISEARCHd d 5 I 1000 74 3 Welche Dokumente ausgehend vom Dokument http wwwwbs cs tu berlin de enthal ten die Zeichenfolge Schaf und sind vom Autor Willenborg Josef Aus Performance gr nden bleibt die Suchtiefe auf 4 beschr nkt SELECT FROM nl Il n2 I2 13 n3 WHERE nl in http wwwwbs cs tu berlin de n3 PERLCOND n3 content Schaf 1 amp amp n3 author Willenborg Josef i Using ISEARCHd d 4 4 Welche Dateien des Typs Postscript handeln von Schaf ber die cgi Form http lycospro lycos com lycospro nojava html SELECT n3 FROM nl Il n2 I2 13 n3 WHERE nl in http lycospro lycos com lycospro nojava html Run learnform n1 cs76 0 If n1 Unknown in LycosDof Fill Il In LycosDof with query Schaf I1 PERLCOND I1 content FORM 1 N3 PERLCOND n3 format postscript 1 amp amp n3 content Schaf 1 Using ISEARCHd 1 500 d 3 5 Welche fehlerhaften Verbindungen ausgehend vom Dokument mit der URL http www cs technion ac il konop existieren Aus Performancegr nden bleibt die Such tiefe auf 2 beschr nkt und wird einmal pro Woche ausgef h
76. vom Typ Ftp Datei oder vom Typ Html Dokument enthalten die Zeichenfolge Compiler Anfragen innerhalb der einzelnen Dienste k nnen mit verschiedenen Anwendungssystemen Clients gestellt werden ber eine eindeutige Adresse bzw Namen des jeweiligen Dienstes URL URN werden Dokumente Dateien Verzeichnisse Artikel Dokumente Hypertextein heiten identifiziert Ergebnismengen werden nach unterschiedlichen Kriterien wie zum Bei spiel nach dem Datum bei der Newssuche oder nach der Anzahl der Treffer bei der Voll textsuche geordnet Datenbankbasierte Anfragesysteme wie W3QS und WebSQL bieten einen m chtigeren Zu griff auf Hypertextbest nde an Dort werden Netzwerkoperatoren f r den Zugriff auf die Ver weisstruktur im Hypertextinformationssystemen bereitgestellt Weiterhin ist es m glich eine regul re Volltextsuche durchzuf hren Folgende Hypertextsuchsysteme werden nicht weiter im Detail vorgestellt ARANEUS Atzeni Masci et al 1998 Araneus 2001 ist ein Projekt in dem ein daten bankbasiertes System den Zugriff auf Web Sites gestattet Clever Kleinberg Kumar et al 1999 Kumar Raghavan et al 1999 Clever 2001 ist ein Projekt in dem das WWW als ein Graph betrachtet wird In Clever werden beispielsweise Algorithmen entwickelt die 68 Autoritaten Dokumente die in Themenlisten aufgef hrt werden und Themenlisten Do kumente die wiederum Autorit ten zitieren im WWW erkennen WebLog Lakshmanan
77. von Knoten und Wegen Gef hrte Wege in ausgesuchten Teilbereichen guided tour Vom Benutzer beschrittene Wege breadcrumbs Leser und autorendefinierte Lesezeichen Anker werfen Schrittweise Zur cknahme durchgef hrter Aktionen Den zuletzt besuchten Knoten aufsuchen Wohin mu ich noch gehen Beschreiten paralleler Wege e von Fahrzeug entlang aller Unterbegriffsrelationen Ausblenden von Teilbereichen e die Pfade anzeigen die den Namen Unterbegriff haben Scanning e Bereiche berschlagen 100 Exploring e einen Sachverhalt vertiefen Die Kombination von kommandoorientierter Anfrageformulierung mit Darstellungs und Na vigationsmitteln kann das terminologiebasierte Information Retrieval insgesamt verbessern 3 6 Intelligente Agenten Unter dem Schlagwort Intelligente Agenten sammelt sich eine Vielfalt von Themen Das Forschungsgebiet ist stark in Bewegung Wir wollen eine enge Definition eines intelligenten Agenten geben Ein intelligenter Agent ist ein Programm das im Auftrag eines Benutzers Aufgaben ausf hrt Ein Agent ist kompetent kooperativ kommunikativ autonom anpassungsf hig zielorientiert mobil lernf hig fortlaufend aktiv und besitzt einen eigenen Charakter Jennings Wooldridge 1995 definieren den Informationsagenten An information agent is an agent that has access to at least one and potentially many in formation sources and is able to collate and manipulate information obtained from these sourc
78. xpm xwd Ton aiff au midi mpeg pn realaudio raw snd wav Film avi fli mpeg quicktime 3 D Objekt vrml geschachtelte Dokumente html xml sgml Beschreibung der Relationen siehe Kap 3 4 Terminologi Felder von Eintr gen Netzwerkstruktur siehe Kap 3 5 sche Eintr ge Tabelle 5 Feld Formatstruktur von Internet Dokumenten 103 Suchart Informationssysteme Suche in einfach struktu nenen Doku Newssysteme Suchmaschinen u Dokument OCLC Horizon Aleph Hinweise Volltextsuche WAIS Harvest Suchmaschinen Suche in link strukturierten HTTP URL Hyper G W3QS WebSQL Dokumenten Suche in geschachtelten TSIMMIS XQL Intermedia Dokumenten Datenbanksysteme Oracle DB2 Informix Fakteninformationssysteme STN DIMDI NlightN schen Eintr gen Intelligente Agenten Expertensysteme Agentensysteme Tabelle 6 Internet Informationsysteme Suchart Bestand Suche in einfach struktu nonen Doku Artikel Artikelgruppe Teilmenge von Artikelgruppen global Zeit menten raum Hinweise Katalog eines Bibliotheksverbunds global tionen Region Land Sprache global Zeitraum Suche in link strukturierten benannte Kollektionen Server Region Land global von Dokumenten einem Dokument navigierbare Dokumente einer best Such tiefe Zeitraum Suche in geschachtelten einzelnes XML Dokument Datenbank mehrere Datenbanken
79. zumeist nur wenige Attribute ange boten Die h ufigsten sind Name Wohnort Sitz E Mail Adresse F r kommerzielle Anwen der werden bei Fourl 1997 weiterhin die Attribute Homepage URL und Authentifizie rungsschl ssel bereitgestellt Eine umfangreiche Auflistung von Internetsuchdiensten f r Personen bietet das Hochschulbi bliothekszentrum Nordrhein Westfalen HBZ 1997c F r die Suche nach Gruppen Firmen Organisationen etc werden verschiedene Suchdienste im WWW angeboten Apollo 1997 DIB 2001 LinkStar 1997 Switchboard 2001 Bestand ist ein einzelnes Land oder die gesamte Erde Als Suchmittel k nnen die Attribute Gesch ftsbereiche L nder und Themen verwendet werden 21 Eine Suche nach Mailinglisten wird mit Liszt 2000 erm glicht Suchmittel ist der Name oder ein Teil des Namens der Mailingliste Weiterhin wird als Suchmittel eine Sachgebiets hierarchie angeboten Folgende Felder werden bereitgestellt Name der Mailingliste Schlag wort e Beschreibung mit Informationsadresse und Kontaktperson postalische Adresse E Mail Adresse etc Zusammenfassend ergeben sich folgende Felder Person e Name Nachname Vorname Titel akademischer Grad Wohnorte Stra e Hausnummer Postleitzahl Land Private und dienstliche Kommunikationsadressen Postzustelladresse Telefonnummer Faxnummer Telex E Mail Adresse Domainname Authentifizierungsschl ssel Inhaltliche Schlagworte Information ber bearbeitete
80. 1 Un FU1 xa xB xy x1 xn f1 ist Modell von Conn x xg und gU UB Uy UL Un FUL CET T xa xB xy xl xn fI Xy und f r mind ein FU e gt und f r mind ein Uj Un U und f r Ua Up Uy E U Bemerkung Aus Ubersichtlichkeitsgriinden wird im Folgenden bei den Interpretations symbolen die Interpretationsumgebung weggelassen hier 37 UP UY U1 Un FUI lt Up gt 3 ist Modell von Sh IF x2 es IX2m V html X21 fi K1 5 Xa Xn X2m und lt 3 Xq I x Conn und lt 3 xy I xg gt I Conn und I xa IX I x f r mind ein FU und f r mind ein Uj Un U und f r Ua Up Uy E U lt Up gt 3 ist Modell von Vi html X21 f1 X1 Xas Xn X2m und lt Ua U gt CONN und lt U Ug gt E CONN Ihxa 3 Xg IZ und f r mind ein FU FU2 gt und f r mind ein Uj Un U21 U2m U und fiir Ua Up Uy E U lt Up gt 3 ist Modell von I J X31 4x31 Equal html f3 x31 fo Xa1 5 f1 K1 3 Xas gt Xn lt X2m y X21 und lt U U gt CONN und lt U Ug gt e CONN und Ua Up U und f r mind ein FU FU2 gt und f r mind ein Uj Un U21 U2m U und f r Ua Up Uy U lt Up gt Sist Modell von xa xB xy x1 xn f1 145 Equal html f3 x31 fo Xa1 5 f1 K1 3 Xos Xn lt X2m X21 und lt Ua U gt
81. 1 for int i 0 i lt max i addObject l elementAt i return this public void diff HTMLList 1 subtract all elements in 1 from this HTMLList If an element from l is not a member in this HTMLList doesnt t do a anything Ef int max l size 1 for int i 0 i lt max itt removeElement l elementAt i public String toHTMLString recursively generates a HTML string from this HTMLList Ae if size 0 return StringBuffer buf new StringBuffer if isRoot buf append n lt type gt n else buf append lt li gt link toHTMLString n lt type gt n int max size 1 Enumeration elements elements for int i 0O i lt max i Object elem elements nextElement HTMLList ul HTMLList elem if ul size 0 buf append lt li gt ul link toHTMLString n if ul size gt 0 buf append ul toHTMLString n buf append lt type gt n return buf toString public HTMLList toSet generates a set from a hierarchy of this HTMLList HTMLList result new HTMLList ul link 1 int max size 1 Enumeration elements elements for int i 0 i lt max i Object elem elements nextElement HTMLList ul HTMLList elem if ul size 0 to add the leaf nodes 57 result addObject ul if ul siz
82. 1 I string e U I int e U S true e U S false e UP html e U S head e U S body e UY title e U I chapter e UP S abstract e U sat f ri 1 n i kann auch weggelassen werden 131 3 RE ying IK U Ser geal Sex gm It ines I x ue Ste Der B x Ptr gomper Sq prea ae 3 xi cU f r i 1 n i kann auch weggelassen werden 2 Ichtmir U HTML Den S head rae ee iu a x U HEAD geh gt gt I body stibody E x x U BODY UP title Fa u x x U TITLE De I chapter chen u x xX y SS Gap Dre abstract enable u x x U ABSTRACT Dee bes SER EEE I Sm f ri 1 n 3 S UNIT c 3 s 3 Conn c US x U S Equal c U x U SP c us x Ur Interpretation der Terme k sei Funktionskonstante SEE ihn ta IKE e T S0 It Ilta IEE TS Ct ay ty IE T S t SO IR Interpretation der Formeln 5 3 ist Modell von Unit t gdw lt S t gt e I Unit 3 ist Modell von Conn ti t gdw lt Ilt I t2 gt I Conn S ist Modell von Equalft t2 gdw Itti It 3 ist Modell von P ty t2 gdw lt Ilt B t gt e IP 6 f sei Funktion Konstante oder Variable bel Sorte und bel aber fester Stellenzahl 3 ist Modell von Vm t x gdw 3 ist Modell von If 3x1 IXn Vm 1 t f X1 X Xn 3 ist Modell von Vi t x
83. 1 f r mind ein FU e gt und f r mind ein U U f r U e U lt U gt gt Lh U U U und gt U Lh U Ui und und gt U U LL Ui f r mind ein FU e gt f r mind ein U e U f r U e U lt Lb gt lt Lb gt lt LI gt lt LI gt Frage 9 Welche Beziehungsart existiert zwischen li und html I P I Gxt gx pH hm xhtml lt rel gt 3 ist Modell von 4x 3x PE x x lt rel gt gt Uli Uhtml Pxl x2 ist Modell von pbm gi xhtml f r mindestens ein LI e U HTML e U lt rel gt lt gel Uli BREI AX rel LI HIME Me al gt f r mindestens ein LI e U HTML e U lt rel gt lt LI HTML gt e CONN f r mindestens ein Ll U HTML e U lt lt LI UNIT gt gt lt Lh UNIT3 gt lt L UNIT4 gt lt Ll4 UNITS gt lt LIs UNIT gt rel LI HTML li html 3 Pxl x2 P Frage 10 Welche Beziehungsarten haben die Eigenschaft Symmetric 3 A PS Symmetrie P lt rel gt 3 p ist Modell von Symmetric P lt rel gt lt I P gt e I Symmetric lt CONN gt 4 5 StructuredQL Eine Anfragesprache f r strukturierte Do kumente Anwender von StructuredQL sind Benutzer die eine universelle Suche in strukturierten Do kumenten durchf hren m chten Mit StructuredQL werden SimpleStructuredQL Simple LinkQL LinkQL und Nested amp LinkQL zusammengef hrt StructuredQL ist eine pr dikatenlog
84. 1 1 1998 gt lt No 1 1 1998 gt lt N3 1 7 1997 gt lt Ng 1 1 1997 gt lt Ns 1 1 1997 gt lt Ng 1 1 1997 gt lt Nz 1 1 1998 gt lt Ns 1 1 1998 gt CONTENT string 53 Contents lt N Information Retrieval has to move gt lt N2 No Retrieval has to gt lt N3 Dies ist eine Methode zur Stringverarbeitung gt lt Ng Zeichenfolgensuche auf Basis des Match Algorithmus gt SUBJECT 3 Subject re lt UNIT information gt lt UNIT retrieval gt lt UNIT internet gt DATE 5 Date lt UNIT 12 12 2000 gt LANGUAGE 3 Language 8 lt UNIT German gt lt UNIT German gt DATABASE 3 Database lt UNIT Loc Books gt lt UNIT2 Loc Books gt FILENAME 3 File name 8 lt F ftp cs tu berlin de pub gt lt F gt INDEX gt lt F3 audio gt lt F4 gnu gt lt Fs net gt lt Fs test txt gt lt F7 test txt gt USERID sting User i qile string lt F erhard cs tu berlin de gt lt F2 erhard cs tu berlin de gt CONTAINS 3 Contains lt F1 F gt lt Fi F3 gt lt Fi Fa gt lt Fi Fs gt lt Fa Fo gt lt Fs F7 gt COPY 3 Copy string 2 lt M bene cs tu berlin de gt lt M3 miller cs mit edu gt D A TE mailxdate Date date pe lt M 1 1 1998 gt lt Mo 1 1 1998 gt lt M3 1 7 1997 gt lt M4 1 1 1997 gt lt Ms 1 1 1997 gt
85. 21 U2m U und f r U e U Bemerkung Es wird aus bersichtlichkeitsgr nden im Folgenden jeweils bei den Inter pretationssymbolen die Interpretationsumgebung weggelassen hier JU Ur 07 Unm FUI ee x1 xn x21 xnm fl n lt U gt 3 x II K21 5 IEAS I title1 B Kn S K2m f r mind ein FU FU gt und f r mind ein Uj Un U21 Unm U und f r U e U lt U gt U gt U21 as gt Uj sa UUELE ass Uhn 235 Unm fiir U Ui U k U lt HTML gt F r die folgenden Anfragen Frage 4 Frage 5 und Frage 6 die hnlich wie die bisherigen Anfragen interpretiert werden werden die die einzelnen Interpretationsschritte weggelassen Frage 4 Welche Objekte enthalten den Titel Einleitung als Teil der Stufe 2 FAX Az titlet st Einleitung x lt HTML gt 136 Frage 5 Welche HTML Dokumente enthalten Header h1 S Ax A m hl string hl gy stringy x lt HTML gt lt HTML gt lt HTML3 gt lt HTML4 gt lt HTMLs gt lt HTML gt Frage 6 Welche HTML Dokumente enthalten an erster Stelle im Body den Header h1 Einleitung als Teil SAX 4x1 Am body on Einleitung x1 x 3x1 3x2 Am body On 8 Einleitung X1 X2 X V V 3x1 IXn Am body PS 18 Einleitung X1 Xn X lt HTML gt gt Bemerkung Die maximale Anzahl von Teilobjekten pro Stufe n wird bel aber fest gesetzt Frage 7 Aus welchen Teilen bestehen di
86. 3 result utton addExprButton removeExprButton searchButton finishSearchButton hoice predChoicel termChoicel termChoice2 depthChoicel varChoicel varChoice2 varChoice3 varChoice4 logOpChoice predChoice2 termChoice3 termChoice4 depthChoice2 lambdaChoicel lambdaChoice2 anel expressionPanell logOpPanel expressionPanel2 ont 020 030 extField inputFieldURL1 inputFieldURL2 inputFieldURL3 inputFieldURL4 ublic void init Initializes the applet window with user adequate labels buttons textFields and choice menus for manipulating the logical query setLayout new BorderLayout setFont new Font TimesRoman Font PLAIN 12 title new Label URL Echo Sounder URLES fo20 new Font TimesRoman Font BOLD 20 title setFont fo20 title reshape 10 10 400 30 add title Add log Expression addExprButton new Button Add Expression addExprButton reshape 70 50 90 30 add addExprButton Remove log Expression removeExprButton new Button Remove Expression removeExprButton reshape 200 50 110 30 add removeExprButton Query Expression Panell with FlowLayout expressionPanell new Panel expressionPanell setLayout new FlowLayout FlowLayout LEFT expressionPanell reshape 10 90 600 60 Predicate LogOpChoice logOpChoice new Choice logOopChoice addItem And logOpChoice addItem Or Log Operator Panel logOpP
87. 3 Berners Lee Tim Hypertext transfer protocol Unter info cern ch hypertext W W W Protocols HTTP HTTP2 html Berners Lee 1995 Tim Berners Lee HyperText Markup Language Specification Version 3 0 W3 Consortium 1995 Unter www w3 org pub W W W MarkUp html3 CoverPage html Berners Lee Connolly et al 1995 Tim Berners Lee Dan Conolly Wayne Gramlich Jo nathan Hirschman Charlie Kindel Lou Montulli Eric Sink Inserting multimedia objects into HTML3 W3C Working Draft Dezember 1995 185 Unter www w3 org pub W W W TR WD insert 95 122 1 html Bos Jacobs et al 1998 Bos B Jacobs I Lie H Lilley C Cascading Style Sheets level 2 CSS2 Specification W3C Recommendation Mai 1998 Unter www w3 org TR REC CSS2 HTTP 1996 T Berners Lee R Fielding H Nielsen Hypertext Transfer Protocol HTTP 1 1 Internet draft Januar 1996 Unter ftp ietf cnri reston va us internet drafts draft ietf http v 1 1 spec 01 txt Burchard Raggett 1995 P Burchard D Raggett Compound Documents in HTML Inter net draft November 1995 Unter ftp ietf cnri reston va us internet drafts draft ietf html cda 00 txt Maloney Quin 1996 Maloney M Quin L Hypertext links in HTML Internet draft Januar 1996 Unter ftp etf cnri reston va us internet drafts draft ietf html relrev 00 txt Raggett 1996 D Raggett HTML Tables Internet draft Januar 1996 Unter ftp ietf cnri reston va us internet drafts draft ietf html tables 0
88. 6 txt Ragett 1997 Ragett Dave HTML 3 2 Reference Specification Unter www w3 org pub W WW TR REC htm132 html SHTTP 1996 E Rescorla A Schiffman The Secure HyperText Transfer Protocol Internet draft Terisa Systems Inc Mai 1996 Expires November 96 Unter ftp cnri reston va us internet drafts draft ietf wts shttp 02 txt SSL 1996 Alan O Freier Philip Karlton Paul C Kocher The SSL Protocol Version 3 0 M rz 1996 Unter ftp etf cnri reston va us internet drafts draft freier ssl version3 01 txt X 509 S Farrell W Ford R Housley D Solo X509 Internet Public Key Infrastructure No vember 1995 Unter ftp ietf cnri reston va us internet drafts draft ietf pkix ipki 00 txt International Organisation for Standardisation ISO ISO Index International Standards International Organisation for Standardisation ISO M rz 1996 Unter www iso ch cate cat html ISO 646 Information technology ISO 7 bit coded character set for information interchange Genf ISO 1991 ISO 704 Principles and methods of terminology Genf ISO 1987 ISO 1087 Terminology Vocabulary Genf ISO 1990 ISO 1087 2 Committee Draft Terminology work Vocabulary Part 2 Computational aids in terminology Genf ISO TC 37 SC 3 N 127 1993 ISO 1951 Lexicographical symbols particularly for use in classified defining vocabularies Genf ISO 1973 ISO 2709 Documentation Format for bibliographic information interchange on magne
89. 997 Araneus 2001 ARANEUS HOME PAGE Unter www dia uniroma3 it Araneus Februar 2001 Autonomy 2001 Autonomy Automating the Digital Economy Unter www autonomy com Januar 2001 Bigfoot 2001 Bigfoot the global e mail directory for the online community Unter www bigfoot com Februar 2001 Bunyip 1996 Bunyip Information Systems 310 St Catherine St West Suite 202 Montreal Quebec H2X 2AI Telefon 514 875 8611 E mail info bunyip com unter www bunyip com Chemie 1997 WWW Server FB Chemie FU Berlin Search for Servers in WWW Welcome Pages Unter www chemie fu berlin de cgi bin srch cgi outerspace www servers Marz 1997 CIFS 1997 Common Internet File System Resource Center Unter www cifs com Marz 1997 Clever 2001 The Clever Project Unter www almaden ibm com cs k53 clever html Februar 2001 CNIDR 1996 Center for Networked Information Discovery and Retrieval Unter www cnidr org Cyc 2001 Cyc Corporation Upper Cyc Ontology Unter www cyc com cyc 2 1 cover html Februar 2001 Cyveillance 2001 Unter http cyveillance com us newsroom pressr 000710 asp Januar 2001 DejaNews 2000a Dejanews The source for Internet Newsgroups Homepage unter www dejanews com August 2000 DejaNews 2000b Deja com Corporate Site Unter www dejanews com corp about shtml August 2000 DeTeMedien 2001a DeTeMedien Teleauskunft 1188 Unter www teleauskunft1 188 de Februar 2001 DeTeMe
90. An ein Funktionsausdruck des Typs T 3 Wenn A ein Ausdrucks des Typs T A2 Ausdruck des Typs T2 An Ausdruck des Typs Tn ist und PT ein Pr dikatensymbol Konstante oder Variable des Typs T Tn ist dann ist P7 A An ein Pr dikatausdruck des Typs T Tn 4 Wenn A A und A gt Ausdr cke sind dann sind auch A A A Az Ay V A2 Aj gt A2 A Ad 4 xi A Y xi A E PT A v POP A Formeln 5 Das sind alle Formeln Anfragen 1 Wenn A ein Ausdruck ist dann ist Ax A eine Anfrage 2 Wenn A ein Ausdruck ist dann ist ACT A eine Anfrage 3 Wenn A ein Ausdruck ist dann ist AP A eine Anfrage Semantik Eine Interpretation I ist eine Abbildung welche jedem Individuensymbol c bzw x genau ein Element I c bzw I x aus U jedem Funktionssymbol k T bzw f gt T genau eine Abbildung I k T bzw If T von U x x U auf U und jedem Pr di katensymbol C gt bzw P gt genau eine Relation S C bzw S T auf U x x U zuordnet Interpretation der Individuen Funktions und Pr dikatensymbole 1 3 c8 e US Ic U B x e US B x e U 2 3 EAU LU RUN SE Ye UT RU Sy ER ee ar ei ee Interpretation der Funktionsausdr cke 4 SkT TED CAL An IKT Ten SAD ICAn SET MAG a p An IE PD SAD I An Interpretation der Pradikatausdriicke 5 3 is
91. Anfragesprachen fur Internet Informationssysteme Inauguraldissertation zur Erlangung des Grades Dr phil im Promotionsfach Bibliothekswissenschaft vorgelegt an der philosophischen Fakultat I der Humboldt Universitat zu Berlin von Diplom Informatiker Josef Willenborg aus Berlin Tag der Disputation 17 Juli 2001 Erstgutachter Prof Dr Walther Umstatter Zweitgutachter Prof Dr Friedrich Braun Kommissionsvorsitz Prof Dr Rainer Kuhlen Dekan der Philosophischen Fakultat I Prof Dr Wilfried Nippel F r Pucki und Benjamin Danksagungen Mein besonderer Dank gilt Prof Umst tter Er hat diese Arbeit erm glicht und die entschei denden Weichenstellungen und Hinweise gegeben Prof Braun danke ich f r die wertvollen Anregungen insbesondere auf dem Gebiet der The saurus und W rterbuchforschung Weiterhin danke ich ihm die fruchtbaren Treffen in der Zeit des ATLAS Projekts und danach Besonders danken m chte ich auch Benedikt Homann und Roman Czyborra f r ihre techni sche Unterst tzung und ihre unerm dliche Bereitschaft Fragen zu beantworten Weiterhin danke ich Vincent Winczewski f r seine Hinweise insbesondere zu Suchmaschinen Mein Dank gilt weiterhin Prof Konrad und Dr Reiner die mit ihren Dissertationen eine Grundlage f r diese Arbeit geschaffen haben Allen meinen Diplomand innen danke ich f r ihre zahlreichen Anregungen Insbesondere danke ich Haider Hammoudi Frank Hartlep I Eng Kho Ren Sch nfeldt Wol
92. Archie unter cs rochester edu u ferguson oder Email ferguson cs rochester edu Juli 1994 Fernandez Popa Suciu 1997 Mary Fernandez Lucian Popa Dan Suciu A structure based approach to querying semistructured data In Proceedings of the Workshop on Database Pro gramming Languages 1997 Flanagan 1996 Flanagan David Java in a Nutshell 1 Ausgabe in deutscher Sprache O Reilly 1996 Foster 1994a Foster Steven Installing the veronica server and data version 0 6 5f Juni 1994 unter gopher futique scs unr edu 70 00 veronica A bout Server INSTALL Foster 1994b Foster Steven How to compose Veronica queries Juni 1994 unter gopher veronica scs unr edu 70 00 veronica how to query veronica Fuhr 1991 Fuhr Norbert Hrsg Information Retrieval Berlin Informatik Fachberichte Nr 289 Berlin et al Springer Verlag 1991 Fuhr 1995 Fuhr Norbert Modelling Hypermedia Retrieval in Datalog In Proceedings HIM 95 Universit tsverlag Konstanz Konstanz April 1995 Fuhr et al 1995 Fuhr N Huynh T Pfeifer U Searching structured documents with the enhanced retrieval functionality of freeWAIS sf and SFgate Computer Networks and ISDN Systems 27 6 1995 pp 1027 1036 oder unter www igd fhg de www www95 papers 47 fwsf fwsf html Garcia Molina Paepcke 1996 Garcia Molina H Paepcke A Proposal for a I 3 client server protocol Technical Report September 1996 Garcia Molina Hammert et al
93. Aufgabe des Indexierers besteht darin am schwarzen Brett Kandidaten f r neue zu modifiziernde oder zu entfernende Terminologieeintr ge vorzuschlagen Diese werden von Terminologen Terminologiepflegern verbessert und von Informationssuchenden und anderen Indexierern am Fachgebiet kommentiert und getestet Weiterhin untersucht der Indexierer von den anderen Indexierern und Arbeitsgruppen vorge schlagene Terminologie Kandidaten in der Praxis und beurteilt sie am schwarzen Brett Der Indexierer beurteilt zudem die Relevanzurteile die Informationssuchende f r ihre Anfra gen am schwarzen Brett ver ffentlicht haben und stellt daraus resultiernde Modifikationsw n sche f r den Terminologiebestand und den Katalog am schwarzen Brett vor Der Indexierer legt sein Wissen ber Terminologiepflege und Indexierung offen Begr ndun gen nach denen er in der Praxis vorgeht 162 Informationssuchender Informationsvermittler Informationssuchende versuchen ihre Anfragen so zu formulieren da dies der Indexierer und Terminologe versteht Der Informationssuchende ist verantwortlich f r die Formulie rung seiner Anfrage Wenn der Informationssuchende an einer Verbesserung seiner Kommunikation mit den In formationsablegenden interessiert ist kann er ber das schwarze Brett mit ihnen in Kontakt treten und damit seinen Einflu bei der Informationsablage geltend machen Er testet das zugrundeliegende System dadurch da er dort ffentlich die Relev
94. Case Delivers next token which begins with beginString and ends with endString ignoreCase is a flag for swithing case on false or off true int endStringLength endString length int start str indexOf beginString currentPosition true int end str indexOf endString start true if start 1 end 1 currentPosition maxPosition return currentPosition endtendStringLength return str substring start currentPosition 217 218 Erklarung Hiermit versichere ich da ich diese Arbeit selbst ndig verfa t und keine anderen als die an gegebenen Hilfsmittel benutzt habe Diese Arbeit ist bisher noch nicht anderweitig als Dis sertation eingereicht oder ver ffentlicht worden Berlin im Juni 2001 Bi Digitally signed by Josef Willenborg iieo 7 DN cn Josef Willenborg a Date 2001 09 15 Signature 15 21 14Z Josef Willenborg 219
95. Choicel pressionPanell layout pressionPanell repaint predChoicel getSelectedItem Desc pressionPanell add labelComma2 5 pthChoicel select 1 pressionPanell add depthChoicel 6 pressionPanell layout pressionPanell repaint e target predChoice2 predicate choice 87 predChoice2 getSelectedItem Conn expressionPanel2 remove labelComma4 expressionPanel2 remove depthChoice2 expressionPanel2 layout expressionPanel2 repaint predChoice2 getSelectedItem Desc expressionPanel2 add labelComma4 5 depthChoice2 select 1 expressionPanel2 add depthChoice2 6 expressionPanel2 layout expressionPanel2 repaint e target termChoicel predicate choice ay xpressionPanell remove termChoicel termChoicel getSelectedItem URL expressionPanell add inputFieldURL1 2 if termChoicel getSelectedItem Var expressionPanell add varChoicel 2 expressionPanell layout expressionPanell repaint e target termChoice2 predicate choice x expressionPanell remove termChoice2 if termChoice2 getSelectedItem URL expressionPanell add inputFieldURL2 4 if termChoice2 getSelectedItem Var expressionPanell add varChoice2 4 expressionPanell layout expressionPanell repaint f e target termChoice3 predicate choice expressionPanel2 remove termChoice3 if termChoice3 get
96. DBI f r Sacherschlie ung Berlin Deutsches Bibliotheksinstitut 1991 Schlagwortnormdatei Schlagwortnormdatei SWD bearb von der Deutschen Bibliothek Frankfurt am Main Deutsche Bibliothek 1993 American National Standards Institute ANSI 183 ANSI Index Searching the ANSI Catalog American National Standards Institute ANSI Marz 1996 Unter www ansi org cat_c html Z39 50 1995 Z39 50 Information Retrieval Application Service Definition and Protocol Speci fication for Open Systems Interconnection ANSI NISO July 1995 International Requests for Comments RFC RFC Index Request for comments Internet Society ISOC IETF Secretariat Corporation for National Research Initiatives Unter www ietf org oder unter www fags org rfcs RFC 742 K Harrenstien Name Finger Dezember 1977 Unter www fags org rfes rfc742 html RFC 791 Postel J Internet Protocol Darpa Internet Program Protocol specification Septem ber 1981 Unter www fags org rfes rfc791 html RFC 793 Transmission Control Protocol Darpa Internet Program Protocol specification Sep tember 1981 Unter www fags org rfes rfc793 html RFC 812 K Harrenstien und V White Nicname Whois 1982 Unter www fags org rfes rfc812 html RFC 821 J Postel Simple mail transfer protocol 1982 Unter www fags org rfes rfc821 html RFC 854 J Postel J Reynolds Telnet protocol specification Mai 1983 Unter www faqs org rfcs rfc854 html RFC 954
97. Entsprechung zur Semantik aufgebaut da die syntaktische Form der Ausdr cke die Struktur ihrer Bedeutungen widerspiegelt Kutschera 1975 222 24 Die m chtigste denkbare Anfragesprache k nnte die Potenzmenge des Dokumentenbestands Menge aller Teilmengen des Dokumentenbestands bilden Diese Sprache ist jedoch im praktischen Einsatz ungeeignet da sie f r die unterschiedlichen Benutzeranfragesprachen zu m chtige Sprachmittel bereitstellt Systemsprachen m ten diese unn tige M chtigkeit mit dem Preis einer geringeren Systemperformanz im Informationssystem nachbilden 25 3 Anfragen in Internet Informationssystemen In Internet Informationssystemen stehen Darstellungs und Navigationsaspekte im Vorder grund Anfragen werden explizit nur am Rande behandelt Man kann von Gl ck reden wenn Teile der Syntax der Anfragen oder sogar die Semantik definiert werden Positive Beispiele sind die Anfragesprache HyQ ISO 10744 DeRose Durand 1994 und XQL Lapp Robie Schach 1998 bei der die Syntax definiert und Anfragebeispiele gegeben werden Besser entwickelt sind Anfrageverfahren die sich hinter den Benutzeroberfl chen inzwischen meist Fenstersysteme der einzelnen Systeme verbergen Ein Mausklick kann zum Beispiel eine Nachbareinheit eines Dokuments oder ein drei Schritte zuvor gefundendes Dokument selektieren oder aktivieren Eine Bewegung des Scrollbuttons am rechten Rand des Fensters f hrt dazu da weitere Dokumente geladen w
98. FLAN po es o Baa en a kao etal G n D D zj j a D zji E D e mj hy j Fy mj E D FLAN FLAN FLAN FLAN FLAN FLAN FLAN 201 predName argl arg2 arg3 resultType Predicate pred int depth 1 ww r predName strTokenizer nextToken if predName equals Conn argl strTokenizer nextToken arg2 strTokenizer nextToken resultType list if predName equals Desc argl strTokenizer nextToken arg2 strTokenizer nextToken arg3 strTokenizer nextToken Integer depthInteger new Integer arg3 depth depthInteger intValue resultType hierarchy pred new Predicate predName argl arg2 depth resultType if pos equals first predl pred if pos equals second pred2 pred public void initLambdaVars StringTokenizer strTokenizer Parses the query for lambda variables Generates an alphabetically sorted list of lambda variables for the instance variable lambdaVars VarList result new VarList while strTokenizer hasMoreTokens this xf Ef Variable var new Variable strTokenizer nextToken new HTMLList ul result addElement var result sort lambdaVars result public void initVars Generates an alphabetically sorted list of all variables in all predicates for the instance variable vars VarList vars new VarList if isVar
99. H12 gt lt Einleitung H13 gt lt Grundlagen H14 gt lt Anfragen in Internet Informationssystemen H15 gt lt Anfragesprachen f r Internet Informationssysteme H16 gt lt Literatur H17 gt u sists lt Einleitung LI gt lt Grundlagen L gt lt Anfragen in Internet Informationssystemen Ll gt lt Anfragesprachen f r Internet Informationssysteme L gt lt Literatur LI gt uL Sul lt 1 Lb Lb LU Lis ULi gt San 3 hea quiches lt TITLE HEAD gt lt TITLE gt HEAD2 gt lt TITLE3 HEAD3 gt lt TITLE4 HEAD gt lt TITLEs HEADs gt lt TITLEs HEAD6 gt gt Bopy 3 body1 Mt Pictvideobody lt H11 H12 UL PICT VIDEO BODY gt gt BODY S body2 Sins ody lt H1 Seit Entstehung des World Wide Web WWW hat sich BODY gt gt lt H1 4 Das Internet entstand Anfang der 70er Jahre als BODY3 gt lt H1s In den Internet Informationssystemen stehen BODY gt lt Hle Wir behandeln die Entwicklung von Anfragesprachen BODY gt gt lt Hl7 Abiteboul Beeri 1995 BODY 6 gt 3 html head body hem y HTML 7 lt URL HEAD BODY HTML gt lt URL2 HEAD2 BODY2 HTML gt gt lt URL3 HEAD BODY3 HTML gt lt URL4 HEAD4 BODY4 HTML lt URLs HEADs BODYs HTMLs gt lt URL HEAD BODY6 HTML gt gt URLU TITLE U gt H U LIU HEAD U gt Bopy1 U gt BODY2 U HTML Relationen UN
100. HyTime HyQ 1 1 Kimber ISO 12200 Committee Draft Computational aids in terminology Terminological interchan ge format TIF An SGML application Genf ISO TC 37 SC 3 WG 3 N9 1993 ISO 12620 Working Draft Computational aids in terminology Terminology interchange format TIF Data element dictionary Genf ISO TC 37 SC 3 WG V N 7 1993 ISO 13522 1 Information technology Coding of Multimedia and Hypermedia information Part 1 MHEG object representation Base notation Genf ISO IEC DIS 1996 ISO 13522 3 Information technology Coding of multimedia and hypermedia information Part 3 MHEG script interchange representation Genf ISO IEC DIS 1996 ISO 13522 4 Information technology Coding of multimedia and hypermedia information Part 4 Registration procedure for MHEG format identifier Genf ISO IEC DIS 1996 ISO 13522 5 Information technology Coding of multimedia and hypermedia information Part 5 Support for Base Level Interactive Applications Genf ISO IEC DIS 1996 ISO SQL 3 Database Language SQL Foundation SQL3 Part 1 5 August 1994 X3H2 Wor king Draft unter ftp digital com 80 pub standards sql Internationale Arbeitsgruppen f r Standardisierung Internet Standardization Group HTML Joint Technical Committee ISO IEC JTC 1 Information Technology 187 Technical Committee ISO TC 37 Terminology Technical Committee ISO TC 46 Documentation 188 10 4 Symbole Mengen M X E X XeM M
101. IT I3 Unit lt HTML gt lt HTML gt gt lt HTML3 gt lt HTML gt lt HTMLs gt lt HTML gt CONN 5 Conn himly 2 lt Ll HTML gt gt lt Lb HTML3 gt lt LI HTML4 gt lt LL HTMLs gt lt LIs HTML6 gt SYMMETRIC 3 Symmetric lt CONN gt lt lt Ll HTML gt gt lt Lb HTML gt lt LL HTML4 gt lt L HTMLs gt lt LIs HTML6 gt gt Frage 1 Welche HTML Dokumente existieren lt U gt JY ist Modell von Unit x f r U e S html lt U gt lt 3 R gt e IY Unit f r U e U lt U gt lt U gt e UNIT f r U e U lt HTML gt lt HTML gt lt HTML3 gt lt HTML4 gt lt HTML gt lt HTML gt Frage 2 Welche Teile der Stufe 2 hat das Objekt html S Ax V 2 html x lt U gt 3 ist Modell von V2 html x f r U U lt U gt 3 ist Modell von fi 3x1 Xn V html fi x1 X Xn f r U U lt U gt SUUP On FUI ar ist Modell von Vi html f x1 X Xn 135 f r mind ein FU gt und f r mind ein U Un U und f r U U lt U gt JY UP Un FUL xn fi ist Modell von Ef 3 X21 3X2m Equal html fo xa1 fi amp 1 X Xn X2m f r mind ein FU gt und f r mind ein U Un U und f r U U lt U gt 3 html STE ep een f r mind ein FU FU2 gt und f r mind ein Uj Un U21 Um Uj und f r
102. K Harrenstien M Stahl E Feinler Nicname Whois Oktober 1985 Unter www faqs org rfcs rfc954 html RFC 959 J Postel J Reynolds File transfer protocol ftp Oktober 1985 Unter www faqs org rfcs rfc959 html RFC 977 B Kantor P Lapsley Network News Transfer Protocol A Proposed Standard for the Stream Based Transmission of News Februar 1986 Unter www fags org rfes rfc977 html RFC 1014 Sun Microsystems Inc XDR External Data Representation Standard Juni 1987 Unter www faqs org rfcs rfc1014 html RFC 1034 P Mockapetris Domain names concepts and facilities November 1987 Unter www fags org rfcs rfc 1034 html RFC 1036 M Horton R Adams Standard for Interchange of USENET Messages December 1987 Unter www faqs org rfcs rfc 1034 html RFC 1057 Sun Microsystems Inc RPC Remote Procedure Call Protocol Specification Ver sion 2 Juni 1988 Unter www faqs org rfcs rfc 1057 html RFC 1094 Sun Microsystems Inc NFS Network File System Protocol Specification M rz 1989 Unter www faqs org rfcs rfc 1094 html RFC 1288 D Zimmerman The Finger User Information Protocol Dezember 1991 Unter www faqs org rfcs rfc1288 html RFC 1292 R Lang R Wright A Catalog of Available X 500 Implementations Lawrence Ber keley Laboratory Editors Januar 1992 RFC 1308 C Weider J Reynolds Executive Introduction to Directory Services Using the X 500 Protocol Marz 1992 RFC 1309 C Weider J Reynolds S Hek
103. Ma Cunit xp f r U U nin lt Up gt IMP ist Modell von 1 3 unit xg oder xp ist Modell von 1 unit xg oder xp ist Modell von 1 unit xg oder xp ist Modell von Man unit xp oder xp Ist Modell von 2 unit Xg oder xp ist Modell von Materal unity xg f r U e U lt Up gt en x1x2 Ist Modell von Path unit X1 X2 Xp oder UB UT U2 x1 x2 ist Modell von Path unit x1 Xp oder UB UT U2 x1 x2 ist Modell von Pat unit xg oder Re we x1 x2 ist Modell von Path Material unit x1 x2 Xp oder 2 2 B B UB B Used Material B pE UB UI l d Material UI U2 g x1 x2 ist Modell von Path Material uniti x1 Xp oder UBUT U2 x1 x2 ist Modell von Pat unit xg und UB U1 U U U1 U UB UI U2 aS p 3 B xB xl x2 X2 Used Material amp 1 UB UI U xB x1 x2 unit oxi x2 X1 Bx x2 Xp und f r U e U lt Up gt gueu Er x1 x2 ist Modell von Conn unit x1 und 127 UB U1 U tad 8 x1 x2 Ist Modell von Conn x 1 x2 und 8 x1 x2 ist Modell von Conn x gt xg oder 8 x1 x2 Ist Modell von Conn unit x1 und 8 x1 x2 ist Modell von Conn x xg oder 8 x1 x2 ist Modell von Conn unit xg oder 8 x1 x2 Ist Modell von Used Material unit x1 und g x1 x2 Ist Modell von Used Material x x2 und 8 x1 x2 ist Modell von Used Material x2 xg oder 8 x1 x2 Ist Modell von Used Material unit x1 und 8 x1 x2 ist Modell von Used
104. Material x1 xg oder 8 x1 x2 ist Modell von Used Material unit xg und xB x1 x2 unit JUP UI U2 px x281 IPU Axio eS und f r U e U lt Up gt lt U U Br a xo unit SUB UI U2 UBUIU2 ol UB UI U2 P UI U2 g x1 x2 x2 3P Y Pi x1 x2 Xg gt 2B x1 x2 Conn oder ees p x x2 unit Sen en x1 x2 X1 gt So U2 g x1 x2 Conn und px 281 IPT es x1 x2 Xg gt seu et x1 x2 Conn oder g x1 x2 unit re pi U xl x2 Xp gt Ss vi a x1 x2 Conn oder 8 x1 x2 unit oe Sa ee x1x2 X1 gt ae u Fa x1 x2 Used Material und 8 x1 x2 X1 ah u a x1x2 X2 gt all U2 g x1 x2 Used Material und B x1 x2 X2 seul eet x1 x2 Xg gt sem rea x1 x2 Used Material oder 8 x1 x2 unit au yi i x1 x2 X1 gt SP yi E x1 x2 Used Material und B x1 x2 X1 ory ee x1x2 Xp gt au ue x1 x2 Used Material oder N es x2 unit Seu U2 g x1 x2 Xp gt gpu vo x1 x2 Used Material und gP U U2 x1 x2 unit au a x1 x2 X1 SPU res x1 x2 X2 GPU Oe x1 x2 Xg und f r U e U lt Up gt lt UNIT Ui gt CONN und lt U U2 gt e CONN und lt U2 Ug gt CONN oder lt UNIT U gt e CONN und lt U Ug gt e CONN oder lt UNIT Ug gt CONN oder lt UNIT U gt USED MATERIAL und lt U U2 gt e USED MATERIAL und lt U3 Ug gt e USED MATERIAL oder lt UNIT Ui gt e USED MATERIAL und lt U Ug gt USED MATERIAL oder lt UNIT Ug gt USED MATERIAL und UNIT Up Ui Up
105. Middendorf Singer Strobel 1996 ist eine der er sten Programmiersprachen die Unicode intern verwendet 2 1 5 Regul re Ausdr cke Eine m chtige M glichkeit der Volltextsuche bietet die Suche mit sogenannten regul ren Ausdr cken Dabei werden Metazeichen und Fluchtzeichen verwendet Ein Metazeichen ist ein Zeichen des Alphabets das eine eine Bedeutung ber das Zeichen hinaus hat Beispiele von Metazeichen in regul ren Ausdr cken sind die Zeichen Ein Fluchtzei chen ist ein Zeichen des Alphabets das die Metabedeutung des direkt nachfolgenden Zeichens aufhebt Beispiel ist das Zeichen Gulbins Obermayr 1995 geben einen Uberblick tiber Flucht und Metazeichen in regul ren Ausdr cken und ihre Bedeutung Regul re Ausdr cke k nnen z B in Unix Betriebsystemkommandos oder in dem Textverarbeitungssystem Micro soft Word 2000 verwendet werden 2 2 Hypertext Hypermedia 2 2 1 Was ist Hypertext Hypermedia Die Grundidee bei Hypertext besteht darin Information nicht sequentiell sondern in einem vernetzten Gewebe Netzwerk Web Net zu pr sentieren Ein Hypertext besteht aus einer Menge von Dokumenten und ihren Beziehungen untereinander Nielsen 1996 Der Begriff Hypermedium weist zus tzlich auf den multimedialen Charakter der Dokumente hin Der Begriff Hypertext wird im Folgenden als Synonym f r Hypermedium verwendet Hypertext Dokument Synonyme Knoten Frames Karten Rahmen Fenster etc Hype
106. NN und lt U UNIT19 gt CONN und Ua U UNIT10 und f r U e U lt UNIT gt lt UNITe gt Frage 4 Welches sind die Geschwister des Dokuments unit7 bzgl der Beziehung Conn IA x1 SO unit x1 lt U gt 3714 ist Modell von unit7 x1 f r U e U Ue JT Y x2 ist Modell von Conn x2 unit und gU U2 ist Modell von Conn x gt x1 und zu ofunit IY Y x2 x1 und f r U e U lt U gt lt J ane x2 X2 Se U2 x2 unit7 gt g ee x2 Conn und JT Y2 Kr IT act K gt e SU a xo Conn und gT Y2 o unity 3 0x1 und f r U e U lt U gt lt U2 UNIT7 gt CONN und lt U2 U gt e CONN und UNIT Up und f r U e U lt UNIT gt gt lt UNIT3 gt lt UNIT gt lt UNIT gt lt UNIT gt lt UNIT gt lt UNITs gt lt UNITo gt Frage 5 Welche Stationen liegen zwischen den Dokumenten unit und unit bzgl der Bezie hung Conn bei Pfaden h chstens der L nge 2 S A x 8 unit unityo x lt U gt Zla ist Modell von unit unitio xy Conn f r U e U nih lt U gt SOT y x1 x ist Modell von Path unit x X2 unito oder 126 oly U1 U2 pE xy x1 x2 ist Modell von Pat f r n 2 und f r U oe lt U gt Ss ee x2 ist Modell von Conn unit xy und Uy UI U2 1x2 ist Modell von Conn x x2 und Brut a x2 ist Modell von Conn x2 unitjo und UUI U2 o uniti ZUR a x JYT Y Uy ULU xyxl unit o oder ar x2
107. Newsgroup Ssns x e s comp lang java programmer A tri t E t Content stins yros xS A Contains esting formation retrieval f r U e U und f r mindestens ein U e US 1 U2 UI U2 l KU gt lt go KO 37 Y x2 comp lang java programmer gt UI 2 stri I 41 x2 Newsgroup 8 und Ul Ue news U1 U2 strin lt 3 ee nes 1X 2 gt sul U2 x2 Content 2 und gU Y2 a x enth lt den regul ren Ausdruck I y1 x2 formation retrieval f r U e U und f r mindestens ein U e U 2 lt U gt lt U comp lang java programmer gt e NEWSGROUP und lt U U gt CONTENT string und xS 116 U enth lt den regul ren Ausdruck formation retrieval f r U e U und f r mindestens ein U e U lt N gt Frage 7 Welche Deskriptoren werden f r E Mails benutzt IA p eibstring J x a xe pailsting gmail xls lt rel gt 3 ist Modell von 3 x 3 xS pmaibstring Mal string Y lt rel gt SU 2 x1 x2 ist Modell von P SE mail xstins f r mindestens ein U e U und ein U e u8 lt rel gt lt J U1 ea Ho xm rel Ul Bee F stens ein U e U und ein U e US lt rel gt lt U U gt e 3p Pms f r mindestens ein U e U und ein Uz e UN lt COPY gt lt FROM gt lt TO gt lt DATE dte i 1 U1 U2 il stri i x2 x50 8 gt gre UI U o P 58 ring f r minde Die folgenden An
108. Nicname Whois nach RFC 954 Directory Access Protocol DAS Directory Sy Directory User X 500 nach RFC 1308 RFC 1309 stem Agents Agents RFC 1292 bzw ISO 9594 Rechner Domain Name System DNS nach Domain Name Domain Name Re Netzwerk RFC 1034 Service solver Grunds tzlich ist ein Protokoll eine bereinkunft dar ber wie Kommunikation vonstatten zu gehen hat Tanenbaum 1995 S 486 Prospero Protocol Prospero Archie Prospero XDR nach RFC 1014 Alex Alex Remote Procedure Call RPC nach RFC 1057 Datei Telnet Protocol nach RFC 854 HyTelnet File Transfer Protocol FTP nach RFC 959 Prospero Archie ae SMTP nach RFC 821 822 nach X 400 ISO 10021 fer Agent Artikel Network News Transfer Protocol Usenet News Rn Trn Netnews NNTP nach RFC 977 Tin Gopher Protocol nach RFC 1436 Xgopher Netscape Dokument Information Retrieval Service and Wide Area In waissearch free hinweis Protocol Standard Z39 50 formation Sy WAIS freeWAIS stem WAIS sf Z39 50 Z39 50 Dokument HTTP nach RFC 1945 Explorer Kappe Pani 1996 Fakten ODBC JDBC Protokolle der ODBC JDBC steme Tabelle 2 Protokolle von Internet Informationssystemen Um die Herkunft der Daten aus einer verl lichen Quelle zu gew hrleisten werden in den Protokollschichten Mechanismen zur Authentifizierung vorgehalten Stallings 1995 SHTTP 1996 SSL 1996 2 1 4 Zeichens tze Ein Zeichensatz ist eine zum Sch
109. P die Wahrscheinlichkeit bedeu tet mit der die jeweiligen Zeichen dieser Nachricht eintreffen Wenn beispielsweise das Al phabet A a b c d e f g h gegeben ist und jedes dieser Zeichen mit der Wahrscheinlich keit von 1 8 eintrifft dann hat eine Nachricht mit der Lange von 8 Zeichen den mittleren In formationsgehalt von H 1 8 logy 1 8 8 1 8 3 8 3 Nach Salton 1983 S 7 ist der Begriff Informationssystem Oberbegriff fiir Managementin formationssystem Datenbankmanagementsystem Entscheidungsunterstiitzungssystem Frage Antwortsystem und Information Retrieval System Bei Reiner 1991 S 35 ist der Begriff In formationssystem Oberbegriff f r Dokumenten Fakten und Erkl rungssuchsystem Ein Informationssystem ist ein System das der Speicherung und Wiedergewinnung von In formation dient Information liegt in informetrischen Einheiten vor Ein besonderer Typ in formetrischer Einheiten sind die Dokumente Dokumente sind als Oberbegriff verschiedener Dokumenttypen Akten Bilder B cher Briefe oder Tonaufzeichnungen handhabbare informetrische Einheiten die sich auf verschiedenen Informationstr gern befinden k nnen und damit sehr unterschiedlichen Umfang und variable Gestalt zeigen Ewert Umst tter 1997 S 164 Ein weiterer Dokumenttyp der in dieser Arbeit eine besondere Rolle spielt sind die elektroni schen Dokumente Diese lassen sich folgendenderma en einteilen Elektronische Dokum
110. P V lt U gt lt U test txt gt FILENAME und lt U erhard cs tu berlin de gt USERID und lt Us ftp cs tu berlin de pub gt e FILENAME und S ist Modell von Contains xg x1 und 3 ist Modell von Contains x1 x2 und 3 ist Modell von Contains x2 x3 und 3 ist Modell von Contains x3 Xa und Ihxa I amp g I x1 I x2 3 K3 oder 3 ist Modell von Contains xg x1 und 3 ist Modell von Contains x1 x2 und 3 ist Modell von Contains x2 Xa und 3 Xq I Xg I x1 I x2 oder 3 ist Modell von Contains xg x1 und 3 ist Modell von Contains x1 Xa und 3x 3 xg 3 x1 f r Ua U und f r mindestens ein Ug U1 U2 U U lt U gt lt U test txt gt FILENAME und lt U erhard cs tu berlin de gt USERID und lt Us ftp cs tu berlin de pub gt e FILENAME und lt 3 xg 3 X1 gt 3 Contains und lt I x 1 3 x2 gt 3 Contains und lt 3 X2 3 x3 gt 3 Contains und lt 3 x3 3 Xq gt 3 Contains und Usa Ug ZU ZU U3 oder lt 3 xpg 3 X1 gt 3 Contains und lt 3 x1 3 x2 gt S Contains und lt 3 x2 I xa gt 3 Contains und Ua Up U1 U2 oder lt 3 xg I x 3 Contains und lt 3 x1 I xa gt 3 Contains und Ua Up U f r U e U und f r mindestens ein Us Ui U2 U u lt U gt lt U test txt gt e FILENAME und lt U erhard cs tu berlin de gt e USERID und lt Us ftp cs tu be
111. Projekte Pers nliche Daten Hobbies Telefonnummer etc Informationsadressen BTX WWW Hyper G Typ nat rlich virtuell juristisch Zeitpunkt der letzten nderung des Eintrags Gruppe e Name e Sitze Erstsitz Zweitsitz etc Stra e Hausnummer Postleitzahl Land e Kommunikationsadressen Postzustelladresse Telefonnummer Faxnummer Telex E Mail Adresse Domainname Informationsadressen BTX WWW Hyper G Gesch ftsbereiche Projekte Inhaltliche Schlagworte Typ Firma Institution Organisation Verein juristische Person virtuelle Gruppe Mitglieder eine Anzahl von Personen oder wieder Gruppen Zeitpunkt der letzten nderung des Eintrags Beispielanfragen 1 Welche Person hat eine Benutzerkennung auf dem Rechner snake cs tu berlin de und ent h lt im Namen die Zeichenfolge Jo gt finger l jo snake cs tu berlin de 2 Welche Person hat eine Benutzerkennung auf dem Rechner snake cs tu berlin de und hat exakt die Benutzerkennung erhard gt finger lm erhard snake cs tu berlin de 3 Welche Personen sind auf dem Rechner snake cs tu berlin de eingelogt gt finger snake cs tu berlin de 28 4 Welche Personen der Organisation TH Darmstadt haben den Vornamen Andreas gt whois h whois th darmstadt de Andreas 5 Welche Personen haben den Nachnamen Reiner und den Vornamen Ulrike Mit Bigfoot 2001 k nnen mit der advanced search die betreffenden Felder eingegeben werden 6 Welche Fi
112. Proze bei dem eine Anfrage mit terminologischen Einheiten eine Teilmenge des zugrundeliegenden Termi nologie und Informationsbestandes als Ergebnis zur ckliefert Eine Anfrage kann kombiniert als Kommando oder mit Hilfe von Navigations und Darstellungswerkzeugen gestellt werden F r das terminologiebasierte Retrieval existieren folgende Aufgaben e Informationsbest nde durch Terminologien strukturieren indexieren Fachwissen ber die in einem Fachgebiet verwendeten Termini vermitteln Definitionen und Beispiele geben auch in multimedialer Form e Einstiegsgebiete in den Informationsbestand mit Hilfe der Terminologien aufzeigen e Zwischen Ergebnisse pr sentieren Je ausf hrlicher die Suchergebnisse dargestellt werden desto leichter ist es f r den Nutzer die nachgewiesene Information hinsichtlich ihrer Relevanz zu beurteilen umso mehr Zeit kostet jedoch deren Sichtung e Darstellungs und Navigationswerkzeuge entwickeln die die Selektion Analyse und Weitergabe terminologischer Information verbessern Zur Verbesserung des terminologiebasierten Retrievals k nnen Morphologiekomponenten wie beispielsweise MOLEX vom IDS Mannheim das in Saarbr cken entwickelte System MOR PHIX oder Intermedia Oracle 2000a und Oracle 2000b eingesetzt werden Mittels einer solchen Komponente wird eine Wortform auf ihre Grundform zur ckgef hrt bzw aus einer Grundform alle Wortformen bestimmt Anfragetermini Grundformen Sy Unterbeg
113. SelectedItem URL expressionPanel2 add inputFieldURL3 2 if termChoice3 getSelectedItem Var expressionPanel2 add varChoice3 2 expressionPanel2 layout expressionPanel2 repaint f e target termChoice4 predicate choice expressionPanel2 remove termChoice4 if termChoice4 getSelectedItem URL expressionPanel2 add inputFieldURL4 4 if termChoice4 getSelectedItem Var expressionPanel2 add varChoice4 4 expressionPanel2 layout expressionPanel2 repaint f e target addExprButton if expressionPanell getComponents length 0 predChoicel select Conn termChoicel select URL termChoice2 select URL depthChoicel select 1 expressionPanell add predChoicel expressionPanell add labelOpenBracketl expressionPanell add termChoicel expressionPanell add labelCommal expressionPanell add termChoice2 expressionPanell add labelCloseBracketl add expressionPanell expressionPanell layout expressionPanell repaint layout 213 repaint else if expressionPanel2 getComponents length 0 predChoice2 select Conn logOpChoice select And termChoice3 select URL termChoice4 select URL depthChoice2 select 1 expressionPanel2 add predChoice2 expressionPanel2 add labelOpenBracket2 expressionPanel2 add termChoice3 expressionPanel2 add labelComma3 expressionPanel2 add termChoi
114. Symbole Doss Ausdr cke 1 Individuenkonstanten und variablen sind Ausdr cke vom Typ 0 Funktionskonstanten und variablen sind Ausdr cke vom Typ 0 n mal O 0 Pr dikatenkonstanten und varia blen sind Ausdr cke vom Typ 0 n mal 0 2 Wenn A ein Ausdrucks des Typs T A2 Ausdruck des Typs T2 An Ausdruck des Typs Tn ist und f gt P ein Funktionssymbol Konstante oder Variable vom Typ T Tn auf den Typ T ist dann ist A An ein Funktionsausdruck des Typs T 3 Wenn A ein Ausdrucks des Typs T A2 Ausdruck des Typs T2 An Ausdruck des Typs Ta ist und PT ein Pr dikatensymbol Konstante oder Variable des Typs T Tn ist dann ist PT A An ein Pr dikatausdruck des Typs T Tn 19 4 Wenn A A und A gt Ausdr cke sind dann sind auch A A A A2 Ay V Ax Aj gt A2 Aj Ad 4 xi A Y xi A 3 PT A v PT A Formeln 5 Das sind alle Formeln Bemerkung P fi c c2 Pi P2 P3 oder f P P2 f2 sind beispielsweise Ausdr cke aber P P2 ci c2 nicht Anfragen 1 Wenn A ein Ausdruck ist dann ist Axi A eine Anfrage 2 Wenn A ein Ausdruck ist dann ist AP A eine Anfrage Semantik Eine Interpretation I ist eine Abbildung welche jedem Individuensymbol c bzw x genau ein Element I c bzw I x aus U jedem Funktionssymbol k gt bzw f gt MT genau eine Abbildung I k
115. Textstellen auf dem Rechner snake cs tu berlin de im Verzeichnis home wbs josefw test aus dem Inhalt der Datei a enthalten exakt die Zeichenfolge hallo exakt hei t daB vor und nach der gesuchten Zeichenfolge kein Zeichen aus der Menge der Worttrennzeichen Leerzeichen Tabulator _ etc vorkommt gt telnet snake cs tu berlin de gt cd home wbs josefw test gt via gt lt hallo gt wird f r jedes Vorkommen der gesuchten Textstelle eingegeben 34 12 Wieviele Textzeilen auf dem Rechner snake cs tu berlin de im Inhalt aller Dateien im Verzeichnis home wbs josefw test enthalten den regul ren Ausdruck Ff ile Ss ystem Textzeilen die mit dem Zeichen F oder f beginnen gefolgt von der Zeichenfolge ile gefolgt von 0 bis 1 beliebigen Zeichen gefolgt von den Zeichen S oder s gefolgt von der Zeichenfolge ystem gefolgt von 0 bis 1 beliebigen Zeichen telnet snake cs tu berlin de gt egrep c Ff ile Ss ystem 13 Welche Textzeilen auf dem Rechner snake cs tu berlin de im Inhalt aller Dateien im Verzeichnis home wbs josefw test enthalten Zeichenfolgen beginnend mit 2 beliebigen Zahlen gefolgt vom Zeichen gefolgt von 2 beliebigen Zahlen gefolgt vom Zeichen gefolgt von 4 beliebigen Zahlen ein Datumsformat gt telnet snake cs tu berlin de grep 0 9 2 0 9 2 O 9 4 14 Welche Textzeilen auf dem Rechner snake cs tu berlin de im Inhalt al
116. U e U Bemerkung wir lassen aus bersichtlichkeitsgr nden im Folgenden jeweils bei den Inter pretationssymbolen die Interpretationsumgebung weg hier JU V U U2 Unm FUI FU un x21 xnm fl n lt U gt HTML IAI B2 5 IESI E1 5 IC 3 Kn I X2m f r mind ein FU FU2 gt und f r mind ein Uj Un U21 U2m U und f r U e U lt U gt HTML gt U21 BR gt Uj reel OR Uhn A Unm f r U Uj Ujx U lt http www cs tu berlin de josefw phd index html gt lt H1 gt lt H12 gt lt UL gt lt PICT gt lt VIDEO gt Frage 3 Welches sind die Beh lter der Stufe 2 von title Oder anders ausgedr ckt Welche Objekte enthalten als Teil der Stufe 2 title S Ax Azltitle x lt U gt 3Y ist Modell von Aa title x f r U U lt U gt 3 ist Modell von Efi 3x1 IXa A1 i x1 titles Xn x f r U U lt U gt SU UE Une 1 xn fi ist Modell von Arh iy titlei Xn X f r mind ein FU gt und f r mind ein Uj Un e Uund f r U U lt U gt gau s PERUI xxl xn f ist Modell von Sh J x21 IX2m Equal x P21 ec AXi Ay titler Xn eo X2m f r mind ein FU e gt und f r mind ein Uj Un U und f r U U lt U gt 3 x ae a UAR EUL EU x1 xn x21 x2m fI REZ 21 X1 oes titles Kia yc Xam f r mind ein FU FU2 gt und f r mind ein Uj Un U
117. WebSQL WebSQL 1999 Clever Clever 2001 Beispiele f r 3 sind OQL Cattell 1994 SQL 3 ISO SQL3 Lore TSIMMIS Abiteboul et al 1997 TSIMMIS 1999 XQL Lapp Robie Schach 1998 XSL Xpath Xpointer Xlink alle siehe Goldfarb Prescod 2001 Beispiele f r 4 sind SQL ISO 9075 DIN 66315 ISO SQL3 OQL Cattell 1994 SQL 3 ISO SQL3 Beispiele f r 5 sind CCL ISO 8777 IQL DIT Reiner 1991 S 107 Messenger Messen ger 1995 STN 1997 THW Query Hartlep 1996 Cyc Guha Lenat 1990a Guha Lenat 1990b Cyc 1997 Weiterhin sind logische Anfragesprachen zu unterscheiden die z T einen bergreifenden Charakter darstellen KL ONE Brachmann Schmolze 1985 Baader et al 1990 DATA LOG Ceri Gottlob Tanca 1990 Fuhr 1995 Afrati Koutras Modell Afrati Koutras 1990 Beeri Kornatzky Modell Beeri Kornatzky 1990 Cyc Guha Lenat 1990a IQL Reiner 1991 WebLog Lakshmanan Sadri Subramanian 1996 Man kann allgemein sagen da eine Anfragesprache A m chtiger als eine Anfragesprache B ist wenn A den Dokumentenbestand sch rfer trennt als B Eine Anfragesprache A ist m chtiger als eine Anfragesprache B wenn die Menge der in A bildbaren Suchergebnismengen die Menge der in B bildbaren Suchergebnismengen umfa t Adaption aus Konrad 1986 S 566 6 Die Syntax dieser Kunstsprachen ist nach der Idee der charakteristica universalis von Leibniz in so enger
118. achausdr cke die sich von umgangssprachlicher Verwendung durch exakte Definition innerhalb eines bestimm ten Systems unterscheiden Bu mann 1990 Ein komplex strukturierter Thesaurus ist ein Thesaurus in dem mehrere Arten inhaltlicher Begriffsbeziehungen dargestellt werden DEF 44 02 11 01 41 01 SYN Thesaurus im engeren Sinne E complex structured thesaurus F th saurus a structure complexe ANM 1 Dies ist die eigentliche Form des Thesaurus 2 Wird er im Hauptteil systematisch geordnet spricht man von einem hierarchischen Thesaurus BSP TEST Thesaurus OB Thesaurus UB Thesaurus ohne Vorzugsbenennungen VB Kontrollierte Schlagwortliste Abbildung 43 Der Terminologieeintrag 44 21 nach DIN 2339 Terminologien sind Netze die aus typisierten Eintragen und Beziehungen zwischen diesen bestehen Folgende Relationen k nnen unterschieden werden vgl Felber Budin 1989 Ontologische Relationen Gegenstandsrelationen Bestandsrelation r umlich Nacheinander Relation zeitlich Relation zum Stoffgebilde Wirk Relation Begriffliche Relationen Ober Unterbegriffsrelation Verwandtschaftsrelation Antonymie Logische Nebenordnung Logische Diagonalbeziehung Logische Begriffsleiterbeziehung Logische Reihenbeziehung Relationen zur Begriffsbeschreibung und Erl uterung Inhaltsbeschreibung Definition Umfangsbeschreibung Beispiel Abbildung Erl uterung Kommentar Themenrelatione
119. ache gestellt werden k nnen und in welchen Schritten das Ergebnis der Anfrage Semantik berechnet wird Die aufgebauten Anfragesprachen sind pr dikatenlogische Anfragesprachen Anfragen werden mit dem Lambda Operator und Formeln gebildet In den Anfragesprachen werden 2 stellige Pr dikate verwendet Grunds tzlich k nnten auch n stellige Pr dikate verwendet werden Die se lassen sich jedoch durch 2 stellige Pr dikate nachbilden Nilsson 1982 S 363 369 Konventionen zur Schreibweise Syntax Sprachelemente werden klein geschrieben Individuenkonstanten und variablen Funktionskonstanten und variablen Bei den Pr dikatenkonstanten wird der erste Buchstabe gro und der darauffolgende Teil klein geschrieben Pr dikatenvariablen werden ausschlie lich mit dem Gro buchstaben P bezeichnet Nummerierungen werden hinter das Sprachele ment tiefgestellt Sorten werden klein geschrieben und hinter die Individuen Funktions und Pr dikatenkonstanten und variablen hochgestellt Da sich die Stelligkeit eines Pr dikats im plizit durch die Anzahl der Argumente ergibt werden diese nicht zus tzlich explizit ange zeigt Semantik Individuenbereiche und deren Elemente werden gro geschrieben Ausnahme sind Zeichenfolgen Diese werden in Hochkommata eingeschlossen Der Individuenbereich U wird kursiv geschrieben damit er von Elementen von U z B U unterschieden werden kann Nummerierungen werden hinter das Element tiefgestellt 4 1 Simpl
120. achfolger einer Stufe zweistellig 4 c Vorg nger einer Stufe zweistellig T d Nachfolger bis zu einer Stufe zweistellig U e Vorg nger bis zu einer Stufe zweistellig f f Geschwister zweistellig lt gt g Stationen dreistellig 7 Logische Symbole nicht A und v oder gt Implikation lt gt quivalenz 3 es gibt ein V f r alle alle die 8 Technische Symbole NnBWN Formeln X1 Xn X Xp Xy seien Individuenkonstanten oder variablen f r Dokumente s sei eine In dividuenkonstante oder variable f r eine Stufe Conn sei eine Pr dikatenkonstante Conn Conny S 0 1 Conn x Xp sind Formeln 122 2 Pfad zwischen x und x bzgl Conn Path x Xn Nachfolger von x der Stufe s bzgl Conn 4O Xa Xp Vorg nger von Xa der Stufe s bzgl Conn T xa xp Nachfolger von x bis zur Stufe s bzgl Conn U xa xp Vorg nger von x bis zur Stufe s bzgl Conn f xa Xp Geschwister von x bzgl Conn S x xp Stationen zwischen xa und xg bzgl Conn xq Xp Xy sind Formeln Bemerkung Bei Anwendung der Nachfolger Vorg nger Geschwister und Stationenfunkti on wird das Ergebnis an der letzten Argumentstelle gezeigt Z B werden die Nachfolger von Xa In xp gezeigt 3 Wenn F F und F Formeln sind dann auch F FF A Fo Fi v Fo Fi 3 Fo Fie Fo 3 Xi F V Xi F 4 Das sind alle Formeln Anfragen 1 Wenn F eine F
121. aler Bibliotheken docuverses verwendet Es hat lange gedauert bis diese Ideen technisch effektiv realisiert werden konnten Das erste auf einem Computer lauff hige Hypertextsystem Maus Fensteroberfl che war das von Douglas Engelbart 1968 vorgestellte System AUGMENT Engelbart 1984 das vorhan dene Wissensbest nde um individuelles und organisatorisches Wissen anreichert Eines der am weitesten verbreiteten Hypertextsysteme ist das beim Kauf von Maclntosh Computern kostenlos mitgelieferte System HYPERCARD Hypercard 1997 Es bietet ob jektorientierte Programmierm glichkeiten mit der Sprache Hypertalk Weitere Hypertextautorensysteme sind bespielsweise GUIDE Brown 1989 XANADU Nelson 1993 und HYPERTIES Kreitzberg Shneiderman 1988 Heute existiert eine Vielzahl von Hypertextsystemen in unterschiedlichen Anwendungsgebie ten wie Textverarbeitung Information Retrieval computergest tzter Unterricht Lexikon und Thesauruspflege Kommunikation Hypertext Hilfesysteme gibt es zum Beispiel f r Word Perfect Microsoft Word Microsoft Windows OS 2 und SunOS F r den Zugriff auf Hypertextbest nde im World Wide Web werden Benutzeroberfl chen wie zum Beispiel Netscape Netscape 2001 und Microsoft Internet Explorer Explorer 2001 verwendet Diese arbeiten mit dem Protokoll HTTP HTTP 1996 das die Internetprotokolle FTP NETNEWS MAIL GOPHER und WAIS zusammenfa t und um weitere Funktionen f r Hypertext erweitert B
122. alisierung von URL Echo Sounder wurde die Programmiersprache Java aus den folgenden Gr nden ausgew hlt vgl Middendorf Singer Strobel 1996 1 Java ist verteilt Es lassen sich verteilte Client Server Anwendungen im Internet erstellen Java stellt Methoden zur Kommunikation ber TCP IP und ber WWW Protokolle zur Ver f gung 2 Java ist portabel Java Anwendungen sind auf Serverseite mit Hilfe sogenannter virtueller Maschinen die f r alle h ufig benutzten Hardwareplattformen als Interpreter verf gbar sind hardwareunabh ngig Auf Clientseite wird die Hardwareunabh ngigkeit durch die Einbindung des Java Interpreters in Internet Browsern erreicht die wiederum f r alle h ufig benutzten Hardwareplattformen verf gbar sind 3 Java ist vollst ndig objektorientiert aufgebaut Es hnelt in weiten Z gen C verzichtet jedoch auf deren prozeduralen Hintergrund Nur so l t sich ein sicheres Konzept realisie ren Middendorf Singer Strobel 1996 S 6 Der Umfang der Klassenbibliotheken ist zwar noch nicht so gro wie bei Smalltalk es wird jedoch eine starke Vergr erung in kurzer Zeit erwartet Die erste verf gbare Klassenbiblio thek von Java JDK 1 0 hatte einen Umfang von 211 Klassen Die neue Klassenbibliothek JDK 1 1 hat einen Umfang von 503 Klassen 4 Java ist sicher Der Java Interpreter im Inter Browser enth lt einen Verifizierer der das Programm vor dem Ablauf nach einigen Regeln hin berpr ft Zur Authentif
123. als I ist Modell von gt x 1 x gdw S x ist gr er als I ist Modell von lt P x gdw 3 x ist ist kleiner gleich Sc ist Modell von gt x x gdw 3 x ist ist gr er gleich 3 x ist Modell von Contains EF Prsting gtesExpr x8 odw 3 x 8 enth lt den regul ren Ausdruck 3 x 3 ist Modell von Nearstinsintstring string er ring gdw 3 x 8 befindet sich in der 3 x Zeichenzahl Umgebung von I x 3 ist Modell von Upper esting string ing gdw 3 x ist die in Gro buchstaben gewandelte Zeichenfolge von 3 x 3 ist Modell von Lower Estin amp s xS odw 3 x 8 ist die in Kleinbuchstaben gewandelte Zeichenfolge von I x 3 ist Modell von Stem amp stins string Sting gdw 3x 8 ist die Stammform von 3 x 3 ist Modell von Fuzzy ex x85 gdw 3 x E ist rechschreib hnlich zu I x 3 ist Modell von Soundex 7S Stne x 78 as gdw 3 x85 ist phonetisch hnlich zu I xe 3 ist Modell von Sm eG x gdw I x55 ist synonym zu I x 3 ist Modell von NT sine string xg gdw 3 x ist Unterbegriff von I x 3 ist Modell von BTrestring string atring gdw 3 x ist Oberbegriff von 3 x 3 ist Modell von PTrssting string xsmng gdw 3 x ist Vorzugsbegriff von I x ist Modell von F gdw 3 ist nicht Modell von F ist Modell von F A F2 gdw 3 ist Modell von F1 und 3 ist Modell von F gt ist Modell von F v F2 gdw S ist Mo
124. ambda variable 1 not bound if lambdaVarl equals var2 lambdaVarl equals 7 else ErrorDialog errDialog new ErrorDialog parent Error true errDialog showError Lambda Variable lambdaVarl is not bound return true Lambda variable 2 not bound 294 if lambdaVar2 equals var2 lambdaVar2 equals 7 else ErrorDialog errDialog new ErrorDialog parent Error true errDialog showError Lambda Variable lambdaVar2 is not bound return true Cursor is set to Waiting clock ae parent setCursor Frame WAIT_CURSOR simple Desc predicate Eel if predChoicel getSelectedItem Desc Query is sent to HyQL Server in prefix notation out println Desc urli var2 depthl lambdaVarl lambdaVar2 simple Conn predicate ay else out println Conn url1 var2 lambdaVarl lambdaVar2 return true query with bool operator EJ else Arguments in second predicate are not yet specified if comps 2 termChoice3 comps 4 termChoice4 ErrorDialog errDialog new ErrorDialog parent Error true errDialog showError Argument s in second predicate is are nnot specified return true if comps 2 inputFieldURL3 amp amp comps 4 inputFieldURL4 ErrorDialog errDialog new ErrorDialog parent Error true errDialog showError Arguments in second predicate are both URL
125. anel new Panel logOpPanel setLayout new FlowLayout FlowLayout LEFT logOpPanel add logOpChoice logOpPanel reshape 50 150 80 30 Query Expression Panel2 with FlowLayout expressionPanel2 new Panel expressionPanel2 setLayout new FlowLayout FlowLayout LEFT expressionPanel2 reshape 10 180 600 60 Predicate Choice 1 predChoicel new Choice EH a Eg aA 4 EA Ef o EJ us labelComma4 predChoicel addItem Conn predChoicel addItem Desc Open Bracket Label 1 labelOpenBracketl new Label fo30 new Font TimesRoman Font BOLD 30 210 labelOpenBracketl setFont Term Choice 1 termChoicel new Choice termChoicel addItem URL termChoicel addItem Var FieldURL1 new TextF FieldURL1 setText ht inpu inpu ct ct FieldURL2 new TextF FieldURL2 setText ht inpu inpu aa FieldURL3 new TextF FieldURL3 setText ht inpu inpu ct ct FieldURL4 new TextF FieldURL4 setText ht inpu inpu comma Labell labelCommal new Label labelCommal setFont fo30 Term Choice2 termChoice2 new Choice termChoice2 addItem URL termChoice2 addItem Var Var Choice 1 varChoicel new Choice 030 ield 50 ield 50 ield 50 ield 50 r r r tp anaconda tp anaconda tp anaconda tp anaconda varChoicel addIte
126. ank Name des n chsth heren Verzeichnisses Eintragstyp Datei Verzeich nis Benutzer Gruppenrechte Gr e in Bytes letzter Modifikationszeitpunkt Datum Uhr zeit Name des Eintrags Die Anwendungsprogramme f r Archie Deutsch Emtage 1992 Bunyip 1996 Liebe 1995 Xarchie Ferguson 1994 Ftp Search Bakken 1995 sind sich semantisch hnlich Die m chtigsten Anfragem glichkeiten bietet die Telnet Anwendung Archie Sie wird anhand von Beispielen vorgef hrt Beispielanfragen Anfragen nach Dateien mit Attributen 1 Welche Dateien enthalten im Dateinamen die Zeichenfolge gnu Gro Kleinschreibung wird nicht unterschieden gt telnet archie th darmstadt de gt set search sub gt find gnu 2 Welche Dateien enthalten im Dateinamen die Zeichenfolge Gnu Gro Kleinschreibung wird nicht unterschieden gt telnet archie th darmstadt de gt set search subcase gt find gnu 44 3 Welche Dateien haben exakt den Namen gcc Gro Kleinschreibung wird unterschie den gt telnet archie th darmstadt de gt set search exact gt find gcc 4 Welche Dateien enthalten im Dateinamen die Zeichenfolge gnu Gro Kleinschreibung wird nicht unterschieden und befinden sich auf einem FTP Server in Deutschland in der Domain de gt telnet archie th darmstadt de gt set match domains de gt find gnu Eine Menge von Rechnern kann durch das Trennsymbol angegeben werden beispielsweise dur
127. ann auf der Ebene der sicheren Socketverbindung einfach eingesetzt werden da die Basisklassen in Java JDK 1 1 mittlerweile diese Funktionalit t enthalten URLES Server besteht aus den folgenden Klassen URLES Server Connection Responder Predicate Variable VarList Link und HTMLList URLES Server und Connection sind Klassen die die Kommunikation zwischen Client und Server realisieren Responder Predicate Variable und VarList sind als Klassen f r die Bearbeitung der logischen Anfrage zust ndig a Parsiere die Anfrage mit Hilfe der Klasse StringTokenizer b Bestimme Pr dikate Variablen und logische Operatoren c Bearbeite den logischen Anfrageausdruck bestimme die Semantik binde Variablen Link und HTMLList sind als Klassen f r die Repr sentation von Hypertextstrukturen im In ternet zust ndig Links und Listen Nachdem der Responder eine Anfrage erfolgreich bearbeitet hat sendet er die Antwort HTML codiert zum Client Die Verbindung zwischen Server und Client wird entweder ge schlossen oder es wird einen weitere Verbindung f r eine neue Anfrage aufgebaut 10 5 8 Client URLES Client URL Echo Sounder Client ist eine Benutzeroberfl che Java Applet die es dem Benutzer erleichtert eine Anfrage als Ausdruck des Pr dikatenkalk ls mit Lambda Va riablen zu formulieren und die Antwort zu betrachten 195 File Edit View Go Bookmarks Options Directory Window URL Echo Sounder URLES Add Expression Remove Expres
128. anz der Do kumente die als Antwort seiner Anfrage gegeben wurden beurteilt Kandidatenvorschl ge werden besonders hervorgehoben Dem Informationsablegenden wird durch die Analyse des Testergebnisses die M glichkeit gegeben Fehler in der Indexierung und Terminologieerstel lung zu beheben Weiterhin kann der Informationssuchende am schwarzen Brett allgemeine Probleme bei der Recherche und allgemeine Verbeserungsvorschl ge diskutieren und allgemeine Fragen stellen Er kann Kandidatenvorschl ge der Informationsablegenden Terminologieeintr ge Katalo geintr ge kommentieren Der Informationssuchende begr ndet seine Suchstrategie bei der Recherche Terminologiepfleger Terminologe Terminologiepfleger versuchen Terminologien so zu erstellen und zu verwalten da Informa tionssuchende und Indexierer diese verstehen und f r das Information Retrieval effizient ein setzen k nnen Der Terminologiepfleger schl gt Kandidaten f r neue zu modifizierende und zu entferndende Terminologieeintr ge am schwarzen Brett vor Nach Ablauf einer Diskussions und Testphase legt er den Kandidaten in den Terminologiebestand ab Gegebenenfalls berpr ft er zusam men mit den Indexierern die Konsistenz des Terminologie und Informationsbestandes Ein weitere Aufgabe des Terminologiepflegers besteht darin Verbesserungen von weiteren Kandidaten vorzuschlagen oder Kandidaten zu kommentieren Der Terminologiepfleger begr ndet seine Strategie der Terminolo
129. ate Lambda Calculus Transfer Protocol PLCTP PLCTP ist ein einfaches Sitzungsprotokoll Schicht 5 des ISO OSI Modells fiir Anfragen und Antworten hier im Speziellen fiir pradikatenlogische Lambda Anfragen PLCTP ist zustand los da pro Sitzung genau eine Anfrage gestellt und genau eine Antwort bestimmt wird Unter der Sitzungsschicht liegen die Schichten 3 und 4 des Internet TCP IP und die Verbin dungs und die Bitiibertragungsschicht Die Kommunikation zwischen Server und Client wird durch in Java Flanagan 1996 Midden dorf Singer Strobel 1996 zur Verf gung gestellte Sockets realisiert Unter den Sockets l uft 193 ein verl liches und verbindungsbasiertes Kommunikationsprotokoll Es wird eine semiper manente Verbindung zwischen den beiden Socketenden tiber einen Bytestrom aufgebaut Im Folgenden wird der Ablauf einer Sitzung mit PLCTP beschrieben Server Connection Server Client Abbildung 48 Eine PLCTP Sitzung Die Kommunikation mit PLCTP verlauft in den folgenden Schritten 1 Der Client wird initialisiert Erzeugung des Client Socket zum Server unter Port 4712 2 Der Client stellt eine Anfrage tiber den Ausgangskanal der Socketverbindung wird die An frage an den Server geschickt 3 Der Server erzeugt einen neuen Thread fiir die Anfrage die Server Connection 4 Die Server Connection wird mit einem Server Socket zum Client initialisiert 5 Die Server Connection liest die Anfra
130. auf Dokumente anderer Autoren die nicht zu erkennen sind oft nicht mehr abzugrenzen Die Gr e der Hypertextdokumente nimmt im Vergleich zu traditionellen Dokumenten ab Das Gef hl durch einen Verweis einen eigenst ndigen Inhalt ausgedr ckt zu haben dr ngt die Kunst der Erzeugung einer textinternen Verweisstruktur zur ck und f rdert die Ten denz zu referenzieren Durch Referenzierungswut k nnen inhaltsleere Verweissammlun gen entstehen Durch Verweise auf inad quate Dokumente kann ein falscher Eindruck ent stehen Hypertext ist unnat rlich wie z B ein Film Der Benutzer kann keinen Hypertext spre chen sondern er braucht Hilfsmittel um ihn vorzuf hren Repr sentation Bestimmte Eigenschaften von traditionellen Textbest nden gehen verloren Leder Einband Papierbeschaffenheit Eselsohren zwischen den Zeilen geschriebenes 13 e Standards f r die Darstellung Repr sentation von Hypertext werden immer weiter entwik kelt e Inkonsistente Best nde fehlerhafte Adressierung Rechner Netztausf lle eingehende Be ziehungen auf ein Dokument werden nicht verwaltet etc entstehen dadurch da konsi stenzsichernde Ma nahmen f r Hypertexte kaum verf gbar sind Die Zuordnung verschie dener Typen auf Dokumente und Beziehungen wird bisher kaum unterst tzt e Das Mehrautorenkonzept f r Hypertext kann das Gesamtwerk verderben und eine Art Graffiti Kultur erzeugen Koh sion Koh renz und Intention gehen verloren e Die v
131. bSQL 75 3 3 Suche in geschachtelten Dokumenten 78 3 3 1 TSIMMIS 78 3 3 2 XQL 80 3 3 3 Intermedia 82 3 4 Faktensuche 84 3 5 Suche nach terminologischen Eintr gen 85 3 5 1 Anfragen 85 3 5 2 Darstellung und Navigation 91 3 6 Intelligente Agenten 101 3 7 Vergleich der untersuchten Systeme 103 4 Aufbau von Anfragesprachen f r Internet Informationssysteme 110 4 1 SimpleStructuredQL Eine Anfragesprache f r einfach strukturierte Dokumente 110 4 1 1 Syntax 111 4 12 Semantik 112 4 1 3 Beispiele 114 4 2 SimpleLinkQL Eine Anfragesprache f r einfach link strukturierte Dokumente 119 4 2 1 Syntax 119 4 2 2 Semantik 119 4 2 3 Beispiele 120 4 3 LinkQL Eine Anfragesprache f r link strukturierte Dokumente 122 4 3 1 Syntax 122 4 3 2 Semantik 123 4 3 3 Beispiele 124 4 4 Nested amp LinkQL Eine Anfragesprache fiir geschachtelte und link strukturierte Dokumente 128 4 4 1 Syntax 129 4 4 2 Semantik 131 4 4 3 Beispiele 133 4 5 StructuredQL Eine Anfragesprache f r strukturierte Dokumente 138 4 5 1 Syntax 138 4 5 2 Semantik 141 4 5 3 Beispiele 143 4 6 Vergleich mit anderen Anfragesprachen 149 4 6 1 Beeri Kornatzky Modell 149 462 IQL 150 4 6 3 Datalog Modell von Fuhr 150 4 6 4 StructuredQL 151 5 Architektur eines universellen Internet Informationssystems 152 5 1 Dezentrale Architektur 152 5 2 Zentral Dezentrale Architektur 154 6 Terminologiebasiertes Information Retrieval 156 6 1 Terminologien und W rterb cher 156 6 2 Terminologiebas
132. but Titel wie der Artikel a Netnews gt nn sar 50 Tin gt tin gt Liste der Threads 22 Welche Artikel enthalten im Attribut Titel die Zeichenfolge www Netnews gt m gt WWW Tin gt tin gt www 23 Welche Artikel enthalten im Attribut Titel die Zeichenfolge in gefolgt von dem Zei chen t oder d Netnews gt nn gt in dt Tin nicht m glich 24 Welche Artikel enth lt die selektierte Newsgruppe Netnews gt m gt Tin gt tin gt CR 25 Welche Artikel der Newsgruppe bln net www enthalten im Attribut Autor die Zei chenfolge josef Gro Kleinschreibung wird nicht unterschieden Netnews gt nn Xxm njosef bln net www 26 Welche Artikel der Newsgruppe bln net www enthalten im Attribut Subject die Zei chenfolge provider Netnews gt nn Xxm sprovider bln net www 27 Welche Artikel der Newsgruppe deren Name die Zeichenfolge bln enth lt enthalten im Attribut Titel die Zeichenfolge tu Netnews gt m gt G bln y es zur Auswahl der gew nschten Newsgruppe gt s tu oder gt nn stu bln keine regul ren Ausdr cke m glich Tin nicht m glich 51 28 Welche Artikel erschienen am 10 2 1996 in der Newsgruppe bln net www Dejanews Anfrage gt http search dejanews com filter xp groups bIn net www amp dates 1996 2F02 2F 10 amp fromdate amp todate amp authors amp subjects 29 Wel
133. ce4 expressionPanel2 add labelCloseBracket2 add expressionPanel2 add logOpPanel logOpPanel layout logOpPanel repaint expressionPanel2 layout expressionPanel2 repaint layout repaint if e target removeExprButton if expressionPanel2 getComponents length 0 expressionPanell removeAll remove expressionPanell layout repaint else expressionPanel2 removeAll remove logOpPanel remove expressionPanel2 layout repaint if e target searchButton Component components expressionPanell getComponents Component comps expressionPanel2 getComponents String lambdaVarl lambdaChoicel getSelectedIten if lambdaVarl equals None lambdaVarl else lambdaVarl lambdaVarl substring 1 String lambdaVar2 lambdaChoice2 getSelectedIten if lambdaVar2 equals None lambdaVar2 else lambdaVar2 lambdaVar2 substring 1 String varl varChoicel getSelectedItem String var2 varChoice2 getSelectedItem String var3 varChoice3 getSelectedItem String var4 varChoice4 getSelectedItem String depthl depthChoicel getSelectedItem String depth2 depthChoice2 getSelectedIten String predl predChoicel getSelectedItem String pred2 predChoice2 getSelectedItem String logOp logOpChoice getSelectedItem String urll inputFieldURL1 getText String url2 inputFieldURL2
134. ception e class Responder extends Object Initializes predicates variables lambda variables and logical operator with the value of parsing the query A query is a sequence seperated by blanks of elementary logical query strings in prefix notation public VarList vars public VarList lambdaVars public Predicate predl public Predicate pred2 public String logOp public Responder String query StringTokenizer strTokenizer String token Predicate initPred new Predicate 1 this predl pred2 initPred vars lambdaVars new VarList logop strTokenizer new StringTokenizer query token strTokenizer nextToken if token equals Conn token equals Desc strTokenizer new StringTokenizer query initPred strTokenizer first if token equals Or token equals And this logOp token initPred strTokenizer first initPred strTokenizer second initLambdaVars strTokenizer initVars public void initPred StringTokenizer strTokenizer String pos parses the query for exactly one predicate If the predicate name is Conn it reads two token for the two places of the predicate if the predicate name is Desc it reads three token for the three places of the predicate String predName argl arg2 arg3 resultType xi 2 ae aA EZ wd 8 a eee aA Ai E E pA E z7
135. ch set match_domains edu mil com gov us 5 Welche Dateien enthalten im Dateinamen die Zeichenfolge gcc Gro Kleinschreibung wird nicht unterschieden und befinden sich in einem Verzeichnis dessen Name die Zeichen folge gnu Gro Kleinschreibung wird nicht unterschieden enth lt telnet archie th darmstadt de gt set match_path gnu gt find gcc Anfragen nach Dateien mit eingeschr nkten regul ren Ausdr cken 6 Welche Dateien haben einen Dateinamen der mit der Zeichenfolge Gnu beginnt Gro Kleinschreibung wird unterschieden gt telnet archie th darmstadt de set search regex gt find Gnu 7 Welche Dateien enthalten im Dateinamen den regul ren Ausdruck Ff ile Ss ystem Dateinamen die mit dem Zeichen F oder f beginnen gefolgt von der Zeichenfolge ile gefolgt von 0 bis n beliebigen Zeichen gefolgt von den Zeichen S oder s gefolgt von der Zeichenfolge ystem gefolgt von 0 bis n beliebigen Zeichen Gro Kleinschreibung wird unterschieden gt telnet archie th darmstadt de gt set search regex gt find Ff ile Ss ystem Ordnung und Beschr nkung von Suchergebnissen 8 Welche Dateien enthalten im Dateinamen die Zeichenfolge gnu Gro Kleinschreibung wird nicht unterschieden Das Ergebnis wird alphabetisch nach dem Dateinamen geordnet gt telnet archie th darmstadt de gt set sortby filename gt find gnu Weitere Ordnungskriterien sind beispielsweise a nach Re
136. che Artikel in der Newsgruppe bln net www enthalten im Attribut Titel oder In halt die Zeichenfolge www Dejanews Anfrage mit einer WWW Benutzeroberfl che gt http search dejanews com filter xp groups bln net www amp dates amp fromdate amp todate amp authors amp subjects www gt in der Suchmaske die Zeichenfolge www eingeben Bemerkung Das Ergebnis ist nicht korrekt Die Ergebnismenge enth lt andere Artikel als in der Anfrage gew nscht 30 Welche Artikel haben das Erstellungsdatum 18 09 1996 und enthalten im Attribut Ti tel die Zeichenfolge www Dejanews Anfrage mit einer WWW Benutzeroberflache gt http search dejanews com filter xp groups amp dates 1996 2F09 2F18 amp fromdate amp todate amp authors amp subjects www Leistungsgrenzen Beispielanfragen die in den News Systemen nicht gestellt werden k nnen 1 Welche Artikel der Newsgruppen die in dem Attribut Newsgruppenname die Zeichen folge bln enthalten enthalten im Attribut Titel die Zeichenfolge WWW Gro Kleinschreibung wird unterschieden und sind vom Autor josefw cs tu berlin de oder czyborra cs tu berlin de oder bene cs tu berlin de verfasst 2 Welche Dokumente verweisen auf den Artikel czyborra 374654657 titanic cs tu berlin de 3 Welche Dokumente verweisen auf Artikel vom Autor josefw cs tu berlin de am 10 2 1996 4 Welche Artikel verweisen auf den selektierten Artikel und verweisen wiederum auf di
137. che Programmiersprache 2 Java ist relativ jung F r Java existieren zu wenige zu kleine und nicht ausgereifte Pro grammbibliotheken Java ist weiterhin relativ ineffizient An einer Verbesserung wird mo mentan sowohl auf der Software als auch auf der Hardwareseite gearbeitet 3 Java l t Netzwerkverbindungen bisher ausschlie lich im Internet zu F r die Realisierung der Komponenten Client und Server wird Java Sourcecode von Flanagan 1996 verwendet 10 5 2 Connections und Descendants Das zweistellige Pr dikat Conn wie connection bezeichnet 2 stellige gerichtete Beziehun gen zwischen Dokumenten Das erste Argument bezeichnet das Dokument von dem die Be ziehung ausgeht das zweite Argument bezeichnet das Dokument zu dem die Beziehung hin f hrt Dokumente werden im World Wide Web mit Hilfe von URL lokalisiert vorw rtsge richtete Beziehungen werden jeweils ausgehend von einem Dokument mit Hilfe des HTML Elements ANCHOR A ausgedr ckt R ckw rtsgerichtete Beziehungen sind mit HTML aufgrund seiner starken Bindung an Dateisysteme nicht direkt m glich Suchmaschinen wie Alta Vista Ray Ray Seitzer 1997 oder das Informationssystem Hyper G Dalitz Heyer 1995 Maurer 1996 bieten jedoch auch die R ckverfolgung von Beziehungen an so da dort folgende Frage gestellt werden kann Welche Dokumente haben eine Beziehung zum Dokument mit der URL http www test com Mit Hilfe von Variablen f r Dokumente bzw URL und logi
138. chnernamen hostname b nach Gr e des Eintrags size c nach dem letzten Modifikationszeitpunkt time 45 d ungeordnet none 9 Welche Dateien enthalten im Dateinamen die Zeichenfolge gnu Gro Kleinschreibung wird nicht unterschieden Die Gr e der Ergebnismenge wird auf 25 begrenzt gt telnet archie th darmstadt de gt set maxhits 25 gt find gnu Weitere Mengenbeschr nkungen sind beispielsweise a maximale Zahl von Eintr gen gleichen Namens maxhitspm b maximale Zahl von Eintr gen unterschiedlichen Namens maxmatch Leistungsgrenzen e 8 Bit Zeichensatz e Spezifizierung von Attributen nur teilweise m glich e Regul re Ausdr cke eingeschr nkt k nnen nur im Attribut Dateiname verwendet wer den e Keine einheitliche boolesche Verkn pfung m glich e Keine Operatoren f r Nachfahren Vorfahren Verweise etc 3 1 4 E Mail Suche Electronic Mail E Mail ist ein Informations und Kommunikationssystem das den Aus tausch von Nachrichten E Mails ber Rechnernetzwerke erm glicht Im Internet wird E Mail berwiegend ber das Simple Mail Transfer Protocol SMTP nach RFC 822 benutzt SMTP ist momentan auf den 7 Bit Zeichsatz beschr nkt Weiterhin wird nicht spezifiziert wie Nicht Text Datentypen Ton Graphik Video etc bertragen werden k nnen Eine L sung f r beide Probleme wird mit MIME RFC 1521 RFC 1522 geliefert Mit MIME wrd eine E Mail in mehrere Felder aufget
139. cimal string BR273 OD Abbildung 17 Anfrageergebnis als OEM Objekt aus Papakonstantinou Garcia Molina Widom 1995 3 3 2 XQL XML ist eine Teilmenge von SGML Goldfarb Prescod 2001 ISO 8879 XML Dokumente bestehen aus Elementen die wiederum aus Elementen bestehen usw Elemente k nnen Attri bute enthalten XQL Lapp Robie Schach 1998 ist eine Anfragesprache f r XML Dokumente Eine An frage wird an genau ein XML Dokument gestellt Ergebnis ist eine Menge von XML Elementen oder ein XML Attribut Die Suchergebnisse k nnen angereichert werden so da sie wieder XML Dokumente darstellen An diese k nnen dann erneut XQL Anfragen gestellt werden XQL enth lt 1 Operatoren f r Teile XML Elemente eines XML Dokuments Teile der Stufe n alle Teile 2 Einen Operator f r die Stelle im XML Dokument n 3 Vergleichsoperatoren f r Werte von XML Elementen oder XML Attributen Gleichheit Ungleichheit kleiner als gr er als usw 4 Boolesche Operatoren logisches und logisches oder logisches un res nicht logisches bin res nicht Quantoren es existiert ein f r alle 6 Mengenoperatoren Vereinigung Schnittmenge Nn Beispielanfragen Alle Anfragen beziehen sich auf ein beliebiges aber festes XML Dokument 1 Welche author Elemente existieren gt author 2 Welche first name Elemente sind direkte Teile der author Elemente gt author fir
140. d oder Katze enthalten mit der Suchma schine Alta Vista die Anfrage Hund Katze gestartet werden w hrenddessen mit der Such maschine Google zwei verschiedene Anfragen Hund und Katze gestartet werden und dann beide Suchergebnisse per Hand vereinigt werden m ssen Ein systematischer Vergleich der Anfragem glichkeiten von Internet Informationssystemen existiert bisher nicht Die wissensbasierte Suche mit Hilfe von Thesauri Terminologien etc wird entweder gar nicht oder nur unzureichend unterst tzt Inhaltliche Indexierungen k nnen inaktuell und inkonsi stent werden Weiterhin indexiert der Internet Nutzer bzw Autor Internet Dokumente ohne Regeln und ohne feste Bindung an eine Wissensbasis u U bewu t fehlerhaft Dadurch wird die Indexierungsqualit t 1 A stark verschlechtert Eine Pflege der Wissensbasis im Team von Indexierern Terminologen und Suchenden die ja durch die neuen Kommunikationstechniken m glich w re wird bisher nicht durchgef hrt Die bittere Folge f r den Benutzer er hat zwar im Prinzip gro e Zugriffsm glichkeiten in kurzer Zeit von jedem Ort in vielen Formen mit vielf ltigen Anfragem glichkeiten kann sie jedoch nicht ad quat nutzen und findet nicht das was er braucht 1 2 Problemstellung der Arbeit Es ist ein offenes Problem einen universellen Zugang zu Internet Informationssystemen zu schaffen der die Anfragem chtigkeit der einzelnen Systeme ausreichend ber cksichtigt Voraussetzung zur Ent
141. dell von Fl oder 3 ist Modell von F gt ist Modell von F gt F2 gdw 3 ist Modell von F2 wenn 3 ist Modell von F ist Modell von F gt F2 gdw 3 ist Modell von Fl gdw 3 ist Modell von Fo ist Modell von 3 x F gdw ag ist Modell von F f r mindestens ein U e U ist Modell von V x F gdw 3 ist Modell von F f r alle U U aaa a a a regExpr gt string sting AAAA AU a a Interpretation der Anfragen ISOS ax F lt U Un gt IV nist Modell von F f r U e U Un e UM 113 4 1 3 Beispiele Individuenbereiche oe Ni No N3 Na Ns No N3 Ng U UNIT UNIT3 Uf F Fo F3 Fa Fs Fo U M Mo M3 Ma Ms um f comp lang java programmer miller cs mit edu USE f ormation retrieval c t Bemerkung Es werden in U und U nur einige Zeichenfolgen beispielhaft aufgef hrt Relationen NEWSGROUP 3 Newsgroup e lt N comp lang java programmer gt lt N2 comp lang java programmer gt lt N3 comp lang java programmer gt lt N4 comp lang java programmer gt lt Ns comp lang java programmer gt lt N comp lang java programmer gt USER ID ewestring User i deemsunz lt N meier cs mit edu gt lt N2 miller cs mit edu gt lt N3 lewis cs mit edu gt lt Ng smith cs mit edu gt lt Ns dalitz zib de gt lt Ne bene cs tu berlin de gt D A TEDOwsxdate F D at ende lt N
142. dene Benutzerklassen Re cherchelaie ge bter Rechercheur Rechercheexperte Informationsvermittler etc m ssen deshalb Benutzer Anfragem glichkeiten unterschiedlichen Komplexit tsgrades zur Verf gung gestellt werden Benutzeranfragesprache Navigations und Darstellungswerkzeuge termino logiebasierte Unterst tzung etc Benutzeranfragen werden in die f r den Benutzer verborgene universelle Anfragesprache bersetzt 171 8 Erzielte Ergebnisse These 1 Man kann 3 Gruppen von strukturierten Dokumenten unterscheiden a Einfach strukturierte Dokumente b Link strukturierte Dokumente c Geschachtelte Dokumente Es kann eine Anfragesprache entwickelt werden mit der es m glich ist alle 3 Gruppen uni versell anzufragen und deren jeweilige Vorteile zur verbesserten Recherche zu nutzen These 2 Wenn zur Bestimmung eines Suchergebnisses die Anfrage an unterschiedlich m chtige In formationssysteme gesendet wird kann in diesen keine Vereinigungsmenge sondern nur die Schnittmenge des Suchergebnisses gebildet werden These 3 Die Konsistenz von Terminologien wird durch die Einf hrung formaler Eigenschaften termi nologischer Relationen verbessert These 4 Ein System zur R ckkopplung zwischen Endnutzern Informationsvermittlern Terminologie pflegern Indexierern und Autoren erm glicht eine gr ere bereinstimmung und Transpa renz bei der Terminologiepflege und Indexierung 172 9 Ausblick In den Internet Biblio
143. dern Information Retrieval McGraw Hill 1983 Schmidt Str hlein 1993 Schmidt G und T Str hlein Relations and Graphs Berlin Hei delberg New York Springer Verlag 1993 Sch nfeldt 1994 Sch nfeldt Ren Mathematische Eigenschaften f r Thesaurusrelationen In Nachrichten f r Dokumentation 45 Nr 4 S 203 212 1994 Shannon Weaver 1963 C E Shannon and W Weaver The Mathematical Theory of Com munication Urbana Illinois University of Illinois Press 1949 republished in paperback 1963 Soergel 1974 Indexing languages and thesauri construction and maintenance Los Angeles Melville Publishing Company 1974 Stallings 1995 W Stallings Sicherheit im Datennetz M nchen Prentice Hall 1995 STAS 1996 The Scientific and Technical Attribute and Element Set STAS CNIDR Clea ringhouse for Networked Information Discovery and Retrieval Research Triangle Park North Carolina 1996 oder unter stas cnidr org Stern 1995 Stern H Verwaltung von UNIX Netzwerken mit NFS und NIS O Reilly 1995 Storm 1995 Storm K storm texas dk Netnews 6 5 an efficient netnews interface manual pages Texas Instruments Denmark 1995 Tanenbaum 1995 Tanenbaum A Moderen Betriebssysteme 2 Auflage Hanser Verlag 1995 Umst tter 1998 Umst tter Walter Die Messung von Wissen In Nachrichten f r Doku mentation 49 4 S 221 224 1998 Volpert 1985 Volpert W Zauberlehrlinge Die gef hrliche Lieb
144. destens ein Us U und f r mindestens ein U e U lt Ug gt age UR Ww Si Gye ee gh oe Te Ee xp xy comp lang java programmer gt e NEWSGROUP oder SU YP Wea xp xy x1 I0 YP Wa xp x http www javasoft com gt e IDENTIFIER und 3U YP UY a xg xy ist Modell von V 3 x g x oder JY YP YY a xp xy ist Modell von Vax p xa oder JY YP YY a xp xy ist Modell von V x g xa und Ua UB un xB ee Ua UB an xB Pie oma e CONTENT und SUB a xB xy ist Modell von Contains String arbeitung one f r U U und f r mindestens ein Us U und f r mindestens ein U e U lt U gt lt Ua comp lang java programmer gt e NEWSGROUP oder lt Up http www javasoft com gt e IDENTIFIER und ea aaa xB xy x1 x2 x3 ist Modell von Path xp X1 X2 X3 X oder g SEID xa xB xy x1x2x3 ist Modell von Path x p X1 X2 X oder SEID xB xy x1 x2 x3 Ist Modell von Path xp X1 X und lt Ua U gt CONTENT und U enth lt den regul ren Ausdruck String arbeitung f r U U und f r mindestens ein Us U und f r mindestens ein U e U und f r mindestens ein U U2 U3 U Bemerkung wir lassen aus bersichtlichkeitsgr nden im Folgenden jeweils bei den Interpre tationssymbolen die Interpretationsumgebung weg hier 30 VP UY U U2 U3 lt U gt lt Ug comp lang java programmer gt NEWSGROUP oder lt Up http www javasoft com gt e IDENTIFIER und 3 ist Modell von P x
145. die Anordnung dieses Dokuments in der Ergebnis menge Mindestens ein Suchbegriff der Anh ufung mu mindestens einmal in jedem Doku ment vorkommen Beispielsweise w rden f r die Anfrage dog cat Dokumente in denen das Wort dog 3 mal und das Wort cat 2 mal vorkommt h her bewertet werden als Dokumente in denen nur das Wort dog 6 mal vorkommt Der zweistellige Minus Operator hnlich dem logischen bin rem nicht ordnet Doku mente im Ergebnis niedriger an wenn sie einen Suchbegriff enthalten Beispielsweise w rden f r die Anfrage dog cat Dokumente in denen das Wort dog 3 mal und das Wort cat 1 mal vorkommt h her bewertet werden als Dokumente in denen das Wort dog 3 mal und das Wort cat 2 mal vorkommt Intermedia stellt folgende terminologische Operatoren zur Verf gung 1 Oberbegriffe Unterbegriffe Der Suchbegriff wird um die Unterbegriffe Oberbegriffe bis zu einer bestimmte Tiefe erweitert Es k nnen die Thesaurusrelationen BT broader term BTG broader term generic BTP broader term partitive und BTI broader term instance bzw NT narrower term NTG narrower term generic NTP narrower term partitive und NTI narrower term instance verwendet werden Die Angabe einer Suchtiefe ist m glich Falls mehrere Oberbegriffe Unterbegriffe mit demselben Namen existieren Ho mographen kann angegeben werden f r welche Begriffe die Oberbegriffe Unterbegriffe bestimmt werden sollen 2 Verwandte Begriffe
146. die Anwendungsprogramme find stark eingeschr nkte regul re Ausdr cke grep eingeschr nkte regul re Ausdr cke agrep eingeschr nkte regul re Ausdr cke bis auf Zeichenwiederholung egrep vollst ndige regul re Ausdr cke und ed ex vi erweiterte regul re Ausdr cke Beispielanfragen Da UNIX ber das vielf ltigste Angebot von Anfragekommandos f r unsere Zwecke verf gt betrachten wir diese hier genauer Einige Anfragen lassen sich auch anders als hier angegeben bilden Anfragen nach Dateien 35 1 Welche Dateinamen vom Typ Dateiverzeichnis befinden sich auf dem Rechner sna ke cs tu berlin de im Verzeichnis usr oder in einem Unterverzeichnis von usr gt telnet snake cs tu berlin de gt find usr type d Terminal snake cs tu berlin de File Edit Session Options Help snake josefw 3 snake josefw 3 find usr type d usr Xll include Xll bitmaps usr Xll include Xll extensions usr X11 include X11 fonts usr X11 include X11 ICE usr Xll include X11 5M usr X11 include X11 Xmu usr X11 include X11 Xaw3d usr Xl1 lib usr X11 lib app defaults usr X11 lib config usr X11 lib fonts usr X11l lib fonts misc usr X11 lib fonts 75dpi usr X11 lib fonts 100dpi rc snake josefw 4 i Abbildung 2 find usr type d im M rz 1997 2 Welche Dateinamen befinden sich auf dem Rechner snake cs tu berlin de im Verzeichnis usr deren Inhalt die Zeichenkette file s
147. dien 2001b Gelbe Seiten Yellow pages DeTeMedien der Deutschen Telekom 180 Unter www gelbe seiten de Februar 2001 DIB 2001 Deutsches Internet Branchenbuch Unter www branchenbuch de Februar 2001 DIMDI 2001 Deutsches Institut fiir medizinische Dokumentation und Information Unter www dimdi de Februar 2001 DublinCore 2001 Dublin Core metadata element set reference description unter purl org metadata dublin_core elements Februar 2001 Excite 2000 My Excite start page Unter www excite com Oktober 2000 Explorer 2001 Microsoft Internet Explorer 2001 Microsoft Corporation Unter www microsoft com Fireball 2000 Fireball Express Suche Unter www fireball de Oktober 2000 Four11 1997 Fourl1 the internet white pages Unter www Fourl 1 com M rz 1997 FreeWAIS 2001 Jim Fullton Kevin Gamiel Archie Warnock et al FreeWAIS Version 0 5 Unter ftp ftp cnidr org pub NIDR tools freewais Februar 2001 Google 2000 Google Unter www google com Oktober 2000 IAF 2001 Internet address finder Unter www iaf net Februar 2001 Harvest 2000 Harvest Information Discovery and Access System Unter http www tardis ed ac uk harvest oder harvest transarc com harvest Oktober 2000 HBZ 2001a Hochschulbibliothekszentrum des Landes Nordrhein Westfalen Unter www hbz nrw de Febraur 2001 HBZ 1997b Bibliotheks OPAC s und informationsseiten Unter www hbz nrw de novell etc har
148. dortmund de p 210 d bibdb html information or retrie val oder gt waissearch h s6 informatik uni dortmund de p 210 d bibdb html information retrie val oder gt waissearch h s6 informatik uni dortmund de p 210 d bibdb html information or retrie val WAIS URL gt wais ls6 informatik uni dortmund de bibdb html information retrieval SFgate Anfrage gt http ls6 informatik uni dortmund de ir search cgi bin SFgate database 1s6 informatik uni dortmund de 2Fbibdb html amp information retrieval 11 Welche Dokumente in der WAIS Datenbasis bibdb html auf dem WAIS Server Is6 informatik uni dortmund de enthalten die Zeichenfolgen information und retrieval Waissearch und WAIS URL nicht m glich SFgate Anfrage gt http ls6 informatik uni dortmund de ir search cgi bin SFgate database 1s6 informatik uni dortmund de 2Fbibdb html amp information and retrieval 60 12 Welche Dokumente in der WAIS Datenbasis bibdb html auf dem WAIS Server Is6 informatik uni dortmund de enthalten die Zeichenfolge information aber nicht die Zei chenfolge retrieval Waissearch und WAIS URL nicht m glich SFgate Anfrage gt http ls6 informatik uni dortmund de ir search cgi bin SFgate database 1s6 informatik uni dortmund de 2Fbibdb html amp information not retrieval Anfragen in mehreren Datenbasen 13 Welche Dokumente in der WAIS Datenbasis bibdb html auf dem WAIS Server Is6 informatik uni dor
149. duction html gt Einleitung lt A gt lt LI gt lt A HREF http www cs tu berlin de josefw phd state html gt Grundlagen lt A gt lt LI gt lt A HREF http www cs tu berlin de josefw phd query html gt Anfragen in Internet Informationssystemen lt A gt lt LI gt lt A HREF http www cs tu berlin de josefw phd hynternetQL html gt Anfragesprachen fiir Internet Informationssysteme lt A gt lt LI gt lt A HREF http www cs tu berlin de josefw phd literature html gt Literatur lt A gt lt UL gt lt IMG SRC http www cs tu berlin de josefw joe gif gt lt A HREF http www cs tu berlin de josefw phd joe mpg gt Videodarstellung lt A gt lt BODY gt lt HTML gt Abbildung 39 Das HTML Dokument diss html 133 http www cs tu berlin de VIDEO josefw phd ndex htiml TIT Anfragesprachen f r Internet Informationssysteme VIDEO PICT Anfragesprachen f r Tnternet Inform ati onssysteme Anfragesprachen f r Internet Inform ati onssysteme Einleitung Grundlagen Anfragen in Internet Anfragesprachen f r Literatur Informationssystemen _Internet Inform ationssysteme Abbildung 40 Funktionale Baumstruktur von diss html Individuenbereiche us Abiteboul Beeri 1995 Anfragen in Internet Informationssystemen Anfra gesprachen f r Internet Informationssysteme Das Internet entstand Anfang der 70er Jahre als Einleitung Grundlagen In den Interne
150. e gt 0 result union ul toSet to add as well the other nodes not leaf nodes Ay ul removeAllElements result addObject ul 204 return result public String getDocumentString URL url Loads document for URL url and returns this document as a string String documentString line String result documentString URLConnection conn DatalnputStream in InputStream connIn try conn url openConnection conn connect nn r connIn conn getInputStream in new DatalnputStream connIn while line in readLine null documentString documentString line n in close return documentString catch IOException e2 return result public Link getLink URL sourceURL String destURLString Delivers a link from sourceURL to destURLString source dest of link are corrected blanks quotations and incomplete URL strings are filled relative href no at end k haracter quotelChar new Character har quotel quotelChar charValue haracter quote2Char new Character har quote2 quote2Char charValue haracter equalChar new Character har equal equalChar charValue haracter greaterChar new Character gt har greater greaterChar charValue tring s urlToString lastString newURLString nt start end sEnd length BwMNAQQQQQQAaA un tring hrefString and gt are lim
151. e Dokumente die das Teilobjekt title enthalten S Ax IXa Am title Xa A Wm Xa X lt U gt JVV xa ist Modell von Aa title Xa und JY Y xa ist Modell von A 1 title Xa und BUF xa ist Modell von V2 xa x und IY Y xa ist Modell von V1 Xa X f r mind ein U U und f r U e U lt U gt JVV ist Modell von Afi 3x1 3X A1 fi X1 title Xn Xa und Ua a Xa JVV EA att sales Und UUa xa ist Modell von Ifi 3x1 IXan Vi Xa f1 X1 X Xn und a Xa Re a PUL xl xfi fiX k Aysana Xn f r mind ein FU und f r mind ein Ua U1 Un U und f r U e U lt U gt JVP U Un FUI axl xn fi ist Modell von A lf k title Xn Xa und Ua a Xa N xn fi fi ens titlei Xn Und xaxl xn fI ist Modell von V1 Xa fi X1 X Xn und xa Xa Dean en Hr f r mind ein FU gt und f r mind ein Ua U1 Un U und f r U e U UUa 3 3 a Cc Ua U1 Un FU1 dU ed dl amp f lt U gt I axa u PUR x21 x2m fi n f2 X21 X1 title Xn X2m und SOF Se el lee nd I aa 5 NEN gi x21 x2m fl o fo x21 BEN fi X1 neg Mig ey Xn ees X2m und 3a gY mae ae x1 xn afi s e Xg see Xn f r mind ein FU FU2 gt und f r mind ein Ua Ui Un U21 U2m U und f r U e U lt U gt U Ua ote gt Uj LITLE Uhn 2 Unm und
152. e Frage wird in 3 Teilfragen aufgeteilt dessen Vereinigungsmenge das Gesamtergebnis ist QI A X1 X2 X3 Path unit X1 X2 X3 unit Q2 A X X2 Path unit X1 X2 unit Q3 A x1 Path unit x unit 3 Q1 lt U Uz U3 gt IV Y 1 x9 x3 ist Modell von Path unit x X2 X3 unit 124 f r U e UNIT lt U1 Us Use SU 02V x2x3 ist Modell von Conn unit x1 und 1 U2 U3 gV U2 U3 2x3 ist Modell von Conn x1 X2 und 1 U2 U3 Ut U2 U3 2x3 ist Modell von Conn x2 x3 und GUT U2 U3 0x3 ist Modell von Conn x3 unit und JPS 9 x3 unity I PP po w K 3 x1 x2 x3 X2 ZUR a I T 2 x3 unit1 und f r U e U lt U1 Uz U gt lt 37 2 U i x2 unit PR op E SW 0 x3 Conn und lt JT YU iag a gt E IT a x2x3 Conn und lt Ul U2U3 p500 aab h e ZU WW Conn und lt En cr x2x3 unity gt e SU 0 x3 Conn x1x2 nit 320 os PR 5 I yi Ki xl x2 x3 X3 3 ME x1x2 unit und f r U a lt U U U3 gt lt UNIT U1 gt e CONN und lt U U2 gt e CONN und lt U2 U3 gt CONN und lt U3 UNIT gt CONN und UNIT U U2 U3 UNIT und f r U e U 3 3 Q2 lt U U2 gt IV Y x2 ist Modell von Path unit x1 x2 unit 1 f r U e U lt U U gt SU Y x2 ist Modell von Conn unit x1 und JV V ist Modell von Conn x1 x2 und 3011 x2 ist Modell von Conn x2 unit 1 und U1 U2 un 1U2 3 3 aI a S w U
153. e Graphendarstellung Form vgl DIN 1463 S 6 Diagramm e Balkendiagramm gantt chart e Baumdiagramm tree chart e Datenflu diagramm flow chart e Punktdiagramm dot chart e Tabelle table e Tortendiagramm pie chart e Rechteckige und kreisf rmige Pfeil Diagramme etc Geographische Darstellung e Karten e Pl ne e Konstruktionszeichnungen etc Darstellung als Text oder Hypertext Terminologien werden traditionell in einem textuellem Format gespeichert Dabei werden z T Textmarkierungen verwendet Ein weitere M glichkeit besteht darin Terminologien in einem Dokumentbeschreibungsformat zu repr sentieren Terminology Interchange Format als SGML Anwendung nach ISO 12200 ISO 12620 neuerdings auch mit XML Terminologien k nnen auch mit HTML beschrieben werden HTML eignet sich jedoch eher zur Darstellung von Dokumenten als zur Repr sentation von Terminologien da es Metazeichen zur Darstel lung wie z B Formatierungen enth lt HTML kann beispielsweise dazu eingesetzt werden Terminologien die in einem Datenbanksystem gespeichert werden dynamisch darzustellen Relationen k nnen mit Hilfe der Markierung rel spezifiziert werden Inverse Relationen 95 werden mit rev wie reverse spezifiziert vgl Maloney Quin 1996 Ein Beispiel ist lt a rel unterbegriff href http test com auto html gt Fahrzeug lt a gt Maloney Quin 1996 fiihren die folgenden Relationen auf made home back forward con tents toc tab
154. e Thesauruspflege vgl 168 Willenborg 1993 1994a wurde die Machbarkeit gezeigt Es wurde ein Editor zur Verwal tung mathematischer Eigenschaften von Thesaurusrelationen entwickelt und zur konsistenten Thesauruspflege bereits eingesetzt Inkonsistenzen in vorhandenen Thesauri wie beispielswei se im Umweltthesaurus des Umweltbundesamtes konnten aufgedeckt werden Durch die Weiterentwicklung dieses Ansatzes konnten weitere Ergebnisse erzielt werden vgl Kap 6 3 Es konnten allgemeinere Eigenschaften von Relationen Eigenschaften von Eigen schaften von Relationen aufgestellt werden Weiterhin konnten Inferenzregeln entwickelt werden die aus der Wissensbasis Wissen ableiten Die Nachteile liegen vor allem in dem relativ hohen Anfangsaufwand begr ndet Es mu ein ad quates Pflegewerkzeug entwickelt werden Zus tzliche Arbeit wird auch bei der Pflege der Wissensbasis und bei der Schulung der Mitarbeiter erzeugt Dieser Aufwand erscheint jedoch angesichts der Verbesserung der Retrievalqualit t vertretbar Die Entwicklung eines Modells das die Kommunikation zwischen Informationssuchenden Indexierern und Terminologiepflegern unterst tzt und ihre Umsetzung in Form eines Com puterwerkzeugs l t folgende Verbesserungen erwarten a Angleichung des Wortschatzes von Informationssuchenden Indexierern und Terminologie pflegern Dadurch wird der Verst ndigungsproze verbessert und letztendlich eine Verbesse rung der Retrievalqualit t erzi
155. e U S unit e U S mail e U menu e U S person e UPS Z host e U S string e U J date e U S regExpri Ure 1 e U 32 e U S true e UP S false e U S html e U S head e U4 Z body e UY Sltitle e U S chapter e U S abstract e UM f ri 1 n i kann auch weggelassen werden xs we IK uns Sx co Ir ga Sem um an I xP ee B x oe IE re Sx gas I x EPP ee IK U Sx gooo Sam yml Std gr II yY Ste gte G Papier gepi Sq gista a 3 xi c U f r i 1 on i kann auch weggelassen werden Interpretation der Funktionssymbole I htmi Pr U HTML Si S head a anne u x x U HEAD grey I body m9 eu hedy coe x x U BODY UP S titles sesute U Kar U TITLE N I chapter en sup x X y ae were S abstract Be u x x U ABSTRACT Bee u SET e U x x U gt I Sm Interpretation der Pr dikatensymbole S UNIT lt U K sei eine zweistellige Pr dikatenkonstante K c us x y P c us x y Interpretation der Terme k sei Funktionskonstante IKE Gt y IKE e T St I t lt 3 I E Sti th IE St Il DG Interpretation der Formeln 141 3 ist Modell von Unit t gdw lt 3 t gt e I Unit ist Modell von Conn ti t2 gdw lt Ilt 3 t gt I Conn ist Modell von Equal ti t2 gdw I t S t
156. e zum Computer Beltz Verlag 1985 Willenborg 1991a Willenborg Josef PfleSaurus ein System zur Erstellung und Weiter entwicklung von Thesauri Unver ff Diplomarbeit an der TU Berlin Institut f r Angewandte Informatik 179 Willenborg 1991b Willenborg Josef ATLAS PfleSaurus Ein objektorientiertes System zur Unterstiitzung der Thesauruspflege In Fuhr 1991 S 51 63 Willenborg 1993 Willenborg Josef Hypermediabasierte Terminologie und W rterbuch pflege In Neubauer Wolfram Hrsg Deutscher Dokumentartag 1992 Proceedings Deutsche Gesellschaft fiir Dokumentation Frankfurt am Main 379 410 Willenborg 1994a Willenborg Josef PfleSaurus ein Werkzeug zur Thesauruspflege In Bohm Mengel Muhr 1994 Willenborg 1994b Willenborg Josef Terminologiebasiertes Hypertext Retrieval In Bohm Mengel Muhr 1994 Windows 1992 Microsoft Windows 3 1 Handbuch Microsoft Corporation 1992 Zloof 1976 Zloof M Query by example operations on the transitive closure IBM Research 5526 revised Yorktown Heights IBM Research Center 10 2 URL von Personen Organisationen und Produkten Die Jahreszahlen am Ende jeder Angabe beziehen sich auf den letzten erfolgreich durchgeftihr ten Zugriff Aliweb 2000 Welcome to ALIWEB Unter aliweb emnet co uk Oktober 2000 AltaVista 2000 Alta Vista Welcome Unter www altavista com Oktober 2000 Apollo 1997 Apollo Advertising Unter apollo co uk Marz 1
157. eRose Durand 1994 S 165 und XQL Robie Lapp Schach 1998 ist eine Anfrage nach Teilen von Do kumenten ebenfalls m glich Mit dem Pr dikatensymbol Conn werden zweistellige Beziehungen zwischen Dokumenten bzw zwischen Teilen von Dokumenten gebildet bei Conklin 1987 S 34 Regionen ge nannt Dokumente k nnen berlappen Mit Pr dikatenkonstanten zweiter Stufe werden Eigenschaften von Beziehungen ausgedr ckt Wenn nicht anders angegeben haben Pr dikate in Nested amp LinkQL jedoch die erste Stufe Nested amp LinkQL ist eine pr dikatenlogische Sprache 2 Stufe Sie enth lt Quantoren Exi stenz und Allquantor f r Funktionen und Pr dikate den Lambda Operator f r Pr dikate und Pr dikatenkonstanten der zweiten Stufe Wenn Nested amp LinkQL ohne diese aufgebaut w rde w re Nested amp LinkQL eine mehrsortige pr dikatenlogische Sprache 1 Stufe 4 4 1 Syntax Sorten 1 string int bool unit html head body title chapter abstract sind Sorten 2 Das sind alle Sorten Im Folgenden benutzen wir die Variablen s s Sn f r diese Sorten Alphabet 1 Individuenkonstanten string string int int true false unit unit html html head head body body title title chapter chapter abstract abstract 2 Individuenvariablen verschiedener Sorten x sing int yit bool bool graas i SA gi teeny A X unit unit html html head head body
158. eStructuredQL Eine Anfragesprache f r einfach strukturierte Dokumente Im Internet werden unterschiedliche einfach strukturierte Dokumente bereitgestellt E Mails Personen Gruppen Rechner Dateien Artikel Men s Dokumenthinweise etc F r diese Be st nde wird die Anfragesprache SimpleStructuredQL aufgebaut Anwender von SimpleStruc turedQL sind Benutzer die einen einheitlichen Zugriff auf einfach strukturierte Internet Dokumente w nschen F r die Anfragesprache werden Ergebnisse aus Reiner 1991 S 95 106 bernommen 110 SimpleStructuredQL enth lt Sprachelemente f r Deskriptoren und Vergleichsoperatoren Zahlenvergleiche Volltextoperatoren linguistische Operatoren und Thesaurusoperatoren Die Namen der Deskriptoren werden zum gr ten Teil aus der Untersuchung der Informati onssysteme siehe Kap 3 bernommen Formeln k nnen mit booleschen Operatoren ver kn pft werden Deskriptoren und Vergleichsoperatoren werden als zweistellige Pr dikaten konstanten unterschiedlicher Sorte eingef hrt Die Argumente stellen die beiden in Beziehung stehenden Objekte dar Bei den Deskriptoren sind dies z B Dokument und Deskriptorwert Der zweistellige linguistsche Operator stem liefert sowohl die Stammformen als auch die Vollformen eines Wortes z B Stem x B cher und Stem Buch x SimpleStructuredQL ist eine mehrsortige pr dikatenlogische Sprache 2 Stufe Wenn der A Operator f r Pr dikate siehe Syntax Anfragen Punkt 2
159. ead sind Subsysteme von Gopher und k nnen deshalb nur mit einer Gopher Anwendung benutzt werden Im Mittelpunkt von Veronica und Jughead steht eine zentrale Datenbank die an der Universit t von Nevada verwaltet wird und mittels FTP ca alle 1 2 Wochen aktuali siert wird Im Juni 1994 enthielt die Datenbank ca 10 Millionen Gopher Eintr ge verschiede nen Gophertyps von 5500 Gopher Servern Kopien der Datenbank existieren u a in K ln Benutzeroberfl chen f r Gopher sind beispielsweise gopher xgopher Tuchman 1993 und WWW Benutzeroberfl chen Beispielanfragen Anfragen nach Gopher Men s mit Attributen 1 Welche Gopher Men s enthalten im Attribut URL die Zeichenfolge go pher gopher cs tu berlin de Gopher URL gt gopher gopher cs tu berlin de 2 Welche Gopher Meniis enthalten im Attribut Titel exakt die Zeichenfolge veronica Veronica gt veronica gt veronica Veronica URL gt gopher veronica uni koeln de 2347 7 veronica 3 Welche Gopher Meniis enthalten im Attribut Titel eine Zeichenfolge die mit fahr be ginnt Veronica URL gt gopher veronica uni koeln de 2347 7 fahr 4 Welche Gopher Meniis enthalten im Attribut Titel die Zeichenfolge veronica und im Attribut Typ die Zeichenfolge Verzeichnis Veronica gt veronica gt veronica t1 Veronica URL gt gopher veronica uni koeln de 2347 7 veronica tl 53 Boolesche Anfragen 5 Welche Gopher Meniis
160. ebene gestellt Auf der logischen Ebene wird physikalische Datenunabh ngigkeit hergestellt Der Zugriff auf Daten abstrahiert von der Implementation Dazu werden Daten in Datentypen mit dazugeh ri gen Feldmengen eingeteilt Auf der Benutzer bzw Pr sentationsebene wird eine logische Datenunabh ngigkeit herge stellt Der Zugriff auf die Daten abstrahiert von den logisch definierten Datenbeschreibungen und gestattet einen einheitlichen Zugriff auf mehrere logisch unterschiedliche Datenbeschrei bungen Wir wollen f r Dateisysteme die Trennung der physikalischen von der logischen Sicht genau er betrachten Physikalische Sicht Datenbest nde werden mit Hilfe des Dateisystems auf Datentr gern Festplatten Disketten CD Rom Laufwerke Bandlaufwerke etc gespeichert Datentr ger werden in ein oder mehrere Teile Partitionen aufgeteilt Ein Volume bezeichnet ein oder mehrere Partitionen statt Volume werden auch die Bezeichnungen Laufwerksbuchstaben Ger tedateien etc benutzt Volumes bestehen aus Dateien Dateiverzeichnisse normale Da teien Dateiverweise etc Dateiverzeichnisse bestehen aus Dateien Logische Sicht Ein logisches Datenverzeichnis ist die hierarchische Zusammenfassung von Dateibest nden im Dateisystem ohne Ber cksichtigung des Datentr gers auf dem die Dateien abgelegt werden Es besteht aus Dateien unterschiedlichen Typs Dateiverzeichnisse normale Dateien Dateiverweise etc Dateien vom Typ Dateiverzeichnis best
161. echo lu mit der Benutzerkennung ECHO das Anfragesystem Grips 6 0 automatisch gestartet Wenn ein Anwender sich auf einem entfernten Rechner eingew hlt hat kann er die M glich keiten des dort vorhandenen Betriebssystems und die dort angebotenen Anwendungssysteme wie zum Beispiel Dateisysteme Datenbanksysteme Bibliothekssysteme Gopher WAIS etc nutzen In Reiner 1991 wird f r diese Zwecke eine universelle Anfragesprache f r Informa tionssysteme entwickelt Mit Telnet kann nur auf einem Rechner gearbeitet werden dessen Name Domainname oder IP Adresse bekannt ist Mit HyTelnet Scott 1997 HyTelnet 1997 wird eine inhaltliche Strukturierung der Telnet Rechner gegeben Weiterhin k nnen mit HyTelnet Anwenderpro gramme gestartet werden 3 1 3 3 FTP Die Datei bertragung mit FTP File Transfer Protocol ist einer der am meisten genutzten Dienste im Internet Durch FTP wird die bertragung von Dateien zwischen Rechnern er m glicht Es ist m glich sowohl private als auch ffentliche Dateien von einem Rechner zum anderen zu bertragen Mit Hilfe von FTP Servern werden Eintr ge Dateien und Verzeichnisse ffentlich bereitge stellt Mit den unterschiedlichen Anwendungssystemen Clients k nnen Eintr ge manipuliert und bertragen werden Speichern Anf gen Umbenennen Verschieben Anfordern 39 Es existieren viele ffentlich zug ngliche FTP Informationssysteme Information wird in Form von Dateien angeboten S
162. ed talk ps gt lt HTML http web nexor co uk aliweb aliweb gt 144 lt HTML http www altavista digital com gt lt HTML yy http apollo co uk gt lt HTMLi s http www agentware com gt lt HTMLio http www bigfoot com gt lt HTML http www bunyip com gt lt HTML s http www javasoft com gt lt ABSTRACT http www cs tu berlin de josefw phd abs abstract gt Frage 1 Welche Abstracts hat das Dokument html IA ua Description html aa lt U gt 3 ist Modell von Description html x f r U e US lt U gt lt 3 html Se 3 Description bstract f r Ue a lt U gt lt HTML U gt e DESCRIPTION f r U e US lt ABSTRACT gt Frage 2 Welche Nachfolger der Stufe 1 bez glich der Beziehungsart Conn haben die Teile der 3 Stufe des Dokuments html S A xp Valhtml Xo A Xa XB lt Up gt San xp ist Modell von V3 html xq und iS ee xp ist Modell von e Xp fiir Us Us U lt Up gt Se lee x xy ist Modell von Afi 3X1 3 n Va html f1 K1 Xa Xn und SUAUBUY a xpxy ist Modell von Path xa x xp f r Ua Up Uy U Ua UB Uy U1 Un FU1 lt Up gt 3 B Uy PTS xo xB xy xl xn f ist Modell von Va html fi xi Xa gt Xn und SUF UB Uy UL Un FUI xB xy x1 xn fl ist Modell von Conn xq Xy und Ua UB Uy U1 Un FUL Ua UB Uy Ul Un FU1 3 py xa xB xy x1 xn f amp a gue UB Uy U
163. ehen aus Dateien Eine Datei kann Bestandteil mehrerer Dateiverzeichnisse sein In den Dateisystemen werden logische und physikalische Ebene unterschiedlich stark ge trennt FAT HPFS schwache Trennung Der Gesamtdatenbestand wird physikalisch auf genau ei nem Rechner mit ein oder mehreren Datentr gern gespeichert Laufwerksbuchstaben a b c d z bezeichnen jeweils genau eine Partition eines Datentr gers Ein Laufwerksbuch stabe besteht aus Dateien Dateiverzeichnisse normale Dateien HFS schwache Trennung Der Gesamtdatenbestand wird physikalisch verteilt auf verschie denen Rechnern mit mehreren Datentr gern gespeichert Ein Volume bezeichnet genau eine Partition eines Datentr gers Ein Volume besteht aus Dateien Dateiverzeichnisse normale Dateien Der Dateiinhalt besteht nicht wie in den anderen Dateisystemen aus einer Folge von Bytes sondern ist in zwei Teile getrennt Data Fork und Resource Fork Data Fork besteht aus einer Folge von Bytes der Resource Fork enth lt strukturierte Daten wie Men s Dialog boxen oder ausf hrbare Programme Netware FS schwache Trennung Der Gesamtdatenbestand wird physikalisch verteilt auf verschiedenen Rechnern mit mehreren Datentr gern gespeichert Ein Volume bezeichnet ein oder mehrere Partitionen auf den Datentr gern ein Volume kann ber mehrere Datentr ger gebildet werden Ein Volume besteht aus Dateien Dateiverzeichnisse normale Dateien NTFS schwache Trennung Der Gesam
164. eingeschr nkte regul re Suche au er Zeichenwiederholungen Es verwen det den 8 Bit Zeichensatz nach ISO 8859 Anfrageergebnisse werden nicht nach einem hn lichkeitsma geordnet Die Syntax der Anfragesprache wird in Camargo 1994 definiert Bei Glimpse sind regul re Ausdr cke aus Effizienzgr nden auf eine L nge von 30 Zeichen begrenzt ohne Metazeichen und k nnen nur auf einzelne Worte angewendet werden Beispielanfragen Es wird der Harvest Broker http www tu berlin de harvest bin BrokerQuery mit der Glimpse Datenbasis TUB alle_ WWWs verwendet WWW Bestand von WWW Servern der TU Berlin im M rz 1997 61 Bei den Harvest Anfragen URL wird fiir Metazeichen als Fluchtzeichen das Zeichen gefolgt von dem hexadezimalen ASCH Zeichencode benutzt Das Zeichen wird z B durch die Zeichenfolge 22 ausgedr ckt Zu jedem Element der Ergebnismenge werden die Felder Titel und URL und die Voll textzeilen Ergebnis der regul ren Anfrage angezeigt Anfragen nach Dokumenten 1 Welche Dokumente enthalten die Zeichenfolge information gt http www tu berlin de harvest bin BrokerQuery broker TUB alle WWWs amp query information amp descflag on amp opaqueflag on als Glimpse Anfrage gt glimpse C J www tu berlin de K 8500 H home harvest 1 information 2 Welche Dokumente enthalten die Zeichenfolge information retrieval Gro Kleinschreibung wird nicht unterschieden gt http www tu berlin de ha
165. eite Zentrale f r Whois ist der Rechner whois internic net Eine Weiterentwicklung von Whois ist das System Whoist RFC 1714 RFC 1835 RFC 1913 das einen verteilten Zugriff auf Personeninformation bietet Das Personeninformationssystem X 500 ISO 9594 ist hierarchisch aufgebaut Es bietet einen verteilten Zugriff auf Personeninformation Als Suchmittel existieren die Attribute Lander name Name der Organisation Name der organisatorischen Einheit und Personenname Fiir das WWW existieren Benutzeroberfl chen wie z B X 500 WWW 1997 Das Personeninformationssystem Netfind Pu Schwartz 1994 faBt die Systeme Rusers Rwho Finger Whois X 500 u a zusammen und bietet eine bergreifende Suche nach Perso neninformation F r das WWW existieren Oberfl chen Netfind 1997 H ufig genutzte Web Suchdienste sind E Mail Verzeichnisse Telefonverzeichnisse WWW Adressenverzeichnisse Homepage Verzeichnisse Telefonb cher und Branchenfernsprech b cher Diese Dienste sind zumeist auf Regionen und L ndergrenzen beschr nkt So existiert das vollst ndige amerikanische Telefon Verzeichnis Fourl1 1997 das deutsche Telefon buch DeTeMedien 2001a oder das deutsche Branchenverzeichnis DeTeMedien 2001b aber noch kein vollst ndiges globales Telefon oder Branchenverzeichnis Umfangreiche glo bale Verzeichnisse finden sich f r E Mail Adressen Bigfoot 2001 Fourll 1997 IAF 2001 In den Web Suchdiensten werden als Suchmittel
166. elt b Abbau der Tr gheit bei der Terminologiepflege und Indexierung Neuerungen k nnen ra scher diskutiert und in die Terminologie aufgenommen werden c Erh hung der Konsistenz bei der Indexierung Veraltete Begrifflichkeiten werden zusam men mit den Terminologiepflegern rascher durch ad quate Begriffe die der Informationssu chende versteht ausgetauscht Der alleinige Kommandozugriff auf Information reicht 1 A nicht aus Das Wechselspiel von Darstellung und Navigation tr gt zur Verbesserung der Retrievaleffizienz bei Der Benutzer bl ttert im Wissensbestand und gew hnt sich an die verwendeten Begriffe und Bezeichnun gen Er tritt gleichsam in einen Dialog mit den Erstellern der Wissensbasis Spielerisch erlangt er ein Gef hl f r den Bestand Die Gr e des Bestands interessante Fachgebiete etc werden erkundet und in das Gesamtbild der Wissensbasis eingeordnet Dabei k nnen sich jedoch auch Probleme Orientierungsverlust etc ergeben die den erwarteten Mehrwert ins Gegenteil keh ren Bei dem Aufbau der Wissensbasen ist ein Mittelweg zwischen Neuerung und Bewahrung an zustreben so da das vom Benutzer aufgebaute Verst ndnis nicht zu h ufig durcheinander ger t Darstellungs und Navigationsmethoden d rfen aus diesem Grunde nicht zu h ufig um gestellt werden Insgesamt werden weitere Ziele f r das terminologiebasierte Information Retrieval erkennbar 1 Vorhandene Best nde nutzen Es gilt den gro en Schatz vorhande
167. elzon Mihaila 1997 Arocena G Mendelzon A and Mihaila G Applica tions of a Web Query Language In Proceedings of the 6 th International WWW Conference Santa Clara April 1997 ATLAS 1993 ATLAS Mitarbeiter Methodenentwicklung f r ein Archiv f r Technik Le benswelt und Alltagssprache Abschlu bericht Technische Universit t Berlin 1993 Atzeni Masci et al 1998 Atzeni P Masci A Mecca G Merialdo P und G Sindoni From databases to Web Bases the ARANEUS experience In Technical Report 34 1998 Di partimento di Informatica e Automazione Universita di Roma Tre Mai 1998 Baader et al 1990 Baader F B rckert H Heinsohn J Hollunder B M ller J Nebel B Nutt W Profitlich H Terminological knowledge representation a proposal for a terminologi cal logic Kaiserslautern Deutsches Forschungszentrum f r K nstliche Intelligenz Technical Memo90 04 1990 Bakken 1995 Bakken Stig S ther Ftp Search 3 3 unter ftpsearch unit no Beck et al 1993 Beck C Finin T Fritzson R Genesereth M McKay D Pelavin R Shapiro S Weber J Specification of the KQML Agent Communication Language Unter www cs umbc edu kqml kqmlspec spec html Beeri Kornatzky 1990 Beeri C und Y Kornatzky A logical query language for hypertext systems In Andr Rizk Streitz 1990 S 67 80 Bekavac 1996 Bekavac B Suchverfahren und Suchdienste des World Wide Web In Nach richten fiir D
168. en Dateisystemen Spezifizierung von Attributen ist bei der Suche nur teilweise m glich Dateibestand ist auf den Datentr ger bzw die logische Ebene des Dateisystems beschr nkt Keine einheitliche boolesche Verkn pfung m glich 38 3 1 3 2 Telnet Terminal Emulation Telnet ist eine der frihesten Anwendungen Protokolle im Internet 1983 wurde die diesbez gliche Norm RFC 854 ver ffentlicht F r das Arbeiten mit Telnet ist 1 A eine Zugangsberechtigung Benutzerkennung mit Passwort erforderlich Viele Rechner im Internet insbesondere Rechner die ffentlich zug ngliche Information anbieten erlauben einen Gast Zugang oder verlangen keine Zugangskennung Terminal snake cs tu berlin de Me File Edit Session Options Help IX r System V Release 4 0 snake login josefw Password Last login Sat Mar 15 00 25 20 from salzach isdn cs Sun Microsystems Inc Sunds 5 5 Generic November 1995 ou have mail esh using dumb terminal settings From erhard cs tu berlin de Sat Mar 8 22 20 49 1997 From Klaus Niedermair uibk ac at Mon Mar 10 14 54 23 1997 From ljopo cs tu berlin de Fri Mar 14 15 23 15 1997 Type dec vtlOO unknom TERM unknown snake josefw l pwd home wbs josefw snake josefw Z exit logout Disconnected Abbildung 3 Eine einfache Telnetsitzung im M rz 1997 Mit Telnet k nnen Anwendungssysteme automatisch aufgerufen werden Beispielsweise wird bei einer Telnetverbindung zum Rechner
169. en Einsatz einer universellen Anfragesprache Redundanzen und berlappungen zwischen den Best nden vermieden Falls die Anfragem chtigkeit insge samt erh ht wird mu te sie bisher parallel in mehreren Systemen nachgezogen werden Die ser Mehraufwand entf llt bei dem Einsatz einer universellen Anfragesprache Bei der Verein heitlichung der Anfragem glichkeiten darf das Innovationstempo jedoch nicht die Entwick lung neuer Suchsysteme durch zuviel Standardisierungsdruck aufhalten Neuentwicklungen sollen und m ssen weiterhin Anfragem glichkeiten zuerst in Teilbereichen verbessern und sind erst danach in bestehende globale Informationssysteme zu integrieren Nachteil bei der Entwicklung einer bergreifenden einheitlichen L sung ist die Komplexit t der Aufgabe Bisherige Anfragem glichkeiten d rfen nicht verlorengehen Nutzer d rfen nicht berfordert werden und bei der Auftrennung in Nutzerklassen mu auf spezifische Nut zerbed rfnisse R cksicht genommen werden Weiterhin m ssen vorhandene schon erfa te Dokumentbest nde konsistent in das System integriert werden Die Anfragesprachen m ssen verfeinert werden und den Praxistest bestehen 7 3 Architektur eines universellen Internet Informationssystems Die zentral dezentrale Architektur eines universellen Internet Informationssystems hat die gr ten Vorteile Sie bietet insbesondere die volle Abbildung der gew nschten Anfragem ch tigkeit durch den Einsatz einer universellen Anfra
170. en induktiv den Typ 1 Die Sorten si Sn sind Typen 2 Sind T Tn Typen dann ist auch Ti Tn ein Typ Stufe Die Stufe eines Ausdrucks ergibt sich aus der maximalen Anzahl von umgebenden Klammerpaaren einer der s des Typs dieses Ausdrucks Beispielsweise ist ein Ausdruck des Typs s 2 s2 ein Ausdruck der 2 Stufe Alphabet s sei eine bel aber feste Sorte 1 Individuenkonstanten der Sorte s c4 cs Individuenvariablen der Sorte s x 1 X 2 Funktionskonstanten von Typen T Ta auf den Typ T KT KT MT Funktionsvariablen von Typen T Ta auf den Typ T Tg T 3 Pr dikatenkonstanten der Typen T Ta C2077 CTh ee 3 0 Pr dikatenvariablen der Typen Tj Tn peer press 4 Logische Symbole nicht A und v oder Implikation lt gt Aquivalenz 3 es gibt ein V f r alle X die Menge DEREN 21 5 Technische Symbole Ausdr cke 1 Individuenkonstanten und variablen der Sorte s sind Ausdr cke vom Typ s Funktionskon stanten und variablen von Typen Tj Ta auf T sind Ausdr cke vom Typ Th Tn T Pr dikatenkonstanten und variablen der Typen T Tn sind Ausdr cke vom Typ T Tn 2 Wenn A ein Ausdrucks des Typs T A2 Ausdruck des Typs T2 An Ausdruck des Typs Ta ist und 7 P ein Funktionssymbol Konstante oder Variable vom Typ T Tn auf den Typ T ist dann ist ff DA
171. en nach dem Zweck ihres Einsatzes oder dem Schwierigkeitsgrad ihrer Benutzung Es werden Anfragesprachen f r unge bte und ge bte Benutzer f r Retrievalexperten systemnahe Anfragesprachen und Sy stemsprachen unterschieden Anfragesprachen k nnen ineinander bersetzt werden So kann z B eine Anfragesprache f r unge bte Benutzer in eine systemnahe Zwischensprache und diese wiederum in die Systemsprache bersetzt werden Ein hierarchischer Aufbau der Anfra gesprachen ergibt sich wenn die Anfragesprachen nach dem Expertengrad der Benutzer in einander bersetzt werden k nnen z B von den Sprachen f r unge bte Benutzer hin zu den Systemsprachen Reiner 1991 baut beispielsweise mit IQL Intermediary Query Language eine Anfragesprache zur Suche nach Dokumenten Fakten und Erkl rungen auf Diese Spra che ist als Zwischensprache zwischen Benutzeranfragesprache und Systemsprache konzipiert Reiner spezifiziert dar berhinaus Sprachen f r Retrievalexperten und unge bte Nutzer Besonders interessant sind Anfragesprachen oberhalb der Ebene der Systemsprachen Die Informationssuche mit einer solchen Anfragesprache ist unabh ngig vom verwendeten Infor mationssystem Erster Schritt bei der Entwicklung einer Anfragesprache ist die Analyse der zu grundeliegenden Dokumentenbest nde vgl Kap 3 In einem zweiten Schritt wird die Anfra 4 Wir nennen diese Sprache Anfragesprache Mit diesem Terminus soll zum Ausdruck kommen da der Anfra
172. en wie bei DOS Men suche nach Dateien Unix dir egrep file find grep locate Is pwd stat Ordnung der Anfrageergebnisse DOS e dir nach dem Namen in umgekehrter alphabetischer Reihenfolge nach der Dateierweiterung in umgekehrter alphabetischer Reihenfolge nach dem letzten Modifikationszeitpunkt in umgekehrter zeitlicher Reihenfolge nach der Gr e umgekehrt nach Gr e der Datei nach Dateityp Verzeichnisse hinter vor Dateien gruppiert nach Komprimierung umgekehrt nach Komprimierungsverh ltnis geordnet OS 2 e Men suche nach jedem Attribut beispielsweise nach dem Modifikationszeitpunkt Novell Netware siehe DOS OS 2 MacOS Windows NT und Unix Windows NT e Men suche nach dem Namen in alphabetischer Reihenfolge nach der Dateierweiterung in alphabetischer Reihenfolge nach dem letzten Modifikationszeitpunkt in zeitlicher Reihenfolge nach der Gr e Reihenfolge nach Gr e der Datei UNIX e Is nach dem Namen in umgekehrter alphabetischer Reihenfolge nach der Dateierweiterung in umgekehrter alphabetischer Reihenfolge nach dem letzten Modifikationszeitpunkt in umgekehrter zeitlicher Reihenfolge nach der Gr e Reihenfolge umgekehrt nach Gr e der Datei Regul re Ausdr cke DOS OS 2 MacOS Novell Netware und Windows NT bieten keine Suchmittel f r regul re Ausdr cke Bestimmte Programme wie z B Norton Commander bilden diese M glichkeit jedoch nach Unix bietet f r regul re Ausdr cke
173. enbasen wird eine Beschreibung in Form von Feldern angelegt Rechnername IP Adresse Serverport Name der Datenbasis E mail Adresse des Systemverwalters inhaltliche Attribute inhaltliche Kurzbeschreibung Mit Attributen kann nach solchen WAIS Datenbasen gesucht werden Momentan kann die Anfrage nach WAIS Datenbanken weltweit nur auf einem inaktuellen Bestand durchgef hrt werden da die vormals mit der zentralen Sammlung von WAIS Datenbasen besch ftigten Organisationen WAIS Inc Thinking Machines Corp NASA CNIDR 1996 diesen Service nicht mehr ffentlich anbieten ltere Datenbasen liegen z B noch bei G vert 1996b und Ard Koch 1994 vor G vert 1996b bietet eine einfache Su che mit Suchbegriffen nach WAIS Datenbasen an Ergebnis einer Anfrage ist ein Bestand von WAIS Datenbasen Dieser kann durch Selektion einzelner Datenbasen weiter eingeschr nkt werden Mit der Anfragesprache von SFgate wird ber eine WWW Benutzeroberfl che in diesem Bestand weiter recherchiert Bei Ard Koch 1994 wird eine automatische Klassifi kation von WAIS Datenbasen durchgef hrt Aus den Beschreibungen der WAIS Datenbasen werden W rter aus dem Beschreibungstext der Liste der Schl sselworte und aus dem Sach gebietsfeld extrahiert und automatisch in den Sachgebietsbaum eingef gt Mit Hilfe dieses 56 Baumes wird tiber eine WWW Schnittstelle eine Auswahl von WAIS Datenbasen vorge nommen Dieser Bestand kann durch Selektion einzelner Datenbase
174. ente Strukturierte Dokumente Einfach Link Geschachtelte strukturierte strukturierte Dokumente Dokumente Dokumente Abbildung 1 Elektronische Dokumente Einfach strukturierte Dokumente bestehen aus formalen und inhaltlichen Deskriptoren Bei spiele sind Volltextdokumente unstrukturierte Multimediadokumente Personeneintr ge Rechnereintr ge Netzwerkeintr ge Dateien E Mails News Artikel Gopher Men s Doku menthinweise etc In link strukturierten Dokumenten werden Dokumente durch Beziehungen miteinander verbunden In geschachtelten Dokumenten k nnen Teilstrukturen der Dokumente aufgebaut werden Weiterhin k nnen Teilelementen eines Dokuments Formatierungen wie z B Gr e Farbe Lautst rke Schriftart etc zugeordnet werden SGML bzw XML Dokumenten sind sowohl link strukturiert als auch geschachtelt Die Schachtelung wird durch eine DTD Document Type Definition definiert Links k nnen in nerhalb und au erhalb eines Dokuments definiert werden Formatierungen werden ber eine Abbildung der DTD Elemente auf Formatelemente definiert Beispiele daf r sind CSS Bos Jacobs et al 1998 und XSL Adler Berglund et al 2000 In HTML Dokumenten werden Strukturierung und Formatierung nicht voneinander getrennt Der Dokumentenbestand im weiteren Bestand genannt ist die Dokumentenmenge in einem Informationssystem Eine besondere Form von Informationssystemen sind die wissensbasierten Systeme Alle Formen von
175. ente beschr nken Gr nde daf r liegen in der fehlenden Normierung beispielsweise in Form von XML DTD s f r die Dokumenttypen und in der schwierigen und teuer zu realisierenden Spezialbehandlung Der Vorteil der Spe zialisierung liegt jedoch darin da die Suche spezialisiert durchgef hrt werden kann und Ei genheiten der Dokumenttypen besonders behandelt werden k nnen Parallele Entwicklungen f rdern zudem Innovationen heraus Nachteile der Spezialisierung sind darin zu sehen da die Retrievaleffektivit t Recall Ratio Precision niedriger als in einem universellen System ist Die Recall Ratio ist geringer da der Dokumentbestand kleiner ist Die Precision ist h her da der Dokumentbestand kleiner ist und die Wahrscheinlichkeit da sich Dubletten im Bestand befinden geringer ist Zur Verbesserung der Retrievaleffektivit t in universellen Informati onssystemen k nnen verschiedene Mittel eingesetzt werden Verwendung eines Thesaurus Verbesserung der hnlichkeitsfunktionen z B f r geschachtelte Dokumente Einsatz von Re levanzfeedbackverfahren logische Zusammenfassung komplexer Suchergebnisse etc Diese m ssen jedoch in der Praxis getestet werden Die Bestimmung der Retrievaleffektivit t in gro en dynamischen Informationssystemen ist jedoch generell problematisch vgl Salton 1975 S 236 237 Das Problem der berlappung des Bestandes von Internet Informationssystemen liegt in der Architektur der Systeme Eine Suchmaschine wie G
176. enthalten im Attribut Titel die Zeichenfolge veronica oder die Zeichenfolge jughead exakt Veronica gt veronica gt veronica or jughead Veronica URL gt gopher veronica uni koeln de 2347 7 veronicator jughead 6 Welche Gopher Men s enthalten im Attribut Titel die Zeichenfolge veronica und die Zeichenfolge jughead exakt Veronica gt veronica gt veronica and jughead Veronica URL gt gopher veronica uni koeln de 2347 7 veronicatand jughead 7 Welche Gopher Meniis enthalten im Attribut Titel die Zeichenfolge veronica aber nicht die Zeichenfolge mueller Veronica gt veronica gt veronica not mueller Veronica URL gt gopher veronica uni koeln de 2347 7 veronicatnot mueller Komplexe Anfragen 8 Welche Gopher Meniis enthalten im Attribut Titel Zeichenfolgen beginnend mit vero oder jug und im Attribut Typ die Zeichenfolge Verzeichnis Veronica gt veronica gt vero or jug t1 Veronica URL gt gopher veronica uni koeln de 2347 7 28verotortjug 29 t1 9 Welche Gopher Men s vom Typ Verzeichnis oder Textdatei oder Sound enthalten im Attribut Titel Zeichenfolgen beginnend mit vero oder jug die Gr e der Ergebnismenge soll maximal 30 sein Veronica gt veronica gt vero or jug ts01 m30 Veronica URL gt gopher veronica uni koeln de 2347 7 28vero or jug 29 ts0 1 m30 Leistungsgrenzen Folgende Anfrage kann m
177. ents Teile der Stufe n alle Teile Operator f r die Stelle im XML Dokument n Vergleichsopera toren f r Werte von XML Elementen oder XML Attributen Gleichheit Ungleichheit kleiner als gr er als usw boole sche Verkn pfungen logisches einstelliges nicht Quanto ren es existiert ein f r alle Mengenoperatoren Vereini gung Schnittmenge Intermedia einfache Volltextsuche mit Attributen zus tzlich Links und Innenmaskierung Unterscheidung von Gro Kleinschreibung Wortabstandsoperatoren phoneti sche hnlichkeit Rechtschreib hnlichkeit Vollformener weiterung Anh ufungs und Minus Operator komplexe boolesche Verkn pfungen komplexe terminologische Ope ratoren thematische Anfragen einfache Volltextsuche nach Eintr gen komplexe Darstel schen Eintr gen lungs und Navigationsm glichkeiten siehe Kap 3 5 Intelligente Agenten einfache Volltextsuche mit Attributen Volltextsuche mit regul ren Ausdr cken Ausgangspunkt URL Suchtiefe Suchbreite periodische Anfragen Zeitpunkt Wiederho lungsh ufigkeit Aufteilung von Anfragen an Suchmaschi nen und weitere Agenten interne und externe Retrie valagenten Ber cksichtigung von Benutzerwissen Benut zerprofil Relevanzfeedback terminologisches Wissen automatische Klassifizierung Navigationsmittel go go to show jump to left right north south floor buil ding etc Tabelle 8b Forts Suchmittel der Intern
178. epth first if depth gt 1 next executeDepthFirst add the new HTMLList addObject addObject next Qi href with lt a gt E E E 2y a 2A if a HTMLList with equal link is in result it will not be inserted look at the semantics of destURLString strTokenizer nextToken lt a href lt a gt public HTMLList allLeafs generates a set of leafs HTMLList HIMLList HTMLList result new HTMLList ul link 1 int max size 1 Enumeration elements elements for int i 0O i lt max i Object elem elements nextElement HTMLList ul HTMLList elem if ul size 0 result addObject ul if ul size gt 0 result union ul allLeafs return result class VarList extends Vector VarList is a Vector ordered list of Variable hold variables for lambda variables and all variables of the query expression public VarList super public void sort 2 true from a hierarchy of this Ef It is used to sf zy takes an element from unsorted this and sorts it into this Caution removes double entries VarList thisCopy VarLis removeAllElements init add first element addElement thisCopy elemen int max thisCopy size get all elements from t into tAt 0 1 t this clone this hisCopy VarList for int i
179. er Technical Overview of Directory Services Using the X 500 Protocol Marz 1992 184 RFC 1436 F Anklesaria M McCahill P Lindner D Johnson D John D Torrey B Alberti The Internet Gopher Protocol a distributed document search and retrieval protocol 1993 Un ter www fagg uni lj si MIRROR rfe rfc rfc 1436 html oder www fags org rfcs rfc 1436 html RFC 1521 N Borenstein Bellcore N Freed Innosoft MIME Multipurpose Internet Mail Ex tensions Part One Mechanisms for Specifying and Describing the Format of Internet Message Bodies September 1993 Unter www faqs org rfcs rfc1521 html RFC 1522 K Moore MIME Multipurpose Internet Mail Extensions Part Two Message Header Extensions for Non ASCH Text September 1993 Unter www fags org rfes rfc1522 html RFC 1625 St Pierre M Fullton J Gamiel K Goldman J Kahle B Kunze J Morris H und F Schiettecatte WAIS over Z39 50 1988 WAIS Inc CNIDR Thinking Machines Corp UC Berkeley FS Consulting June 1994 Unter www fags org rfes rfc1625 html RFC 1630 T Berners Lee Universal Resource Identifiers in WWW A Unifying Syntax for the Expression of Names and Addresses of Objects on the Network as used in the World Wide Web Juni 1994 Unter www faqs org rfcs rfc1630 html RFC 1714 Kosters M Williamson S Referral Whois Protocol RWhois Unter ds internic net ds rfc1714 html November 1994 RFC 1738 T Berners Lee L Masinter M McCahill Un
180. er Anteil an Dokumenten die die Ver ffentlichungsh rde nicht berwinden w r den Notizzettel Test Dokumente etc 2 Suchmittel e Realisierung effizienter regul rer Volltextanfragen e Unterschiediche Definition der hnlichkeitsfunktionen e Integration unterschiedlicher Systemtypen insbesondere Suche in link strukturierten Dokumenten Suche in geschachtelten Dokumenten Faktensuche und intelligente Agenten e Personalisierung 3 Suchergebnisse e Integration unterschiedlicher Systemtypen e Geordnete Menge von Dokumenten versus Netz von Dokumenten Es f llt auf da sich einige Systeme mehr in Richtung einer gr eren Universalit t der Anfra gem glichkeiten entwickeln Intermedia vereinheitlicht den Zugriff auf einfache und ge schachtelte Dokumente insbesondere auf Basis von XML und anderer Dokumenttypen Es ist das wohl m chtigste System dieser beiden Systemklassen was die Ausdrucksf higkeit und Semantik angeht Gleichzeitig ist es technisch ausgereift und f r gr ere Dokumentbest nde ausgelegt Dagegen ist die Integration der Suche in link strukturierten Dokumente noch nicht sehr weit fortgeschritten Erste Systeme existieren zwar doch sind diese ausschlie lich auf die Suche in link strukturierten Dokumenten spezialisiert und sind technisch noch nicht f r gr Bere Best nde ausgelegt Das System Hyper G Hyperwave verspricht mittelfristig am ehesten eine L sung des Problems Ein wichtiges Forschungsgebiet f r die Erwei
181. er Entwicklung eines universellen Zugangs f r Internet Informationssysteme ergibt sich zus tzlich zu den eher formalen und technischen Fragestellungen das Problem des inhaltlichen Zugriffs auf Internet Dokumente Daf r wird in dieser Arbeit eine L sung dreier Teilprobleme herbeigef hrt 1 Momentan unterst tzen terminologiebasierte Informationssysteme neuere Techniken aus der Hypertextforschung noch nicht ausreichend Durch den Einsatz von Such Browsing und Darstellungstechniken aus dem Hypertextbereich kann das terminologiebasierte Retrieval ver bessert werden 2 Die Qualit t des terminologiebasierten Retrievals kann durch die Verbesserung der Konsi stenz von Terminologien erh ht werden 3 Durch die Entwicklung eines Kommunikationsmodells f r die terminologische Indexierung von Internet Dokumenten das den neuen Komunikationstechniken Rechnung tr gt wird die Qualit t der Indexierung erh ht 1 3 Aufbau der Arbeit In Kapitel 2 werden zun chst Grundlagen f r diese Arbeit geschaffen Es wird der Stand der Entwicklung in den Bereichen Internet Hypertext Graphentheorie Logik und Anfragespra chen dargestellt In Kapitel 3 wird eine vergleichende Untersuchung der Anfragem glichkeiten von Internet Informationssystemen durchgef hrt Systeme werden in Systemklassen eingeteilt die sich auf die Art der Suche Suche in einfach strukturierten Dokumenten Suche in link strukturierten Dokumenten etc beziehen Im letzten Teilkapitel w
182. erb cher sind Typen lexikalischer Einheiten und Relationen zu unterscheiden die hier nicht weiter aufgez hlt werden 6 2 Terminologiebasiertes Information Retrieval Definition der Begriffe Man kann das passive von dem aktiven terminologiebasierten Information Retrieval zu unter scheiden Blair 1990 S 56 Bei der passiven Methode werden zu dem Frageterm inhaltlich in Beziehung stehende Terme selektiert und dem Benutzer zur weiteren Fragestellung vorge stellt Hier dient der Thesaurus dem Benutzer als Hilfe bei der Auswahl weiterer Suchbegriffe quasi als Erinnerungshilfe Voraussetzung dabei ist da der Benutzer entscheiden kann wel che vorgeschlagenen Terme ein besseres Suchergebnis versprechen Bei der aktiven Methode werden zu dem Frageterm inhaltlich in Beziehung stehende Terme automatisch der Anfrage hinzugef gt Welche inhaltlich in Beziehung stehende Terme herangezogen werden kann festgelegt wer den So verspricht die Hinzunahme von hierarchisch bergeordneten Begriffen Oberbegrif fen Besteht Aus Begriffen etc zu der urspr ngliche Anfrage ein breiteres Suchergebnis und die Beschr nkung auf hierarchisch untergeordnete Begriffe Unterbegriffe Teilbegriffe etc in der Anfrage ein schmaleres Suchergebnis Homonyme und Synonyme k nnen durch weitere Anfragen auf einen Begriff gebracht wer den Meinen Sie Nu im Sinne von Obst Pflanze Kopf als Teil des Gewehrschlosses oder als Geschlechtsteil eines Hundes Als Einstiegs
183. erden Oder mit dem Drag amp Drop Mechanismus werden Teilbereiche von einem Teil des Fensters in einen anderen Teil bewegt Im Folgenden wird eine Untersuchung der Anfragem glichkeiten h ufig verwendeter Internet Informationssysteme durchgef hrt Es werden Systemklassen nach den Dokumenttypen gebil det Suche in einfach strukturierten Dokumenten Suche in link strukturierten Dokumenten Suche in geschachtelten Dokumenten Faktensuche Suche nach terminologischen Eintr gen und intelligente Agenten F r jede Systemklasse teilweise auch f r die einzelnen Systeme werden Anfragem glichkeiten beschrieben und Anfragebeispiele gegeben Im letzten Teilkapitel wird die Untersuchung zusammengefa t Dabei werden die Kriterien Erfassung Bestand Suchmittel Suchergebnisse und Leistungsgrenzen unterschieden Die Untersuchung kann nicht den letzten Stand der Entwicklung ber cksichtigen da eine gro Be Entwicklungsgeschwindigkeit zu beobachten ist Auch k nnen nicht alle Dokumenttypen z B 3 D Objekte etc behandelt werden Teile der Untersuchung flie en in den Aufbau von Anfragesprachen f r Internet Informationssysteme ein siehe Kap 4 3 1 Suche in einfach strukturierten Dokumenten 3 1 1 Personen und Gruppensuche Erste Personeninformationssysteme im Internet sind die Unix Programme Rusers Hand schuch 1997 Rwho Handschuch 1995 und Finger RFC 1288 Rusers Rwho und Finger erm glichen die Suche nach Personen die eine Benutz
184. erkennung in einem Rechnernetz besitzen Folgende Felder f r Personen werden bei Finger unterschieden Benutzerkennung Vor und Nachname Zeitpunkt der letzten T tigkeit am Rechner Zeitpunkt des letzten Logins Information ber bearbeitete Projekte Pers nliche Daten Telefonnummer Hobbies etc Es k nnen die momentan eingelogten Benutzer erfragt werden Nachteil ist da der Bestand auf jeweils einen Rechner beschr nkt ist Der Anwender mu deshalb wissen auf welchem Rechner er die gesuchte Person vermutet Weiterhin ist ein Zugriff h ufig nicht m glich weil die Organisation den ffentlichen Zugriff aus Datenschutz oder anderen Gr nden sperrt 26 Das Personensuchsystem Whois RFC 812 RFC 954 erm glicht die Suche nach Personen vor allem Netzwerkverwalter die die folgenden Felder enthalten im Suchergebnis Vor und Nachname Titel akademischer Grad Organisation Abteilung Aufgabengebiet Kommentar Kommunikationsadressen postalisch dienstlich privat E Mail Telefon dienstlich pri vat Fax e Zeitpunkt der letzten nderung des Eintrags Nachteil bei Whois ist da der Zugriff zentral und nicht verteilt erfolgt Rechner und Netz werkinformation kann nur ber jeweils eine Organisation recherchiert werden die die Daten zentral verwaltet z B der europ ische oder der amerikanische Whois Service Der Bestand ist daher auf die Zentrale beschr nkt Die Suche nach Whois Rechnern ist nicht m glich Weltw
185. erners Lee 1993 Hypertextbest nde werden mit der international standardisierten Dokumentenbeschreibungssprache HTML Ragett 1997 und XML Gold farb Prescod 2001 erfa t Die Benutzeroberfl che Harmony Dalitz Heyer 1995 Maurer 1996 verwendet als Proto koll Hyper G Kappe Pani 1996 Hypertextbest nde werden mit der Dokumentenbeschrei bungssprache HTF Kappe 1996 erfa t Seit 1996 werden zunehmend Suchmaschinen eingesetzt Suchmaschinen realisieren die Su che ber einen gro en Teil des weltweit ffentlich zug nglichen Dokumentbestandes vor allem HTML In letzter Zeit ist eine Entwicklung hin zur Unterst tzung von Multimedia bzw Hypermedia zu erkennen Weiterhin werden geschachtelte Dokumente abgebildet 10 Vannevar Bush Bush 1945 in Atlantic Monthly As we may think Schlag worte MEMEX microfilm card web of trails association 1960 65 Ted Nelson mit dem Projekt XANADU Schlagworte Hypertext docuverses hot links hypermedia information server 1967 68 erste lauff hige Hypertextsysteme Brown University Hypertext Editing Sy stem FRESS beide IBM 360 mit 128KB RAM 1968 Douglas Engelbart Stanford AUGMENT Graphik Maus Fensteroberflache 1978 erstes Hypermediasystem Andrew Lippman MIT ASPEN MOVIE MAP Autofahrt durch die Stadt Aspen mit Hilfe von Fotographien der Stra en lt 2 Bilder sec 110 km h technisch 30 Bilder sec m glich Bildannotationen ziehungen 10MB nicht
186. eroberfl che effizienter anfragen als mit Navigationsmitteln Ans tze f r terminologische Anfragesprachen finden sich in e Common Command Language CCL ISO 8777 Es werden Syntax und Anfragebei spiele gegeben Beispielsweise basiert die Anfragesprache Grips auf CCL e Messenger 2001 Es werden Syntax und Anfragebeispiele gegeben Messenger wird beispielsweise vom Datenbankanbieter STN eingesetzt 85 e IQL DIT mit Thesaurusoperatoren Reiner 1991 S 107 Es werden Syntax und Se mantik definiert e Blair 1990 S 55 64 Es werden Syntax und Anfragebeispiele fiir einfache und ge wichtete Thesaurusanfragen gegeben e Becavac 1996 S 200 Es wird die Fischsuche mit Anfragebeispielen gegeben und ein System im WWW Moasic fish vorgestellt e Hyperkatalog Innsbruck Niedermair 1995 Es werden Anfragebeispiele gegeben und ein System im WWW Hyperkatalog Innsbruck 2001 bereitgestellt THW Query Hartlep 1996 Es werden Syntax Semantik und Anfragebeispiele gege ben Ein System wird im WWW bereitgestellt e Cyc Guha Lenat 1990a Guha Lenat 1990b Cyc 2001 Es werden Syntax Anfra gebeispiele und ein System im WWW bereitgestellt e WordNet Miller 1995 WordNet 1997 Es werden Anfragebeispiele und ein System im WWW bereitgestellt Beispielanfragen Anfragen nach terminologischen Eintragen 1 Welche terminologischen Eintr ge haben einen Namen der mit der Zeichenfolge fahr beginnt Gro Kleinsch
187. es VLDB Edinburgh 1999 Lakshmanan Sadri Subramanian 1996 Lakshmanan L Sadri F und I Subramanian A declarative language for querying and restructuring the web In Post ICDE IEEE Workshop on Research Issues in Data Engineering RIDE NDS 96 New Orleans Februar 1996 Lapp Robie Schach 1998 Lapp J Robie J und D Schach XML Query Language XQL Unter www w3 org TandS QL QL98 pp xql html Lauer Scholz 1996 Novell Netware 4 1 Mark amp Technik Buch und Software Verlag 1996 Lea 1995 Lea Iain iain lea erlm siemens de Tin a netnews reader Version 1 2 Manu al Pages 1995 Liebe 1995 Liebe Andreas Wer suchet Geschichte und Funktionsweise des Inter net Dienstes In iX M rz 1995 S 168 175 Lyons 1980 Semantik Band 1 und 2 Beck M nchen 1980 Manber Wu 1992 Manber U Wu S Agrep a fast approximate pattern matching tool Usenix 1992 Technical Conference San Francisco pp 153 162 Manber Wu 1994 Manber U Wu S GLIMPSE A Tool to Search Through Entire File Systems Proceedings of the USENIX Winter Conference pp 23 32 San Francisco California Januar 1994 oder unter ftp cs arizona edu reports 1993 TR93 34 ps Z Manber 1996 Manber U Glimpse Help Pages GLIMPSE Version 3 5 April 1996 Unter glimpse cs arizona edu glimpsehelp html Masermann Vossen 1998 Masermann U und G Vossen Suchmaschinen und Anfragen im World Wide Web In Informatik Spektrum 21 pp
188. es oder einen Wurzelbegriff von car in dem Thesaurus general lexicon gt trsyn car german vehicles or tt car general lexicon 3 4 Faktensuche Es existieren Datenbanken in unterschiedlichen Anwendungsbereichen H ufig verwendet wird die Anfragesprache SQL ISO 9075 Eine objektorientierte Datenbankanfragesprache ist OQL Cattell 1994 Verteilte Anfragen sind m glich Als Zeichensatz wird berwiegend der 8 Bit Zeichensatz nach ISO 8859 verwendet An einer Portierung nach Unicode wird gearbeitet ber Schnittstellen CGI ODBC JDBC WWW Server Erweiterungen etc werden Daten banken an das WWW angebunden Informix 1997 Oracle 2001 Teilweise wird eine au tomatische Konvertierung der Anfrageergebnisse nach HTML erm glicht 84 Eine relationale Datenbank fiir WWW Dokumente ist RBSE RBSE 1997 Das Datenmo dell sieht Tabellen f r Dokumente f r Verweise in den Dokumenten f r den Index etc vor Gro e kommerzielle Datenbanken werden mit Dokumentationssystemen im WWW pr sen tiert Wichtige Anfragesprachen daf r sind Messenger f r STN STN 2001 und Grips f r DIMDI DIMDI 2001 etc Zur M chtigkeit dieser Anfragesprachen siehe auch Reiner 1991 Das System NLightN NlightN 1997 bietet ein umfangreiches kommerzielles Angebot an Datenbanken Bibliotheken Buchhandlungen Lexika Internetbest nden etc InfoSeek Info Seek 2000 bietet ein hnliches aber nicht so umfangreiches Angebot Beispielan
189. es in order to answer queries posed by users and other information agents the network of interoperating information sources are often referred to as intelligent and cooperative in formation systems The information sources may be of many types including for example traditional databases as well as other information agents Finding a solution to a query might involve an agent accessing information sources over a network Jennings Wooldridge 1995 Auf dem Gebiet der Informationsagenten sind vor allem folgende M glichkeiten interessant e Standardisierte Kommunikationsprotokolle Verteilte Kommunikation parallele Anfragen Nutzung heterogener Informationsbest nde Operatoren zur Navigation in Informationsbest nden Wissensbasierte Suchm glichkeiten Ber cksichtigung von Benutzerwissen Zeitversetzte Anfragekommunikation Relevanzfeedback Frageverfeinerung Pr sentation der Suchergebnisse als Hypertext Zusammenf hrung von Suchergebnissen mehrerer Informationsagenten etc Kommunikation zwischen Benutzern und Agenten bzw zwischen Agenten kann mit Hilfe der Sprechakttheorie beschrieben werden In diesem Zusammenhang wurde die Sprache KQML knowledge query and manipulation language Beck et al 1993 geschaffen KQML formalisiert z B Fragedialoge wie jeman dem eine Ja Nein Frage stellen jemandem eine Welche Frage stellen auf eine Frage von je mandem antworten auf eine Frage von jemandem mit sorry antworten jemanden um Frage
190. ese Artikel etc bis zur Stufe 4 3 1 6 Men suche Gopher wurde Anfang 1991 an der Universit t von Minnesota USA entwickelt Boden et al 1994 W rtlich bedeutet Gopher soviel wie Beutelratte Eine Beutelratte ist auch das Mas kottchen der Universit t von Minnesota Weiterhin bedeutet Gopher in einer weiteren ber setzung rastlos umherirrender B robote Die Aussprache von Gopher pa t auch auf go for something 52 Grundlage aller Gophersysteme ist das Internet Gopher Protocol RFC 1436 mit dem Infor mation hierarchisch ber sogenannte Men s angeboten wird Mit den einzelnen Men punkten kann auf verschiedene Gopher Datentypen wie z B Text Bild Verzeichnis Fehlermeldung bin re Datei etc die weltweit verteilt auf Rechnern vorliegen zugegriffen werden Mit den Men punkten kann auf Informationssysteme wie z B Indexsuche Telefonbuchsuche Telnet Ftp Archie oder Wais zugegriffen werden Seit 1993 wird das Gopher Protokoll verwendet das zu den einzelnen Men punkten weitere Felder zur Verf gung stellt wie z B Gr e Autor Zusammenfassung oder Men punkte f r andere Sprachen Neue Feldtypen sind Bilder in Bitmap Format Bewegtbilder und Audioda teien Das Gopher Protokol ist inzwischen durch den Datentyp HTML erweitert worden Mit den Informationssystemen Veronica Foster 1994a Foster 1994b und Jughead Jones 1994 kann mit Stichw rtern nach Gopher Men punkten gesucht werden Veronica und Jugh
191. esprache kann dann nicht die Vereinigungsmenge sondern nur die Schnittmenge der Mengen Al A2 und A3 docl doc2 docl doc3 nachbilden Die Weiterentwicklung der Zielsysteme hin zur Unterst tzung der Suche in geschachtelten Dokumenten XQL Xpath Xlink etc und zur Suche in link strukturierten Dokumenten ist erst mittelfristig zu erwarten Ein weiterer Nachteil der dezentralen Architektur liegt in der inkonsistenten Zusammenf h rung von Suchergebnissen Beispielsweise werden Dubletten in berlappenden Best nden in den Zielsystemen nicht korrekt erkannt oder es werden bestimmte Felder nicht angezeigt da sie im Zielsystem nicht verf gbar sind Weiterhin m ssen gro e Treffermengen der Zielsy steme aus Effizienzgr nden bei der bermittlung an das Gesamtsystem beschr nkt werden Dadurch ist die Vollst ndigkeit des Suchergebnisses nicht mehr gew hrleistet Zudem kann das neuberechnete Ranking des Suchergebnisses dadurch verf lscht werden Die Anfrageperformance wird durch die dezentrale Architektur vermindert Sie ist zudem von der Performance der Zielsysteme abh ngig Bestimmte Zielsysteme k nnen berhaupt nicht angebunden werden da ihre Performance zu gering ist Durch die Realisierung eines skalier baren Cache Systems f r Anfragen und Suchergebnisse kann die Performance jedoch stark verbessert werden Ein weiterer Nachteil der dezentralen Architektur liegt darin da der Gesamtbestand des Sy stems nur grob gesch tzt werde
192. ess technical person Date of last modification E mail administrator E mail technical person Host domain name Host type Information address Ip Name administrator Name technical person Nameser vers of network Operating system Phone administrator Phone technical person h Vergleichspradikate h1 Zahlenvergleiche int int file string file string gt File type date date int int nt int int int lt int int date date za an genet Suse 2 i lt gt x h2 Vergleich von Zeichenfolgen Contains Pk Near een a er h3 Linguistische Operationen Upper Lower 8 Stem tsss Fuzzy mess Sound ex Sting string h4 Thesaurusoperatoren Syn i Netzwerkfunktionen Path n stellig 4 1 U 1 lt dreistellig string string string string string string string string NT BT PT 139 j Dokumente einstellig Unit k Beziehungen zweistellig Conn 1 Gleichheit zweistellig Equal m Teile Beh lter V VY A A 8 Pr dikatenvariablen 2 stellig verschiedener Sorten P 9 Pr dikatenkonstanten 2 Stufe Reflexive Nonreflexive Irreflexive Symmetric Asymme tric Antisymmetric Transitive NegativelyTransitive Nontransitive EquivalenceRelation Complete StronglyComplete 10 Logische Symbole nicht A und v oder gt Implikation lt gt Aquivalenz 3 es gibt ein V f r alle A alle die 11 Technische Symbole Mit diesen Symbole
193. et Informationssysteme 106 Suchart Anzeige Sortierung Suche Person Teilmenge der erfassten Felder nach dem Namen in ein Gruppe fach struktu Datei Teilmenge der erfassten Felder nach mehreren Feldern Doku men Artikel Teilmenge der erfassten Felder nach Datum Subject und weite ten ren Feldern Teilmenge der erfassten Felder Dokument Teilmenge der erfassten Felder nach mehreren Feldern Hinweis Volltext Teilmenge der erfassten Felder nach mehreren Feldern nach un suche mit Positionsangaben Textzei terschiedlichen Ahnlichkeits len Anzahl von Dateien funktionen Suche in link Teilmenge der erfassten Felder nach mehreren Feldern nach un strukturierten Do terschiedlichen Ahnlichkeits kumenten funktionen Suche in geschach Teilmenge der erfassten Felder nach mehreren Feldern nach un telten Dokumenten mit Positionsangaben Textzei terschiedlichen Ahnlichkeits len Anzahl von Dateien funktionen Suche nach termi Teilmenge der Felder Nach nach mehreren Feldern hierar nologischen Eintr bareintr ge hierarchische und chisch etc gen graphische Darstellungen Intelligente Agenten Teilmenge der erfassten Felder nach mehreren Feldern nach un Netzwerkstruktur der Hypertext terschiedlichen hnlichkeits Dokumente guided tour zu funktionen Kennzeichnung rele sammenh ngend optimiert vanter Dokumente maximale Gr e Anzahl der Dokumente Suchtiefe und breite des Ergeb
194. eutungswert Eco 1987 9 15 Erweiterung gestattet uns Anwendungen wie in Kapitel 4 die Anfragemittel und Anfragege genstand trennen Im Folgenden schreiben wir Sorten und Typen hochgestellt und Nummerierungen tiefgestellt hinter die jeweiligen Grundsymbole 2 4 1 Pradikatenlogik 1 Stufe Im Folgenden bauen wir die Sprache der Pradikatenlogik 1 Stufe auf Wir erweitern die tra ditionelle Pradikatenlogik im Hinblick auf unsere Anwendungen siehe Kap 4 Mit Hilfe von A Ausdr cken k nnen so Mengen von Gegenst nden bezeichnet werden Syntax Die Sprache der Pr dikatenlogik 1 Stufe wird aus folgenden Grundsymbolen Alphabet auf gebaut Alphabet 1 Individuenkonstanten c C2 Individuenvariablen x X2 2 Funktionskonstanten kj ko Funktionsvariablen fi f gt 3 Pr dikatenkonstanten C1 C2 Pr dikatenvariablen P Po 4 Logische Symbole nicht A und v oder Implikation lt gt quivalenz 3 es gibt ein V f r alle X die Menge 5 Technische Symbole Mit diesen Symbolen werden induktiv die Terme und Formeln gebildet Terme 1 Individuenvariablen und konstanten sind Terme 2 Wenn ti t2 tn Terme sind und f ein Funktionssymbol Konstante oder Variable ist dann ist f t to tn ein Term 3 Das sind alle Terme Formeln 1 Wenn ti t2 tn Terme sind und P ein Pr dikatensymbol Konstante oder Variable ist dann
195. ews Anfrage gt http search dejanews com query_profile xp query www Anfragen nach Newsgruppen mit Volltext Bei Netnews wird das Ergebnis alphabetisch sortiert Bei Eingabe von n wird die alphabetisch nachfolgende Newsgruppe angezeigt 7 Welche Newsgruppen enthalten im Attribut Name die Zeichenfolge bln net www Netnews gt nn gt G bln net www Dejanews Anfrage mit einer WWW Benutzeroberflache gt http search dejanews com bg xp level bln net www 8 Welche Newsgruppen enthalten im Attribut Name die Zeichenfolge bln am Beginn Netnews gt nn gt G bln oder gt nngrep bln News URL gt news bln Dejanews Anfrage gt http search dejanews com bg xp level bIn 48 9 Welche Newsgruppen enthalten im Attribut Name die Zeichenfolge bln am Ende Netnews gt nn gt G bln Nngrep gt nngrep bIn Dejanews Anfrage nicht m glich Anfragen nach Artikeln News 10 Welche Artikel existieren alle Artikel aller Newsgruppen Netnews gt nn Xm 11 Welche Artikel enth lt die Newsgruppe bln net www Netnews gt nn gt G bln net www Tin gt tin gt g bln net www Space News URL gt news blIn net www 12 Welcher ist der gerade selektierte Artikel Netnews gt nn E Wenn die ausgew hlten Artikel sich zeitlich am Ende am Anfang einer Newsgruppe befin den werden die Artikel der alphabetisch nachfolgenden vorangehenden Newsgruppe als An
196. f auf Information mit Hilfe von Terminologien bereitet Schwierigkeiten weil die in den Fachgebieten erstellten Terminologie und die damit verbundenen Dokumentenbest nde in unterschiedlichen Formaten vorliegen deren Interpretationen sich voneinander unterschei den Qualitativ hochwertiges und effektives terminologiebasiertes Information Retrieval er fordert die Entwicklung einheitlicher und bergreifender Anfrageverfahren die die Vielf ltig keit und Komplexit t der Best nde ber cksichtigen Die Verwendung von Thesauri und anderer Wissensbasen beim Information Retrieval erlebt in letzter Zeit einen Aufschwung vor allem im Internetbereich da sie eine Verbesserung der Retrievalergebnisse verspricht Dies kann nur dann erreicht werden wenn die Wissensbasen qualitativ hochwertig aufgebaut und konsistent gepflegt werden Mit der vorgestellten Metho de Relationen formale Eigenschaften zuzuordnen wird die Konsistenz unabh ngiger von dem Namen der Relation und ihrer implizit intendierten Semantik Wenn man beispielsweise der Unterbegriffsrelation die Eigenschaften irreflexiv antisymmetrisch und transitiv zuordnet k nnen keine selbstbez glichen Verweise und keine redundanten Beziehungen entstehen Die Qualit t des Bestands verbessert sich Voraussetzung ist allerdings da das Werkzeug zur Verwaltung der Wissensbasis diese Mechanismen ad quat und benutzerfreundlich unterst tzt Anhand eines objektorientierten Prototypen f r die Thesauruspfleg
197. fahrzeug OB Mercedes BF Personenkraftwagen Elektrofahrzeug BF Lastkraftwagen Sportwagen BS Elektro Mercedes OB Pkw Fahrzeug UB Lkw UB Benziner UB Pkw UB Diesel OB Fahrzeug Abbildung 23 alphabetische Darstellung eines Teilthesaurus 91 Hierarchische Darstellung Systematische Darstellung Dimensionale Darstellung Soergel 1974 S 86 Listenformiger Begriffsplan Dezimal Klassifikation Inhaltsverzeichnis Bestandsplan Fachwerkplan File Edit View Go Bo Help ThW Query DEMO Thesaurus main classification O 1 Quantentheorie m 1 1 Grundbegriffe m 1 1 1 mathematische Grundbegriffe m 1 1 2 physikalische Grundbegriffe m 1 2 Aufbau der Materie 12 1 Standard Modell m 1 2 2 alternative Theorien m 1 3 Quantenfeldtheorien m 1 3 1 Quantenelektrodynamik SU 1 Theorie m 1 3 2 0 Quantenchromodynamik SU 3 Theorie 1 3 3 e Theorie der elektroschwachen Kraft SU 2 x U 1 Theorie m 1 3 4 E Theorie der gro en Vereinheitlichung 5U 5 Theorie m 1 3 5 29 Supersymmetrie O 2 Gravitationstheorie m 2 1 allgemeine Relativit tstheorie m 22 259 Supergravitation TRW3 Query Entry Page 3 33 Document Done a Abbildung 24 Baumdarstellung der Hauptsystematik mit THW Query aus Hartlep 1996 im Marz 1997 92 Abbildung 25 Baumdarstellung aller Hyperonyme hnlich der Obergriffsrelations des Substantivs car bis hin zur Wurzel mit einer HTML Darstellung
198. fax or write http www ber in tour de eng address html gt English http www ber in tour de eng gt Deutsch erh Itlich http www ber in tour de gt lt Francais Italiano http www ber in tour de span edda html gt lt tour a pie http www ber in tour de span apie html gt lt VYisita general de la ciudad http www ber in tour de span general html gt lt Berl n la nueva capital http www ber in tour de span capital html gt lt Palacio Charlottemburgo Ala Nueva http www ber in tour de span palacio html gt lt Potsdam http www ber in tour de span potsdam html gt Visitas de la ciudad a petici n http www ber in tour de span otrasTemas html gt lt llamarme escribir mandarme un fax http www ber in tour de span direccion html gt lt e mail mai lto chr ist ber in tour de gt lt back http www ber in tour de gt Abbildung 14 WebSQL Anfrageergebnis mit der Java Benutzeroberfl che im M rz 1999 Beispielanfragen 1 Welche Paare von URL von Dokumenten haben den gleichen Titel SELECT dl url d2 url FROM Document dl Document d2 WHERE d1 title d2 title ANDNOT dl url d2 url 2 Welche Paare von URL von Dokumenten die von Charlottenburg handeln haben den gleichen Titel SELECT dl url d2 url FROM Document dl SUCH THAT d1 MENTIONS Charlottenburg Document d2 SUCH THAT d2 MENTIONS Charlot
199. file README it was last modified on Mon Sep 16 15 01 29 1996 183 days ag FTP Directory ftp ftp zrz tu berlin de pub Parent Directory ftp dirs old ftp files ftp files old index html packages rn rs ms ry ry EN N f re Fa readme html EI wotan zi Document Done a Abbildung 4 Welche Dateinamen befinden sich auf dem FTP Server ftp zrz tu berlin de im Verzeichnis pub im M rz 1997 Bemerkung In der Ergebnismenge wird eine Unterscheidung zwischen den unterschiedlichen Eintragstypen in Form unterschiedlicher Ikonen vorgenommen weiterhin werden zus tzliche Angaben dargestellt letzter Modifikationszeitpunkt Gr e des Eintrag in Kbytes Verweis auf den gezeigten Eintrag 2 Welche Dateinamen befinden sich auf dem FTP Server ftp zrz tu berlin de im Verzeich nis pub oder in einem Verzeichnis unterhalb von pub Das Ergebnis soll alphabetisch nach den Namen geordnet werden gt ftp ftp zrz tu berlin de gt cd pub gt Is R Diese Anfrage ist mit einer WWW Benutzeroberflache als URL nicht m glich 3 Welche Dateien Eintragstyp Benutzer und Gruppenrechte Zahl der Links Benutzername Gruppenname Gr e letzter Modifikationszeitpunkt Name befinden sich auf dem FTP Server ftp zrz tu berlin de im Verzeichnis pub Das Ergebnis soll alphabetisch nach den Namen geordnet werden gt ftp ftp zrz tu berli
200. formation und nach dem Hyper G Fuzzyma berechnet eine hnliche Zeichenfolge zu Retrieval Hyper G URL gt http hyperg cs tu berlin de 80 43B01FCA search html ref cs lehre vv ws9596 Search for gt Information amp f Retrieval 3 2 3 W3QS W3QS ist ein Informationssystem das den netzartigen Zugriff auf Hypertextbest nde mit ei ner SQL hnlichen Anfragesprache W3QL gestattet Konopnicki Shmueli 1998 W3QS 1999 Weiterhin kann mit regul ren Ausdr cken eine Volltextsuche durchgef hrt werden W3QS ist ber WWW Benutzeroberfl chen oder mit einer Programmierschnittstelle API zugreifbar In der WWW Benutzeroberfl che k nnen Anfragen benannt werden und Zwi schenergebnisse festgehalten werden 71 Netscape W3Q5 Server Jol x File Edit View Go Communicator Help 6 Bookmarks J Location http Zma cs technion ac il oW30S cqi_bin frames I What s Related I Fill the fo Alternatively by usii MANA search services Ask about keywords ses AltaVista HotBot and Lycos e write Qi before the word y imple hat contain foo or Foo and bar leave these fields blank links URLs that lt Online Forms rd woth A it fr ea Abbildung 9 WWW Benutzeroberflache von W3QS im M rz 1999 Beispielanfragen 1 Welche Dokumente ausgehend vom Dokument mit der URL http www berlin tour de enthalten im Attribut Titel die Zeichenfolge Charlottenb
201. frageergebnisse werden f r die zuk nftige Suche in den Informations best nden festgehalten Weiterhin k nnen Relevanzfeedbackverfahren eingesetzt werden Salton McGill 1987 S 255 Weiterhin k nnen h ufig verwendete Suchtermini erfa t und dem Informationssuchenden als Kandidaten zur Verf gung gestellt werden Zus tzlich k nnen die Verwendungsh ufigkeiten der Anfragetermini in dem Information Retrieval System als externe Kandidaten ber cksichti gt werden Anpassung des Thesaurus an die Benutzer 6 3 Konsistenz und Inferenz Formale Eigenschaften von Relationen lassen sich zur Konsistenzsicherung von Terminolo gie und Dokumentbest nden nutzen Die Konsistenz der Best nde wird anhand der formalen Eigenschaften und der Argumenttypen gegeben durch das kartesische Produkt der Rela tionen berpr ft Sie wird dadurch unabh ngig von dem Namen und der intendierten aber nicht festgelegten Semantik der Relationen hnliche Ans tze finden sich in Lenat 1990 und Sch nfeldt 1994 159 Konsistenz durch formale Eigenschaften von Relationen Rc M x Mp X 5 Xn X Y Z Mi M2 R reflexiv gt Vx x R x R irreflexiv gt Vx x R x R symmetrisch lt Vx Vy x R y gt y Rx R asymmetrisch lt gt Vx Vy x Ry gt y R x R antisymmetrisch Vx Vy x Ry a y Rx gt k y R transitiv gt Vx Vy Vz xRy a y Rz gt x R2 R atransitiv gt Vx VXn X1 R X2 A A Xn 1 R Xn gt X R Xn f
202. fragen 1 Welche Verweise hat das Dokument deren URL http rbse jsc nasa gov ist RBSE Anfrage gt SELECT s url FROM SPIDER s SOURCE r WHERE s id r id and r src http rbse jsc nasa gov 2 Welche Nachnamen von Personen in den Datenbanken univerzeichnis der TU Berlin und der HU Berlin beginnen mit dem Zeichen K Informix Anfrage vgl Petkovic 1995 gt SELECT nachname FROM univerzeichnis informix_tu_berlin person univerzeichnis informix_hu_berlin person WHERE nachname LIKE K 3 Welche Datens tze enthalten in einer ihrer Spalten die Zeichenfolge Army oder die Zei chenfolge Navy und nicht die Zeichenfolge Air Force Suchraum alle NlightN Datenban ken NlightN Anfrage gt Army Navy Air Force 3 5 Suche nach terminologischen Eintr gen 3 5 1 Anfragen Eine terminologische Anfrage liefert eine Teilmenge des zugrundeliegenden Terminologie und Dokumentbestands als Ergebnis zur ck Eine terminologische Anfragesprache ist die Ba sis f r den Zugriff auf Dokumentbest nde durch Suchkommandos Navigations und Dar stellungsmethoden Suchkommandos bieten f r bestimmte Anwendungen einen effizienteren Zugriff als Navigations und Darstellungsmethoden Wenn jemand beispielsweise genau wei da er Ver fentlichungen nach 1994 von einem Autor mit dem Nachnamen M ller aus dem Themenbereich Datenbanken sucht dann kann er mit pr zisen Suchkommandos unterst tzt von einer ad quaten Benutz
203. fragen werden aus Reiner 1991 S 87ff bernommen F r deren Interpreta tion gelten dieselben Individuenbereiche wie bei Reiner Statt der bei Reiner verwendeten Pr dikatenkonstanten AU PY DT DE werden die Pr dikatenkonstanten Author Date Type Subject benutzt Frage 8 Welche Dokumente handeln von Schlange S A x Subjects gt Schlange lt U gt IY ist Modell von Subject 8 xUt Schlange f r U e U lt U gt lt 3 amp 37 Schlange gt e I Subject 2 f r U e U lt U gt lt U Schlange gt e SUBJECT f r U e U lt D gt lt D2 gt lt D3 gt lt D4 gt lt Do gt lt D10 gt lt D18 gt Frage 9 Welche Dokumente handeln nur von Schlange RK Subject s x Schlange A Subject ns gimit Aberglaube A Subject ing gunit Affel A A Subject tsingi Zucht lt U gt SU ist Modell von Subject 8x Schlange A Subject S x Aberglaube A Subject s x Affel A A Subject 2x Zucht f r U e Uy lt U gt lt IY 3 Schlange gt e IS Subject 8 und lt IVa SU Aberglaube gt IS Subject und lt IVa SU l Affe gt IS Subject 8 und und lt SU xm SU Zucht gt SU Subject f r U e U lt U gt lt U Schlange gt e SUBJECT und lt U Aberglaube gt SUBJECT und lt U Affe gt SUBJECT und und lt U Zucht gt SUBJECT f r U e U
204. fram Schnei der Dirk Schulz und Edgar Weitzel Berlin im M rz 2001 Inhaltsverzeichnis 1 2 3 Einleitung 1 1 Ausgangspunkt 1 2 Problemstellung der Arbeit 1 3 Aufbau der Arbeit Grundlagen 2 1 Internet 2 1 1 Entstehung und Wachstum 2 1 2 Informationssysteme 2 1 3 Protokolle im Client Server Modell 2 1 4 Zeichens tze DS Regul re Ausdr cke 2 2 Hypertext Hypermedia 2 2 1 Was ist Hypertext Hypermedia 222 Geschichtliche Entwicklung 2 2 3 Was bringt Hypertext mit sich 2 3 Graphentheorie 14 Logik 1 1 1 Pradikatenlogik 1 Stufe 1 1 2 Mehrsortige Pr dikatenlogik 1 Stufe 1 1 3 Mehrstufige Pr dikatenlogik 1 1 4 Mehrstufige mehrsortige Pr dikatenlogik 1 5 Anfragesprachen Anfragen in Internet Informationssystemen 3 1 Suche in einfach strukturierten Dokumenten 3 1 1 Personen und Gruppensuche 3 1 2 Rechnersuche 3 1 3 Dateisuche 3 1 3 1 Dateisysteme 3 1 3 1 1 H ufig verwendete Dateisysteme 3 1 3 1 2 Physikalische und logische Sicht 3 1 3 1 3 Felder von Dateien 3 1 3 1 4 Anfragen nach Dateien 3 1 3 2 Telnet 3 1 3 3 FTP 3 1 34 Alex 3 1 3 5 Archie 3 1 4 E Mail Suche 3 1 5 Artikelsuche 3 1 6 Men suche 3 1 7 Suche nach Dokumenthinweisen 3 1 8 Volltextsuche 3 1 8 1 WAIS 3 1 8 2 Harvest 3 1 8 3 Suchmaschinen 3 2 Suche in link strukturierten Dokumenten 3 2 1 HTTP URL 3 2 2 Hyper G 3 2 3 W3QS NoDVD CHARAN A A N m m N A N RH m ONDA N w 26 3 2 4 We
205. fw phd literature html UNIT http www cs tu berlin de josefw phd literature Abiteboul Beeri1995 html UNIT http www cs tu berlin de josefw phd literature Ackermann Hilbert1972 html UNIT http www cs tu berlin de josefw phd literature A frati K outras 1990 htm1 UNIT 0 http www cs huji ac il beeri UNIT http www rocq inria fr abitebou pub icdt97 semistructured talk ps u UNIT UNIT UNIT3 UNITs UNITs UNIT UNIT7 UNITs UNITs UNIT jo UNIT 1 Relation CONN 3 Conn lt UNIT UNIT2 gt lt UNIT UNIT3 gt lt UNIT UNIT4 gt lt UNIT UNITs gt lt UNIT UNIT6 gt lt UNIT6 UNIT7 gt lt UNITe UNITs gt lt UNIT6 UNITo gt lt UNIT UNIT7 gt lt UNITs UNITo gt lt UNIT7 UNITi0 gt lt UNIT7 UNIT11 gt Die Beziehungen stellen sich als Graph folgenderma en dar Abbildung 36 Graphische Darstellung der Links Bemerkungen UNIT und UNIT haben denselben Vaterknoten Es existiert eine zyklische Beziehung bei UNIT UNIT hat zwei Vorg nger UNIT und UNIT6 120 Frage 1 Welche Dokumente stehen zum Dokument unit in einer Beziehung I x Conn unit x lt U gt 3 ist Modell von Conn unit x lt U gt lt 3 unit 3 x x gt e 3 Conn f r U e U lt U gt lt UNIT U gt CONN f r U e U lt UNIT2 gt lt UNIT3 gt lt UNIT4 gt lt UNIT5 gt lt UNIT6 gt lt UNIT7 gt Frage 2 Welche Dokumente stehen zu Doku
206. ge tiber den Eingangskanal seiner Socketverbindung 6 Die Server Connection bestimmt die Antwort der Anfrage und schickt diese tiber den Aus gangskanal der Server Socketverbindung an den Client 7 Der Client liest die Antwort tiber den Eingangskanal seiner Socketverbindung 8 Die Client und Server Sockets werden geschlossen Die Server Connection wird beendet 9 Der Client stellt die Antwort dar Anfragen in URLESQL Syntax werden vom Client bei der Ubertragung zum Server aus Effi zienzgr nden in eine Infix Notation berf hrt Dabei werden technische Symbole weggelas sen logische Symbole in eine 7 Bit Zeichenfolge berf hrt z B wird das Zeichen A in die Zeichenfolge and berf hrt und Lambda Variablen an das Ende des Ausdrucks gesetzt Beispielsweise wird die Anfrage A x y Conn http www test com x A Conn x y berf hrt in die Form and conn http www cs tu berlin de josefw x conn x y x y Antworten werden in der Hypertextbeschreibungssprache HTML in Form von geordneten Listen ul codiert 194 PLCTP kann in dem Ma e als sicher bezeichnet werden als da Authentifizierung und Ver schlisselung auf Schicht 3 und 4 des OSI Modells sichere Socketverbindung durch Java in naher Zukunft zur Verfiigung gestellt werden 10 5 7 Server URLES Server URL Echo Sounder Server ist ein Programm das Verbindungen Anfragen von URLES Clients annimmt die Antwort bestimmt und an den Client zuriickgibt URLES Se
207. genannte Kollektionen bestimmt werden Kollektionen sind Mengen von explizit aufgef hrten Dokumenten oder wiederum von Kollektionen Eine Kollektion kann alle Dokumente eines Hyper G Servers enthalten Server Kollektion Weiterhin k nnen Kollektionen als Ergebnis einer Anfrage bestimmt werden Kollektionen k nnen server bergreifend gebildet werden Kollektionen k nnen in den Anfragen als Suchr ume verwendet werden Jedes Dokument besitzt eine Menge von Attributen wie Id Typ Name des Dokument Titel Besitzer Zugriffsrechte Sichtbarkeitsdauer Autor Beschreibung Inhalt Zeitpunkt der Ent stehung letzter Modifikationszeitpunkt inhaltliche Deskriptoren Ordnungsnummer Kollek tionen haben die weiteren Attribute Sortierkriterium und bersichtsseite Beziehungen zwischen Dokumenten 1 Ausgangs und Zielregion einer Beziehung kann innerhalb eines Dokuments liegen Das Dokument kann multimedial sein Postscript Bild Video etc Eine Region kann aus mehre ren anderen Regionen bestehen 2 Ausgangs und Zielregionen von Beziehungen k nnen berlappen 3 Ausgangs und Zielregion einer Beziehung kann ein Hyper G Dokument Name Id eine Hyper G Kollektion oder ein WWW Dokument URL sein 4 Ausgangs und Zielregionen einer Beziehung besitzen eine Menge von Attributen Id Typ Zeitpunkt der Entstehung letzter Modifikationszeitpunkt lokale Ziel Id bzw Ausgangs Id globale Ziel Id bzw Ausgangs Id Region Beginn L nge Da
208. gesprache zur Suche in strukturierten Do kumenten Wichtigste Komponenten der Architektur sind Collection Manager QueryServer und Roboter Im Vergleich zu Standardsuchmaschinen wird zus tzlich eine direkte Verwal tung von Dokumenten im zentralen System durch den Benutzer erm glicht Weiterhin kann der Benutzer den Dokumentenbestand in dem er recherchieren m chte ausw hlen lokal bis global Spezifische Suchergebniseinstellungen sind m glich 167 Zur Realisierung des Systems k nnen Techniken zum Einsatz kommen die das System ska lierbar halten und so die Performance des Gesamtsystems an die Benutzerzahl anpassen Im Softwarebereich wird dies beispielsweise durch Komponententechnik z B Enterprise Java Beans etc durch Programmierbibliotheken zur verteilten Client Server Entwicklung und durch den Einsatz von Applikationsservern erreicht Im Hardwarebereich wird Skalierbarkeit durch die Verteilung der Hardwareressourcen erreicht Der Datenbestand kann in Zukunft durch den Einsatz leistungsf higer Hintergrundspeicher auf eine Gr e im Petabyte Bereich und das Cache System durch Clusterl sungen auf eine Gr e im Terabyte Bereich anwach sen Durch den Einsatz von Hochleistungssystemen parallele Prozessoren performante Da tenbusse etc kann zudem die Verarbeitungsgeschwindigkeit erh ht werden so da Hundert tausende von Benutzern gleichzeitig mit dem System arbeiten k nnen Durch den Einsatz so genannter Failover Systeme werden
209. giepflege 163 Suche Informations suchender Suchl ae Informations vermittler Suchexperte Abbildung 46 Kommunikation bei der Informationssuche und ablage Fachgebiets Kommunikationsbrett Allgemeine Fragen Fachgebietsmodifikationen Terminologieeintrag Allgemeine Kommentar Verbesserungsvorschl ge Urteil Modifikationsvorschlag h ufig gestellte Benutzeranfragen Indezierung formal inhaltlich Kommentar Urteil Relevanzurteile Modifikationsvorschlag Kommentar Urteil des Indexierers Ablage Autor Indexierer Terminologe Terminologiepfleger 164 7 Schlu 7 1 Vergleich von Anfragen in Internet Informationssystemen Auf Phasen der Diversifikation von Systemen folgen Phasen ihrer Integration und Vereinheit lichung Diese Regel trifft zur Zeit auf Internet Informationssysteme zu Benutzer m ssen hintereineinander verschiedene Systeme anwenden um ein bestimmtes Dokument im Internet zu finden Sie m ssen Spezialwissen ber diese Systeme erlangen verwendete Anfragesyntax und semantik Dokumentbestand Suchoberfl che Anzeige des Suchergebnisses etc Meta suchmaschinen versuchen zwar dieses Problem zu verringern stellen jedoch keine grunds tz liche L sung dar Bei dem Vergleich der Internet Informationssysteme f llt auf da sich die Systeme insbeson dere unterschiedlicher Systemtypen auf Dokumenttypen spezialisieren Beispiele sind Such maschinen die sich auf HTML oder News Dokum
210. gif 3 3 Suche in geschachtelten Dokumenten 3 3 1 TSIMMIS TSIMMIS The Stanford IBM Manager of Multiple Information Sources ist ein Projekt das es sich als Ziel gesetzt hat Informationsbest nde die geschachtelte Dokumente enthalten einheitlich zur Verf gung zu stellen Quass Rajaraman et al 1995 Papakonstantinou Gar cia Molina Widom 1995 In TSIMMIS wurde die objektorientierte Repr sentationssprache 78 OEM entwickelt die als Zwischensprache fiir die Integration der einzelnen Informationsbe st nde fungiert Clients greifen mit der Anfragesprache OEM QL einheitlich auf die Best nde zu Zur Kommunikation wird das CORBA basierte DLIOP Garcia Molina Paepcke 1996 verwendet das in der Digital Library Initiative im Einsatz ist DLIOP ist nicht zustandslos so da Zwischenergebnisse weiterverwendet werden k nnen Application u RER poo a Mediator Mediator Mediator Generator Definition Translator Generator Translator Translator Re Definition Classifier Extractor Classifier Extractor Abbildung 16 TSIMMIS Architektur aus Garcia Molina Hammert et al 1995 OEM QL verwendet Mediatoren f r Informationsbest nde Mediatoren sind Wissensbasen in denen Wissen ber eine oder mehrere Informationsbest nde gespeichert wird Mit den Me diatoren wird die OEM QL Anfrage aufbereitet und an weitere Mediatoren oder Anfrage ber setze
211. gt lt Grzimek B gt lt G nther K gt lt Heusser H R gt lt Kuhn O gt lt Peters G gt lt Sterba G gt lt Thenius E gt 4 2 SimpleLinkQL Eine Anfragesprache f r einfach link strukturierte Dokumente Anwender von SimpleLinkQL sind Benutzer die einen Zugriff auf einfache link strukturierte Dokumente w nschen SimpleLinkQL enth lt Sprachelemente f r Dokumente Individuen konstanten und variablen und f r zweistellige Beziehungen zwischen diesen die Pr dikaten konstante Conn Formeln k nnen mit booleschen Operatoren verkn pft werden Dokumente werden als einfach unstrukturiert vorausgesetzt Beziehungen zwischen Dokumenten werden nicht weiter klassifiziert z B mit Namen von Beziehungen oder mit Eigenschaften von Be ziehungen Beziehungen sind gerichtet Die Best nde k nnen Zyklen enthalten SimpleLinkQL ist eine pr dikatenlogische Sprache 1 Stufe Sie enth lt keine Funktionen 4 2 1 Syntax Alphabet 1 Individuenkonstanten f r Dokumente unit unit unity 2 Individuenvariablen f r Dokumente x X1 X2 3 Pr dikatenkonstante 2 stellig Conn 4 Logische Symbole nicht A und v oder gt Implikation lt gt Aquivalenz 3 es gibt ein V f r alle alle die 5 Technische Symbole Formeln 1 Conn x xj sind Formeln 2 Wenn F F und F Formeln sind dann auch F FF A Fo F v Fo Fi gt Fo Fi Fo J Xi F y Xi F 3 Das sind a
212. hSearchButton new Button Stop searching finishSearchButton reshape 200 400 100 30 add finishSearchButton initSocket public void initSocket Initializes a socket to communicate with URLES Server on port 4712 Creates input and output streams for the socket use with the socket Creates a thread to wait for the answer try if s null s close try s new Socket getCodeBase getHost PORT in new DatalnputStream s getInputStream out new PrintStream s getOutputStream listener new StreamListener in this catch IOException e showStatus e toString catch IOException e showStatus e toString set parent frame Object frame getParent while frame instanceof Frame frame Component frame getParent parent Frame frame set Cursor back to standard arrow for the applet parent setCursor Frame DEFAULT_CURSOR public boolean action Event e Object what When the user fills out the forms sends it to the server if e target predChoicel una y or E or 8 Ey R Ey y Es EJ yay yy ey ey yy yy yy LA 212 7 if ex ex ex ex if ex de ex ex ex Hoe vst WE if if if e i i i i ji predicate choice af predChoicel getSelectedItem Conn pressionPanell remove labelComma2 pressionPanell remove depth
213. he Erweiterungen der Pr dikatenlogik sind Variablen Funktoren Pr dikate und Quantoren Die Individuen werden von den ihren Eigenschaften Pr dikaten getrennt vgl Ackermann Hilbert 1972 S 67 Beim Aufbau der Sprache der Pr dikatenlogik ist es wesentlich die Syntax von der Semantik zu trennen Wenn n mlich erreicht werden kann eine Sprache syntaktisch und semantisch getrennt auf zubauen gilt unter bestimmten Voraussetzungen da sich alle Folgerungen aus einem Axio mensystem algorithmisch syntaktisch gewinnen lassen Reiner 1991 S 10 Anstatt mit einem einzigen Individuenbereich k nnen wir mit mehreren Gattungen von Indi viduenbereichen arbeiten Wir gelangen so zur mehrsortigen Pr dikatenlogik erster Stufe vgl Ackermann Hilbert 1972 S 117 In dieser Arbeit ist die Pr dikatenlogik Grundlage f r den Aufbau der Anfragesprachen Wir erweitern die Pr dikatenlogik um Anfragen und verwenden den A Operator in A Ausdr cken die Mengen von Gegenst nden bezeichnen Carnap 1958 S 129ff Konrad 1976 Diese Sprechen hei t in Tautologien verfallen und auch ihre Widerlegung Eine Zahl n m glicher Sprachen verwendet den gleichen Wortschatz in einigen erlaubt das Symbol Bibliothek die korrekte Definition berall vorhandenes und fortdauerndes System sechseckiger Galerien aber Bibliothek ist Brot oder Pyramide oder irgend etwas anderes und die sieben W rter die sie definieren haben einen anderen Bed
214. hsweise hohe Aufwand der verbindungsorientierten Protokolle wie z B OSI oder TCP IP vermieden wird basiert das Client Server Modell meistens auf einem ein fachen verbindungslosen Anfrage Antwortprotokoll Ein Client sendet eine Anfrage und erh lt eine Antwort Tanenbaum 1995 S 494 Ein Anfrage bzw Antwortprotokoll legt Regeln fest die bestimmen ob Anfragen und Ant worten syntaktisch korrekt gebildet sind und somit gesendet bzw empfangen werden k nnen Der Anfrage Client kennt von seinem Antwort Server nur das Protokoll nach dem die Kom munikation abl uft Ein verl liches Protokoll ist ein Protokoll welches 1 sicherstellt da gesendete Daten beim Kommunikationspartner ankommen Falls Daten beim Kommunikationspartner zun chst nicht ankommen werden sie erneut bis zum erfolgrei chen Empfang dorthin gesendet 2 die Ber cksichtigung der Reihenfolge der gesendeten Daten gew hrleistet Um Anfrage bzw Antwortprotokolle verl lich zu machen wird meist die Netzwerk und Transport Schicht verwendet Das Internet wird durch ein 4 Schichten Modell gebildet physikalische und Bit bertragungs schicht Netzwerkschicht RFC 791 Transportschicht RFC 793 und Applikationsschicht Man unterscheidet folgende Kommunikationsprotokolle Applikationsschicht von Internet Informationssystemen Server Clients Protokoll Server Client Finger User Information Protocol Finger Finger Netfind nach RFC 742 und RFC 1288
215. ie Datei Client java import java applet import java awt import java io import java net to presentate the HTML Result in a javascript window import netscape javascript JSObject import netscape javascript JSException JR JR BASS es URL Echo Sounder URLES Client URLES Client is an Internet user interface for an easy building of queries as expressions of the predicate lambda calculus and for showing their answers The user having loaded a client an applet with a standard Internet browser on his or her user host he or she specifies his or her logical query mostly with mouse operations The user can add remove and rename parts of the query Syntactically error builded inputs are showed in seperated Error windows The user starts his query by pressing the Start searching button For reason of security applets only build up a socket connection to a process which is on the same host server host as the host which the applet is loaded from applet host After this the applet initializes method initSocket a TCP IP based socket connection to the URLES Server here with port 4712 The applet starts a process on the user host class StreamListener which is waiting for an answer of the URLES Server over the sockets input stream URLES Server starts a process on the server host w
216. ielf ltigen M glichkeiten von Hypertext lenken von dem zu sagenden zeigenden ab Zugriff e Rauschen einmal da schlicht zuviel ber die Kan le der neuen Medien reinstr mt und zum anderen da es Information gibt die das Verstehen behindert oder verhindert Haefner nach Volpert 1985 S 111 e Hypertext kann nur ber ein Werkzeug z B Computer Leseger t etc benutzt werden Diese Werkzeuge sind heute i A noch nicht so weit entwickelt da sie an jedem Ort ein gesetzt werden k nnen Auch die Peripherie des Werkzeugs z B Drucker Scanner etc kann nicht an jedem Ort betrieben werden e Anfrageverfahren sind kaum vorhanden und nicht standardisier Standard Benutzeroberfl chen sind nicht in Sicht e Die bersichtlichkeit des Bestandes kann verloren gehen Ein direkter Griff an die richti ge Stelle ist u U schwierig e Der Autor schafft Irrg rten der Benutzer betritt Irrg rten e Methoden zur Indexierung von Hypertextbest nden sind kaum standardisiert Experten Indexierer Thesauruspfleger etc werden bisher kaum im Bereich der Hypertexte einge setzt e Ein einheitliches Ver ffentlichungsschema existiert nicht Insgesamt kann die Frage ob hypermediale Ausdrucksformen insgesamt ein Mehr oder ein Weniger von etwas bedeuten nicht beantwortet werden Manche Dom nen eignen sich eher manche weniger zur Darstellung Benutzung als Hypertext So wie es Bestsellerautoren se quentieller Texte gibt wird es Best
217. ierte Doku mente Anwender von LinkQL sind Benutzer die einen Zugriff auf link strukturierte Dokumente w nschen LinkQL enth lt Sprachelemente f r Dokumente und f r zweistellige Beziehungen zwischen diesen Formeln k nnen mit booleschen Operatoren verkn pft werden Dokumente werden als einfach unstrukturiert vorausgesetzt Beziehungen zwischen Doku menten werden durch den Namen Conn Conny unterschieden Beziehungen zwischen Dokumenten sind gerichtet Die Best nde k nnen Zyklen enthalten LinkQL ist eine Erweiterung von SimpleLinkQL LinkQL enth lt Pr dikate f r Netz werkfunktionen Pfad Vorg nger Nachfolger Geschwister Stationen vgl Kap 2 3 Gra phentheorie F r die Vorg nger Nachfolgerfunktion wird eine Stufe Suchtiefe und f r die Netzwerkfunktionen der Namen der Beziehung spezifiziert Pfade sind elementar d h kein Knoten der Sequenz kommt mehrmals vor Dadurch wird sichergestellt da keine Pfade un endlicher L nge aufgebaut werden LinkQL ist eine pr dikatenlogische Sprache 1 Stufe Sie enth lt keine Funktionssymbole 4 3 1 Syntax Alphabet Individuenkonstanten f r Dokumente unit unit unit Individuenvariablen f r Dokumente x X1 X2 X0 Xp Xy Individuenkonstanten f r eine Stufe 1 2 3 Individuenvariable f r eine Stufe s Pr dikatenkonstanten zweistellig Conn Conn Conny Pr dikatenkonstanten f r Netzwerkfunktionen a Pfad n stellig Path b N
218. iertes Information Retrieval Definition der Begriffe 157 6 3 Konsistenz und Inferenz 159 6 4 Entwicklung eines Kommunikationsmodells fiir das terminologiebasierte Information Retrieval 7 Schlu 7 1 Vergleich von Anfragen in Internet Informationssystemen 7 2 Entwickelte Anfragesprachen 73 Architektur eines universellen Internet Informationssystems 7 4 _ Terminologiebasiertes Information Retrieval 75 Zuk nftige Entwicklungsm glichkeiten 8 Erzielte Ergebnisse 9 Ausblick 10 Anhang 10 1 Literatur 10 2 URL von Personen Organisationen und Produkten 10 3 Normen 10 4 Symbole 10 5 URL Echo Sounder 10 5 1 Einf hrung und Grundlagen 10 5 2 Connections und Descendants 10 5 3 URL Echo Sounder Query Language URLESQL 10 5 4 Backus Naur Form der Anfragesprache 10 5 5 Architektur 10 5 6 Predicate Lambda Calculus Transfer Protocol PLCTP 10 5 7 Server 10 5 8 Client 10 5 9 Erweiterungen 10 5 10 Programmlisting 162 165 165 166 167 168 170 172 173 174 174 180 183 189 190 190 191 191 192 193 193 195 195 198 199 1 Einleitung 1 1 Ausgangspunkt Seit Entstehung des World Wide Web hat sich das Internet vom reinen Wissenschaftsnetz zum Netz f r jedermann entwickelt Fast eine halbe Milliarde Internet Benutzer greifen weltweit auf mehrere Milliarden von Web Dokumenten zu Jeden Tag werden fast 1 Milliar de Suchmaschinen Anfragen gestartet F r die Zukunft wird ein weiterer starker Anstieg die ser Zah
219. iform Resource Locators URL De zember 1994 Unter www fags org rfes rfc1738 html RFC 1808 R Fielding Relative Uniform Resource Locators Juni 1995 Unter www fags org rfes rfc1808 html RFC 1835 Deutsch P Faltstrom P Schoultz R Weider C Architecture of the WHOIS service Unter Unter www faqs org rfcs rfc1835 html August 1995 RFC 1866 T Berners Lee D Connolly Hypertext Markup Language 2 0 IETF Secretariat Corporation for National Research Initiatives M rz 1995 Unter ds internic net ds rfc1866 html RFC 1913 Fullton J Spero S Weider C Architecture of the Whois Index Service Unter ds internic net ds rfc1913 html Februar 1996 RFC 1945 T Berners Lee R Fielding H Frystyk Hypertext Transfer Protocol HTTP 1 0 Mai 1996 Unter www fags org rfcs rfc1945 html RFC 2068 R Fielding J Gettys J Mogul H Frystyk T Berners Lee Hypertext Transfer Protocol HTTP 1 1 Januar 1997 Unter www faqs org rfcs rfc2068 html Internet Drafts Internet Draft Index Current Internet Drafts IETF Secretariat Corporation for National Re search Initiatives Unter www ietf cnri reston va us lid abstracts html Adler Berglund et al 2000 Adler S Berglund A Caruso J Deach S Grosso P Gutentag E Milowski A Parnell S Richman J Zilles S Extensible Stylesheet Language XSL Version 1 0 W3C Candidate Recommendation November 2000 Unter www w3 org TR xsl Berners Lee 199
220. ils Vorname Nachname Domainname In den Suchzeichenfolgen kann als Zeichensatz der 8 Bit Zeichensatz nach ISO 8859 X ver wendet werden Als Maskierungen k nnen eingesetzt werden Rechts Links und Innenmas kierung Wortmaskierung f r Phrasen regul rer Ausdruck phonetische hnlichkeit Na menerkennung Synonyme Die Unterscheidung von Gro Kleinschreibung kann spezifiziert werden Weiterhin ist eine Suche mit Attributen Inhalt des Dokument alle Attribute oder einzelne Attribute m glich Als boolesche Operatoren werden das logische und and das logische oder or das logische nicht not und das logische bin re nicht and not unterschieden Boolesche Ausdr cke k nnen geschachtelt werden Bei booleschen Anfragen wird standardm ig keine Ordnung der Ergebnismenge durchgef hrt Bei AltaVista AltaVista 1997 Ray Ray Seltzer 1997 kann diese ungeordnete Ergebnismenge durch zus tzliche Angabe von Suchbegriffen Anordnung wie beim Anh ufungsoperator s u geordnet werden 65 Wortabstandsoperatoren sind near und adjacent Als Standard ist meist der maximale Wor tabstand Zeichenabstand zwischen den Suchzeichenfolgen vorgegeben ist aber durch eine Zahl spezifizierbar Boolesche Operatoren und Wortabstandsoperatoren k nnen verkn pft werden Zur Anordnung der Ergebnismengen k nnen folgende Operatoren verwendet werden 1 Anh ufungsoperator zweistellig hnlich dem logischen oder Mit dem Anh
221. in nein nein polyhierarchisch R umliche nein nein ja nein nein nein Nebenordnung Kausalbeziehung di nein ja nein ja j rekt Kausalbeziehung indi nein ja nein ja rekt Nachfolgebeziehung nein nein nein nein nein j direkt Nachfolgebeziehung nein nein nein nein ja nein indirekt Antonymie nein nein nein ja Tabelle 11 Formale Eigenschaften terminologischer Relationen Au er den hier betrachteten Eigenschaften lassen sich den zweistelligen terminologischen Relationen weitere bei Schmidt Str hlein 1993 S 29ff genannte formale Eigenschaften zu ordnen F r ein Terminologie Navigationssystem k nnten folgende Regeln f r Relationen festgelegt werden 1 Jede zweistellige Relation besitzt eine converse Relation Vermeidung von Fallgruben 2 Jede symmetrische Relation besitzt als converse Relation sich selbst 3 Es existieren bez glich einer Relation keine Mehrfachbeziehungen zwischen zwei Knoten 4 F r jede hierarchische polyhierarchische oder polydimensionale Relation gilt die Azyklizi t t und die Atransitivit t Inferenz Mit Hilfe logisch definierter Regeln lassen sich implizite Informationen aus den Terminologi en und den Informationsbest nden gewinnen vgl auch terminologische Logiken Im Unterschied zu gew hnlichen Datenbanksystemen wo im allgemeinen nur explizit ge speicherte Informationen abgerufen werden k nnen liefert ein Frage Antwort System Bem oder wissensbasiertes Sy
222. inerem Rahmen Dissertationen Zeitschriften etc F r die Dokumenthinweise existieren unterschiedliche Felder vgl ISO 8777 UNIMARC 1997 USMARC ISO 2709 MAB 1997 Daniel et al 1995 und DublinCore 2001 F r den Buchhandel gelten zus tzliche Attribute Preis Anzahl der Seiten Lieferzeitpunkt etc 3 1 8 Volltextsuche 3 1 8 1 WAIS Grundlage von WAIS Wide Area Information Server ist das Protokoll Z39 50 Z39 50 1995 Z39 50 spezifiziert Prozeduren und Formate f r den Austausch von Nachrichten zwi schen Z39 50 Client und Server Der Client bermittelt Anfragen an den Server Dieser bear beitet die Anfrage und bermittelt das Ergebnis an den Client zur ck Der Client selektiert dann Elemente der Ergebnismenge Z39 50 hat von 1981 bis heute drei Stufen durchlaufen Version 1 1988 Version 2 1992 und Version 3 1995 Version 3 bietet folgende Merkmale e Unterst tzung von Sitzungen als zeitliche Folge von Operationen Relevanzfeedback ist dadurch m glich Operationen k nnen gleichzeitig durchgef hrt werden Indexierung geschachtelter Dokumente SGML etc Felder werden automatisch erkannt Formate f r die Ergebnismengen z B USMARC UKMARC etc Benennung von Ergebnismengen Auftrennung von Ergebnismengen in Teilmengen bei ineffizienten Datenverbindungen Client Authentifizierung durch den Server Attribute k nnen Datentypen zugeordnet werden Integer Date Char etc Unterschiedliche Attributmengen z
223. information und re trieval einen Wortabstand von h chstens 10 Worten Waissearch und WAIS URL nicht m glich SFgate Anfrage gt http ls6 informatik uni dortmund de ir search cgi bin SFgate database 1s6 informatik uni dortmund de 2Fbibdb html amp information w 10 retrieval 59 8 Welche Dokumente in der WAIS Datenbasis bibdb html auf dem WAIS Server Is6 informatik uni dortmund de haben nach der Zeichenfolge information h chstens einen Wortabstand von 10 Worten zur Zeichenfolge retrieval Waissearch und WAIS URL nicht m glich SFgate Anfrage gt http ls6 informatik uni dortmund de ir search cgi bin SF gate database 1s6 informatik uni dortmund de 2Fbibdb html amp information pre 10 retrieval 9 Welche Dokumente in der WAIS Datenbasis bibdb html auf dem WAIS Server Is6 informatik uni dortmund de enthalten die Zeichenfolge information 20 mal Waissearch und WAIS URL nicht m glich als SFgate Anfrage gt http ls6 informatik uni dortmund de ir search cgi bin SF gate database 1s6 informatik uni dortmund de 2Fbibdb html amp atleast 20 information Boolesche Anfragen nach Dokumenten 10 Welche Dokumente in der WAIS Datenbasis bibdb html auf dem WAIS Server Is6 informatik uni dortmund de enthalten die Zeichenfolgen information oder retrieval Waissearch gt waissearch h 1s6 informatik uni dortmund de p 210 d bibdb html information retrieval oder gt waissearch h Is6 informatik uni
224. inhalt Resourceinhalt Men Ikone Fenstergr e ausf hrbarer Code etc Name Verzeichnisname wenn Datei Zeitpunkt des Anlegens der Datei Datum Uhrzeit letzter Modifikationszeitpunkt des Inhalts der Datei Datum Uhrzeit letzer Backup Zeitpunkt der Datei Version Gr e in Bytes Position der Dateimarke weitere Dateiattribute gesperrt Dateninhalt ge ffnet Resourceninhalt ge ffnet Benutzerkennung Gruppenkennung Benut zer Gruppenrechte lesen ausf hren schreiben Netware FS Felder wie bei FAT Rechnername Volumename Modifizieren CI Macintosh Copy Inhibit nur Datei DC Don t compress DI Delete inhibit DM Don t migrate DS Don t Suballocate nur Datei H Hidden I Index nur Datei IC Immediate Compress N Normal lesen schreiben und mehrfach benutzbar P Purge RI Rename Inihibit SH Shareable nur Datei T Transactional nur Datei X Execute only nur Datei Benut zer Gruppenrechte lesen suchen ausf hren erstellen l schen umbenennen Benut zer Gruppenrechte f r Eigenschaften von Eintr gen vergleichen lesen schreiben eigenen Namen hinzuf gen oder l schen NTFS Felder wie bei HPFS verkn pfte Anwendung Benutzerkennung Gruppenkennung Benutzer Gruppenrechte anzeigen hinzuf gen lesen hinzuf gen und lesen schreiben aus f hren l schen Benutzerrechte ndern Besitz bernehmen Name des Datentr gers Para meter des Datentr gers ufs nfs Identifikationsnum
225. ion sources In IEEE Internatio nal Conference on Data Engineering pp 251 260 Taipeh Taiwan Marz 1995 Petkovic 1995 Petkovic Dusan Informix 6 0 7 1 Addison Wesley 1995 Pfeifer 1995 Pfeifer U FreeWAIS sf the enhanced freeWAIS distribution Oktober 1995 unter ls6 www informatik uni dortmund de ir projects freeW AIS sf index html Pu Schwartz 1994 Pu Calton und Michael Schwartz Applying an Information Gathering Architecture to Netfind A White Pages Tool for a Changing and Growing Internet IEEE ACM Transactions on Networking 2 5 426 October 1994 Oder unter ftp ftp cs colorado edu pub cs techreports schwartz Netfind Gathering ps Z Quass Rajaraman et al 1995 Quass D Rajaraman A Sagiv Y Ullman J und J Wi dom Querying semistructured heterogeneous information In International Conference on De ductive and Object Riented Databases 1995 Ray Ray Seitzer 1997 Ray D E Ray R Seitzer The AltaVista Search Revolution McGraw Hill 1996 Reiner 1991 Reiner Ulrike Anfragesprachen fiir Informationssysteme Reihe Informations wissenschaft der DGD Bd I Frankfurt a Main Deutsche Gesellschaft f r Dokumentation 1991 Reiner 1994 Reiner Ulrike Anfragesprachen f r Textsuchsysteme In B hm Mengel Muhr 1994 Salton 1975 Salton G Dynamic information and library processing Englewood Prentice Hall 1975 Salton McGill 1983 Salton Gerard und Michael McGill Introduction to mo
226. ird eine Zusammenfassung des Ver gleichs durchgef hrt In Kapitel 4 werden aufbauend auf den Ergebnissen von Kapitel 3 Anfragesprachen f r drei Systemklassen von Internet Informationssystemen entwickelt und zu einer universellen An fragesprache zusammengef hrt F r jede Anfragesprache werden Syntax und Semantik defi niert und Anfragebeispiele gegeben In Kapitel 5 wird die Architektur eines Internet Informationssystems entworfen das die ent wickelte Anfragesprache unterst tzt In Kapitel 6 wird das terminologiebasierte Information Retrieval in den Kontext der Hyper textforschung gebracht In den beiden ersten Teilkapiteln werden grundlegende Definitionen gegeben und Verfahren des terminologiebasierten Information Retrieval vorgestellt Im drit ten Teilkapitel werden zur Konsistenzverbesserung von Terminologien formale Eigenschaften von Relationen eingef hrt Im letzten Teilkapitel wird ein Kommunikationsmodell f r das terminologiebasierte Information Retrieval entworfen In Kapitel 7 und 8 werden die Ergebnisse der Arbeit diskutiert und schlie lich in Thesen vor gestellt Weiterhin werden zuk nftige Entwicklungsm glichkeiten aufgezeigt In Kapitel 9 wird ein Ausblick gegeben Im Anhang wird das in der Arbeit verwendete Material Literatur URL von Personen Orga nisationen und Produkten Normen und Symbole aufgef hrt Weiterhin wird ein eigenent wickelter Prototyp vorgestellt der einen Teilausschnitt einer Anfragesprache real
227. ische Sprache 2 Stufe Sie enth lt Quantoren Existenz und Allquantor f r Funktionen und Pr dikate den Lambda Operator f r Pr dikate und Pr di katenkonstanten der zweiten Stufe 4 5 1 Syntax Sorten 138 1 mail person host file news menu unit string date int regExpr sind Sorten 2 bool html head body title chapter abstract sind Sorten 3 Das sind alle Sorten Im Folgenden werden die Variablen s s Sn f r diese Sorten benutzt Alphabet 1 Individuenkonstanten f r Dokumente mail mail person person host hosti file file news news menu menu unit unit string string date date 5 1 2 true false html html head head body body title title chapter chapter abstract abstract ae x il il host host fil 2 Individuenvariablen f r Dokumente x x KPIS KPIS 0 KR X gs he al ania F gear an Sn xut Re xing sone ne date date ae x int regExpr _regExpr bool _ bool html html head head body body X 1 X X Ls ete Soe 5 15 83 j 15 2 5X X 15 X 15 ests title _ title chapter chapter abstract abstract X X Jy X X Tysses X X 1 RR 3 Individuenkonstanten f r eine Stufe 1 2 3 4 Individuenvariable f r eine Stufe m s 5 Funktionskonstanten von Sorten sj Sn auf die angegebene Sorte html head ahead body a bag tit
228. isiert Vorarbeiten f r diese Arbeit wurden im interdisziplin ren Forschungsprojekt ATLAS an der TU Berlin ATLAS 1993 durchgef hrt Dort wurde zusammen mit dem Institut f r Lingui stik Prof Braun ein Prototyp zur Thesaurus und W rterbuchpflege entwickelt Willenborg 1991a Willenborg 1991b Willenborg 1994a und ein Modell f r eine qualitative Inde xierung von Dokumenten entworfen Weiterhin wurden erste theoretische Konzepte f r das terminologiebasierte Information Retrieval Willenborg 1994b und die konsistente Zusam menf hrung von Terminologien entwickelt Sprachentw rfe einer Thesaurusanfragesprache wurden geschaffen 2 Grundlagen 2 1 Internet 2 1 1 Entstehung und Wachstum Das Internet entstand Anfang der 70er Jahre als eine Verbindung des ARPAnet des amerikani schen Verteidigungsministeriums mit Radio und Satellitennetzwerken Dieses Netz basierte auf dem Network Control Protocol NCP 1981 wurde die Einbindung weiterer Netzwerke durch die Entwicklung des standardisierten Protokolls TCP IP RFC 791 RFC 793 erm g licht Zu diesem Zeitpunkt waren 200 Rechner an das Internet angeschlossen Durch eine In itiative der US National Science Foundation NFS wurde die Zahl der weltweit angeschlos senen Rechner bis 1989 auf 150000 gesteigert Anfang 2000 bestand das Netz durch den Boom den das World Wide Web ausgel st hatte aus 72 Millionen per DNS an das Internet angeschlossenen Computern Das Internet wird du
229. ist Modell von P t t2 gdw lt Ilt B t2 gt e IP ist Modell von amp x gdw SI x ist ungleich IK ist Modell von lt x x gdw SI x ist kleiner als S x ist Modell von gt x x gdw I ist gr er als 3 x ist Modell von lt x x gdw Ix ist ist kleiner gleich 3 x ist Modell von gt x x gdw 3 x ist ist gr er gleich I x ist Modell von Contains eFxP sting resExpr Sting gdw 3 x 8 enth lt den regul ren Ausdruck I x8 3 ist Modell von Nearreintstring string x ring gdw 3 x befindet sich in der 3 x Zeichenzahl Umgebung von 3 x 3 ist Modell von Upper estins gstins x58 gdw 3 x ist die in Gro buchstaben gewandelte Zeichenfolge von 3 x 3 ist Modell von Lower esting Sting _ Sting odw 3 x ist die in Kleinbuchstaben gewandelte Zeichenfolge von I x 3 ist Modell von Stem amp stins string Sting gdw 3 x ist die Stammform von I x 3 ist Modell von Fuzzy eine xsting Sting gdw 3 x ist rechschreib hnlich zu 3 x 3 ist Modell von Soundex ers Sting xt gdw 3 xig string 1 3 ist Modell von Syn 3 x 8 ist synonym zu 3 x 3 ist Modell von NT Ssting ysting sting gdw 3 x ist Unterbegriff von I x8 3 ist Modell von BTSs string string ody 3 x ist Oberbegriff von 3 x 3 ist Modell von PT Sstinggy SME x SHINE gdw 3 x
230. it Gopher nicht gestellt werden 1 Welche Gophermeniis enthalten in dem Attributwert des Attributs Titel die Zeichenfolge 6 oder und 54 3 1 7 Suche nach Dokumenthinweisen Fast alle gro en wissenschaftlichen Bibliotheken bieten ihre Best nde mittlerweile im Internet an In letzter Zeit ist eine Zentralisierung zu beobachten Informationsbest nde wachsen zu Informationsverb nden zusammen einzelne Bibliothekssysteme werden zu Gro bibliotheks systemen zusammengef hrt M glich ist dies durch die verteilte Datenverarbeitung im Inter net und durch die Entwicklung von internationalen Bibliotheksstandards wie z B Z39 50 Z39 50 1995 Neuerdings bieten Bibliotheken und Bibliotheksverb nde Bibliothekskatalo ge OPAC s im WWW an Dies sind z B Bibliotheken einzelner L nder Library of Con gress Deutsche Bibliothek etc regionale Verb nde einzelne wissenschaftliche Bibliotheken etc Auflistungen von Bibliotheken Deutschland international finden sich unter HBZ 2001a und HBZ 1997b OCLC 2001 hat es sich zum Ziel gesetzt alle Bibliothekskatalo ge weltweit zu vereinen und bietet einen OPAC mit 33 Millionen Eintr gen Buchhandlungen und Verlage bieten Suchm glichkeiten f r die Verzeichnisse lieferbarer B cher an Eine umfangreiche Auflistung findet sich in HBZ 1997d und HBZ 1997e In den Bibliothekssystemen werden Bibliothekskataloge mit Dokumenthinweisen gespeichert Volltextangebote entstehen bisher nur in kle
231. ith this socket connection The applet translates the graphical user query into a prefix notation which is sent through the socket connection to the URLES Server Having executed the query the URLES Server sends the HTML coded answer back to the waiting applet process through the input stream of the socket connection The applet receives the answer and shows here with the Javascript understanding browser Netscape it in its 27 if EZ ae a ee aA aA A aA Ef ia 2y B ur Z a 74 sf E EH E 209 main window URLES Client has the following properties see URLES Server ef for detailed information A 1 it is blocked up till the server sends the answer 57 2 it is reliable Ky 3 it is buffered we 4 it uses internet addresses a 5 it is open to security ey At the moment URLES Client is limited to the predicates x Conn and Desc to search depth 4 to a maximum of 2 logical expressions and to the logical operators and and ay or backward connectionsare not possible and cycles will not be seen public class URLESClient extends Applet p S ublic static final int PORT 4712 ocket s DatalnputStream in PrintStream out StreamListener listener F L B Cc P F T p rame parent abel title label3 labelOpenBracketl labelOpenBracket2 labelCloseBracket1 labelCloseBracket2 labelCommal labelComma2 labelComma
232. itigem Dialog Information abgelegt nach Information gefragt und Information als Antwort gegeben wird Damit das nicht im Chaos endet kommunizieren die Arbeitsgruppen ber ein ortsunabh ngi ges gemeinsames Kommunikationsbrett schwarzes Brett f r das zu bearbeitende Fachge biet Weiterhin wird eine Versionskontrolle Kandidaten Ein Aus Check eingef hrt und eine Rollenverteilung f r das redaktionelle Arbeiten im Team vorgenommen Indexierer Autor Der Indexierer versucht Dokumente formal und inhaltlich so zu katalogisieren da der Infor mationsuchende und Terminologe sie wiederfindet Er ist verantwortlich f r die Indexierung der Informationsbest nde und greift kommunikativ in den Proze der Terminologiepflege und Informationssuche ein Er schl gt m glichst zusammen mit dem Autor des neuen Dokuments einen Katalogeintrag am schwarzen Brett vor Dieser wird dort gegebenenfalls von anderen Indexierern verbessert und von Informationssuchenden und Terminologen Terminologiepflegern kommentiert und in einem speziellen Modus des Informationsystems getestet Nach Ablauf einer solchen Diskussions und Testphase legt der Indexierer den von ihm gege benfalls modifizierten Katalogeintrag in dem Katalog ab Der Indexierer schl gt weiterhin Kandidaten f r zu modifizierende oder zu entfernende Kata logeintr ge am schwarzen Brett vor die von ihm wiederum nach einer Diskussions und Test phase in dem Katalog abgelegt werden Eine weitere
233. its of the URL string start destURLString indexOf equal end destURLString indexOf greater start 2 s is the hrefString with quotation marks s destURLString substring start 1l end trim sEnd s length 4 tests if URL has quotation marks around if s charAt 0 quotel amp amp s charAt sEnd 1 quotel hrefString s substring 1 sEnd 1 if s charAt 0 quotel amp amp s charAt sEnd 1 quotel hrefString s substring 0 sEnd 1 if s charAt 0 quotel amp amp s charAt sEnd 1 quotel hrefString s substring 1 sEnd if s charAt 0 quotel amp amp s charAt sEnd 1 quotel hrefString s substring 0 sEnd href is relative if hrefString indexOf 1 urlToString sourceURL toString if href is relative to host if hrefString startsWith hrefString sourceURL getProtocol sourceURL getHost threfString if url has no at end it will be appended else if urlToString endsWith hrefString urlToString threfString else from back the filename of sourceURL will be cut int slashPos urlToString lastIndexOf wa 2y BA E A EJ EA gt ars aA el z 7 ge Nia a Mika Ba DE tz pole Re a zj j zj j mj LA hrefString urlToString substring 0 slashPost1 threfString hrefSt
234. izierung werden kryptographische Verfahren eingesetzt mit denen die Herkunft und Zugeh rigkeit einzelner Applets zu einem Hersteller berpr ft werden k nnen Middendorf Singer Strobel 1996 9 Client Anwendungen Applets k nnen ber das Netzwerk nicht auf das lokale Dateisystem zugreifen keine lokalen Bibliotheken laden keine lokalen Fenster ohne Warnung ffnen und auch nicht die lokale Umgebung abfragen Weiterhin kann ein Applet eine Socketverbindung nur zu einem Rechner aufbauen von dem es geladen wurde Applet host Socket host Netzverbindungen zu anderen Rechnern sind nicht zugelassen vgl 1X 5 1996 S 73 5 Java ist robust Es verzichtet auf das Sprachelement Pointer auf Speicherverwaltungsfunk tionen wie malloc free etc stattdessen automatische Speicherfreigabe auf das berladen von Methoden auf Mehrfachvererbung und auf automatische Typumwandlung Gleichzeitig ist Java streng objektorientiert hinsichtlich der Typ berpr fung 6 Java ist parallel Java Programme k nnen in mehrere einzelne parallele Proze e unterteilt werden Daf r werden Methoden zur Interproze kommunikation angeboten 7 Java l t sich einfach mit Datenbanken koppeln beispielsweise mit JDBC 8 Komplexe Benutzeroberfl chen sind einfach zu gestalten 190 9 Vorhandene Software kann in Java als sogenannter native code eingebunden werden Gleichzeitig bestehen die folgenden Nachteile bei der Verwendung von Java 1 Java ist keine logis
235. j nj mj E D FLAN FLAN FLAN FLAN FLAN FLAN FLAN 200 class Connection extends Thread This class is the thread that handles communication with one client The instance variable clientSocket names the names the buffered DatalnputStream socket to the client in byte stream and out names the buffered PrintStream byte stream protected Socket clientSocket protected DatalnputStream in protected PrintStream out public Connection Socket s Initialize the streams and start the thread clientSocket s try in new DatalnputStream clientSocket getInputStream out new PrintStream clientSocket getOutputStream catch IOException e try clientSocket close catch IOException e2 System err println Exception while getting socket return stare oh public void run Provides the service Reads the URLES query from the buffered input stream Starts a responder to get the and sends it as HTML code back to the client through buffered output stream String URLESQueryString HTMLAnswerString try for reads a query string parses the line and sends answer back to the client URLESQueryString in readLine streams answer the the Responder responder new Responder URLESQueryString HTMLAnswerString responder getAnswer out println HTMLAnswerString clientSocket close catch IOEx
236. kein Knoten der Sequenz mehr als einmal vorkommt Definition 10 Ein zyklischer Graph ist ein Graph der Zyklen enth lt Definition 11 Wenn Conn eine Assoziationsrelation ist und x ein Knoten dann ist Conn Conn x x die Menge von Geschwistern von x Definition 12 x1 Xn seien Knoten eines Graphen Conn sei die Assoziationsrelation dieses Graphen Dann f hrt die folgende Iteration zur transitiven H lle Conn B Bo Conn gt B Bit u Bit Xj xh Bit f r i 1 yy Der Aufwand bei diesem Verfahren liegt bei O n booleschen Operationen vgl Roy War shall in Schmidt Strdhlein 1993 S 39 Definition 13 Wenn Conn eine Assoziationsrelation ist und x ein Knoten dann ist Conn x die Menge der Vorg nger ancestors von x Definition 14 Wenn Conn eine Assoziationsrelation ist und x ein Knoten dann ist Conn x die Menge der Nachfolger descendants von x 2 4 Logik Die mathematische Logik spielt in Informationssystemen wie Datenbanksystemen Doku mentationssystemen Hypertextsystemen Frage Antwort Systemen und Expertensystemen eine wichtige Rolle Die mathematische Formulierung von Problemen ist normalerweise kiir zer deutlicher und weniger anf llig f r Fehlinterpretationen als die nat rlichsprachliche For mulierung vgl Lyons 1980 S 152 In der mathematischen Logik wird die Aussagenlogik von der Pr dikatenlogik unterschieden Die Pr dikatenlogik ist eine Erweiterung der Aussagenlogik Wesentlic
237. korrekt gebildete Anfrage bzw was liefert sie als Ergebnis zur ck Wie ist also das Verh ltnis der Anfragezeichen zur Wirklichkeit definiert Semantik Dabei k nnen Zeichens tze umcodiert werden beispielsweise das 8 Bit Zeichen in die beiden 7 Bit Zeichen ue oder umgekehrt Eine Anfragesprachen exakt zu definieren hei t ihre Syntax und Semantik exakt zu spezifizieren Anfragesprachen k nnen nach dem Dokumenttyp in folgende Klassen eingeteilt werden 1 Anfragesprachen zur Suche in einfach strukturierten Dokumenten incl Volltextsuche 2 Anfragesprachen zur Suche in link strukturierten Dokumenten 3 Anfragesprachen zur Suche in geschachtelten Dokumenten 4 Anfragesprachen zur Faktensuche 5 Anfragesprachen zur Suche nach terminologischen Eintr gen Beispiele f r 1 sind IQL Reiner 1991 Messenger Messenger 1995 STN 1997 Z39 50 Z39 50 1995 WAIS FreeWAIS 1995 CNIDR 1996 Harvest Camargo 1994 Aliweb 2000 AltaVista 2000 Excite 2000 Fireball 2000 Google 2000 Harvest 2000 InfoSeek 2000 Inktomi 2000 Kolibri 2000 Lycos 2000 MetaCrawler 2000 OpenText 1997 Webcrawler 2000 Yahoo 2000 Beispiele f r 2 sind QBE Zloof 1976 G und G Cruz Mendelzon Wood 1987 Wood 1988 Reimer 1991 HyQ DeRose Durand 1994 ISO 10744 HTTP RFC 1068 Hy per G Kappe Pani 1996 UnQL Fernandez Popa Suciu 1997 W3QS Konopnicki Shmueli 1998 W3QS 1999
238. l public void boundExecute Executes if argl is bound Binds the second variable Takes an element of bound variable and tries to get a result ard testBinding If testBinding is empty the element is EA deleted from bound variable otherwise all elements of testBinding are added to second variable binding if isBound argl HTMLList firstBinding getVarValue argl Link link new Link ROOT bla HTMLList secondBinding new HTMLList ul link 1 HTMLList removeList new HTMLList ul link 1 for int i 0 i lt firstBinding size 1 i Object elem firstBinding elementAt i HTMLList elemUL HTMLList elem Predicate testPred new Predicate name elemUL link dest g arg3 sponder testPred execute HTMLList testBinding getVarValue g if testBinding isEmpty removeList addElement elem else for int j 0 j lt testBinding size 1 j Object e testBinding elementAt j HTMLList ul HTMLList e secondBinding addObject ul firstBinding diff removeList bindVar arg2 secondBinding public void and Predicate pred Logical and of this predicate and pred Only those links KY which are loadable and have neighbour connections are yf treated intersection of sets E If both arguments of this predicate or of pred are variables and are equal the variable is bound to an emp
239. l U2 U3 x1x2x3 X2 SS x1 x2 unit 3 Ul U2 und f r U e U lt U U gt lt I Y a uniti I P aP 3 x1 x2 unit 1 3V Y2 Conn und U1 U2 U1 U2 1 U2 lt 37 a a IT Pa a gt e IT a x2 Conn und a 92 x1 x2 X2 3 Su of unity gt EI qui e x2 Conn und U1 U2 1 U2 xl x2 X2 3 un xl x2 unit Ss N x2 unit gY D x2 X1 I und f r U e U lt U U gt gt lt UNIT U gt CONN und lt U U2 gt CONN und lt U gt UNIT 1 gt CONN und UNIT U U2 UNIT und f r U e U lt UNIT UNIT7 gt 3 Q3 lt U gt S ist Modell von Path unit x unit f r U e U lt U gt 301 ist Modell von Conn unit x und ZU ist Modell von Conn x1 unit und J UI uniti 3 UI 1 ZI u unit und f r U ve lt U gt lt I sa unity 3 Maxp gt eS 37 Conn und U1 a x 3 unit gt ES U Conn und 3 uniti x gY ax ZI Fk uniti und f r U oe lt U1 gt lt UNIT U gt e CONN und lt U UNIT 1 gt CONN und UNIT U UNIT und f r U e U lt UNIT gt I Q1 U I Q2 Y 3 Q3 lt UNIT UNIT7 gt lt UNIT7 gt Frage 2 Welches sind die Nachfolger der 3 Stufe des Dokument unit bzgl der Beziehung Conn S A xp VO unit xg lt Up gt SUP ist Modell von unit xg f r Ug e U lt Up gt JYP V U 2 x1 x2 ist Modell von Path unit x1 X2 Xg lt Up gt SEEN xB x1 x2 ist
240. lbins Obermayr 1995 Gulbins J und K Obermayr UNIX System V 4 Begriffe Kon zepte Kommandos Schnittstellen Berlin et al Springer Verlag 1995 Hausmann 1985 Hausmann Franz Josef Lexikographie In Schwarze Wunderlich Hrsg Handbuch der Lexikologie K nigstein Ts Athen um 1985 Handschuch 1995 Handschuch T Solaris 2 Systemadministration Thomson Publishing 1995 Hartlep 1996 Hartlep Frank Realisierung eines Werkzeugs zur Hypertextualiserung von Thesauri Diplomarbeit Technische Universit t Berlin FB Informatik Fachgebiet WBS 1996 oder das System unter www josef willenborg de thesaurus Overview html Huttel 1995 Huttel K OS 2 Warp Version 3 Thomson Publishing 1995 iX 5 1996 iX Multiuser Multitasking Magazin Heise Verlag Mai 1996 Jacobs Shea 1996 Jacobs N Shea R The Role of Java in InfoSleuth Agent based Exploi tation of Heterogeneous Information Resources Microeclectronics and Computer Technology Corporation MCC 3500 Balcones Center Dr Austin Texas 78759 1996 oder unter www mcc com projects infosleuth papers intranet java html Jennings Wooldridge 1995 N Jennings Wooldridge M Intelligent Agents Theory and Practice In Knowledge Engineering Review 10 2 1995 Jones 1994 Jones Rhett Jonzy e mail jonzy cc utah edu Jughead Version 1 0 4 Jonzy s Universal Gopher Hierarchy Excavation And Display University of Utah Computer Center 1994 siehe auch unter g
241. le le chapters aes ac abstracts ysikabstract ae 6 Funktionsvariablen von Sorten s1 Sn auf die Sorte s fh gt gl 7 Pr dikatenkonstanten verschiedener Sorten wenn nicht anders angegeben 2 stellig und wenn nicht explizit angegeben haben die Pr dikate die Sorten des jeweils ersten Pr dikats a Artikel Content Date Group id Length Newsgroup Subject Title User id b Dateien Contains Content Date File name Group idestins Length Dee User id esting 2 c Dokumenthinweise Abstract Creator Contributors Coverage Conn Date nitdate Database Description Format Identifier Language Publisher Relation Rights Sour ce Subject Type Title d E Mails Action Copy Content type Content transfer encoding Content id Con tent description Date Expires From In reply to Message id Mime version Prece de n ce Priority Received Reply to Subject To e Men s Content Date date Group id Length Subject Title User id f Personen Gruppen Communication address private Communication address office Date Domain name Fields of business Information address Keywords Members Name private Name headquarters E Mail private E mail office Fax private Fax office Phone private Phone office Postal address private Postal address office Personal data Public key Projects Title Type g Rechner Address administrator S S Addr
242. le of contents index navigator child parent sibling top origin begin first end last next previous biblioentry bibliography citation definition footnote glossary author co pyright disclaimer editor meta publisher trademark banner bookmark hotlist lang pointer stylesheet translation urc uniform resource catalogue node path Im Moment unterstiitzen die WWW Oberflachen HTML Sprachelemente fiir Relationen nicht adaquat Abbildung 31 Der terminologische Eintrag Automobiles und sein terminologischer Kontext aus Thesaurus Graphics 2001 im Marz 1997 96 Abbildung 32 Hyponyme hnlich der Unterbegriffsrelation des Verbs drive mit einer Java basierten Darstellung aus Word Net 1997 im Marz 1997 97 Abbildung 33 Hyponyme hnlich der Unterbegriffsrelation des Substantivs car mit einer HTML Darstellung aus Word Net 1997 im Marz 1997 98 Noun Verb Adesive Adve Options Enter Search Word driva Senses i Search Synonyms Hypernyms Ordered by Frequency of Noun drive 10 senses of drive Sense 1 drive thrust driving force gt propulsion actuation gt mechanism Sense 3 driveway drive private road gt road route Sense 4 P campaign cause crusade drive movement gt venture Sense 5 drive gt trait 3 83 Unsigned Java Applet Window Abbildung 34 Synonyme und Hyperonyme hnlich der Oberbegriffsrelation des Sub stantivs drive mit
243. len erwartet Im Internet sind zahlreiche neue Informationssysteme entstanden Zu den traditionellen Informationssystemen zur Dokumentensuche sind neue Klassen von Informati onssystemen hinzugekommen Suchmaschinen unterschiedlichster Art stellen Dokumente im Volltext bereit Systeme wie z B Oracle Intermedia bieten eine Suche in geschachtelten Do kumenten an erste Systeme bieten Netzwerkoperatoren f r link strukturierte Dokumente an Gleichzeitig kann mit diesem quantitativen Wachstum die qualitative Entwicklung der Infor mationssysteme nicht mithalten Der Dokumentbestand der Systeme entspricht nicht dem ver sprochenen Umfang und ist inaktuell Die Systeme spezialisieren sich auf Dokumenttypen und erfassen die Dokumente unterschiedlich Weiterhin berlappt der Bestand der Systeme z T sehr stark Die Systeme sind zeitweise wegen Netz Hard oder Softwareproblemen uner reichbar Der Dokumentbestand ist mit den bereitgestellten Suchmitteln Suche Darstellung Navigation inhaltlich nicht mehr durchschaubar Oft sind die Suchmittel unterschiedlich obwohl sie dasselbe ausdr cken Weiterhin werden Suchmittel nicht den neueren Dokument typen wie link strukturierte und geschachtelte Dokumente angepa t Oft sind die Suchergeb nisse zu unpr zise Die Anfragem chtigkeit in den Systemen ist unterschiedlich Die Systeme bieten keinen einheitlichen Zugriff auf Internet Dokumente an Beispielsweise mu f r die Anfrage nach Dokumenten die das Wort Hun
244. ler Dateien im Verzeichnis home wbs josefw test enthalten Zeichenfolgen die eine Lange von mehr als 20 Zeichen haben gt telnet snake cs tu berlin de gt grep 20 das Zeichen ist das Fluchtzeichen f r die Metazeichen 15 Welche Textzeilen auf dem Rechner snake cs tu berlin de im Inhalt aller Dateien im Verzeichnis home wbs josefw test enthalten Zeichenfolgen die eine L nge von weniger als 20 Zeichen haben Diese Anfrage ist als regul rer Ausdruck nicht m glich kann aber einfach programmiert wer den 16 Welche Textzeilen auf dem Rechner snake cs tu berlin de im Inhalt aller Dateien im Verzeichnis home wbs josefw test enthalten den regul ren Ausdruck compan ylies Zei chenfolgen beginnend mit der Zeichenfolge compan gefolgt von dem Zeichen y oder der Zeichenfolge ies gt telnet snake cs tu berlin de gt egrep compan y lies 17 Welche Textzeilen auf dem Rechner snake cs tu berlin de aus dem Inhalt von Eintr gen im Verzeichnis usr oder in einem Unterverzeichnis von usr enthalten die Zeichenfolge file system oder file systems oder filesystem oder filesystems gt telnet snake cs tu berlin de gt egrep file system file systems filesystem filesystems find usr print Leistungsgrenzen Kein universelles und standardisiertes Dateisystem Unterschiedliche Zeichens tze in den jeweiligen Dateisystemen Unterschiedliche Attributmengen in den jeweilig
245. lle Formeln Anfragen 1 Wenn F eine Formel ist dann ist A x Xn F eine Anfrage 2 Das sind alle Anfragen 4 2 2 Semantik U ist eine nichtleere Menge von elementaren Dokumenten Interpretation der nichtlogischen Symbole S unit e U S unit e U I x U I U I Conn c U x U Formeln 1 3 ist Modell von Conn x xj gdw lt 3 xj I x S Conn 2 3 ist Modell von F gdw 3 ist nicht Modell von F S ist Modell von F AF gdw 3 ist Modell von Fl und 3 ist Modell von F2 119 3 ist Modell von F v F2 gdw 3 ist Modell von F1 oder 3 ist Modell von F2 3J ist Modell von Fj gt F2 gdw 3 ist Modell von F2 wenn I ist Modell von F 3 ist Modell von F lt gt F2 gdw 3 ist Modell von F1 gdw 3 ist Modell von Fo J ist Modell von 3x F gdw 3 ist Modell von F f r mindestens ein U e U J ist Modell von Y x F gdw SV ist Modell von F f r alle U e U Anfragen 3A x Xn F lt U Un gt IV V 1 xn ist Modell von F f r U e U 4 2 3 Beispiele Individuenbereich UNIT UNIT werden durch ihre URL definiert UNIT http www cs tu berlin de josefw phd index html UNIT http www cs tu berlin de josefw phd introduction html UNIT http www cs tu berlin de josefw phd state html UNIT http www cs tu berlin de josefw phd query html UNIT http www cs tu berlin de josefw phd hynternetQL html UNIT http www cs tu berlin de jose
246. lsweise ist durch CGI eine Verbindung zu relationalen Datenbanken in Form von SQL Anfragen m glich Beispielanfrage 1 Welches Dokument hat die URL http www cs tu berlin de HTTP URL gt http www cs tu berlin de Anfragen an andere Informationssysteme Ftp Wais Bibliothekssysteme Datenbanken etc k nnen mit dem URL Mechanismus ber CGI nachgebildet werden 3 2 2 Hyper G Hyper G ist ein Informationssystem f r verteilte Hypertextbest nde das auf dem Client Server Modell mit dem Protokoll HG CSP basiert Kappe 1993 Andrews Kappe Maurer 1995 Dalitz Heyer 1995 Der Hyper G Server besteht aus den Komponenten Hyper G Session Manager hgserver objektorientierter Datenbankserver dbserver Volltextdaten bankserver ftserver und Cache Server Hyper G Clients wie z B Harmony oder Amadeus kommunizieren ber HG CSP mit den Hyper G Servern Im Gegensatz zum WWW arbeitet der Benutzer mit Hyper G in sogenannten Sitzungen sessions Dadurch ist es m glich In formation ber das Benutzerverhalten zu sammeln Statistiken Benutzerprofile oder Rele vanzfeedbacktechniken einzusetzen Mit Hyper G ist es m glich Gopher WWW und Hyper G Dokumente zu verwalten und auf sie zuzugreifen An einer FTP und WAIS Komponente wird gearbeitet 69 Als Dokumentbeschreibungssprache f r die Dokumente k nnen HTML RFC 1866 und HTF Kappe 1996 verwendet werden Mit Hyper G k nnen benannte Mengen von Dokumenten so
247. lungs und Navigationsmitteln kann Information effizient selektiert werden Deskriptive Elemente Markierungen Schriftgr e art typ Bezeichnung von Textteilen etc Verweise Zitate Anmerkungen Fu noten Literaturangaben siehe Anweisungen Abk r zungen Invertierte Dateien Autoren Abbildungen Inhaltsverzeichnisse Glossare etc etc Deskriptoren formaler Art Autor Verlag inhaltlicher Art Schlagw rter inhaltliche Deskriptoren etc 2 Eigenschaften von Hypertexten die einen Minderwert darstellen Benutzung Texte k nnen ca 30 schneller auf dem Papier gelesen werden vgl Nielsen 1996 S 281 ff Benutzer m ssen sich an das neue Medium an neue Werkzeuge gew hnen Anstatt zu le sen schreiben und rechnen lernt der Grund Sch ler nun zus tzlich fotografieren visuali sieren gestalten entwerfen vernetzen Ger usche erzeugen Filme drehen Geschmacks und Geruchseindr cke vermitteln etc Ohne Redaktionskonzept wird die Ver ffentlichungsschwelle leicht berschritten Es ent steht eine Menge an Geschwatz dessen Speicherbarkeit und Zugriff problematisch ist Es ist ein betr chtlicher Aufwand f r den Aufbau des Hypertextbestandes zu leisten 1 Vorhandene sequentielle Best nde in den aufzubauenden Hypertextbestand integrieren und modularisieren 2 Multimedialisieren 3 Multilingualisieren und 4 Vernetzen Das Gesamtwerk eines Autor oder einer Autorengruppe ist durch die Verweisstruktur z B
248. m x varChoicel addItem y varcChoicel addItem z Var Choice 2 varChoice2 new Choice varchoice2 addItem x varChoice2 addItem y varChoice2 addItem z Var Choice 3 varChoice3 new Choice varChoice3 addItem x varChoice3 addItem y varChoice3 addItem z Var Choice varChoice4 varChoice4 ad varChoice4 ad varChoice4 ad comma Labe labelComma2 labelComma2 s Depth Choi depthChoicel depthChoicel depthChoicel depthChoicel depthChoicel Close Brac labelCloseBra 4 new Choice dItem x dItem y dItem z 12 new Label etFont 030 ce 1 new Choice addItem 1 addItem 2 addItem 3 addItem 4 ket Label 1 cketl new L r abel labelCloseBracket1 setFont fo30 Predicate predChoice2 Choice 2 new Choice r predChoice2 addItem Conn predChoice2 addItem Desc Open Brack labelOpenBrac et Label 2 ket2 new Label fo30 new Font TimesRoman NG labelOpenBracket2 setFont fo30 Term Choic termChoice3 e 3 new Choice r Font BOLD termChoice3 addItem URL termChoice3 addItem Var comma Label3 labelComma3 new Label labelComma3 setFont fo30 Term Choice4 r cs tu berlin cs tu berlin cs tu berlin cs tu berlin 30 de de de de A test index html test
249. menten der Prototyp eines Datalog Interpreters wurde am Lehrstuhl von Herrn Fuhr implementiert 4 6 4 StructuredQL StructuredQL ist eine pr dikatenlogische Sprache 2 Stufe zur Suche in strukturierten Doku menten Syntax und Semantik werden streng getrennt Fiir jede Teilsprache werden Anfrage beispiele mit den Auswertungsschritten gegeben Ein besonderer Schwerpunkt liegt in der Abbildung von Netzwerkfunktionen und in der Behandlung geschachtelter Objekte Weiterhin werden Sorten von Dokumenten z B Artikel Dateien etc und von Beziehungen unterschie den Zur Volltextsuche werden verschieden Operatoren bereitgestellt Art der Logik mehrstufige Pradikatenlogik Suche mit Attributen Attribute von Dokumenten Vergleichsoperatoren lt gt lt gt Volltextsuche regul re Ausdr cke Near Operator linguistische Operatoren Thesaurusoperatoren Quantoren 3 es existiert ein V f r alle Boolesche Verkn p nicht v oder A und gt Implikation lt gt Aquivalenz fungen Netzwerkoperatoren Beziehung Pfad Vorg nger Nachfolger mit Stufe Geschwi ster Stationen Geschachtelte Doku Pr dikat f r Teile Beh lter Teilobjekte werden durch Funktionen mente bestimmt Sorten von Dokumenten und Beziehungen Suchobjekte A Operator f r Dokumente Artikel Dateien Dokumen te Dokumente E Mails Men s Personen Gruppen Rechner Deskriptoren Beziehungen Teile Beh lter von Objekten Syntax Semantik explizi
250. menten in Beziehung die zum Dokument unit eine Beziehung haben S A x1 A x2 Conn x2 x1 A Conn unit x2 lt U gt 3 4 ist Modell von 3 x2 Conn x2 x1 A Conn unit x2 lt U gt 3010 ist Modell von Conn x gt x1 A Conn unit x2 f r U e U und f r mindestens ein U e U U1 U2 U1 U2 U1 U2 lt U gt lt 3 x1 x2 X2 I x1x2 X1 gt I x1 x2 Conn und U1 U2 U1 U2 U1 U2 lt 3 x x2 unit I x1 x2 X2 gt I xl x2 Conn f r U e U und f r mindestens ein U e U lt U gt lt U2 U gt e CONN und lt UNIT U2 gt CONN f r U e U und f r mindestens ein U e U lt UNIT gt lt UNITs gt lt UNIT9 gt lt UNIT 00 gt lt UNIT 11 gt Frage 3 Welche Dokumente stehen nicht zum Dokument unit in einer Beziehung S A x Conn unit x lt U gt 3 ist nicht Modell von Conn unit x f r U oe lt U gt lt 3 uniti 3 x gt 3 Conn f r U e U lt U gt lt UNIT U gt CONN f r U e U lt UNIT gt lt UNIT9 gt lt UNIT o gt lt UNIT 11 gt Frage 4 Welche Dokumente stehen zum Dokument unit oder units in Beziehung 3 A x Conn unit x v Conn unite x lt U gt IY ist Modell von Conn unit x v Conn units x f r U e U U gt lt 3 uniti 3 x gt 34 Conn oder lt 3 unite S x gt 3 Conn f r U e U lt U gt lt UNIT U gt e CONN oder lt UNITs U gt
251. mer i node Inhalt Name Verzeichnis wenn Datei letzter Mo difikationszeitpunkt des Inhalts der Datei Datum Uhrzeit letzter Modifikationszeitpunkt der Dateiattribute Datum Uhrzeit letzter Zugriffszeitpunkt Datum Uhrzeit Gr e in Bytes Benutzerkennung Identifikationsnummer Name Gruppenkennung Identifikationsnummer Name und Benutzer Gruppenrechte lesen schreiben ausf hren Dateityp Datei Verzeich nis Ger tedatei Anzahl der Links Anzahl der assoziierten Speicherbl cke Werte des Feldes Dateiname FAT Der Dateiname Dateiverzeichnis normale Datei besteht aus Zeichen des Zeichensat zes 128 verschiedene Zeichen durch 7 Bit nach ISO 646 au er den Zeichen Leerzeichen Ein Dateiname kann bis zu 8 Zeichen lang sein gefolgt von einem und bis zu 3 weiteren Zeichen Gro Kleinschreibung wird nicht unterschieden 33 Durch den DOS Befehl chep kann der Zeichensatz erweitert werden 8 Bit nach ISO 8859 X es werden jedoch nicht alle Zeichens tze der Norm unterst tzt HPFS Der Dateiname Datei Verzeichnis besteht aus Zeichen des Zeichensatzes 256 ver schiedene Zeichen durch 8 Bit nach ISO 8859 au er den Zeichen lt gt amp Der Dateiname kann bis zu 254 Zeichen lang sein Gro Kleinschreibung wird unterschieden HFS Der Dateiname besteht aus den Zeichen des Zeichensatzes 8 Bit nach ISO 8859 au er dem Zeichen Ein Dateiname kann bis zu 31 Zeichen ein Volumename bi
252. mmandos zugegriffen werden Anfragekommandos unter Unix sind beispiels weise dir egrep file find grep locate Is pwd stat Es gilt der 8 Bit Zeichensatz Im Vergleich zum lokalen Zugriff mu allerdings eine starke Verminderung der Effizienz in Kauf genommen werden Das Kommando find alex de name gnu print ausge f hrt auf einem Rechner an der TU Berlin zu normalen Betriebszeiten w rde ohne Cache ca 10000 Dateien pro Stunde liefern Eine Weiterentwicklung von Alex Archia Cate 1992 bindet Archie an Alex an Mit Ar chia ist es m glich nach Alex Eintr gen zu suchen Eine andere Weiterentwicklung sieht vor mit Hilfe von Volltextdatenbanksystemen den FTP Bestand auf einem Alex Rechner zu indexieren Leistungsgrenzen Es gelten dieselben Grenzen wie bei FTP abgesehen von der Beschr nkung des Bestands auf ein FTP System 3 1 3 5 Archie Archie ist ein Informationssystem das Beschreibungen von Datenbest nden ffentlicher FTP Server zug nglich macht Archie baut zu festgelegten Zeiten eine Datenbank der Datei Verzeichnis Eintr ge ber aus gew hlte FTP Server ca 1500 nach Gilster 1995 S 17 automatisch auf mit Hilfe der dort vorliegenden rekursiven Is IR Auflistungen Dabei werden Konsistenzpr fungen durchge f hrt In der Datenbank werden zu jedem Eintrag die folgenden Attribute festgehalten FTP Server Name DNS Name FTP Server Nummer IP Nummer Zeitpunkt der Aufnah me in die Datenb
253. n Ober Unterthema verwandtes Thema Themaleiter Themareihe berschneidung Relationen zwischen Begriffszeichen Benennungen und Begriffen Homonymie Synonymie Quasi Synonymie Wortform Langform Kurzform bersetzungsrelationen 156 Deutsch Englisch Deutsch Japanisch Andere Relationen Produzent Produkt Sender Empfanger Die terminologischen Relationen lassen sich anhand der Merkmale Hierarchie und Dimension in polyhierarchische und polydimensionale Relationen trennen F r polyhierarchische Relationen wie beispielsweise die Ober Unterbegriffsrelation gilt da ein Knoten bez glich dieser Relation sowohl mehr als einen direkt untergeordneten als auch mehr als einen direkt bergeordneten Knoten haben darf F r polydimensionale Relationen gilt da ein Knoten anhand von Unterteilungsgesichts punkten Merkmalarten unterteilt wird Im Gegensatz zu Terminologien beziehen sich W rterb cher nicht ausschlie lich auf fach sprachliche sondern auf beliebige lexikalische Einheiten Das W rterbuch ist eine durch ein bestimmtes Medium pr sentierte Sammlung von lexika lischen Einheiten vor allem W rtern zu denen f r einen bestimmten Benutzer bestimmte Informationen gegeben werden die so geordnet sein m ssen da ein rascher Zugang zur Einzelinformation m glich ist Hausmann 1985 Wie Terminologien zeichnen sich W rterb cher durch komplexe w rterbuchspezifische Verweisstrukturen aus F r W rt
254. n Syn news string prews string 4 Pr dikatenvariablen 2 stellig verschiedener Sorten P 7 pile string pee SIDE pu string pm FUND pm string pme smg string strin string strin string strin string strin 8 5i NT 8 E BT 8 2 PT 8 8 file strin P 5 so eee 9 pmenwstring gt 25 see 9 prost siring pres u erson strin erson strin pP s pP 5 D 1 9 string strin string strin P 8 5 P 8 8 9 eee 3 DELETE ge 3 Poda Symbole nicht A un Vv sen gt Implikation gt Aquivalea 3 es gibt ein V f r alle alle die 6 Technische Symbole Formeln 1 Wenn x Individuenkonstante oder variable der Sorte s ist und x2 Individuenkonstante oder variable der Sorte s2 ist und P eine Pr dikatenkonstante oder variable der Sorten s s2 ist dann ist PS x1 X2 eine Formel 2 Wenn F F und F Formeln sind und x eine Individuenvariable der Sorte s ist dann sind auch F F1 A Fo Fi v Fo Fi gt Fo Fi Fo 3 x F Vx F Formeln 3 Das sind alle Formeln Anfragen 1 Wenn F eine Formel und x x Individuenvariablen der Sorten s4 Sn sind dann ist A x x F eine Anfrage 2 Wenn F eine Formel und P eine Pr dikatenvariable der Sorten s Sn ist dann ist PSS F eine Anfrage 3 Das sind alle Anfragen 4 1 2 Semantik U sei eine nichtleere Menge von E Mails UP sei eine nichtleere Menge von Personen Us
255. n ausgehend referenzierte Dokumente im Dateisystem ablegen Dabei ist es unerheb lich welcher Traversierungsalgorithmus oder welche Heuristik verwendet wird Nachdem alle Startdokumente bearbeitet wurden werden die Volltextinhalte der Dokumente in inver tierte Dateien berf hrt Roboter werden auch Spider Wanderer Web Crawler oder Worms genannt Definition Suchmaschinen vgl Koster 2001a Suchmaschinen sind Suchprogramme f r von Robotern aufgebaute Best nde Suchmaschinen werden auch roboterbasierte Suchdienste genannt Eine Syntax und Semantik der in den Suchmaschinen verwendeten Anfragesprachen wird 1 A nicht bereitgestellt Bei Einsatz eines hnlichkeitsma es wird i A dessen genaue Definition nicht gegeben so da berechnete Rangordnungen der Ergebnisse nicht nachgepr ft werden k nnen Es werden folgende Typen von Dokumenten verwendet XML Dokument HTML Dokument Newsartikel E Mail FAQ In den Suchmaschinen werden folgende Attribute verwendet Allgemein Autor Inhalt Schl sselworte Zusammenfassung Zeitraum Zeitpunkt Schwell wert f r die Relevanz Dokumenttyp Sachgebiet Zus tzlich F r XML Dokumente eigendefinierte Attribute F r HTML Dokumente URL Titel erste berschrift Sprache Rechner IP Adresse oder Domain Name URL Verweise Anzahl der URL Verweise abgehend eingehend Bild URL Adressen Java Applets F r Newsartikel lokaler Newsserver Newsgruppen newsgroups Thema subject F r E Ma
256. n de gt cd pub gt dir Diese Anfrage ist mit einer WWW Benutzeroberfl che als URL nicht m glich 4 Welche Dateien Art Benutzer und Gruppenrechte Zahl der Links Benutzername Grup penname Gr e letzter Modifikationszeitpunkt Name befinden sich auf dem FTP Server 41 ftp zrz tu berlin de im Verzeichnis pub Das Ergebnis soll nach dem letzten Modifikati onszeitpunkt geordnet werden gt ftp ftp zrz tu berlin de gt cd pub gt s lat Diese Anfrage ist mit einer WWW Benutzeroberfl che als URL nicht m glich 5 Welche Zeichenfolge befindet sich auf dem FTP Server ftp zrz tu berlin de im Verzeich nis pub in dem Inhalt der Datei mit dem Namen README ftp ftp zrz tu berlin de cd pub get README quit vi README oder mit einer WWW Benutzeroberflache Uuuu etscape ftp ftp zrz tu berlin de pub READM File Edit View Go Bookmarks Options Directory Window Help feck rom Home Aelood Linc Open Pant Find Location fip tpzztubelindepub README N aN FTP Service der Zentraleinrichtung Rechenzentrum der Technischen Universit t Berlin ACHTUNG Der Server ist am 05 09 96 endgueltig umgestaltet worden Dabei sich nicht nur die Pfadnamen geaendert sondern es wurde auch ei liche Bereinigung vorgenommen Die alten Inhalte stehen grundsag mehr zur Verfuegung Bitte wenden Sie sich an uns z B email a zrz TU Berlin DE wenn Sie bestimmte Informationen au
257. n den Eintr gen Hard Links gebildet werden ufs nfs Es k nnen Verweise zwischen den Eintr gen Hard Links und Verweise zwischen den Eintragsnamen symbolische Links gebildet werden 3 1 3 1 4 Anfragen nach Dateien Die Dateisysteme unterscheiden sich hinsichtlich der m glichen Anfragen und ihren Ergeb nissen deutlich W hrend z B unter dem Betriebssystem UNIX eine Anfrage nach Dateien mit dem Attribut Benutzerkennung gestellt werden kann existiert unter DOS kein Feld Benutzer kennung so da diese Anfrage dort nicht m glich ist Auch die Semantik von Anfragen di vergiert in den unterschiedlichen Betriebs und Dateisystemen Eine Anfrage nach Dateien mit dem Dateinamen b au g als Men anfrage unter dem Dateimanager unter MS Windows liefert die Menge von Dateien die mit der Zeichenfolge b au g beginnen Dieselbe Anfrage unter UNIX mit dem Kommando find b au g liefert alle Dateinamen die mit dem Zeichen b beginnen gefolgt von einem der beiden Zeichen a oder u gefolgt von dem Zeichen N nn g gefolgt von dem Zeichen gefolgt von einer beliebigen Zeichenfolge Anfragekommandos DOS attrib dir find tree OS 2 Anfragen wie bei DOS Meniisuche nach Dateien 34 Novell Netware Men suche nach Dateien Netware unterst tzt die Anbindung der Betriebs systeme DOS OS 2 MacOS Windows NT und Unix F r das Netware FS k nnen die Anfra gekommandos dieser Betriebssysteme verwendet werden Windows NT Anfrag
258. n eingeschr nkt werden Wie bei G vert 1996b kann dann mit der Anfragesprache von SFgate in diesem Bestand recherchiert werden FreeWAIS sf Fuhr et al 1995 unterst tzt wie WAIS das Protokoll Z39 50 Version 1 Im Gegensatz zum WAIS Protokoll l t FreeW AIS sf keine Sitzungen zu Mit FreeWAIS sf kann eine automatische Indexierung mit vordefinierten und eigenerstellten Dokumenttypen durchgef hrt werden Es k nnen beispielsweise multimediale Typen nach MIME Standard TEXT HTML URL etc verwendet werden Weiterhin kann der Indexierer Dokumenttypen mit Hilfe von regul ren Ausdr cken definieren FreeWais sf verwendet den 8 Bit Zeichensatz nach ISO 8859 X Den Dokumenten k nnen Attribute unterschiedlichen Typs zugeordnet werden F r die Attri bute existieren Vergleichspr dikate enthaltensein gleich kleiner gr er phonetische hn lichkeit etc die in den Anfragen benutzt werden k nnen Bei der Indexierung wird eine invertierte Liste aller Terme der Datenbasis aufgebaut Dort wird zu jedem Term eine Menge von Paaren Dokumentkennung Gewicht des Terms f r die ses Dokument festgehalten Die Gewichtung eines Terms k f r das Dokument i Wix wird folgenderma en berechnet Dokumente Anzahl der Dokumente in der Datenbasis n Dokumenth ufigkeit Anzahl der Dokumente in denen term docfregx vorkommt inverse Dokumenth ufigkeit peek n docfreg Term Dokumenth ufigkeit Anzahl des Vorkommens v
259. n i i I l 1 I a ee en ee ee a eae ee je and ji Querying Wadd Wide Web Abbildung 12 Architektur WebSQL aus Arocena Mendelzon Mihaila 1997 Der WebSQL Compiler die Virtual Machine und die Query Engine sind in der Programmier sprache Java implementiert Benutzer greifen ber WWW oder Java Benutzeroberfl chen auf die zentralen Server zu EZ untitled ile Es coer mmr Load SELECT e label e href FROM Document d SUCH THAT http www berl in tour de gt d Anchor e SUCH THAT base d Next Prey All Les Load into Netscape 31 of 32 lt http uww ber in tour de http www berl in tour de gt fo Unable to create file Abbildung 13 WebSQL Anfrage mit der Java Benutzeroberflache im M rz 1999 76 83 untitled l Es kDeutsch erh Itlich http www berl in tour de gt lt espa ol http www berl in tour de span gt lt Francais Italiano http www ber in tour de eng edda htm gt General city tours http www ber in tour de eng general html gt lt Berlin the new capital http www ber in tour de eng architecture html gt lt Charlottenburg Palace New Wing http www ber in tour de eng palace html gt lt Potsdam http www ber in tour de eng potsdam html gt lt Further tours on request http www ber in tour de eng further Tours html gt lt e mail mai lto chr ist ber in tour de gt phone
260. n kann da die Teilbest nde der Zielsysteme berlappen und 153 z T von unvorhersehbaren Faktoren wie z B Ausfall des Zielsystems Umkonfiguration des Zielsystems etc verf lscht werden Die Aktualit t des Gesamtbestands ist zudem abh ngig von der Aktualit t der Zielsystembest nde Der Aufwand f r Konfigurations nderungen am System sollte nicht untersch tzt werden Ver nderungen der Schnittstellen zum Zielsystem treten h ufig auf und haben jeweils zentrale Konfigurations nderungen zur Folge Ein stark vereinfachter Prototyp URL Echo Sounder der eine kleine Teilmenge der be schriebenen Anfragesprache abbildet wurde realisiert siehe Anhang 10 5 5 2 Zentral Dezentrale Architektur Query Cli ent Admin Java MS Windows Client Session Presentation Server Editor Client RebotAdmin Client Query Client Internet Browser HI IF Server FTP Server Mews Serrer Database Server Session File System Collection Manager and Query Server Other Servers telnet wats gopher 239 50 hyper g ndex systems search engines agent systems Universal Query Language Cache System Document Hypertext B ase Index Collection 1 Document Hypertext B ase Index Abbildung 42 zentrale dezentrale Architektur Das Suchsystem besteht aus den Komponenten Presentation Server Collection Manager and Quer
261. n result class Predicate extends Object Instance variable name names the name of the predicate e g Conn or Desc argl arg2 and arg3 name the kef arguments an HTML string a variable or a search depth ey The predivates semantics is quasi its execution method A execute a A predicate has two Conn or three Desc arguments ef resultType has value set or hierarchy A predicate with name Desc has resultType hierarchy and Predicate Conn af has resultType list as default public String name public String argl public String arg2 public int arg3 public String resultType public Responder responder public Predicate String name String argl String arg2 int arg3 der responder this name name this argl argl this arg2 arg2 this arg3 arg3 this resultType resultType this responder responder public boolean isConn if name equals Conn return true else return false public boolean isDesc if name equals Desc return true else return false public boolean isBound String var A variable is bound if it has a value KJ HTMLList binding getVarValue var no variable E if binding null return false if binding isEmpty return true return false public boolean isExecutable A predicate can be executed if argument 2 is not bound and argument 1 is b
262. n von Sorten s Sa auf die Sorte s 5 pl m s 3 Pr dikatenkonstanten der Sorten s Sn 2 CT Ob 17 Pr dikatenvariablen der Sorten s1 sn PP PS a 4 Logische Symbole nicht A und v oder Implikation lt gt quivalenz 3 es gibt ein V f r alle X die Menge 5 Technische Symbole Bemerkung Man kann die explizit hochgestellten Sorten eines Pr dikats auch weglassen da diese implizit durch die Sorten der Argumente gegeben sind Weiterhin kann eine Funktion der Sorten sj Sn auf die Sorte s auch durch ein Pr dikat der Sorten s Sn ausge dr ckt werden Mit den Symbolen aus dem Alphabet werden induktiv die Terme und Formeln gebildet Terme 1 Individuenkonstanten und variablen der Sorte s sind Terme der Sorte s 2 Wenn t Term der Sorte s t2 Term der Sorte s2 tn Term der Sorte s ist und f ein Funktionssymbol Konstante oder Variable von Sorten s Sn auf s ist dann ist F t4 tn Term der Sorte s 3 Das sind alle Terme Formeln 1 Wenn t Term der Sorte s t2 Term der Sorte s2 tn Term der Sorte s ist und P ein Pr dikatensymbol Konstante oder Variable der Sorten s Sn ist dann ist PP ty to tn eine Formel 2 Wenn F F und F Formeln sind dann sind auch F FRA F gt Fy v Fo Fi gt Fo Fi e Fo 3x F V x F Formeln 3 Das sind alle Formeln Anfragen 1
263. n werden induktiv die Terme und Formeln gebildet sl s2 sl s2 sl s2 A a ee Terme 1 Individuenkonstanten und variablen der Sorte s sind Terme der Sorte s 2 Wenn t Term der Sorte s tz Term der Sorte s2 ta Term der Sorte sn ist und f ein Funktionssymbol Konstante oder Variable von Sorten s Sn auf s ist dann ist Ehee SES ti to tn Term der Sorte s 3 Das sind alle Terme Formeln 1 Wenn x Individuenkonstante oder variable der Sorte s ist und x2 Individuenkonstante oder variable der Sorte s2 ist und P eine Pr dikatenkonstante oder variable der Sorten s s2 ist dann ist P xi x2 eine Formel 2 Wenn x Xv ny Xe as xe x Individuenkonstanten oder variablen f r Dokumente sind P eine Pr dikatenkonstante oder variable der Sorten s s2 ist und s eine Individuenkonstante oder variable f r eine Stufe ist dann sind Pfad zwischen x und x bzgl P Path x x n Nachfolger von x der Stufe s bzgl P VP xa xe Vorg nger von x der Stufe s bzgl P T x x s Nachfolger von x bis zur Stufe s bzgl P x x p Vorg nger von x bis zur Stufe s bzgl P N x x s Geschwister von x bzgl P x xp Stationen zwischen x und x Be bzgl P x xe x Formeln 4 Wenn t Term der Sorte s t Term der Sorte s t2 Term der Sorte s2 tn Term der Sorte Sn ist m eine Stufe Konstante oder Variable ist dann si
264. nd Unit t Conn ty t2 PS ti t2 Equal ty t2 Teile von t der Stufe m V m t x Teile von t bis zur Stufe m Wm t x Beh lter von t der Stufe m Amt x Beh lter von t bis zur Stufe m Am t x Geschwister von t O t x sind Formeln 5 Wenn F F und F Formeln sind und x eine Individuenvariable der Sorte s ist dann sind auch AF FAR Fy v Fo Fi gt F2 Fi F2 3 x F Vx F SP Fund YP F Formeln 6 Wenn P ein Pr dikatensymbol Konstante oder Variable der Sorten sj s2 ist und Prop eine Pr dikatenkonstante zweiter Stufe f r Eigenschaften von Relationen ist dann ist auch Prop P eine Formel 7 Das sind alle Formeln 140 Anfragen 1 Wenn F eine Formel und x x Individuenvariablen der Sorten 1 Sn sind dann ist A x x F eine Anfrage 2 Wenn F eine Formel und P eine Pr dikatenvariable der Sorten s1 Sn ist dann ist 3 Das sind alle Anfragen 4 5 2 Semantik Es werden nichtleere Individuenbereiche unterschiedlicher Sorte zugrundegelegt mail nme post yfie pers po pent prim read wrody vile qjehapter qjabstraot preading y g u ring qreefxor gt pool pate bi i i j i F r Variablen bel Sorte wird die Vereinigungsmenge aller nichtleeren Individuenbereiche U zugrundegelegt F r Funktionen werden Abbildungen und f r Pr dikate Relationen zugrunde gelegt Interpretation der Individuensymbole S newsi e U s S file
265. ne pr dikatenlogische Anfragesprache zur Suche nach Dokumenten Fakten und Erkl rungen auf Syntax und Semantik werden streng getrennt zahlreiche Anfragebeispiele mit den einzelnen Auswertungsschritten werden gegeben Ein besonderer Schwerpunkt liegt bei ihr in dem Aufbau einer Anfragesprache f r die Volltextsuche Reiner 1991 Reiner 1994 Link strukturierte und geschachtelte Dokumente wurden von ihr bislang nicht unter sucht Art der Logik Pr dikatenlogik 1 Stufe Suche mit Attributen Attribute von Dokumenten Vergleichsoperatoren lt gt lt gt Volltextsuche universelle Anfragesprache siehe Reiner 1994 Quantoren 3 es existiert ein V f r alle Boolesche Verkn p nicht v oder A und fungen Netzwerkfunktionen f r Thesauri B ume Vorfahren mit Suchtiefe Nachfahren mit Stufe Geschwister Synonyme Geschachtelte Doku nicht vorhanden mente Suchobjekte A Operator f r Dokumente Dokumente Fakten Erkl rungen Syntax Semantik explizit und vollst ndig Beispiele Auswertungsschritte werden f r jede Teilsprache anhand von Beispielmodellen detailiert vorgef hrt Besonderheiten benutzerorientierte Anfragesprachen UUQL TUQL alle Sprachen wurden implementiert die Autorin erhielt f r ihre Arbeit den Erich Pietsch Preis der Deutschen Gesellschaft f r Dokumentation 4 6 3 Datalog Modell von Fuhr Fuhr stellt in der Sprache Datalog gebildete Programme vor die Anfragem glichkei
266. nen Wissens ohne aufwendige Zwischenarbeiten in die eigene Wissensbasis zu bernehmen Thesaurus Guide 1985 listet ca 1000 Thesauri in Eu ropa auf Da die Erstellung von Wissensbasen teuer ist sollte gr eres Augenmerk auf die Wiederver wendbarkeit von Wissensbasen gelegt werden Die Entwicklung gro er Expertensysteme wird mit durchschnittlich einer Million Dollar veranschlagt F r zahlreiche Anwendun gen w ren Wissensbasen sehr n tzlich wenn sie billig und in einfacher Form zur Verf gung st nden Czedik 1992 F r das Zusammenf hren von Thesauri sind Konsistenzregeln einzuhalten 2 Vorhandene Best nde anreichern 169 Multilingual Einsprachige Terminologiebest nde werden mit speziellen Ubersetzungsrelatio nen angereichert in die gew nschten Sprachen bersetzt Dieser Mehraufwand amortisiert sich dadurch da Fremdsprachler auf die Informationsbest nde zugreifen k nnen Multimedial Traditionell textuelle Terminologiebst nde werden an den Stellen durch multi mediale Elemente erg nzt an denen dies einen Mehrwert f r die Qualit t des Bestandes be deutet Hypermedial Terminologiebst nde werden miteinander und durch die Indexierung mit den Informationsbest nden vernetzt Dabei wird die Konsistenz der Best nde insgesamt erhalten bzw durch den Einsatz bergreifender konsistenzsichernder Verfahren verbessert 3 Anfrageverfahren universell konzipieren Durch die einheitliche Repr sentation der
267. nen relevanten Dokumente im Verh ltnis zu allen gefun denen Dokumenten bez glich einer Anfrage Noise ist die Anzahl der gefundenen nicht relevanten Dokumente im Verh ltnis zu allen nicht relevanten Dokumenten in der Dokumentenbasis bez glich einer Anfrage 2 1 3 Protokolle im Client Server Modell Viele Informations und Kommunikationsdienste werden im Client Server Modell realisiert There is a set of server processes each acting as a resource manager for a collection of re sources of a given type and a collection of client processes each performing a task that re quires access to some shared hardware and software resources Resource managers may themselves need to access shared resources managed by another process so some processes are both client and server processes Coulouris Dollimore Kindberg 1994 S 11 12 Die Kommunikation im Client Server Modell wird i A anhand eines Schichtenmodells be schrieben Man unterscheidet die 7 Schichten Physikalische Schicht Bit bertragungsschicht Netzwerkschicht Transportschicht Sitzungsschicht Pr sentationsschicht und Anwendungs schicht Jede Schicht kann die Dienste der jeweils unter ihr liegenden Schichten in Anspruch nehmen ohne deren Funktionsweise zu kennen Jede Schicht kommuniziert mit einer Schicht der gleichen Ebene ber ein festgelegtes Protokoll Man unterscheidet die verbindungsorientierten und die verbindungslosen Kommunikations protokolle Damit der vergleic
268. nfragen s153 F eine Anfrage 4 4 2 Semantik In Dokumentenbeschreibungssprachen wie SGML werden geschachtelte Dokumente durch sogenannte Elemente aufgebaut Elemente sind beispielsweise geordnete und ungeordnete Listen OL und UL von Listeneintr gen LI Kapitel CHAPTER und berschrif ten HEADING Daf r werden nichtleere Individuenbereiche Elementmengen unter schiedlicher Sorte zugrundegelegt U ur Veedy Lite uerapter abstract Tyheading Pl UN u uns U UP F r Variablen bel Sorte wird die Vereinigungsmenge aller nichtlee ren Individuenbereiche U zugrundegelegt F r Funktionen werden Abbildungen und f r Pr dikate Relationen zugrundegelegt F r das Pr dikat Equal wird die Gleichheitsrelation zu grundegelegt Ein Teil eines Dokuments kann Bestandteil mehrerer Dokumente sein In diesem Fall reichen B ume als Darstellungsmittel nicht mehr aus und in diesem Fall werden gerichtete azyklische Graphen verwendet Beispielsweise k nnte die ungeordnete Liste aus dem Beispiel siehe Kapitel 4 4 3 Teil eines anderen Dokuments sein Einletung Grundlagen Anfragen in Internet Anfragesprachen f r Literatur Informationssystemen Internet Inform ati onssysteme Abbildung 38 Ein Teildokument als Teil mehrerer Dokumente Links k nnen sowohl zwischen Dokumenten als auch zwischen Teilen von Dokumenten ge bildet werden Interpretation der Individuen Funktions und Pr dikatensymbole
269. ngabekanal der Socketverbindung an den wartenden Proze im Applet zur ck Dieser empf ngt die Antwort und stellt das Ergebnis mittels der z B mit dem Internet Browser Netscape zur Verf gung gestellten Javascript Me thoden in seinem Hauptfenster dar 196 Abbildung 50 URLES Anfrageergebnis als Hierarchie im Marz 1997 197 Abbildung 51 URLES Anfrageergebnis mit zwei Variablen im Marz 1997 10 5 9 Erweiterungen Momentan ist URLES begrenzt auf 1 Zwei Pr dikate Conn und Desc 2 Suchtiefe 4 bei dem Pradikat Desc 3 ein Maximum von zwei logischen Ausdriicken 4 zwei logische Operatoren 5 drei Variablen 6 vorwartsgerichtete Beziehungen Zyklen werden zudem im Anfrageergebnis hierarchisch redundant dargestellt Punkt 3 4 und 5 lassen sich relativ einfach erweitern da in der Implementierung auf Erwei terbarkeit Wert gelegt wurde Die Erweiterung von Punkt 1 2 und 6 wiirde entweder die Ein 198 setzung einer zentralen Suchmaschine oder die dezentrale Realisierung mit Hilfe vorhandener Suchmaschinen verlangen Als Alternative zur Tiefensuche kann eine Breitensuche oder eine beschr nkte Tiefensuche eingesetzt werden Ein Kompromi zwischen einer Erweiterung der M chtigkeit der Anfragem glichkeiten einer akzeptablen Effizienz und einer Einfachheit der Realisierung stellen die folgenden Vorschl ge dar Einbeziehung von Suchattributen Datum Protokoll Einbeziehung von Volltextsuchfunktionen z B
270. nge von Dokumentbeschreibungen an den Client zur ck SFgate ist eine Schnittstelle zwischen dem WWW und FreeWAIS sf SFgate stellt logische Datenunabh ngigkeit her indem die in den einzelnen FreeWAIS sf Datenbasen benutzten Attribute auf universell einheitliche Attribute STAS 1996 abgebildet werden In STAS 1996 werden ca 1000 Attribute ber eindeutige Nummern und einen Namen 2 5 Gro buchstaben identifiziert Dadurch wird dem Benutzer eine von den verschiedenen Datenban ken unabh ngige Ebene pr sentiert Anfragen mit Attributen k nnen so einheitlich ber meh rere Datenbanken gestellt werden STAS 1996 unterscheidet beispielsweise die Attribute Name Abk rzung Nummer Abstract AB 62 Application APP 3180 Broader Term BT 3026 Duration DUR 2845 etc Beispielanfragen Im Folgenden werden zur Anfrage in WAIS Datenbasen die Clients waissearch freeWAIS 2001 und SFgate Fuhr et al 1995 benutzt Waissearch wird als Unix Programm gestar tet SFgate wird mit einer URL aufgerufen hier http ls6 informatik uni dortmund de ir search cgi bin SFgate F r Metazeichen wird als Fluchtzeichen das Zeichen gefolgt von dem hexadezimalen ASCII Zeichencode benutzt das Zeichen wird z B durch die Zeichenfolge 2F ausgedr ckt Anfragen nach WAIS Datenbasen Die folgenden beiden Anfrage k nnen gestellt werden wenn die Datenbasis directory of servers als Index erstellt wurde z B mit freeWAIS sf 1 Welche
271. nisses spezifi zierbar Zusammenf hrung der Suchergebnisse von Informati onsagenten Suchergebnis kann an weitere Personen Gruppen gesendet werden periodische Suchergebnisse etc Tabelle 9 Suchergebnisse in Internet Informationssystemen 107 Suchart Leistungsgrenzen Suche Person Gruppe meist keine Unterscheidung von Gro Kleinschreibung vorwie in ein gend 7 Bit Zeichensatz keine boolesche Verkn pfung der Attri fach bute m glich struktu Rechner meist keine Unterscheidung von Gro Kleinschreibung vorwie rierten gend 7 Bit Zeichensatz meist keine Spezifizierung von Attribu Doku ten bei der Suche m glich Suche ber alle Attribute menten E Mails meist keine Unterscheidung von Gro Kleinschreibung vorwie gend 7 Bit Zeichensatz Keine Spezifizierung von Mime Attributen m glich Artikel meist keine Unterscheidung von Gro Kleinschreibung Vorwie gend 7 Bit Zeichensatz keine regul ren Volltextanfragen m g lich meist keine Spezifizierung von Attributen bei der Suche m glich Suche ber alle Attribute keine einheitlichen boole schen Verkn pfungen m glich eingeschr nkte boolesche Ver kn pfungen sind mit Dejanews m glich mit Netnews und Tin k nnen boolesche Verkn pfungen zum Teil durch Anfragen in einer bestimmten Reihenfolge nachgebildet werden keine kom plexen booleschen Verkn pfungen keine Operatoren f r Nach fahren Vorfahren Verweise etc Men keine Unterscheidung von Gr
272. nt transfer encoding Content id Con tent description Date Expires From In reply to Message id Mime version Prece de n ce Priority Received Reply to Subject To e Men s Content Date Group id Length Subject Title User id f Personen Gruppen Communication address private Communication address office Date Domain name Fields of business Information address Keywords Members Name private Name headquarters E Mail private E mail office Fax private Fax office Phone private Phone office Postal address private Postal address office Personal data Public key Projects Title Type g Rechner Address administrator Address technical person Date of last modification E mail administrator E mail technical person Host domain name Host type Information address Ip Name administrator Name technical person Nameservers of network Operating system Phone administrator Phone technical person h Vergleichspradikate file string File type file fil paca File name file string file date file string Date gt gt 111 hl Zahl enver gl ei ich e date date ee Sa ae state date gintint ae Sint ant pint int h2 Vergleich von Zeichenfolgen Contains SPPSS Near amp itsting a rags 5 tri tri tri i tri tri tri tri h3 Linguistische Operationen Upper S58 Lower SS 8 Stem Sse Fyzzy mess Sound ex Sting string h4 Thesaurusoperatore
273. o Kleinschreibung 8 Bit Zeichensatz keine regul ren Volltextanfragen auf Attributen m glich kein einstelliges logisches not m glich keine Volltex tanfragen f r den Gesamtinhalt m glich keine Operatoren f r Nachfahren Vorfahren Verweise etc Dokument 8 Bit Zeichensatz keine regul ren Volltextanfragen auf Attri Hinweis buten m glich kein einstelliger boolescher Operator not keine Volltextanfragen f r den Gesamtinhalt m glich kein Operator f r Nachfahren Vorfahren Verweise etc WAIS 8 Bit Zeichensatz keine Volltextanfragen mit regul ren Aus dr cken kein einstelliger boolescher Operator not keine Ope ratoren f r Nachfahren Vorfahren Verweise etc Harvest 8 Bit Zeichensatz keine Anfragen mit phonetischer hnlichkeit mit Wortabst nden und mit Worth ufigkeiten kein boolescher Operator not m glich weder einstellig noch zweistellig 8 Bit Zeichensatz keine Anfragen mit phonetischer hnlichkeit schinen und mit Worth ufigkeiten z T keine Verwendung von Stop w rtern m glich Tabelle 10a Leistungsgrenzen von Internet Informationssystemen 108 Suche HTTP URL 8 Bit Zeichensatz beschrankt auf die eindeutige Referenzierung in link von Dokumenten struktu Hyper G 8 Bit Zeichensatz keine Unterscheidung von rierten Gro Kleinschreibung keine regul ren Volltextanfragen m g Doku lich Stopw rter k nnen in der Volltextsuche nicht verwendet menten werden Zeichenkombinationen
274. oftware Handb cher Informationstexte h ufig gestellte Fra gen und Antworten Texte aus Bereichen wie zum Beispiel Normen wissenschaftliche Be richte und Romane und Dokumentformate wie Bilder Tondokumente oder Videos FTP wird 1 A zwischen zwei Rechnern benutzt die mit dem 8 Bit Zeichensatz ISO 8859 ar beiten Wenn FTP zwischen zwei Rechnern benutzt wird die mit unterschiedlichen Zeichens tzen arbeiten ist eine Konvertierung der bertragenen Daten n tig Dies kann entweder manuell beispielsweise mit dem Kommando ntrans oder automatisch durchgef hrt werden Weiterhin k nnen Dateien die in komprimierter Form vorliegen bei der bertragung auto matisch entkomprimiert werden Man braucht um mit FTP in nicht ffentlichen Dateiverzeichnissen arbeiten zu k nnen 1 A eine Benutzerkennung f r zwei Rechner 1 f r den Rechner von dem man FTP benutzt FTP Benutzerrechner und 2 f r den Rechner auf den man per FTP zugreifen will FTP Ziel Rechner Um diesen Nachteil aufzuheben hat Horlacher 2001 eine asynchrone Datei ber tragung entwickelt Ein RFC daf r ist in Vorbereitung Mit FTP ist es nicht m glich mehrere FTP Server in einer Anfrage zu behandeln Systeme wie Archie FTP Search und Alex Prospero erm glichen Anfragen ber mehrere FTP Server Wichtig sind die Verfahrenschritte bei einem Zugriff auf FTP Eintr ge Als erster Schritt wird eine Verbindung zu einem FTP Server aufgebaut Danach k nnen Anfragen mit den unte
275. okumentation Volume 47 No 4 Juli August 1996 Boden et al 1994 Boden K Geenen A Kampermann J Scheller M Internet Werkzeuge und Dienste von Archie bis World Wide Web Berlin Springer 1994 B hm Mengel Muhr 1994 B hm Andreas Andreas Mengel und Thomas Muhr Hrsg Texte verstehen Konzepte Werkzeuge und Methoden Konstanz Schriftenreihe zur Informa tionswissenschaft Konstanz Universitatsverlag Konstanz 1994 Bowman et al 1995 Bowman C Danzig P Hardy D Manber U Schwartz M Wes sels D Harvest a scalable customizable discovery and access system Technical Report De partment of Computer Science University of Colorado Boulder Maz 1995 oder unter ftp ftp cs colorado edu pub cs techreports schwartz Harvest Jour ps Z 174 Brachman Schmolze 1985 Brachman R und Z Schmolze An overview on the KL ONE knowledge representation system In Cognitive science November 1985 Brown 1989 Brown P Turning ideas into products the GUIDE system In Proceedings of the first hypertext conference of ACM Hypertext 87 ACM 1989 Bush 1945 Bush V As we may think The Atlantic Monthly July 1945 Camargo 1994 Camargo W The Harvest Broker Pennsylvania State University Department of Computer Science Master of Science Dezember 1994 oder unter harvest transarc com afs transarc com public camargo broker ps Carnap 1958 Carnap R Introduction to symbolic logic and its application
276. ollformenerweiterung Operator momentan f r die Sprachen Englisch Deutsch Franz sisch Spanisch Italienisch und Holl ndisch Beispielsweise w rde buy erwei tert zu buys bought aber nicht zu buyer 3 Rechtschreibungs hnlichkeit Operator momentan f r den 7 Bit Zeichensatz ASCH und etwas ineffizienter f r ISO 8859 X Beispielsweise w rde cat erweitert zu cats calc case Die Unterscheidung von Gro Kleinschreibung kann in den Suchanfragen spezifiziert werden Stopwortlisten k nnen angegeben werden Stopw rter werden nicht in den Index aufgenom men F r die Berechnung der hnlichkeit von Anfrage und Dokument wird eine Definition in Form eines Algorithmus score algorithm gegeben so da die Rangordnungen der Ergebnisse gepr ft werden k nnen Angeordnete Ergebnismengen k nnen mit einem Gewicht threshold beschr nkt werden Anfrageterme k nnen gewichtet werden Beispielsweise w rde die Anfra ge cat or dog 3 Dokumente die dog enthalten 3 mal h her gewichten und dementspre chend anordnen Intermedia bietet Suchattribute f r Dokumente an HTML Dokumente HTML 4 0 konforme Elemente und Metatags Newsartikel RFC 1036 konforme Felder XML Dokumente systemdefinierte Attribute Eigendefinierte Dokumenttypen eigenbenannte Elemente die auch berlappen k nnen Anfragen mit Attributen werden mit dem Operator within gestellt Suchergebnisse werden dabei nicht geordnet Anfragen mit Attributen k
277. on Fo 3 ist Modell von F v F2 gdw 3 ist Modell von F1 oder 3 ist Modell von Fo 3 ist Modell von Fi gt F2 gdw 3 ist Modell von F2 wenn 3 ist Modell von F 123 3 ist Modell von F lt gt F2 gdw 53 ist Modell von F1 gdw 3 ist Modell von F 3 ist Modell von 3 x F gdw gra ist Modell von F f r mindestens ein U e U 3 ist Modell von V x F gdw SI ist Modell von F f r alle U e U Anfragen IA X Xn F lt U Un gt IV ad xn ist Modell von F f r U e U 4 3 3 Beispiele Es wird der Individuenbereich U aus Kapitel 4 2 3 verwendet und um Dokumente erweitert Es wird eine weitere Relation USED MATERIAL definiert in der Graphik s u als gestri chelte Linie UNIT 2 http web nexor co uk aliweb aliweb UNIT http www altavista digital com UNIT 4 http apollo co uk UNIT s http www agentware com UNIT 6 http www bigfoot com UNIT http www bunyip com Us UNIT UNIT2 UNIT3 UNIT4 UNITs UNITe UNIT7 UNITs UNIT UNITio UNIT UNITi2 UNIT 3 UNIT 4 UNIT15 UNITi6 UNIT17 USED MATERIAL 3 Used Material lt UNIT UNIT 2 gt lt UNIT UNIT gt lt UNIT UNIT gt lt UNIT UNIT s gt lt UNIT UNIT 6 lt UNIT UNIT 7 gt Abbildung 37 Graphische Darstellung der Links Frage 1 Welche Pfade der L nge 1 2 oder 3 bestehen zwischen den Dokumenten unit und unit bzgl der Beziehung Conn Di
278. on freqix term in Dokument Maximale Termh ufigkeit maximale H ufigkeit eines Terms maxfreqi in Dokument relative Term Dokumenth ufigkeit I sfregix relfreqix _____ 1 maxfreqi inverse Term Dokumenth ufigkeit invfreqix relfregix idfk normalisierte Term Dokumenth ufigkeit Bee invfreqix gt invfreqix jel Die Syntax der Anfragesprache von FreeWAIS sf wird in G vert Pfeifer 1996 definiert Ergebnis einer Anfrage mit freeWAIS sf ist eine nach hnlichkeit zwischen Anfrage und Do kumenten geordnete Menge von Dokumenten FreeWais sf verwendet als hnlichkeitsfunkti on das Produkt von Anfrageterm und Dokumenttermgewichtung Pfeifer 1995 S 28 29 Als boolesche Operatoren werden or oder and und und not bin res nicht unterschieden Die Berechnung der hnlichkeit einer Anfrage q zu einem Dokument d wird folgenderma en definiert hnlich qw d qterm Wik f r i l n hnlich q or q2 d hnlich q d hnlich q2 d hnlich q and q2 d min hnlich q d hnlich q2 d hnlich q not q2 d min hnlich q d 1 hnlich q2 d 57 Mit einem Client wie z B waissearch Waissearch 1992 waisq Waisq 1992 xwais Xwais 1992 SFgate G vert Pfeifer 1996 G vert 1996a WAIS URL RFC 1738 RFC 1808 etc wird tiber das WAIS Protokoll eine Anfrage an den Anfragedienst gestellt Dieser liefert ber den Index eine geordnete Me
279. onna AltaVista Anfrage Advanced Search gt sing and Take That or Madonna 7 Wieviele Dokumente im globalen HTML Bestand enthalten im Attritbut Inhalt nicht die Zeichenfolge Madonna einstelliges boolesches not AltaVista Anfrage Advanced Search gt not Madonna gt asa count only 67 Netscape AltaVista Search Advanced Query not Madonna File Edit View Go Bookmarks Options Directory Window Help Back roward Home Reload toc Open Print Find Z Location http altavista digital com cgi bin query pg aqkwhat webktmt n amp q not M adonna amp r amp d0 amp d1 AltaVista eXtensions OnSite Knowledge Advanced ff Simple J Products Search everyplace One interface FREE SOFTWARE 45579464 documents match the query Search he Web_ 8 and Display the Results as a Countony 2 Selection Criteria Please use Advanced Syntax AND OR NOT NEAR not Madonna Results Ranking Criteria Documents containing these words will be listed first Start date Enddate e g 21 Mar96 Submit Advanced Query Document Done Abbildung 8 AltaVista Anfrage im Marz 1997 3 2 Suche in link strukturierten Dokumenten Im WWW und bei Hyper G wird eine Zusammenf hrung der Dienste Telnet Ftp News Go pher Wais Http etc erreicht Diese Dienste sind jedoch nicht vollst ndig integriert so da Anfragen wie die folgende dort nicht m glich sind Welche Dokumente
280. oogle mit einem Bestand von ca 1 2 Mrd Dokumenten verwendet einen anderen Gathering Mechanismus als z B Fast mit einem Be stand von 0 57 Mrd Dokumenten Weiterhin spielen bei der Auswahl des Bestandes kommer zielle Interessen eine gro e Rolle Oft unterscheiden sich Internet Informationssysteme syntaktisch stark Anfragesprache Be nutzeroberfl che aber semantisch wenig voneinander Dies zeigt sich z B innerhalb der Klas se der Suchmaschinen recht deutlich Beispielsweise wird dort near 5 und near 5 bzw and und jeweils f r dieselbe Anfrage verwendet Weiterhin werden stark unterschiedli che Benutzeroberfl chen f r dieselben Anfragen bereitgestellt In manchen Systemen z B eine einfache Suche in ein anderes Fenster als die Expertensuche gestellt In anderen Systemen werden diese beiden Sucharten in ein Fenster zusammengelegt Die unterschiedliche Definition der Semantik ist beispielsweise bei den hnlichkeitsfunktio nen zu beobachten Bei Goggle ergibt die Anfrage Hund Katze ein anderes Ergebnis als bei Alta Vista 165 Bei der Integration von Internet Informationssystemen ergeben sich Schwierigkeiten folgender Art 1 Erfassung Bestand e Global einheitliche formale und inhaltliche Beschreibung der Dokumente e Internationaliserung Zeichens tze Terminologien Abbildung der Benutzeranfragen etc e Starkes Anwachsen des Dokumentenbestands e Beseitigung der berlappenden Best nde Dublettenbeseitigung e Gro
281. opher gopher cc utah edu Kappe 1993 Kappe F Hyper G a distributed hypermedia system In Proceedings INET 93 San Francisco California August 1993 Oder unter ftp iicm tu graz ac at pub Hyper G doc inet93 ps Kappe 1996 Kappe F Hyper G Text Format HTF Version 2 13 Unter ftp iicm tu graz ac at pub Hyper G doc HTF ps Kappe Pani 1996 Kappe F Pani G Hyper G Client Server Protocol HG CSP Version 7 17 In Maurer 1996 Anlage F oder unter ftp ftp 1icm tu graz ac at pub Hyper G papers HG CSP 7 17 hif gz Khalidi et al 1993 Khalidi Y P Madany M Nelson The Spring File System Sun Micro systems Laboratories Technical Report 93 10 Marz 1993 Kleinberg Kumar et al 1999 Kleinberg J Kumar R Raghavan P Rajagopalan S und A Tomkins The web as a graph measurements models and methods In Proccedings of the Internation Conference on Combinatorics and Computing 1999 Koch 1995 Koch T Searching the Web systematic overview over indexes In Hobohm Watjen Hrsg Wissen in elektronischen Netzwerken eine Auswahl von Vortr gen der Gesell schaft fiir Klassifikation Basel 1995 Bibliotheks und Informationssystem der Universitat Ol denburg 1995 Kofler 1995 Kofler M Linux Installation Konfiguration Anwendung Addison Wesley 1995 Konopnicki Shmueli 1998 Konopnicki D Shmueli O Information gathering in the World Wide Web The W3QL query language and the W3QS System In
282. ormel ist dann ist A x Xn F eine Anfrage 2 Das sind alle Anfragen 4 3 2 Semantik U ist eine nichtleere Menge von einfachen Dokumenten Interpretation der nichtlogischen Symbole unit e U S xi e U Ixa U S Kp e U S xy e U I Conn c U x U f r i a B y 1 n i a B y k nnen auch weggelassen werden Formeln 1 3 ist Modell von Conn xa xg gdw lt 3 xa 3 Xp gt I Conn 2 3 ist Modell von Path x1 Xn gdw 3 ist Modell von Conn x 1 x2 und 3 ist Modell von Conn x gt x3 und und 3 ist Modell von Conn x 1 Xn und I x1 3 X2 I amp n 3 ist Modell von YO xa xg gdw S ist Modell von Path x 4 X1 X2 X3 0 Xs Xp 3 ist Modell von T xa Xs gdw 3 ist Modell von J xp Xa 3 ist Modell von U Xa xp gdw 3 ist Modell von Y Xa xg oder 3 ist Modell von YO Xu xp oder oder 3 ist Modell von 4E Xa Xp 3 ist Modell von N xa xs gdw 3 ist Modell von UO xg Xa 3 ist Modell von xo Xp gdw 3 ist Modell von Conn x Xa und 3 ist Modell von Conn x xg und I xa 3 Xg 3 ist Modell von x xp Xy gdw 3 ist Modell von Path xa Xy X2 X3 2 Xn Xp und 3 ist Modell von Path xa X1 Xy X3 Xn Xp und und 3 ist Modell von Path xa X1 X2 X3 Xy Xp wobei n bel aber fest 3 3 ist Modell von F gdw 3 ist nicht Modell von F 3 ist Modell von F A F2 gdw 3 ist Modell von Fl und 3 ist Modell v
283. oton 1 2 1 15 Neutron 1 2 1 2 Elementarteilchen 1 2 1 3 Fermion w 1 2 1 4 Boson 1 2 1 5 Hadron w 1 2 1 6 K Meson Kaon 1 2 1 7 Lepton 1 2 1 8 Meson w 1 2 1 9 Quark 1 3 1 1 elektromagnetische Kraft elektromagnetische Wechselwirkung 1 3 3 1 elektroschwache Kraft elektroschwache Wechselwirkung 1 3 3 2 schwache Kraft schwache Wechselwirkung 1 3 4 1 Farbkraft starke Kraft starke Wechselwirkung Ti Document Done Abbildung 19 Anfrage mit dem regul ren Ausdruck in THW Query aus Hartlep 1996 im M rz 1997 4 Welche terminologischen Eintr ge stehen mit dem terminologischen Eintrag dessen Name fahrzeug ist in Beziehung ISO 8777 Anfrage gt relate fahrzeug 5 Welche terminologischen Eintr ge stehen mit dem terminologischen Eintrag dessen Name mercedes ist in einer Unterbegriffsbeziehung ISO 8777 Anfrage gt relate nt mercedes 6 Welche terminologischen Eintr ge vom Typ Noun existieren 88 SS U zjale 2 Sy se al al 2 N E Abbildung 20 Suche nach terminologischen Eintr gen aus Word Net 1997 im M rz 1997 Boolesche Suche nach terminologischen Eintr gen 7 Welche terminologischen Eintr ge enthalten die Zeichenfolge automobiles und die Zei chenfolge vehicles 89 fed FES File Edit View Go Bookmarks Options Directory Window Help 3 http palimpsest stanford edu cgi bin search Ictgm a
284. ound or argumentl is not variable e g URL string Ay if isVar argl isBound argl amp amp isBound arg2 return true return false public boolean hasVar String var if argl equals var arg2 equals var String resultType Respon 207 return true return false public boolean hasVars if isVar argl isVar arg2 return true return false public boolean isVar String s Variable x y z are for the user Letter g is for test ef binding in logical and boundExecute KT return xyzg indexOf s 1 public String equalVar Predicate pred if isVar argl amp amp pred argl equals argl pred arg2 equals argl return argl if isVar arg2 amp amp pred argl equals arg2 pred arg2 equals arg2 return arg2 return public HTMLList getVarValue String var return HTMLList responder vars getVar var value public void execute if the first argument is an url string and the second el argument is a variable binds the second variable with the execution of executeDepthFirst Ai if both arguments are URL s doesn t do anything Ls if isVar argl amp amp isVar arg2 return if isVar arg2 Link link new Link ROOT argl HTMLList ul new HTMLList ul link arg3 ul executeDepthFirst if resultType equals list ul ul toSet bindVar arg2 u
285. pth public void setLink Link link this link link public boolean isRoot if link source equals ROOT return true else return false public void addObject Object e adds an Object HTMLList alphabetically sorted into this af HTMLList Caution removes double Entries if link source urA and link dest of two entries are equal EY Link link1 new Link Error Error 203 Link link2 new Link Error Error int max size 1 If this HTMLList is empty insert e 7 if max 1 addElement e return if e instanceof HTMLList HTMLList ul HTMLList e linkl ul link for int i 0 i lt max i Object elem elementAt i if elem instanceof HTMLList HTMLList ul HTMLList elem link2 ul link if eleml is equal to elem2 remove it from HTMLList 3 if linkl source compareTo link2 source 0 amp amp linkl dest compareTo link2 dest 0 return if linkl source is lexically smaller than link2 source R if link1 source compareTo link2 source lt 0 insertElementAt e i return if linkl is lexically is the last element x if i max addElement e return public HTMLList union HTMLList 1 Generates a HTMLList which unions this HTMLList with 1 The result is sorted alphabetically and does not contain double entries int max l size
286. r schiedlichen Anfragekommandos gestellt werden Die wichtigsten sind e Wechsel auf die Betriebssystemebene des lokalen Rechners durchgef hrt e cd Wechsel in das angegebene Verzeichnis auf dem FTP Rechner e cdup Wechsel in das n chsth here Verzeichnis auf dem FTP Rechner e dir alphabetisch sortierte Ausgabe der Eintr ge des angegebenen Verzeichnisses diesel be Semantik wie Unix Befehl Is lag Icd Wechsel in das angegebene Verzeichnis auf dem lokalen Rechner Is alphabetisch sortierte Ausgabe der Namen der Eintr ge des angegebenen Verzeichnis ses ohne Parameter dieselbe Semantik wie der Unix Befehl Is e modtime Ausgabe des letzten Modifikationszeitpunkts der angegebenen Datei e ntrans Konvertierungsfunktion f r Zeichen f r die Datei bertragung e pwd Ausgabe des aktuellen vollst ndigen Verzeichnisnamens auf dem FTP Rechner e size Ausgabe der Gr e in Bytes des angegebenen Eintrags Beispielanfragen 1 Welche Dateinamen befinden sich auf dem FTP Server ftp zrz tu berlin de im Verzeich nis pub Das Ergebnis soll alphabetisch nach den Namen geordnet werden gt ftp ftp zrz tu berlin de gt cd pub gt ls oder mit einer WWW Benutzeroberfl che 40 Netscape FTP Directory ftp ftp zrz tu berlin de pub 7 File Edit View Go Bookmarks Options Directory Window Help Fmd ts Oem Pin Fd Location ftp ftp zrz tu berlin de pub e Please read the
287. r die Anfrage die Tendenz da die Relevanz der Dokumente abnimmt je breiter und tiefer der Such baum wird Bekavac 1996 S 200 3 5 2 Darstellung und Navigation In der Praxis reichen Anfragen in Form von Kommandos f r den Informationssuchenden nicht aus um relevante Information effizient auffinden zu k nnen Es sind Verfahren wichtig die die bersichtliche Darstellung von und die Navigation in terminologischen Wissens und Do kumentbest nden zum Gegenstand haben Trotz fehlender oder nicht pr senter Begrifflichkei ten k nnen dadurch Anfragen exakt formuliert und die Suche nach Information ohne direkt danach gesucht zu haben Serendipity Effekt genannt Kuhlen 1991 S 38 unterst tzt wer den Zur Verbesserung der bersichtlichkeit hypermedialer Informationsbest nde existieren unter schiedliche Ans tze Es sind folgende Darstellungsmittel vgl Felber Budin 1989 f r Ter minolgien zu unterscheiden Alphabetische Darstellung Benziner UB Elektro Opel UB Pkw UB Fiat UB Pkw OB Fahrzeug UB Mercedes OB Fahrzeug Diesel UB Opel Personenkraftwagen UB Lkw Familienwagen BS Pkw UB Pkw OB Pkw Pkw OB Fahrzeug Fiat UB Familienwagen BF Dieselkraftfahrzeug UB Pkw UB Sportwagen Dieselkraftfahrzeug OB Fahrzeug OB Benziner BS Diesel Lastkraftwagen OB Diesel Elektro BS Lkw OB Elektro UB Lkw Lkw OB Fiat UB Pkw OB Diesel OB Mercedes OB Fahrzeug OB Elektro OB Opel BF Elektro
288. r universellen Anfragesprache und der zielsystemabh ngigen Anfragesprache wird jeweils ein Sprach bersetzer bereitgestellt Falls z B ein neuartiges Informationssystem entwickelt wird braucht so nicht das Gesamtsystem modifiziert zu werden sondern es wird der bersetzer f r dieses spezielle System neu eingesetzt Der Ausfall von Zielsystemen beeintr chtigt nicht den Gesamtbetrieb des Systems Sucher gebnisse sind mit einer hohen Wahrscheinlichkeit verf gbar Durch redundante Anbindung mehrerer Zielsysteme mit gleichen Best nden kann die Verf gbarkeit der Best nde weiter erh ht werden Der Hauptnachteil der dezentralen Architektur liegt darin da die M chtigkeit der universel len Anfragesprache nicht erreicht werden kann da die Zielsysteme keine ausreichende und zudem eine unterschiedliche Anfragem chtigkeit aufweisen Folgendes Beispiel soll dies illu strieren Gegeben sei der Dokumentenbestand D doc1 doc2 doc3 doc4 Im Informationssystem IS1 seien folgende Suchergebnismengen mit den Anfragem glichkei ten bildbar Al doc1 doc2 doc3 docl doc2 docl doc3 Im Informationssystem IS2 seien folgende Suchergebnismengen mit den Anfragem glichkei ten bildbar A2 doc1 doc2 doc3 docl doc2 docl doc3 docl doc2 doc3 Im Informationssystem IS3 seien folgende Suchergebnismengen mit den Anfragem glichkei ten bildbar A3 doc1 doc2 docl doc3 docl doc2 doc3 doc4 Die universelle Anfrag
289. r weitergeleitet Anfrage bersetzer bersetzen die Anfrage in die Zielsprache und leiten sie an das Zielsystem weiter Anfrageergebnisse werden ber den Anfrage bersetzer und den Mediatoren zum Client zur ckgegeben Anwendungsbereich f r TSIMMIS sind Bibliotheken aber auch WWW und andere Internet Informationssysteme Beispielanfragen 1 Welche Themen werden in Dokumenten behandelt deren Autor Ullman ist SELECT bibliography document topic FROM root WHERE bibliography document author set author last name Ullman 2 Welche Themen werden in Dokumenten behandelt die eine Exemplarnummer haben SELECT bibliography topic FROM root WHERE bibliography item no 3 Welche Themen werden in Dokumenten behandelt die eine gegebene Exemplarnummer haben SELECT topic FROM root WHERE item no 79 4 Welche Dokumente sind von den Autoren Aho und Hopcroft SELECT bibliography document FROM root WHERE bibliography document author set author last name al Aho AND bibliography document author set author last name a2 Hopcroft fanawer set obj obj is document set auihora topics cadl nwnber authors ia authorset set authori author authors author is authorlast name string Aho author is author last name string Hoperoft author ia author last name string Ullman topic ia topic atring Algorithma call no is dewey de
290. rch die folgenden charakteristischen Eigenschaften zusammengehalten 1 Es ist standardisiert TCP IP ist der Standard f r den Zusammenschlu von Computer netzwerken weltweit geblieben Zahlreiche weitere Protokolle Computernetzwerke und Cli ent Server Anwendungen k nnen gemeinsam benutzt werden 2 Es ist benutzerfreundlich Anwender entwickeln es gemeinsam weiter Weiterhin haben sich zahlreiche Diskussions und Arbeitsgruppen gebildet 3 Es ist effizient Der Austausch von Daten geschieht ber Netze 4 Es ist dezentral Folgende Zahlen belegen den Stellenwert des Internet Web 4 Milliarden Cyveillance 2001 Februar 2001 Dokumente davon indiziert 1 25 Milliarden Google SearchEngineWatch November 2000 0 57 Milliarden Fast 2001 Suchen 40 Millionen Tag Google 2001 E Mails 5 Milliarden Tag Computer Zeitung November 2000 dee leer ee E Mail Listen 90 000 Liszt Liszt 2000 August 2000 Newsgruppen 35 000 Dejanews DejaNews 2000b August 2000 Internet 72 4 Millionen ISC 2000 Januar 2000 Rechner HTTP Server 18 2 Millionen Netcraft 2000 Juli 2000 vice Provider Sch tzung verschiedener Unternehmen Tabelle 1 Gr e des Internet 2 1 2 Informationssysteme Shannon und Weaver definieren Information als den Logarithmus der Anzahl der Auswahl m glichkeiten von Zeichen Shannon Weaver 1963 Der mittlere Informationsgehalt einer Nachricht wird mit H P log P gleichgesetzt wobei
291. reiben benutzte Menge von graphischen Symbolen vgl O Donell 1994 In Internet Informationssystemen wird berwiegend der 8 Bit Zeichensatz nach ISO 8859 verwendet Ausnahmen sind Mail FTP News und bestimmte Dateisysteme bei denen z T noch der 7 Bit Zeichensatz nach ISO 646 US ASCII benutzt wird Damit 7 und 8 Bit basierte Systeme miteinander kommunizieren k nnen existieren Konver tierungswerkzeuge F r Mail ist das zum Beispiel MIME RFC 1521 RFC 1522 mit dem automatisch eine Konvertierung in ein anderes Format durchgef hrt werden kann Vorteile der ISO 8859 Zeichens tze sind 1 statt 128 Zeichen k nnen 256 Zeichen innerhalb eines Zeichensatzes verwendet werden 2 gegen ber dem 16 Bit Zeichensatz wird eine Speicherplatzersparnis von 50 erreicht 3 zwischen den regional unterschiedlichen Zeichens tzen im Moment 10 kann relativ ein fach gewechselt werden Die Zukunft geh rt dem Zeichensatz Unicode Unicode 2001 ISO 10646 Czyborra 2001 mit den Kodierungen wie z B UCS 2 16 Bit und UTF 8 Multibyte Der Hauptvorteil von Unicode ist da 65536 Zeichen innerhalb eines Zeichensatzes dargestellt werden k nnen so da alle international h ufig verwendeten Zeichen codiert werden k nnen Die vollst ndige Umstellung der Systeme auf Unicode wird jedoch noch einige Zeit in Anspruch nehmen Das erste auf Unicode basierende Betriebssystem ist Windows NT Die objektorientierte Pro grammiersprache Java Flanagan 1996
292. reibung wird nicht unterschieden Ergebnis wird alphabetisch geord net ISO 8777 Anfrage gt scan ct fahr 2 Welche terminologischen Eintr ge enthalten den regul ren Ausdruck car 86 a 1 a File Edit View Go Bookmarks Options Directory Window Help tack Forward Home Reload imanes Open Print Find J _ lt cr_ Location http www cyc com cyc 2 1 find constant html e Q rina Constant E Mail Comments to doc cyc com Last Update 12 03 1996 09 29 11 Search for Cyc constants defined in the documentation using Unix regular expressions car Enter a regular expression Case insensitive RI Examples Expression Result Be all constants en those beginning with en TheWord those ending with The Word device those containing device fd og Abbildung 18 Anfrage mit dem regul ren Ausdruck car aus Cyc 2001 im M rz 1997 3 Welche terminologischen those containing fog or dog zl Document Done a Eintr ge enthalten den regul ren Ausdruck 87 ThW Query DEMO Thesaurus lead in terms for by notation 1 1 1 1 Bose Einstein Statistik 1 1 1 2 Fermi Statistik w 1 2 1 1 elementares Teilchen Elementarteilchen 1 2 1 10 Pi Meson Pion 1 2 1 11 Feldquant intermedi res Boson Quant 1 2 1 12 Baryon w 1 2 1 13 Nukleon 1 2 1 14 Pr
293. rektem Inter netanschlu ber Modem oder ISDN erste Suchmachine Harvest Web Server Netscape Apache Harvest Breiter Einsatz von Authentifizierungs und Verschl sselungssoftware Kommerzialisierung des Internet Online Bezahlungen VRML Version 1 0 11 Suchmaschinen AltaVista Lycos Webcrawler Web Datenbankkopplungen erste intelligente Agenten Durchbruch der Programmiersprache Java 1997 HTML 4 0 Java Development Kit Version 1 1 VRML Version 97 1996 WWW Server von Microsoft Oracle erster WWW Server von Netscape mit SSL erste Zertifizierungsstellen CSS1 Cascading Style sheet level 1 simple visual formatting model zahlreiche WWW Benutzeroberfl chen Internet Explorer PDF Acrobat Version 1 4 CSS2 Cascading Style sheet level 2 media specific style sheets XML Version 1 0 Document Object Model Version 1 0 XQL 1999 Java Development Kit Version 2 ne Handhelds mit Java f higer Web Benutzeroberfl chen XSL Xpath Xlink Xpointer XML Namespaces 2000 XHTML HTML 4 ausgedr ckt in XML MPEG Version 7 Anfragen an geschachtelte Dokumente XML basiert 1998 Multimedialisierung Quicktime SMIL Version 1 0 MPEG Version 4 Stre aming Systeme Textverarbeitungssysteme werden hypertextf hig zahlreiche Hypertexteditoren Tabelle 3 Entwicklung von Hypertextsystemen 2 2 3 Was bringt Hypertext mit sich Hypertext besitzt im Vergleich zu traditionellen linearen Tex
294. rennt 1 SMTP Felder Action Copy Date Expires From In reply to Message Id Precede n ce Priority Received Reply to Subject To 2 Weitere Felder Mime Version Content Type Content Transfer Encoding Content Id Content Description 3 Eigendefinierte Felder F r SMTP und MIME existieren eine Vielzahl von Anwendungsprogrammen Ein weiteres System ist das Message Handling System MHS nach X 400 E Mail Anwendungsprogramme bieten die M glichkeit Mengen von E Mails sogenannte Folder zu benennen F r die empfangenen und versendeten Nachrichten existieren in den Anwendungsprogrammen Standard Folder beispielsweise received und sent Subfolder k n nen rekursiv bestimmt werden Eine Suche nach E Mails kann mit Attributen durchgef hrt werden E Mails k nnen auch mit Volltextsuchsystemen indexiert werden Diese Systeme bieten dann Anfragem glichkeiten dieser Systeme s u Beispielanfragen 1 Welche E Mails liegen im Folder received gt elm 2 Welche E Mails liegen im Folder sent 46 gt elm gt c gt sent 3 Welche E Mails im Folder privat wurden von der Person mit dem Nachnamen Mueller an mich gesendet elm c privat l from Mueller YVUUNY 4 Welche E Mails im Folder privat enthalten im Attributwert des Attributs Subject die Zeichenfolge www elm c privat l subject www YVUUUY 3 1 5 Artikelsuche News Systeme wie zum Beispiel Netnews Storm 1995 Tin Lea
295. rf gung gestellt werden Eine Verz gerung um mehrere Tage ist m glich Neue bzw nderungen an den Bestandsadressen m ssen dem Roboter bekanntgegeben werden Weiterhin mu die Konfiguration des Robo ters ge ndert werden falls sich die Schnittstelle zum externen System ndert Mit Standards in den Bereichen Dokumentbeschreibungssprachen HTML XML Protokol len HTTP Corba IIOP Applikationsserver J2EE und Pr sentationsserver k nnen komple xe Client Server Anwendungen der beschrieben Art performant und skalierbar realisiert wer den Zur Realisierung des Collection Manager and Query Server kann mittelfristig ein vor handenes Informationssystem integriert bzw weiterentwickelt werden Oracle Intermedia Hyper G Langfristig ist der Einsatz einer Datalog Maschine w nschenswert 155 6 Terminologiebasiertes Information Retrieval Es ist bisher wenig erforscht das thesaurusbasierte Information Retrieval zum terminologie basierten Information Retrieval zu erweitern und in den Kontext der Hypertextforschung zu stellen Die zugrundeliegende Repr sentationssprache mu daf r einerseits m chtig genug andererseits auf die speziellen Belange vorhandener Terminologiebest nde zugeschnitten sein 6 1 Terminologien und W rterb cher Eine Terminologie im Kontext der Dokumentation und Terminologiewissenschaft ist als ein fachsprachliches W rterbuch zu verstehen Gesamtheit der innerhalb eines wissenschaftlichen Systems definierten F
296. riffe Teilbegriffe Dokumente Abbildung 44 Suche nach Dokumenten mit Morphologie und Terminologiekom ponente 158 Wenn ein Volltextzugriff auf Dokumente erreicht werden soll k nnen nach Bestimmung der Unterbegriffe bzw Teilbegriffe noch Synonyme und Vollformen mit in die Suche einbezogen werden um das Suchergebnis zu verbessern Anfragetermini Grundformen m Unterbeariffe Teilbegriffe Syn u VYollformen Dokumente Abbildung 45 Volltextsuche nach Dokumenten mit Morphologie und Terminologie komponente Das Wechselspiel kommandoorientierter Anfragenformulierung und der men gef hrten Su che in Dokumentenbest nden stellt einen wichtigen Forschungsgegenstand dar Beispiels weise kann die Strategie gew hlt werden mit einem Anfragekommando einen Einstiegspunkt in den Dokumentenbestand zu gewinnen um dann mit einer men gef hrten Suche die Infor mationsmenge weiter einzuschr nken Solche Einstiegsfragen sind bespielsweise Welche Sachgebiete existieren auf dem Gebiet des Information Retrieval oder Welche globalen Informationsbest nde existieren f r das Gebiet des Information Retrieval Die umgekehrte Strategie besteht darin mit Hilfe der men gef hrten Suche ein Gef hl f r die Begrifflichkeiten des Fachgebietes zu entwickeln um dann mit gezielten Anfragekommandos die gew nschte Information abzurufen Dem Informationssuchenden sollte bei seiner Anfragenvor und nachbereitung Unterst tzung angeboten werden An
297. ring hrefString trim replace quotel quote2 String which comes after lt a href gt up to lt a gt length destURLString length lastString destURLString substring end 1 length 4 trim double quotations are replaced by single quotations in source string if they don t get replaced you will have problems with the meta symbol for double quatations lastString lastString replace quotel quote2 newURLString lt a href hrefString gt lastString System out println newURLString Link link new Link lastString hrefString return link public void executeDepthFirst Ef EJ u Generates a hierarchy of links from this link dest with this depth URL url if URL is not loadable e g error name or connection not possible this method with this url will no longer be executed try url new URL link dest i catch IOException e return String documentString getDocumentString url StringTokenizer gets all hyptertext references method nextToken beginString StringTokenizer strTokenizer new StringTokenizer documentString String destURLString strTokenizer nextToken lt a href endString boolean while destURLString equals destURLString Link link getLink url int newdepth depth 1 r HTMLList next new HTMLList type link newdepth if search depth is not on leafs executes d
298. rl3 if comps 4 varChoice4 infixQueryString infixQueryString var4 else infixQueryString infixQueryString url4 if pred2 equals Desc infixQueryString infixQueryString pred2 if comps 2 varChoice3 infixQueryString infixQueryString var3 else infixQueryString infixQueryString url3 if comps 4 varChoice4 infixQueryString infixQueryString var4 else infixQueryString infixQueryString url4 infixQueryString infixQueryString depth2 infixQueryString infixQueryString lambdaVarl lambdaVar2 out println infixQueryString return true if e target finishSearchButton initSocket return false class ErrorDialog extends Dialog Simple error window with label private TextArea errorArea public ErrorDialog Frame parent String name boolean modal super parent name modal resize 400 150 add South new Button ok errorArea new TextArea 4 10 errorArea setEditable false add Center errorArea public void showError String error errorArea appendText error show public boolean action Event evt Object what if ok equals what dispose return true 216 class StreamListener extends Thread Waits for input from the URLES Server on the specified input stream When the input is sent it will be shown in the
299. rlin de pub gt e FILENAME und lt Us Ui gt CONTAINS und lt U U2 gt CONTAINS und lt U2 U3 gt CONTAINS und lt U3 Ua gt CONTAINS und U Ug U U2 4U3 oder lt Up Ui gt CONTAINS und lt U U2 gt CONTAINS und lt U2 Ua gt e CONTAINS und U Ug U1 U2 oder lt Up Ui gt CONTAINS und lt U Ua gt e CONTAINS und U Up U f r U e U und f r mindestens ein Us U1 U2 U3 y lt Fe gt lt F7 gt xa xB x1 Frage 4 Welche Artikel liegen in der Newsgroup comp lang java programmer oder sind Nachfolger bis zur Stufe 3 des Dokuments deren URL http www javasoft com ist und enthalten den regul ren Ausdruck String arbeitung in ihrem Content She axe ne ee Newsgroup Ex comp lang java programmer v dentifier tsis x http www javasoft com a W x x A B p J B Content a x 8 A Contains String arbeitung x lt U gt 3 ist Modell von 7 unit string x p 3x y Newsgroup a comp lang java programmer v Identifier r amp x Urt http www javasoft com a W x xa A Bp p J B Content a xS A Contains String arbeitung x f r Ua e U Urs J TP W a xp xy ist Modell von Newsgroup x S comp lang java programmer v news string xes 147 Identifier amp x http www javasoft com A NR RK A Content x2 A Contains String arbeitung mr f r Ua U und f r min
300. rmation amp descflag on amp opaqueflag on 12 Welche Dokumente enthalten im Attributwert des Attributs Titel den regul ren Aus druck Ii nformation Zeichenfolgen die mit dem Zeichen I oder i beginnen gefolgt von der Zeichenfolge nformation gefolgt von einer beliebigen Zeichenfolge gt http www tu berlin de harvest bin BrokerQuery broker TUB alle WWWs amp query Title 3A 5Bli 5 Dnformation 2E 2A amp descflag on amp opaqueflag on 13 Welche Dokumente enthalten die Zeichenfolgen Karriere oder Geld und enthalten im Attributwert des Attributs Titel die Zeichenfolge information gt http www tu berlin de harvest bin BrokerQuery broker TUB alle WWWs amp query Karrieretor Geld and Title 20 3A 20information amp descflag on amp opaqueflag on Netscape Query result for Karriere or Geld and Title information BE File Edit View Go Bookmarks Options Directory Window Help Back Forward Home Reload inages Open Print Find Stop lle_ WwW skquery Karriere or Geld and E t http www tu berlin de harvest bin BrokerQuery broker TUB al A Location Query result for Karriere or Geld and Title information 1 http URL http www tu berlin de zuv IIIC foerder iff iff6 Titel informationen zur forschungsfoerderung vom 13 9 1996 title informationen zur forschungsfoerderung vom 13 9 body einen deutlichen Ausweis in ihrer wissenschaftlic body f
301. rmen haben den Gesch ftsbereich Computers Dealers und haben ihren Sitz in der Stadt New York im Staate NY Mit Switchboard 2001 kann mit der Business Search eine entsprechende Suche durchge f hrt werden 3 1 2 Rechnersuche Das Informationsssystem Whois RFC 812 RFC 954 bzw Whois RFC 1714 RFC 1913 erm glicht die Suche nach Rechnern und Netzwerken Suchmittel sind IP Adressen oder Teile von IP Adressen Es werden folgende Felder bereitgestellt Rechner Domain Name IP Nummer Systemadministrator Name Telefon postalische Adresse E Mail Adresse Rechnertyp Betriebssystem Zeitpunkt der letzten Modifikation des Eintrags FTP Adresse mit weiterer Information Netzwerk e Domain Name Administrator Name Telefon postalische Adresse E Mail Adresse Technische Kontaktperson Name Telefon postalische Adresse E Mail Adresse Namen der Nameserver des Netzwerks Zeitpunkt der letzten Modifikation des Eintrags Der Nachteil bei Whois besteht darin da der Zugriff zentral und nicht verteilt erfolgt Rech ner und Netzwerkinformation kann nur ber jeweils eine Organisation recherchiert werden die die Daten zentral verwaltet z B der europ ische oder der amerikanische Whois Service Der Bestand ist daher auf die Zentrale beschr nkt Die Suche nach Whois Rechnern ist nicht m glich Weltweite Zentrale f r Whois ist der Rechner whois internic net Eine Weiterentwicklung von Whois ist das verteilte System Whois
302. robots faq html Februar 2001 Koster 2001b Koster M The Web Robots Database Unter info webcrawler com mak projects robots active html Februar 2001 Linkstar 1997 LinkStar business directory Unter www linkstar com Marz 1997 Liszt 2000 Liszt the mailing list directory Unter www liszt com August 2000 181 Lycos 2000 Lycos Ihr pers nlicher Internet Guide Unter www lycos de Oktober 2000 MAB 1997 Die Deutsche Bibliothek MAB Unter www ddb de profil zsarbeit stabil mab htm Marz 1997 Messenger 2001 STN s Retrieval Language MESSENGER Unter www FIZ Karlsruhe DE stn messenger mc toc html Februar 2001 Metacrawler 2000 Metcrawler Unter www metacrawler com Oktober 2000 Mids 2000 Matrix Information and Directory Services Inc MIDS Unter www mids org works html August 2000 Netcraft 2000 The Netcraft Web Server Survey Unter www netcraft co uk Survey August 2000 Netfind 1997 Internic Netfind Search mit 1 2 Millionen Rechnereintr gen Unter www internic net wp netfind html M rz 1997 Netscape 2001 Netscape Browser Central Netscape Version 6 Unter home netscape com browsers index html Februar 2001 NlightN 1997 NlightN Home Page Unter www nlightn com Marz 1997 Nua 2000a Nua Internet How Many Online Unter www nua ie surveys how_many_online index html August 2000 Nua 2000b Nua Internet Surveys Graphs amp Charts 2000 Unter www nua ie s
303. rstellungs und Navigationsmethoden Hyper G bietet fortgeschrittene Darstellungs und Navigationsmethoden 3 dimensionale und hierarchische Darstellung von Hypermediabeziehungen und Anfrageergebnissen Darstellung beschrittener Wege lokale Karte der eigenen Sitzung Anfragen Verwendeter Zeichensatz ist ISO 8859 1 Gro und Kleinschreibung wird in den Anfragen nicht unterschieden In den Anfragen und Volltextindexen benutzte Zeichenkombinationen wie zum Beispiel ae oe ue ss oder werden auf die Einzelzeichen 4 6 B und e abgebil det Stopworte k nnen in den Anfragen nicht benutzt werden Suchzeichenfolgen k nnen mit dem Zeichen rechts maskiert werden Als Attribute werden Suchraum Titel Schl sselwor te Inhalt Sprache n Autor letzter Modifikationszeitpunkt unterschieden Als boolesche Anfrageoperatoren werden das logische und amp amp amp and und das logische oder or oder das logische bin re nicht amp andnot undnicht und das Fuzzy Und amp f f r Volltextanfragen also Anfragen ber den Inhalt von Dokumenten zur Verf gung gestellt Ergebnisse von Volltextanfragen werden mit der Hyper G hnlichkeitsfunktion geordnet Ergebnis einer Fuzzy und Anfrage ist dieselbe Menge wie das Ergebnis einer lo gischen oder Anfrage Diese Menge wird mit dem Hyper G hnlichkeitsma geordnet Attribute k nnen nicht in beliebiger boolescher Kombination verkn pft werden Titel Schl s sel
304. rsuchten Systeme Wir vergleichen die untersuchten Systeme indem wir deren Feld Formatstruktur Bestand Suchmittel Suchergebnisse und Leistungsgrenzen zusammenfassen Dokumenttyp Feld Formatstruktur einfach Person Gruppe Felder von nat rlichen virtuellen und juristischen Perso strukturiertes nen Felder von Firmen Institutionen Organisationen Dokument Vereinen juristischen Einzelpersonen und virtuellen Gruppen siehe Kap 3 1 1 Formate RFC 742 RFC 812 RFC 954 Rechner Felder von Rechnern und Netzwerken siehe Kap 3 1 2 Formate RFC 1034 Datei Felder von Dateien siehe Kap 3 1 3 Formate c doc dvi eps exe frame maker html man mbox me message ms word pl ps rtf sgml src tex txt word perfect xml Formate RFC 821 ISO 10021 Artikel Felder von Artikeln und Artikelgruppen siehe Kap 3 1 5 Formate RFC 977 Formate RFC 1436 Dokument Felder von Dokumenten in Bibliothekskatalogen siehe Hinweis Kap 3 1 7 Formate ISO 8777 UNIMARC 1997 USMARC ISO 2709 MAB 1997 Dublin Core Daniel et al 1995 link Felder von link strukturierten Dokumenten Netzwerkstruktur der Hypertext strukturiertes Dokumente Dokument Formate html htf xml sgml geschachtel Felder geschachtelter Dokumente auch multimediale Dokumente Doku tes Doku ment Typ Definitionen DTD siehe auch Kap 3 3 und Kap 3 1 8 ment Formate Bild g3fax gif jpeg png pbm pgm ppm rasterfile rgb tiff xbitmap
305. rt SELECT FROM nl Il n2 I2 13 n3 WHERE nl in http www cs technion ac il konop N3 PERLCOND n3 title content 404 Not Found i Il in konop 2 in konop Using ISEARCHd d 2 Evaluated every week 3 2 4 WebSQL WebSQL ist ein Informationssystem das den netzartigen Zugriff auf Hypertextbest nde mit einer SQL hnlichen Anfragesprache gestattet Arocena Mendelzon Mihaila 1997 Men delzon Mihaila Milo 1997 Mendelzon Mihaila 1997 WebSQL 1999 Hypertextbe st nde werden als relationale Datenbank mit zwei Relationen betrachtet Document url title text length type modif Connection base label href 75 Der Zugriff auf Hypertextbest nde wird mit Pfadoperatoren erm glicht Beispielsweise wer den folgende Operatoren bereitgestellt globaler Link gt lokaler Link gt interner Link innerhalb eines Dokument gt lokaler Pfad der Lange 0 lokaler Pfad beliebiger L nge gt Pfade k nnen mit regul ren Ausdr cken so eingeschr nkt werden da Pfade einer eigendefi nierten Beziehungsart betrachtet werden Es ist momentan nicht m glich das globale Web effizient in einer relationalen Datenbank abzubilden Deshalb wird mit WebSQL eine Architektur gew hlt die eine Teilmenge des glo balen Web betrachtet z B mit Hilfe von Suchmaschinen ee a a wg me ee ye ee ee I l 1 I i Applicatio
306. rte s 2 Wenn t Term der Sorte s t2 Term der Sorte s2 tn Term der Sorte s ist und f ein Funktionssymbol Konstante oder Variable von Sorten s Sn auf s ist dann ist bot t2 tn Term der Sorte s 3 Das sind alle Terme Formeln t sei Term der Sorte s t sei Term der Sorte s t2 sei Term der Sorte s2 tn sei Term der Sorte sn m sei eine Stufe Konstante oder Variable 1 Unit t Conn ti t2 Equal t t2 sind Formeln P3H ti t2 ist eine Formel 2 Teile von t der Stufe m V m t x Teile von t bis zur Stufe m Y m t x Beh lter von t der Stufe m Am t x Beh lter von t bis zur Stufe m A m t x Geschwister von t O t x sind Formeln Bemerkung Bei Anwendung der Teil Beh lter und Geschwisterfunktion zeigen wir das Ergebnis jeweils an der zweiten Argumentstelle x 3 Wenn F F und F gt Formeln sind dann sind auch F F A Fo Fi v Fo Fi gt Fo Fie Fo 3x F Vx F SP F und YP F Formeln 4 Wenn P ein Pr dikatensymbol Konstante oder Variable der Sorten s s2 ist und Prop eine Pr dikatenkonstante zweiter Stufe f r Eigenschaften von Beziehungen ist dann ist auch Prop P eine Formel 5 Das sind alle Formeln Anfragen 130 1 Wenn F eine Formel ist und x x Individuenvariablen der Sorten s Sn sind dann ist A x x h F eine Anfrage 2 Wenn F eine Formel ist dann ist A P 3 Das sind alle A
307. rtext Dokumente sind Dokumente die ber Hypertextbeziehungen miteinander verbun den sind Sie k nnen wieder aus Hypertextdokumenten bestehen geschachteltes Hypertext Dokument Hypertextbeziehung Synonyme Verkn pfung Link Verbindung etc Eine Hypertextverbindung verbindet zwei Knoten und zeigt normalerweise von einem Knoten den Ausgangsknoten zu einem anderen Knoten dem Zielknoten Hypertextverbindungen werden h ufiger mit spezifischen Teilen der Knoten und nicht mit dem gesamten Knoten in Zusammenhang gebracht Nielsen 1996 S 2 Wenn Leser sich durch das Netz bewegen bezeichnet man dies als Bl ttern engl browsing oder Navigieren 2 2 2 Geschichtliche Entwicklung Die Entwicklung erster theoretischer Konzepte ftir Hypertextsysteme liegt ca 50 Jahre zuriick Pionier ist Vanevar Bush Bush 1945 Sein System MEMEX basiert auf der Mikrofilm und Magnetbandtechnik die es dem Betrachter von Wissensbest nden erlaubt selbst oder fremd gelegte Spuren zu benennen und zu verfolgen in den Best nden zu wandern und zu springen assoziativ zu indexieren oder globale Best nde mit dem Wissen eines ganzen Volkes zu erzeugen Bush erkannte da es wichtig ist die unterschiedlichen Wahrnehmungsorgane des Menschen wie Tast H r Sprach und Sehsinn auch mit den erzeugten Medien den Multi medien anzusprechen Der Begriff Hypertext wurde zum ersten Mal von Ted Nelson im Jahre 1960 im Zusam menhang mit seiner Idee glob
308. rver hat grunds tzlich die folgenden Eigenschaften 1 Er ist zuverl ssig Das Programm garantiert da Daten zuverl ssig bertragen werden Der Client sendet eine Anfrage an den Server und ist solange blockiert bis der Server die Antwort sendet Die Antwort ist quasi die Best tigung der erfolgreichen Daten bertragung vgl Ta nenbaum 1995 509 2 Er blockiert nicht Alle Anfragen werden an eigenst ndige Anfrage Antwort Threads Klas se Connection weitergereicht URLES Server kann dadurch mehrere Anfragen gleichzeitig bearbeiten Clients brauchen nicht auf die Beendigung vorheriger Anfragebearbeitungen war ten 3 Er ist gepuffert Die Kommunikation zwischen Server und Client wird mit einer Socketver bindung realisiert deren Eingangs und Ausgangskanal durch gepufferte Bytestr me nicht Paketstr me gebildet werden Das Internet Protokoll TCP IP garantiert als Basis der Socket verbindung Zuverl ssigkeit Anfragen und Antworten k nnen eine Folge von Bytes beliebiger L nge enthalten Der Client sendet momentan noch 8 Bit Zeichen nach ISO 8859 X an den Server so da der Vorteil der prinzipiellen 16 Bit F higkeit von Java Klasse Character lei der noch verlorengeht 4 Er benutzt Internetadressen Der Client lokalisiert den Server durch einen globalen Internet Rechnernamen und eine eindeutige Nummer f r den Serverproze auf diesem Rechner port 5 Er ist offen in Bezug auf Sicherheit Authentifizierung und Verschl sselung k
309. rvest bin BrokerQuery broker TUB alle WWWs amp query 22information 20retrieval 22 amp descflag on amp opaqueflag on amp caseflag on 3 Welche Dokumente enthalten die Zeichenfolge information oder eine Zeichenfolge die mit information in allen Zeichen auBer einem Zeichen Einfiigung Entfernung oder Modifi kation bereinstimmt gt http www tu berlin de harvest bin BrokerQuery broker TUB alle WWWs amp query information amp descflag on amp opaqueflag on amp errorflag 1 4 Welche Dokumente enthalten den regul ren Ausdruck inform Zeichenfolgen in einer Zeile die mit inform beginnen und beliebig enden gt http www tu berlin de harvest bin BrokerQuery broker TUB alle WWWs amp query inform 2E 2A amp descflag on amp opaqueflag on 62 5 Welche Dokumente enthalten den regul ren Ausdruck Fachinformation Zeichenfol gen in einer Zeile beginnen am Anfang der Zeile mit Fachinformation und enden beliebig gt http www tu berlin de harvest bin BrokerQuery broker TUB alle WWWs amp query 5EInformation 2E 2A amp descflag on amp opaqueflag on 6 Welche Dokumente enthalten den regul ren Ausdruck Thesauri Zeichenfolgen in einer Zeile enden mit der Zeichenfolge Thesauri gt http www tu berlin de harvest bin BrokerQuery broker TUB alle WWWs amp query Thesauri 24 amp descflag on amp opaqueflag on 7 Welche Dokumente enthalten den regul ren Ausdruck
310. s New York Do ver Publications 1958 Cate 1992 Cate Vincent Alex a global filesystem School of Computer Science Carnegie Mellon University Pittsburgh Pennsylvania USA oder unter www funet fi FUNET hamster alex intro oder unter ftp alex sp cs cmu edu www alex html Cattell 1994 Cattell R Hrsg The Object Database Standard ODMG 93 San Francisco Kaufman 1994 Conklin 1987 Conklin J Hypertext An introduction and a survey In IEEE Computer Vol 20 Nr 9 S 17 41 Coulouris Dollimore Kindberg 1994 Coulouris G Dollimore J Kindberg T Distributed systems concepts and design second edition Addison Wesley 1994 Cruz Mendelzon Wood 1987 Cruz I Mendelzon A Wood P A graphical query language supporting recursion Proceedings International Conference on Managemnet of Data 1987 S 323 330 Cruz Mendelzon Wood 1988 Cruz I Mendelzon A Wood P Recursive queries without recursion Proceedings 2nd International Conference on Expert Database Systems 1988 S 645 666 Custer 1993 Custer H Inside Windows NT Microsoft Press 1993 Czedik 1992 Czedik Dorothea Status Quo der Wiederverwendbarkeit von Wissensbasen In K nstliche Intelligenz Zeitschrift der Gesellschaft f r Informatik S 27 32 Czyborra 2001 Czyborra Roman ISO 8859 Buchstabensuppe unter www cs tu berlin de czyborra charsets Dalitz Heyer 1995 Dalitz W Heyer G Hyper G Das Informationssy
311. s Unter www yellow com 1996 10 3 Normen National DIN Index Deutsches Institut f r Normung e V Unter www din de DIN 1463 Teil 1 Nov 1987 Erstellung und Weiterentwicklung von Thesauri Einsprachige Thesauri DIN 1463 Teil 2 Entwurf Dez 1988 Erstellung und Weiterentwicklung von Thesauri Mehr sprachige Thesauri DIN 2330 M rz 1979 Begriffe und Benennungen Allgemeine Grunds tze DIN 2331 Begriffsysteme und ihre Darstellung DIN 2332 Benennen international bereinstimmender Begriffe DIN 2333 Dez 1987 Fachw rterb cher Stufen der Ausarbeitung DIN 2335 Okt 1986 Sprachenzeichen DIN 2336 M rz 1979 Lexikographische Zeichen f r manuell erstellte Fachw rterb cher DIN 2339 Teil 1 Mai 1987 Ausarbeitung und Gestaltung von Ver ffentlichungen mit termi nologischen Festlegungen DIN 2339 Teil 2 Entwurf August 1986 Ausarbeitung und Gestaltung von Ver ffentlichungen mit terminologischen Festlegungen DIN 2341 Teil 1 Entwurf Okt 1986 Format f r den maschinellen Austausch terminologi scher lexikographischer Daten MATER Kategorienkatalog DIN 2342 Teil 1 Entwurf Dez 1986 Begriffe der Terminologielehre DIN 31623 Teil 1 3 September 1988 Indexierung zur inhaltlichen Erschlie ung von Doku menten DIN 66315 1992 Database Language SQL RAK Regeln f r die alphabetische Katalogisierung Wiesbaden Reichert 1977 RSWK Regeln f r den Schlagwortkatalog RSWK bearbeitet von der Kommission des
312. s unserem mehr bekommen koennen Der FTP Service dient der Bereitstellung von Daten Programme Dokumente usw die im Zusammenhang mit dem Dienstleistungsangg der ZRZ von Benutzern benoetigt werden bzw fuer Benutzer von In sind HINWEIS Dieser FTP Server ist so aufgebaut dass er mit Hilfe WWW Browsers wie z b Netscape Mosaic oder lynx bequemer zu bedienen ist insbesondere wird zur Suche einer Datei eine Suchmaschine angeboten die nur von einem WWW Browser aktiviert kann A El Er 3 Quick Link Drag this location to Bookmarks etc Double Click ta copy to clipk a Abbildung 5 Welche Zeichenfolge befindet sich auf dem FTP Server ftp zrz tu berlin de im Verzeichnis pub in dem Inhalt der Datei mit dem Namen READ ME im M rz 1997 6 Welche Dateien befinden sich auf dem FTP Server ftp zrz tu berlin de im Verzeichnis pub oder in einem Verzeichnis unterhalb von pub deren Benutzerkennung ftpadm ist gt ftp ftp zrz tu berlin de gt cd pub gt ls IR out txt gt grep ftpadm out txt Bei dieser Anfrage werden jedoch zus tzlich Eintr ge als Ergebnis geliefert die in irgendei nem Feld die Zeichenfolge ftpadm enthalten 42 7 Welche Dateinamen vom Typ Dateiverzeichnis befinden sich auf dem FTP Server ftp zrz tu berlin de im Verzeichnis pub oder in einem Unterverzeichnis von pub 8 Welche Dateien befinden sich auf dem FTP Server ftp zrz tu berlin de im Verzeichnis pub oder
313. s zu 27 Zeichen lang sein Dateien d rfen nicht mit einem Punkt beginnen Gro Kleinschreibung wird zwar unterschieden allerdings ist die Gro schreibung nicht signifikant Das hei t da in einem Dateiverzeichnis nie zwei Dateien existieren die sich im Dateinamen nur hinsichtlich der Gro Kleinschreibung unterscheiden Netware FS Namen Rechner Volume Verzeichnis Datei k nnen bis zu 15 Zeichen lang sein und bestehen aus Zeichen des Zeichensatzes Gro buchstaben A Z Ziffern 0 9 und Unterstriche F r ein Volume k nnen zus tzlich weitere Namenskonventionen name spaces f r Dateien festgelegt werden Unterst tzt werden HPFS HFS und nfs mit den je weils geltenden Zeichens tzen und jeweiligen Gr enangaben f r die Attributwerte NTFS Der Dateiname Datei Verzeichnis besteht aus den Zeichen des Alphabets Unicode 65536 verschiedene Zeichen durch 16 Bit nach ISO 10646 au er den Zeichen lt gt Leerzeichen Der Name kann bis zu 256 Zeichen lang sein Gro Kleinschreibung wird un terschieden ufs nfs Der Name eines Eintrags Datei Verzeichnis besteht aus Zeichen des Alphabets 256 verschiedene Zeichen durch 8 Bit nach ISO 8859 X au er dem Zeichen Das Leerzeichen kann zwar verwendet werden ist jedoch mit Vorsicht zu genie en Der Name kann bis zu 255 Zeichen lang sein Gro Kleinschreibung wird unterschieden Dateiverweise FAT HPFS HFS Netware Nicht m glich NTFS Es k nnen Verweise zwische
314. schen Operatoren ist es m glich Teilmengen von Beziehungsmengen Teilgraphen auszudr cken Die Frage Welche Doku mente haben eine Beziehung zu Dokumenten die eine Beziehung zum Dokument http www test com haben wird ausgedr ckt als X Y Conn http www test com X A Conn X Y Mit den bisherigen Anfragem glichkeiten l t sich jedoch die folgende Frage nicht formulie ren Welche Nachfahren hat das Dokument http www test com Wir erweitern unsere Sprache um das 3 stellige Pr dikat Desc wie descendants Das erste Argument bezeichnet das Dokument von der die Beziehungen zu den Nachfahren ausgeht das zweite Argument das Dokument die ein Nachfahre des ersten Dokuments ist und das dritte Argument die Tiefe bis zu der die Nachfahren bestimmt sind Die obige Frage w rde dann ausgedr ckt als A X Desc http www test com X s Das Ergebnis einer Anfrage ist eine Menge von Dokumenten URL 10 5 3 URL Echo Sounder Query Language URLESQL Im folgenden definieren wir Syntax und Semantik der in URL ECHO Sounder verwendeten Anfragesprache Im Anhang geben wir die Syntax der Sprache zus tzlich in Backus Naur Form Anfragen k nnen wir mit der Benutzeroberflache Client von URL Echo Sounder eingege ben Die Interpretation der Anfrage wird dann vom Server von URL Echo Sounder bestimmt und im Client dargestellt Syntax 191 Alphabet 1 Individuenkonstanten f r eindeutige Namen von einfachen Dokumenten
315. sei Pr dikatensymbol Konstante oder Variable 6 3 ist Modell von F gdw 3 ist nicht Modell von F J ist Modell von F1 A F2 gdw 3 ist Modell von F1 und 3 ist Modell von Fo J ist Modell von F v F2 gdw 3 ist Modell von F1 oder 3 ist Modell von Fp J ist Modell von F gt F2 gdw 3 ist Modell von F2 wenn 3 ist Modell von F S ist Modell von F gt F2 gdw 3 ist Modell von F1 gdw 3 ist Modell von F2 3 ist Modell von 4 xj F gdw SI ist Modell von F f r mindestens ein U e U J ist Modell von V xj F gdw I ist Modell von F f r alle U e U Anfragen 7 3 xi F lt U gt I ist Modell von F f r U e U 2 4 2 Mehrsortige Pr dikatenlogik 1 Stufe In vielen Anwendungen haben wir es mit Individuen Abbildungen und Relationen unter schiedlicher Sorten zu tun Beispielsweise spricht man in der Geometrie von den Individuen Punkt und Gerade und der Abbildung Projektion die einen Punkt auf eine Gerade ab bildet und der Relation Parallel die auf Geraden definiert ist Daf r wird die einfache Pr dikatenlogik 1 Stufe um Sorten s1 S2 Sn erweitert Individuen Funktionen und Pr dikate Konstanten und Variablen werden nach Sorten geordnet Syntax Alphabet s sei eine bel aber feste Sorte 1 Individuenkonstanten der Sorte s c4 cs Individuenvariablen der Sorte s xfi X 2 Funktionskonstanten von Sorten s1 Sn auf die Sorte s k t 5 Kl mis Funktionsvariable
316. sei eine nichtleere Menge von Rechnern U sei eine nichtleere Menge von Dateien U sei eine nichtleere Menge von Artikeln U sei eine nichtleere Menge von Men s U sei eine nichtleere Menge von Dokumenthinweisen U S sei eine nichtleere Menge von Zeichenfolgen U sei eine nichtleere Menge von Datumseintr gen U sei eine nichtleere Menge von positiven ganzen Zahlen U P sei eine nichtleere Menge von regul ren Aus dr cken Interpretation der Individuensymbole S newsi e U S file e U S unit e U S mail e U S menu e MW S person e UPS S host e U S string e US S date e U I regExpr UEP 5 e U 32 e U f r i 1 n i kann auch weggelassen werden 500 y zg ye Sx yt Stell g Sam yr nu SP Dee It Sie IE pens 3x Let 3 xi oe Sehr e Yee f r i 1 n i kann auch weggelassen werden Interpretation der Pr dikatensymbole K sei eine Pr dikatenkonstante au er Vergleichspr dikat und P sei eine Pr dikatenvariable SKS c us x y 112 Sp Cc us x y Interpretation der Formeln 1 x sei Individuenkonstante oder variable und K sei eine Pr dikatenkonstante au er Ver gleichspr dikat 3 ist Modell von K x x gdw lt 3 IQF I K ist Modell von P x4 x gdw lt 3 IGF e IP ist Modell von 3 1 x gdw 3 x ist ungleich I ist Modell von lt x x gdw I x ist kleiner
317. sellerautoren von Hypertexten geben 2 3 Graphentheorie Es werden die Teilgebiete der Graphentheorie definiert die in den Anwendungen vgl Kap 4 ben tigt werden vgl Schmidt Str hlein 1993 Definition 1 Ein ungerichteter Graph G N Adj besteht aus einer Menge N von Knoten nodes und einer Relation Adj c N x N die irreflexiv und symmetrisch ist Adjazenz relation Definition 2 Ein gerichteter Graph G N Conn besteht aus einer Menge N von Knoten nodes und einer Relation Conn c N x N Assoziationsrelation Definition 3 Die Transposition einer Relation R wird wie folgt definiert R y yx R Definition 4 Wenn Conn eine Assoziationsrelation ist und x ein Knoten dann ist Conn x die Menge der direkten Vorg nger von x Definition 5 Wenn Conn eine Assoziationsrelation ist und x ein Knoten dann ist Conn x die Menge der direkten Nachfolger von x 14 Definition 6 Eine Sequenz von Knoten s X1 Xn n gt 0 in einem gerichteten Graphen ist ein Pfad von x nach x gdw xi C Conn x f ri 1 n Definition 7 Eine Sequenz von Knoten s x1 X2 von unendlicher L nge in einem ge richteten Graphen ist ein Pfad unendlicher L nge beginnend bei x gdw x lt Conn x f r i gt l Definition 8 Eine Sequenz von Knoten s x1 Xn n gt 0 in einem gerichteten Graphen ist ein Zyklus in x gdw S ist Pfad von x nach xn und x Xn Definition 9 Ein Pfad oder Zyklus ist elementar wenn
318. sing Anfragen mit Volltext 2 Welche Dokumente im globalen HTML Bestand enthalten im Attribut Inhalt die Zeichen folge James die einen Wortabstand von h chstens 2 Worten zu der Zeichenfolge Kirk hat 9 Webcrawler URL gt http webcrawler com cgi bin WebQuery fromhome 0 amp text James near 2F2 Kirk Anfragen mit Attributen 3 Welche Dokumente im globalen HTML Bestand verweisen auf das Dokument mit der URL http www cs tu berlin de AltaVista Anfrage Advanced Search gt link http www cs tu berlin de Altavista URL gt http altavista digital com cgi bin query pg aq amp what web amp fmt amp q link 3 Ahttp 3A 2F 2Fwww cs tu berlin de amp r amp d0 amp d1 4 Wieviele Dokumente im globalen HTML Bestand verweisen auf das Dokument mit der URL http www cs tu berlin de 66 AltaVista Anfrage Advanced Search gt link http www cs tu berlin de gt asa count only Altavista URL gt http altavista digital com cgi bin query pg aq amp what web amp fmt n amp q link 3 Ahttp 3A 2F 2Fwww cs tu berlin de amp r amp d0 amp d1 5 Welche Dokumente im globalen News Bestand enthalten im Attribut subject die Zeichen folge Biete Job AltaVista Anfrage Advanced Search gt subject Biete Job Boolesche Anfragen 6 Welche Dokumente im globalen HTML Bestand enthalten im Attribut Inhalt eine Zei chenfolge die mit sing beginnt und die Zeichenfolge Take That oder die Zeichenfolge Mad
319. sion hep twwrr os t betin de josefwhesth x Arm r http www cs tu berlin de josefwithesauri lctgra e Query Result Ax _ Start searching Stop searching Abbildung 49 Formulierung einer Anfrage mit URLES im Marz 1997 Nachdem der Benutzer mit Hilfe eines Internet Browsers das URLES Java Applet tiber einen WWW Server geladen hat spezifiziert er eine logische Anfrage weitgehend mit der Maus Syntaktisch fehlerhafte Eingaben werden in speziellen Fenstern angezeigt Danach startet der Benutzer seine Anfrage mit dem Start Searching Knopf Aus Sicherheitsgr nden d rfen Applets Socketverbindungen nur zu einem Proze aufbauen die auf dem gleichen Rechner Server host laufen wie der Rechner von dem das Applet geladen wurde Applet host Das Applet baut in einer Initialisierungsphase Methode initSocket eine TCP IP basierte Sok ketverbindung zum URLES Server hier ber Port 4712 auf Weiterhin erzeugt das Applet einen Proze Klasse StreamListener das auf eine Antwort von URLES Server ber den Eingangskanal der Socketverbindung wartet F r die Anfrage wird auf dem Server ein eigen st ndiger Anfrage Thread mit dieser Socketverbindung aufgebaut Das Applet bersetzt die graphische Anfrage in die vom Server geforderte Prefix Notation Diese wird dann ber die Socketverbindung zum URLES Server gesendet Nachdem der URLES Server die Anfrage bearbeitet hat schickt er die Antwort ber den Ei
320. st name 80 3 Welche title Elemente sind Teile der bookstore Elemente gt bookstore title 4 Welche last name Elemente sind Teile der 2 Stufe des book Elements gt book last name 5 Welche Elemente enthalten das Attribut speciality gt speciality 6 Welche title Elemente sind direkte Teile von book Elementen die direkt mindestens ein excerpt Element enthalten gt book excerpt title 7 Welche author Elemente enthalten direkt last name Elemente dessen Wert Bob ist author last name Bob 8 Welche author Elemente enthalten direkt last name Elemente dessen Wert der gleiche ist wie die guest Elemente die direkt last name Elemente enthalten gt author last name guest last name 9 Welches ist das author Element an dritter Stelle das direkt first name Elemente enth lt 2 author first name 2 10 Welche Elemente mit dem Suffix Namen book und dem Prefix Namen my enthalten direkt ein author Element gt my book author 11 Welche exchange Attribute besitzen die price Elemente gt price exchange 12 Welche author Elemente enthalten direkt mindestens ein degree Element oder ein award Element und mindestens ein publication Element gt author degree or award and publication 13 Welche author Elemente enthalten
321. stem auch implizite Informationen d h Informationen die sich lo gisch deduzieren lassen Konrad 1986 Beispiele f r solche Regeln sind e Generierung von Beziehungen Conn x1 x3 r gdw Conn x1 X2 r A Conn xX gt x3 r A Prop r transitiv e Vererbung von Attributen entlang einer spezifizierten Relation z B bei transitiven Rela tionen e Generierung von conversen Relationen 161 e Definition von Relationen anhand von Relationen z B gro vater vater vater v vater mutter weitere siehe Lenat 1990 6 4 Entwicklung eines Kommunikationsmodells f r das termi nologiebasierte Information Retrieval Traditionell wird die Ablage von Information als Dialog zwischen Informationsablegenden Indexierer Terminologe Terminologiepfleger Autor Indexiersystem etc und die Suche nach Information als Dialog zwischen dem Informationssuchenden Suchlaie Informations vermittler etc und dem Anbieter von Information Verk ufer Bibliothekar Informationssy stem etc gef hrt Nachrichten Fragen und Antworten werden in der gemeinsamen Doku mentationssprache ausgedr ckt Unabh ngig von der kommunikativen Situation der Kommu nikationspartner wird eine Frage gestellt und eine Antwort gegeben Gegebenenfalls wird eine Anfrage durch Relevanzfeedbackverfahren verfeinert Terminologiebasiertes Information Retrieval soll hier als eine komplexe Kommunikations handlung verschiedener Arbeitsgruppen verstanden werden in der in wechselse
322. stem der 2 Generati on Heidelberg dpunkt Verlag Oktober 1995 Daniel et al 1995 Ron Daniel Jean Godby Eric Miller Stuart Weibel OCLC NCSA Meta data Workshop Report Unter www oclc org 5046 conferences metadata dublin_core_report html DeRose Durand 1994 DeRose Steven David Durand Making hypermedia work a user s guide to HyTime Boston Kluwer Academic Publishers 1994 Deutsch Emtage 1992 Deutsch P A Emtage Archie an electronic directory service for the Internet Conference Proceedings USENIX 1992 pp 93 110 San Francisco CA USA Ja nuar 1992 oder unter ftp ftp th darmstadt de pub archie doc archie usenix92 paper txt ps Z Dornseiff 1959 Dornseiff Franz Der Deutsche Wortschatz nach Sachgruppen Berlin De Gruyter 1959 DOS 1994 Benutzerhandbuch MS DOS 6 22 Microsoft Corporation Ireland 1994 Ewert Umst tter 1997 Ewert Gisela und Walter Umst tter Lehrbuch der Bibliotheksver waltung Stuttgart Hiersemann 1997 Eco 1987 Eco Umberto Die Bibliothek Hanser Verlag 1987 175 Engelbart 1984 Engelbart D Authorship provisions in AUGMENT In Digest of papers Compcon 28th IEEE computer society international conference San Francisco Silver Spring Computer Society press 1984 Felber Budin 1989 Felber Helmut und Gerhard Budin Terminologie in Theorie und Praxis T bingen Narr 1989 Ferguson 1994 Ferguson George Xarchie Version 2 0 10 X11 browser interface to
323. steme sind i A monohierarchisch und azyklisch aufgebaut Man kann sie deshalb auch als gerichtete azyklische Graphen betrachten deren Knoten den Dateien im Dateisystem ent sprechen und deren unbenannte Kanten die Hierarchie der Dateiverzeichnisse wiederspiegeln Durch Dateiverweise kann das Dateisystem zyklisch werden Dateien k nnen in Formate eingeteilt werden Man unterscheidet zum Beispiel Textdatei ausf hrbare Datei Graphikdatei Videodatei gepackte Datei Weitere werden mit dem Mime Standard RFC 1521 RFC 1522 definiert Dateien besitzen eine feste Menge von Feldern wie zum Beispiel Id Inhalt Name Verzeich nis Erstellungsdatum und Uhrzeit Gr e in Bytes Benutzer Gruppenkennung und Benutzer rechte Neuerdings werden Dateisysteme entwickelt die die Modifikation der Felder erlauben Khali di et al 1993 30 Die Feldwerte sind abh ngig vom verwendeten Zeichensatz und der Feldl nge Einen berblick ber Dateisysteme geben Tanenbaum 1995 Gulbins Obermayer 1995 und Coulouris Dollimore 1994 3 1 3 1 1 H ufig verwendete Dateisysteme Betriebssystem Dateisysteme Literaturquellen DOS Windows 3 1 x File Allocation Table FAT Compact DOS 1994 Win Microsoft Disk System dows 1992 OS 2 IBM FAT Super FAT High Performance File Huttel 1995 System HPFS Compact Disk System MacOS A UX Apple Hierarchical File System HFS Apple 1992 Novell Netware Netware File System Volume Entry
324. t werden Name der Datenbank Gr e in Bytes Typ und Gewichtung jedes Element der Er gebnismenge kann durch einen Auswahlknopf f r eine sp tere Anzeige selektiert werden die Ausgabe des Ergebnisses soll in englischer Sprache geschehen SFgate Anfrage http ls6 informatik uni dortmund de ir search cgi bin SFgate database 1s6 informatik uni dortmund de 2Fbibdb html amp information amp maxhits 20 amp range 1 amp verbose 1 amp multiple 1 amp language english 5 Welche Dokumente in der WAIS Datenbasis bibdb html auf dem WAIS Server Is6 informatik uni dortmund de enthalten die Zeichenfolge information retrieval Waissearch und WAIS URL nicht m glich SFgate Anfrage gt http ls6 informatik uni dortmund de ir search cgi bin SFgate database 1s6 informatik uni dortmund de 2Fbibdb html amp 22information 20retrieval 22 6 Welche Dokumente in der WAIS Datenbasis bibdb html auf dem WAIS Server Is6 informatik uni dortmund de enthalten die Zeichenfolge information oder eine zu in formation phonetisch hnliche Zeichenfolge Waissearch und WAIS URL nicht m glich SFgate Anfrage gt http ls6 informatik uni dortmund de ir search cgi bin SFgate database 1s6 informatik uni dortmund de 2Fbibdb html amp 28PHONIX information 29 28SOUNDEX information 29 7 Welche Dokumente in der WAIS Datenbasis bibdb html auf dem WAIS Server Is6 informatik uni dortmund de haben zwischen den Zeichenfolgen
325. t Informationssystemen stehen Literatur Seit Entstehung des World Wide Web WWW hat sich Wir behandeln die Entwicklung von Anfragesprachen Cnet n PICT Uv VIDEO U URL URL2 URLs URLs URLs URL lt U TITLE TITLE TITLEs TITLEs TITLEs TITLEs U H11 H12 H13 H14 Hls H16 H17 U Lh Lb Lh Li LIs U l ULi ead HEAD HEAD HEAD HEAD HEADs HEAD Uy BODY BODY2 BODY3 BODY BODY BODY u HTML HTML HTML3 HTMLs HTMLs HTML U using wj Picture U ydo U ye U pte U ur U fe U u U read U yed U pom Abbildungen URL 3 ur SE lt http www cs tu berlin de josefw phd index html URLi gt lt http www cs tu berlin de josefw phd introduction html URL gt gt lt http www cs tu berlin de josefw phd state html URL3 gt lt http www cs tu berlin de josefw phd query html URL4 gt lt http www cs tu berlin de josefw phd hynternetQL html URLs gt lt http www cs tu berlin de josefw phd literature html URL gt TITLE titleist lt Anfragesprachen f r Internet Informationssysteme TITLE gt lt Einleitung TITLE gt gt lt Grundlagen TITLE gt gt lt Anfragen in Internet Informationssystemen TITLE4 gt lt Anfragesprachen f r Internet Informationssysteme TITLEs gt 134 lt Literatur TITLE Se Shi ss 2 lt Anfragesprachen f r Internet Informationssysteme H1 gt lt Inhalt
326. t Modell von CT A1 An gdw lt A IAn gt e Ic 3 ist Modell von PT Ay An gdw lt 3 Aj S Aa gt e IET 6 3 ist Modell von A gdw I ist nicht Modell von F S ist Modell von A A A2 gdw 3 ist Modell von Al und 3 ist Modell von A2 S ist Modell von A V A2 gdw 3J ist Modell von Al oder 3 ist Modell von A2 3 ist Modell von A gt A2 gdw 3 ist Modell von A2 wenn 3 ist Modell von Aj 3 ist Modell von A gt A2 gdw 3 ist Modell von Al gdw 3 ist Modell von A2 S ist Modell von 4 xj A gdw Vi ist Modell von A f r mindestens ein U e U J ist Modell von V x A gdw yi ist Modell von A f r alle U e U 3 ist Modell von 3 P WW A gdw 22 rel Sp ist Modell von A f r mindestens eine Relation ber U x x U 3 ist Modell von y P A gdw li ist Modell von A f r alle Relationen ber UT x x u Interpretation der Anfragen 7 3 x5 A lt U gt 34 ist Modell von A f r U U SA CT A lt rel gt Ic ist Modell von A S A PT A lt rel gt Sp ist Modell von A Bemerkung Man beachte da z B gilt lt U U gt e U x U lt lt U U gt UP gt e U x U x U oder lt lt U 1 U 3 gt lt U U aU y U gt gt U x UY 2 5 Anfragesprachen Informationssuche ist die Suche nach Information mittels einer Sprache Diese Sprache wird als Anfragesprache bezeichnet Anfragesprachen werden unterschied
327. t und vollst ndig Beispiele Auswertungsschritte werden f r jede Teilsprache anhand von Beispielmodellen detailiert vorgef hrt 151 5 Architektur eines universellen Internet Informationssystems Nach dem Aufbau von Anfragesprachen fiir Internet Informationssysteme werden zwei Ar chitekturen dezentrale Architektur zentrale dezentrale Architektur zur Realisierung eines universellen Internet Informationssystems vorgestellt In beiden Architekturen werden eindeutig spezifizierte Sprachebenen voneinander abgetrennt Dadurch ist es m glich systemspezifischen Eigenheiten in der heterogenen Landschaft der Informationssysteme zu entgehen Der Benutzer verwendet Standardbrowser z B Netscape Microsoft Explorer oder andere Standard Benutzeroberfl chen z B Java Oberfl che MS Windows Oberfl che zur Kommunikation mit dem Suchsystem Zur Effizienzsteigerung werden Anfragen und Anfrageergebnisse mit Hilfe des Cache Systems zwischengespeichert Zur Vereinfachung wird in beiden Architekturen die Schicht einer gesonderten Benutzeranfra gesprache zus tzlich zur universellen Anfragesprache und auch das Session und Benutzer profil Management weggelassen Auf die Vorstellung einer rein zentralen Architektur wird verzichtet da dies dem dynami schen und dezentralen Charakter des Internet widerspricht 5 1 Dezentrale Architektur Query Client Query Clhi ent sg Internet Browser Javai MS Windows AdminChent Session Session Presenta
328. tbest nden 1 Eigenschaften die einen Mehrwert und 2 Eigenschaften die einen Minderwert darstellen Eigenschaften von Hypertexten die einen Mehrwert darstellen Elektronische Verarbeitungsm glichkeiten e Hypertext ist effektiv speicher und zugreifbar Beispiel Gr e Preis und Zugriffszeit eines Buches mit 300 Seiten und 100 Bildern Gr e des Buches ca 10 MByte bzw 5 cm bei 5 KByte Seite 100 KByte Bild Speicherpreis ohne Wartungskosten ca 0 15 DM Stand Januar 2001 Zugriffszeit ca 40 Sekunden bei 2 MBit Sekunde e Hypertext ist aus gro er Entfernung verf gbar e Physikalisch einfach vorhandene Hypertexte k nnen von vielen gleichzeitig benutzt wer den Kopien von Hypermediabest nden sind einfach zu erstellen e Hypertext kann modifiziert werden Darstellung Repr sentation e Neue Medien Ton Bild Dia Film Video mehrdimensionale Darstellungen Farbe Ge ruch etc e Aufnahme und Wiedergabem glichkeiten f r neue Medien e Darstellungsformen der Dokumentenbest nde graphisch hierarchisch etc 12 Teilbest nde sind aus und einblendbar Dadurch entstehen zur Bearbeitungszeit dynami sche Zusammenh nge z B je nach Nutzergruppe unterschiedlich etc Der Effekt da das referenzierte Objekt vorhanden ist schafft Raum f r das eigentliche oder Darzustellende Das Sammeln und Gegen berstellen von Information ist einfach virtuelle Ausstellungen Sammlungen etc Mit Anfragekommandos Darstel
329. tdatenbestand wird physikalisch verteilt auf verschie denen Rechnern mit mehreren Datentr gern gespeichert Ein Volume bezeichnet ein oder mehrere Partitionen eines Datentr gers ein Laufwerksbuchstabe a b c d z bezeichnet 32 genau eine Partition eines Datentr gers Ein Volume oder Laufwerksbuchstabe besteht aus Dateien Dateiverzeichnisse normale Dateien ufs nfs starke Trennung Der Gesamtdatenbestand wird physikalisch verteilt auf verschiede nen Rechnern mit mehreren Datentr gern gespeichert Das logische Gesamtverzeichnis be steht aus Dateien Dateiverzeichnisse normale Dateien Ger tedateien etc 3 1 3 1 3 Felder von Dateien Wir nennen im Folgenden Felder von Dateien die auf der logischen Ebene f r Informations suchende bei der Dateisuche einen Informationsgehalt versprechen FAT Inhalt Name Verzeichnisname wenn Datei letzter Modifikationszeitpunkt des Inhalts der Datei Datum Uhrzeit Version Copyright Gr e in Bytes und weitere Felder unsicht bar schreibgesch tzt archiviert Systemdatei HPFS Felder wie bei FAT zugeordnete Ikone Name der zugeordneten Ikone Dateityp Er stellungszeitpunkt Datum Uhrzeit letzter Zugriffszeitpunkt Datum Uhrzeit Deskriptor Protokoll Kommentar weitere vom Benutzer festgelegte Felder Feldnamen bestehen aus beliebigen Zeichen des Zeichensatzes und k nnen bis zu 255 Zeichen lang sein insgesamt sind alle Felder nicht gr er als 64 KB HFS Datei
330. ten f r link strukturierte und geschachtelte Dokumente modellieren Dokumente werden durch Be ziehungspr dikate miteinander verbunden und Teilobjekte durch Aggregationspr dikate ge bildet Es ist beispielsweise m glich SGML Elemente in Datalog nachzubilden Das HTML Element ul li a li b w rde z B durch folgende Datalog Fakten repr sentiert root ull ul ull ulllil ul ull ullli2 li ulllil a li ullli2 b 150 Art der Logik Variante der Hornklausel Logik Datalog Suche mit Attributen Attribute von Dokumenten Vergleichsoperatoren Built in Pr dikate lt gt lt gt Volltextsuche Nicht vorhanden Quantoren Der Allquantor V wird implizit f r alle Individuenvariablen ver wendet Boolesche Verkn p Es k nnen Formeln der Form A lt B v v By gebildet werden fungen Netzwerkoperatoren Beziehung Nachfahren Geschachtelte Doku Rekursive Strukturen werden durch Datalog Regeln ausgedr ckt mente Teilstrukturen k nnen mit Datalog Regeln bestimmt werden Suchobjekte Dokumente Dokumente B cher Proceedings Artikel etc Syntax Semantik explizit und vollst ndig in Ceri Gottlob Tanca 1990 Beispiele einige Datalog Programme Besonderheiten Verwendung des um die Negation erweiterten Datalog stratified Datalog Operatoren f r terminologische Logiken not and all some atleast atmost u a es k nnen keine Funktionen ausge dr ckt werden Modellierung von Multimedia Doku
331. tenburg WHERE dl title d2 title ANDNOT dl url d2 url 3 Welche Dokumente ausgehend vom Dokument mit der URL http www berlin tour de bel Suchtiefe enthalten in Ihrem Titel oder Inhalt die Zeichenfolge Charlottenburg 71 EB Netscape Servlet Interface for WebSQL queries OO x File Edit View Go Communicator Help 3 a2 u e3 H Back Forward Reload Home Search Netscape Print L Bookmarks Location http www cs toronto edu jl What s Related SELECT d url d title FROM Document d SUCH THAT http www berlin tour de gt d WHERE d title CONTAINS Charlottenburg OR d text CONTAINS Charlottenburg EETA Abbildung 15 WebSQL Anfrage mit der WWW Benutzeroberfl che im M rz 1999 4 Welche Dokumente ausgehend vom Dokument mit der URL http www berlin tour de bel Suchtiefe mit der Beziehungsart content link enthalten in ihrem Titel oder Inhalt die Zeichenfolge Charlottenburg SELECT d url d title FROM Document d SUCH THAT http www berlin tour de content link d WHERE dl title CONTAINS Charlottenburg OR d text CONTAINS Charlottenburg 5 Welche Beziehungsart existiert zwischen Dokumenten vom Dokument mit der URL http www berlin tour de zu Dokumenten deren URL die Zeichenfolge gif enh lt SELECT a label FROM Anchor a SUCH THAT base http www berlin tour de WHERE a href CONTAINS
332. terung und Integration von Internet Suchm glichkeiten ist die Frageforschung nat rliche und k nstliche Anfragen Als Ergeb nis ist eine Klassifikation von Informationssystemen nach Anfragem chtigkeit zu erwarten Dadurch w rde die Entwicklung bergreifender Suchm glichkeiten beschleunigt und Doppel arbeit bei der Entwicklung von Informationssystemen vermieden 7 2 Entwickelte Anfragesprachen Es wurden Anfragesprachen f r drei Systemklassen Suche in einfach strukturierten Doku menten Suche in link strukturierten Dokumenten und Suche in geschachtelten Dokumenten entwickelt und zu einer universellen Anfragesprache zusammengef hrt Die meisten Bei spielanfragen aus Kap 3 k nnen mit den Anfragesprachen abgebildet werden Dar berhinaus sind mit StructuredQL universelle Anfragen zur Suche in strukturierten Dokumenten m glich 8 siehe auch Umst tter Walter Die Kunst der Frage In Bibliotheksdienst 27 S 1180 1191 1993 166 Im Vergleich der universellen Anfragesprache StructuredQL mit anderen logischen Anfra gesprache f llt auf da im Beeri Kornatzky Modell Quantoren modale Quantoren und Pfade ausgedr ckt werden k nnen IQL bietet die Suche mit Attributen Volltext und Thesaurusoperatoren und dr ckt Fakten und Erkl rungen aus Operatoren f r die Suche in link strukturierten Dokumenten und die Suche in geschachtelten Dokumenten werden nicht abgebildet Das Datalog Modell von Fuhr modeliert Netzwerkoperatoren und
333. tes Retrieval ist die Kommunikation der Informationsanbieter mit den Informationssuchenden Der Informationsanbieter stellt sich Fragen wie Welche In formationsw nsche hat der Suchende was braucht er f r seine Arbeit f r seine Freizeit f r seine Neugier in welchen Zusammenh ngen etc Wie geht er bei seiner Suche vor welche Wege geht er dabei Der Informationssuchende stellt sich Fragen wie Wie ist die Informati on angeordnet Welche Fragestellungen ergeben sich dadurch Stelle ich die Frage im rich tigen Zusammenhang Frage ich zu eng oder zu weit Gehe ich bei meiner Frage von den richtigen Pr missen aus Sind meine Fragen in der richtigen Reihenfolge gestellt Wen spre che ich bei welcher Frage am besten an In Zukunft besitzt der Mensch ein sto festes wetterunempfindliches tragbares handliches Ger t das es gestattet kostenlos an und von jedem Ort zu publizieren sich zu schulen sich Medien aller Art zu beschaffen und pr sentieren zu lassen zu telefonieren fernzusehen Ra dio zu h ren Zeitung zu lesen Nachrichten zu versenden G ter zu beschaffen Austellungen Konzerte und Museen zu besuchen In der virtuellen Bibliothek der Zukunft wird der Benutzer wie ein K nig behandelt Das reichhaltige Sortiment ist ansprechend geordnet durch Hinwei se k nnen Wege verk rzt und Abteilungen rasch gewechselt werden Fr her beschrittene We ge kann sich der Benutzer zeigen lassen Die Best nde werden mehrdimensional berei
334. tges opac htm M rz 1997 HBZ 1997c Hochschulbibliothekszentrum Nordrhein Westfalen Personennamen Unter www hbz nrw de novell etc hartges person htm M rz 1997 HBZ 1997d Buchhandel Barsortimente Sortimente VIBs Unter www hbz nrw de novell etc hartges buchhand htm M rz 1997 HBZ 1997e Verlage Unter www hbz nrw de novell etc hartges verlag htm M rz 1997 Horlacher 2001 SAFT Simple Asynchronous File Transfer Unter www belwue de belwue software saft saft html Februar 2001 Hypercard 1997 HyperCard Version 2 3 1997 Apple Computer Inc Unter product info apple com productinfo datasheets as hypercard2 3 html Hyperkatalog Innsbruck 2001 Hyperkatalog der Publikationen an der Universitat Innsbruck Unter info uibk ac at c108 pub_uibk Februar 2001 HyTelnet 1997 HyTelnet on the World Wide Web Unter library usask ca hytelnet M rz 1997 IFS 2000 Oracle Internet File System Unter www oracle com database options ifs InfoMagnet 2001 InfoMagnet Unter www compassware com products Januar 2001 Infoseek 2000 Infoseek Unter www infoseek de Oktober 2000 Inktomi 2000 Unter www ultraseek com Oktober 2000 ISC 2000 Internet Software Consortium Unter www isc org ds WWW 200001 report html August 2000 Kolibri 2000 Kolibri Suchmaschine Unter www kolibri de Oktober 2000 Koster 2001a Koster M WWW Robot Frequently Asked Questions Unter info webcrawler com mak projects
335. tgestellt Sachgebietskataloge allgemeiner und spezieller Art f hren den Benutzer an g nstige Positio nen Der Benutzer wird bei seiner Suche weder gest rt noch mit Material berladen er kann seine gefundenen Werke bequem lesen Letztendlich wird er die Information zum Nutzen aller mehren Wir profitieren gleicherma en davon 173 10 Anhang 10 1 Literatur Abiteboul et al 1997 Abiteboul S Dallan Q McHugh J Widom J Wiener J The Lorel query language for semistructured data Department of computer science Stanford University Stanford CA 94402 1997 Ackermann Hilbert 1972 W Ackermann D Hilbert Grundz ge der theoretischen Logik 6 Auflage Berlin Springer 1972 Afrati Koutras 1990 Afrati F und C D Koutras A hypertext model supporting query me chanisms In Andre Rizk Streitz 1990 S 52 66 Andr Rizk Streitz 1990 Rizk A Norbert Streitz und J Andre eds Hypertext concepts systems and applications Cambridge University Press 1990 Andrews Kappe Maurer 1995 Andrews K Kappe F Maurer H The Hyper G network information system In Journal of Universal Computer Science Vol 1 No 4 1995 S 206 220 Oder unter ftp iicm tu graz ac at pub Hyper G doc dms94 ps Apple 1992 Apple Computer Inc Inside Macintosh Files Addison Wesley 1992 Ard Koch 1994 Ard A Koch T Automatic classifikation of WAIS databases Unter www ub2 lu se autoclass html Arocena Mend
336. theken und Buchhandlungen werden vermehrt strukturierte Dokumente mit Hypertextbeziehungen und multimedialen Elementen angeboten Die Normierung daf r ist bereits weit fortgeschritten zeigt aber ein noch starkes Innovationstempo Der Zugriff auf Information ndert sich grundlegend Die traditionelle Aufgabe des Information Retrieval be stand darin relevante Dokumente wiederzufinden In Zukunft besteht die Aufgabe darin Do kumente Teile von Dokumenten und in Beziehung stehende Dokumente und Dokumentteile zu lokalisieren Weiterhin m ssen sie nach Relevanz so geordnet werden da sie effizient erreicht und dem Benutzer ad quat pr sentiert werden k nnen Es mu ein universeller Zu griff auf Dokumenttypen verschiedener Art geschaffen werden Anfragem chtigkeit darf dabei nicht verloren gehen Betrachten wir die Bibliothek der Zukunft Die Bibliothek mu leicht zug nglich sein ihre Pforten m ssen allen Mitgliedern der Gesell schaft offenstehen so da jeder sie frei benutzen kann ohne Ansehen von Rasse Hautfarbe Nationalit t Alter Geschlecht Religion Sprache Personen und Bildungsstand Eco 1987 S 38 zitiert die UNESCO Es herrscht Gr nderzeit im Internet Effizienzsteigerungen in gro em Ma e sind erreichbar Arbeitskr fte werden frei um die formal und inhaltlich neuartig strukturierten Dokumente qualitativ hochwertig zu sammeln zu ordnen und den Benutzern zur Verf gung zu stellen Entscheidend f r ein verbesser
337. tic tape Genf ISO 1981 ISO 2788 Documentation Guidelines for the establishment and development of monolingual thesauri Genf ISO 1986 ISO 5127 2 Documentation and information Vocabulary Part 2 Traditional documents Genf ISO 1983 ISO 5127 3A Documentation and information Vocabulary Section 3a Acquisition identi fication and analysis of documents and data Genf ISO 1981 ISO 5127 6 Documentation and information Vocabulary Part 6 Documentary languages Genf ISO 1983 ISO 5127 11 Documentation and information Vocabulary Part 11 Audio visual documents Genf ISO 1987 ISO 5963 Documentation Methods for examining documents determining their subjects and selecting indexing terms Genf ISO 1985 186 ISO 5964 Documentation Guidelines for the establishment and development of multilingual thesauri Genf ISO 1985 ISO 6156 Magnetic tape exchange format for terminological lexicographical records MA TER Genf ISO 1987 E ISO 8777 Documentation Commans for interactive text searching Genf ISO 1993 ISO 8859 Information technology 8 bit single byte coded graphic character sets Part 1 10 Genf ISO 1987 1992 ISO 8879 Information Processing Text and office systems Standard Generalized Mark up Language SGML Genf ISO 1986 ISO 9075 Database Language SQL Part 3 Call Level Interface SQL CLI Part 4 Persistent Stored Modules SQL PSM Genf ISO 1992 1996
338. tion Server Query Distribution Server System FR Ycombine r amp sults Alta Google Oracle Z39 50 HTTP FTP News Grips Mess Vista Intermedia enger Alta Google Oracle 239 50 HTTF FTF Hews DIMDI STH Vista Server Intermedia Server Server Server Server Server Server Server Server Abbildung 41 dezentrale Architektur Das Suchsystem besteht aus den Komponenten Presentation Server und Query Distribution Server Die Aufgabe des Presentation Servers besteht darin Anfragen von Benutzern entge genzunehmen und zur Beantwortung an den Query Distribution Server zu senden Dieser 152 bersetzt die universelle Anfrage mit den Sprach bersetzern in die systemabh ngigen Anfra gesprachen und sendet die Anfrage an die externen Internet Informationsysteme weiter und gibt das aus den Systemen zusammengef hrte Suchergebnis an den Client zur ck Hauptvorteil der dezentralen Architektur ist deren einfache und rasche Realisierbarkeit Die Entwicklung eines effizienten und mehrbenutzerf higen Collection Managers entf llt Die Anforderungen an die Hardware sind relativ niedrig da keine zentrale Datenhaltung durchge f hrt wird Autoren verwalten Dokumente dezentral mit ihren gewohnten Editierwerkzeugen XML Edititor MS Word etc Zielsysteme mit ihren Best nden sind einfach anschlie bar Zwischen de
339. tmund de oder in der WAIS Datenbasis journals auf dem WAIS Server bib informatik uni dortmund de enthalten Zeichenfolgen die mit inform beginnen 9 Waissearch und WAIS URL nicht m glich SFgate Anfrage gt http ls6 informatik uni dortmund de ir search cgi bin SFgate database 1s6 informatik uni dortmund de 2Fbibdb html database bib informatik uni dortmund de 2Fjournals amp inform 14 Welche Dokumente in der WAIS Datenbasis bibdb html auf dem WAIS Server Is6 informatik uni dortmund de oder in der WAIS Datenbasis journals auf dem WAIS Server bib informatik uni dortmund de enthalten die Zeichenfolgen information oder re trieval und haben ein Erscheinungsjahr das gr er als 1995 ist Waissearch und WAIS URL nicht m glich SFgate Anfrage gt http ls6 informatik uni dortmund de ir search cgi bin SFgate database 1s6 informatik uni dortmund de 2Fbibdb html amp database bib informatik uni dortmund de 2Fjournals amp 28information or retrieval 29 and 28jahr 3E1995 29 3 1 8 2 Harvest Harvest Bowman et al 1995 ist ein Informationssystem zur Sammlung und Indexierung von Internet Hypertextbest nden und dem Zugriff auf diese Best nde Es besteht aus den Komponenten gatherer indexer broker replicator und cache Als Indexierungs und Anfragekomponente verwendet Harvest standardm ig das System Glimpse Manber Wu 1994 Manber 1996 das auf agrep Manber Wu 1992 basiert Agrep bietet eine
340. toren F r die Sprache wird die Syntax vollst ndig und die Semantik zum Teil festgelegt Beispiele werden vorgestellt Art der Logik Suche mit Attributen Mischung von Propositionallogik ohne Pr dikate und Varia blen und Modallogik nach eigenen Angaben Attribute von Dokumenten und Attribute von Beziehungen z B mit Benennung und Gewichtung Vergleichsoperatoren Volltextsuche nicht vorhanden Quantoren 3 es existiert ein V f r alle at least n exactly n few many most Boolesche Verkn p nicht v oder fungen Netzwerkoperatoren Beziehung Pfad mit Richtungsangaben forward backward undirected geschachtelte Doku nicht vorhanden mente Suchobjekte what entspricht dem A Operator Dokumente Knoten und Syntax Semantik Beziehungen Syntax explizit und vollst ndig Semantik unvollst ndig zum Teil anhand von Beispielen erkl rt Beispiele Ergebnis der Anfrage wird gegeben einzelne Auswertungs schritte fehlen Besonderheiten Benutzerorientierte Anfragen sind m glich Definition von 149 Views Ahnlichkeitsfunktionen aus traditionellen Informati onssystemen k nnen durch modale Operatoren Quantoren eingebracht werden Als Mengenoperatoren werden die Verei nigung und die Differenz zur Verf gung gestellt Bei den Netz werkoperatoren kann keine Suchtiefe spezifiziert werden Wei terhin fehlen Operatoren f r Stationen und Geschwister 4 6 2 IQL Reiner baut ei
341. twort gegeben Diese Anfragen werden auch lineares Blattern genannt 13 Welcher Artikel ist der Nachfolger des selektierten Artikels Netnews gt nn gt Tin gt tin gt j 14 Welcher Artikel ist der Vorg nger des selektierten Artikels Netnews gt nn Tin gt tin gt k 49 15 Welche Artikel sind Nachfolger der selektierten Artikel in der selektierten Newsgruppe so viele wie auf den Bildschirm darstellbar Netnews gt nn gt Space oder gt Tin gt tin gt Ctrl d 16 Welche Artikel sind die Vorg nger der selektierten Artikel in der selektierten Newsgruppe so viele wie auf den Bildschirm darstellbar Netnews gt nn gt lt Tin gt tin gt Ctrl u 17 Welche Artikel sind die zeitlich letzten in der selektierten Newsgruppe Netnews gt nn gt 18 Welche Artikel haben den Namen czyborra960131090210354 titanic cs tu berlin de News URL gt news czyborra960131090210354 titanic cs tu berlin de News Nr 10354 vom 31 1 96 um 9 02 Uhr auf titanic cs tu berlin de von der Benutzerkennung czyborra abgeschickt 19 Welcher Artikel ist der zeitlich erste in der selektierten Newsgruppe Netnews gt m gt a Tin gt tin gt 1 20 Welche Artikel sind zeitlich die ersten 4 in der selektierten Newsgruppe Netnews gt nn gt a d Tin nicht m glich Anfragen nach Artikeln mit Attributen 21 Welche Artikel haben denselben Wert f r das Attri
342. ty Set Error if isVar argl amp amp isVar arg2 amp amp argl equals arg2 isVar pred argl amp amp isVar pred arg2 amp amp pred argl equals pred arg2 bindVar argl new HTMLList ul return resultType list pred resultType list if isExecutable execute pred boundExecute else resultType Te 208 if pred isExecutable pred execute boundExecute public void or Predicate pred Logical or of this predicate and pred If variables are equal a union is computed else both variables are bound by execute if arg2 equals pred arg2 resultType list pred resultType list execute HIMLList firstBinding getVarValue arg2 pred execute HIMLList secondBinding getVarValue arg2 HTMLList union firstBinding union secondBinding bindVar arg2 union else execute pred execute public void bindVar String v HTMLList value Binds a value to variable v Variable var responder vars getVar v var value value class Variable extends Object A variable has a name and a value public String name public HTMLList value public Variable String name HTMLList value this name name this value value public boolean isEmpty if name equals value isEmpty return true else return false D
343. uche mit Attributen Unterscheidung von schinen Gro Kleinschreibung phonetische hnlichkeit Namenser kennung Synonyme Wortabstandsoperationen Anh u fungs Plus und Minus Operator Operator f r Vorfahren einer Stufe komplexe boolesche Operatoren Suchein HTTP URL link Hyper G Suche mit dem Attribut URL einfache Volltextsuche mit struktu Attributen Volltextsuche ber alle Nachfahren boolesche rierten Verkn pfungen Doku W3QS SQL hnlich regul re Volltextsuche mit Attributen mit der menten Programmiersprache PERL Nachfahren von einem Doku ment ausgehend Suchtiefe und Gesamtzahl zu untersuchen der Knoten angebbar boolesche Verkn pfungen and or WebSQL SQL hnlich regul re Volltextsuche mit Attributen boole sche Verkn pfungen Pfadoperatoren lokale globale Ver weise Suchtiefe etc Tabelle 8a Suchmittel der Internet Informationssysteme Eine einfache Volltextsuche ist eine Wortsuche mit Rechtsmaskierung eine regul re Volltextsuche ist eine Volltextsuche mit regul ren Ausdr cken siehe Kap 2 1 4 Mit boolesche Verkn pfungen sind die zweistelligen Operatoren and or und andNot gemeint Mit komplexen booleschen Verkn pfungen ist die Kombination von booleschen Ausdr cken gemeint 105 Suche in TSIMMIS SQL hnlich boolesche Verkn pfungen Pfadoperatoren f r geschach geschachtelte Objekte telten Do XQL Operatoren f r Teile XML Elemente eines XML kumenten Dokum
344. und lt U 1 1 1998 gt DATE tire UN lt N gt lt N2 gt Frage 5 Welche Dateien liegen im Verzeichnis ftp cs tu berlin de pub HOx 3x Filename 8x ftp cs tu berlin de pub A Contains x a 5 fle 1 lt U gt JT ist Modell von 3x File namef t e xf ftp cs tu berlin de pub A Contains egf ze f r U e U lt U gt JV Y x2 ist Modell von File name x 5 ftp cs tu berlin de pub A Contains x x f r U e U und f r mindestens ein U e U lt U gt lt 37 Y2 a x2 5 3 Ta x0 ftp cs tu berlin de pub gt su V2 1 x2 File name und zu o tle GULU2 Rp e ZU Y2 Contains f r Uj en und f r mindestens ein U e U lt U gt lt U2 ftp cs tu berlin de pub gt e FILENAME und lt U 2 U gt e CONTAINS f r U e U und f r mindestens ein U e U lt Fo gt lt F3 gt lt F4 gt lt F5 gt Frage 6 Welche Artikel aus der Newsgroup comp lang java programmer enthalten im Content den regul ren Ausdruck formation retrieval Sax axes Newsgroup m comp lang java programmer A tri ti E t i Content s stins yrews x8 Contains Pesing formation retrieval x lt U gt 3 4 ist Modell von 4x Newsgroup Ex comp lang java programmer A stri tri Content S IE xs ming A Contains FP n amp formation retrieval x 8 f r U e U 1U2 4 lt U gt JT Y x2 ist Modell von
345. urchgef hrt werden Auf der Clientseite wird ein Dateiverzeichnis alex eingerichtet Mit dem Kommando mount o time 30 retrans 300 soft intr alex sp cs cmu edu alex wird das Dateisystem des entfernten Alex Servers in das lokale Dateisystem in das Verzeichnis alex eingeh ngt Um einen effizienten Zugriff zu gew hrleisten sollte m glichst ein in der N he befindlicher Alex Server eingesetzt werden Das ber NFS in das lokale System eingebrachte NFS Dateisystem des Alex Rechners ist hierarchisch nach Internet Dom nen und den entfernten FTP Dateiverzeichnissen strukturiert Dateiverzeichnisse der obersten Hierarchiestufe haben den Namen der ersten Domainhierar chie beispielsweise de edu usw Dateiverzeichnisse der zweiten Hierachiestufe den Namen der zweiten Domainhierarchie beispielsweise tu berlin th darmstadt usw Dateiverzeich nisse der dritten Hierarchiestufe den Namen der dritten Domainhierarchie beispielsweise cs informatik fb12 usw usw Nach der Hierarchiestufe der Domainrechnernamen bei Univer sit ten meistens die Hierarchiestufe 4 ftp asksam usw folgt in den n chstniedrigeren Hier archiestufen die Dateiverzeichnisstruktur des jeweiligen FTP Domainrechners bis hin zu den Dateien Ein Beispiel f r ein durch Alex zur Verf gung gestelltes Dateiverzeichnis ist alex de tu berlin zrz ftp pub 43 Auf das durch Alex angebundene globale FTP Dateiverzeichnis kann mit den lokalen Be triebssystemko
346. urg 72 Netscape W3QS Server olx File Edit View Go Communicator Help f TE q Id 3 a2 WM S 2 Back Forward Reload Home Search Netscape Print Security Stop Bookmarks Location http www cs technion ac il W30S cqi_bin frames cq What s Related W3QS The WWW Query System the language are a query Simply change the From Page2 Link2 Page3 Where Page in http www berlin tour de Link in www berlin tour de Page3 PERLCOND Page3 format html i amp amp Page3 title content Charlottenburg using ISEARCHd t 300 1 1000 stion If you 4 aad z Abbildung 10 W3QS Anfrage im M rz 1999 73 Netscape W3Q5S Server ioj x File Edit View Go Communicator Help 4 j 23 a A 3 S 2 IN Back Forward Reload Home Search Netscape Print Security Stop W3QS The WWW Query System art a New Search View Your i Results of query charlottenburg Part 2 There are 1 solution sets t any bug or problem you may encounter Ae Eb AP Gz Abbildung 11 W3QS Anfrageergebnis im Marz 1999 2 Welche Dokumente vom Typ Bild auf dem Server http www cs technion ac il aus gehend vom Dokument mit der URL http www cs technion ac il sind erreichbar Aus Performancegriinden bleibt die Suchtiefe auf 5 und die Zahl der zu
347. urveys analysis graphs_charts 1999graphs b2c_spend html August 2000 OCLC 2001 OCLC Online Computer Library Center Inc Unter www oclc org Februar 2001 OpenText 2000 OpenText Corporation Unter www opentext com Oktober 2000 Oracle 2000a Oracle interMedia Unter www oracle com intermedia April 2000 Oracle 2000b Products interMedia Unter technet oracle com products intermedia April 2000 Oracle 2001 Oracle9i AS Portal Unter http technet oracle com products iportal Februar 2001 RBSE 1997 RBSE Spider Unter rbse jsc nasa gov Spider query html M rz 1997 Scott 1997 Peter Scotts Homepage Unter duke usask ca scottp M rz 1997 SearchEngineWatch 2000 Search Engine Sizes Unter www searchenginewatch com reports sizes html August 2000 SearchEngineWatch 2001 Unter www seachenginewatch com Januar 2001 STN 1997 STN International databases in science and technology Unter www fiz karlsruhe de stn html Marz 1997 Switchboard 2001 Welcome to Switchboard the people and business directory Unter www switchboard com Februar 2001 Thesaurus Guide 1985 Thesaurus guide Luxembourg Office for Official Publications of the European Communities Thesaurus Graphics 2001 LCTGM The Library of Congress Thesaurus for Graphic Mate rial Unter www loc gov rr print tgm1 Februar 2001 Thinking Machines 1992 WAIS Version 0 8 b5 unter ftp wais com pub freeware unix src wais 8 b5 1
348. utomobiles and vehicles E N This is a searchable index Enter search keywords fs Thesaurus Search Results Index h Ictgm contains the following 3 items relevant to automobiles and vehicles Hearses Automobiles Vehicles This page is maintained by Walter Henry Abbildung 21 Anfrage mit Thesaurus Graphics 2001 im Marz 1997 Suche nach Dokumenten 8 Welche Dokumente sind mit dem terminologischen Eintrag dessen Name Fahrzeug ist indexiert IT ee PO Abbildung 22 Anfrage im Hyperkatalog Innsbruck im Marz 1997 90 9 Welche Dokumente sind mit einem terminologischen Eintrag dessen Name fahrzeug ist indexiert oder mit einem seiner Unterbegriffe mit Messenger 2001 gt s fahrzeugtnt ct Heuristische Suche Fischsuche Das Web stellt das Gew sser dar und in dieses Gew sser werden ein paar Fi sche an einer Stelle hinzugef gt von der bekannt ist da diese Nahrung enth lt Die Fi sche vermehren sich nun und die Nachk mmlinge schwimmen in verschiedene Richtungen Diejenigen die keine neue Nahrung finden sterben aus das sind also Verweise die nicht zu neuen relevanten Seiten f hren und diejenigen die neue Nahrung finden vermehren sich wieder und suchen weiter nach neuen Nahrungsquellen Bekavac 1996 S 200 Die Fischsuche ist also eine beschr nkte Tiefensuche die folgende heuristische Regel benutzt Beurteile die Relevanz des besuchten Knotens f
349. vokabular f r die Recherche sind f r den Benutzer Basisbegriffe vgl Rosch 1978 S 27 48 basic level concepts besonders wichtig Basisbegriffe werden in der nat rli chen Sprache h ufiger verwendet als abstrakte Begriffe oder sehr spezielle Begriffe Beipiel Meyer fragt M ller Wie geht es ihrem Hund M ller antwortet Noch nicht so gut aber er fri t wieder Meyer w rde niemals fragen Wie geht es ihrem Lebewesen oder Wie geht es ihrem Pinscher 157 Wichtig ist weiterhin welchen Erfahrungshorizont ein Benutzer besitzt Ein Experte eines Fachgebiets verwendet als Einstiegsvokabular seiner Recherche in der Unterbegriffshierarchie eher tieferliegende Basisbegriffe als beispielsweise ein Anfanger auf dem Gebiet Der Hauptvorteil des terminologiebasierten Retrievals besteht darin da der Informationssu chende w hrend seiner Suche erkennt wie die Informationsbest nde durch die Terminologien strukturiert sind Er bekommt terminologische Hilfestellungen angeboten anhand derer er ent scheidet welches terminologische Vokabular bei seiner Suche Erfolg verspricht Der Infor mationssuchende navigiert beispielsweise graphisch in dem Terminologienetz und w hlt Ein tr ge die er in seiner Anfrage ber cksichtigen will Der Anfragende erkennt welche Termini in einem Sachgebiet zur Suche vorhanden sind und welche inhaltlich verwandten Termini existieren Terminologiebasiertes Retrieval Terminologiebasiertes Retrieval hei t der
350. weggelassen w rde w re Sim pleStructuredQL eine mehrsortige pr dikatenloggische Sprache 1 Stufe SimpleStructuredQL enth lt keine Funktionen 4 1 1 Syntax Sorten 1 mail person host file news menu unit string date int regExpr sind Sorten 2 Das sind alle Sorten Alphabet 1 Individuenkonstanten mail mail person person host hosti file file news news menu menu unit unit string string date date 1 2 RR i il host _ host 2 Individuenvariablen verschiedener Sorten x xy KP KPIS n x TOS file file news news menu menu unit unit string gt lo 9 X X 15 35 X X EEE geo Fe 3 regExpr _ regExpr X ls S gt A gt gt PAS string date _ date X lye 5 X X 15 25 x x ER 3 Pr dikatenkonstanten 2 stellig verschiedener Sorten wenn nicht explizit angegeben haben die Pr dikate die Sorten des jeweils ersten Pr dikats der betreffenden Liste bei a z B die Sorten von Content a Artikel Content Date Group id Length Newsgroup Subject Title User id b Dateien Contains Content Group idstins Length Titletlesting User id sting RS c Dokumenthinweise Abstract s Creator Contributors Coverage Date Databa se Description Format Identifier Language Publisher Relation Rights Source Subject Type Title d E Mails Action Copy Content type Conte
351. wicklung eines solchen Zugangs ist da vorhandene Anfragem glich keiten in den vorhandenen Systemen systematisch untersucht werden Dabei m ssen sowohl traditionelle Systeme zur Dokumentensuche als auch neuere Systemklassen wie z B Systeme siehe Kap 2 1 1 zur Suche in link strukturierten Dokumenten Systeme zur Suche in geschachtelten Doku menten Faktensuchsysteme Systeme zur Suche nach terminologischen Eintr gen und intelli gente Agenten ber cksichtigt werden Damit wichtige Anfragem glichkeiten nicht bersehen werden m ssen f r jedes System Anfragebeispiele in jeweils systemspezifischer Syntax vor gestellt werden Anhand der gewonnenen Ergebnisse kann dann ein systematischer Vergleich anhand wichtiger Kriterien wie Feld Formatstruktur Bestand Suchmittel Suchergebnisse und Leistungsgrenzen durchgef hrt werden Der zweite Schritt zur L sung des Problems besteht darin Anfragesprachen mit spezifizierter Syntax und Semantik f r die Systemklassen hier Suche in einfach strukturierten Dokumen ten Suche in link strukturierten Dokumenten Suche in geschachtelten Dokumenten aufzu bauen und zu einer universellen Anfragesprache zusammenzuf hren Diese fungiert als Zwi schensprache in einem universellen Internet Suchsystem Der dritte L sungsschritt besteht in dem Entwurf einer Systemarchitektur f r solch ein univer selles Internet Informationssystem das die im zweiten Schritt entwickelte Anfragesprache verwendet Bei d
352. worte und Inhalt k nnen mit logischem oder und die anderen Attribute mit logischen und verkn pft werden Beispielanfragen 70 Anfragen nach Hyper G Dokumenten 1 Welches Dokument hier vom Typ Kollektion enthalt im Attribut URL die Zeichenfolge http hyperg cs tu berlin de 80 CDB14ED3 Ccs lehre vv ws9596 Hyper G URL gt http hyperg cs tu berlin de 80 CDB14ED3 Ccs lehre vv ws9596 Anfragen mit Attributen 2 Welche Dokumente im Bestand Hyper G Collection Vorlesungsverzeichnis der TU Ber lin haben den Autor wosch hyperg cs tu berlin de Hyper G URL gt http hyperg cs tu berlin de 80 43B01FCA search html ref cs lehre vv ws9596 Search for Author gt wosch 3 Welche Dokumente im Bestand Hyper G Collection Vorlesungsverzeichnis der TU Ber lin enthalten im Attribut Titel oder Inhalt die Zeichenfolge Informatik Hyper G URL gt http hyperg cs tu berlin de 80 43B01FCA search html ref cs lehre vv ws9596 Search for gt Informatik Boolesche Anfragen 4 Welche Dokumente im Bestand Hyper G Server des ZIB Berlin enthalten im Attribut Inhalt die Zeichenfolge Information und die Zeichenfolge Retrieval oder Brok Hyper G URL gt http hyperg cs tu berlin de 80 43B01FCA search html ref cs lehre vv ws9596 Search for gt Information amp Retrieval Brok 5 Welche Dokumente im Bestand weltweit alle Hyper G Kollektionen enthalten im Attri but Inhalt die Zeichenfolge In
353. x und 3 ist Modell von P x x2 und Sist Modell von P x x3 und 3 ist Modell von P x3 x und IE IK B x1 B x2 3 x3 oder 3 ist Modell von P x x und 3 ist Modell von P x x2 und 3 ist Modell von P x x und S x y B x B x1 I x2 oder 3 ist Modell von P x s x1 und 3 ist Modell von P xi x und xT BOCs FO und lt Ua U gt e CONTENT und U enth lt den regul ren Ausdruck String arbeitung f r Ua U und f r mindestens ein Us U und f r mindestens ein U e U und f r mindestens ein U U2 U3 U lt U gt lt Ua comp lang java programmer gt e NEWSGROUP oder lt Up http www javasoft com gt e IDENTIFIER und lt S x s B x1 gt IP und lt 3 x1 3 x2 gt I und lt 3 X2 3 x3 gt I P und lt 3 x3 I xa gt I P und Ua Ug Ui U2 U3 oder lt S x s B x1 gt IP und lt 3 x1 I x2 gt I und lt 3 X2 S Xq gt S P und Ua Up U1 U2 oder lt I I gt IP und lt 3 x1 I xa gt IE und U Up Us und lt Ua U gt CONTENT und U enth lt den regul ren Ausdruck String arbeitung f r Ua U und f r mindestens ein Us U und f r mindestens ein U e U und f r mindestens ein U U2 U3 U lt U gt lt U comp lang java programmer gt e NEWSGROUP oder I news a xa xB xy xl x2 x3 148 lt Ug http www javasoft com gt e IDENTIFIER und lt
354. y Server und Robot Die Aufgabe des Presentation Servers besteht darin Anfragen von Benutzern entgegenzunehmen und zur Beantwortung an den Collection Manager and Query Server weiterzuleiten und die Antwort in geigneter Form an den Client zuriickzusenden query managing Die Best nde Collections werden direkt durch die Autoren oder mit Hilfe des Roboters aufgebaut und verwaltet Roboter sammeln ffentlich zug ngliche Datenbest nde in bestimmten Zeitabst nden auf und bergeben sie dem Collection Manager Server Hauptvorteil der zentral dezentralen Architektur ist die M glichkeit die M chtigkeit der uni versellen Anfragesprache performant abzubilden Es sind keine bersetzer zu weiteren Infor mationssystemen erforderlich Es werden Best nde Collections unterschiedlichen Typs lokal bis global verwaltet Autoren verwalten ihre Dokumente zentral oder dezentral mit gewohnten Editierwerkzeugen XML Edititor MS Word etc Durch den Roboter werden die dezentral erstellten Best nde in den zentralen Bestand bernommen 154 Der Hauptnachteil der Architektur liegt darin da das System neuentwickelt werden mu so da es die Verwaltung strukturierter Dokumente im Mehrbenutzerbetrieb und Anfragen auf Basis der universellen Anfragesprache ad quat unterst tzt Das System mu gro e Datenbe st nde Milliarden strukturierter Dokumente performant verarbeiten k nnen Beim Einsatz des Roboters kann der Bestand des Systems nicht aktuell zur Ve
355. ystem enth lt Gro Kleinschreibung wird nicht unterschieden gt telnet snake cs tu berlin de gt grep il file system usr 3 Welche Dateinamen befinden sich auf dem Rechner snake cs tu berlin de im Verzeichnis usr oder in einem Unterverzeichnis von usr deren Inhalt die Zeichenkette file system enth lt gt telnet snake cs tu berlin de grep l file system find usr print 4 Welche Textzeilen auf dem Rechner snake cs tu berlin de aus dem Inhalt von Dateien im Verzeichnis usr oder in einem Unterverzeichnis von usr enthalten die Zeichenfolge file system telnet snake cs tu berlin de gt grep file system find usr print 5 Welche Dateinamen befinden sich auf dem Rechner snake cs tu berlin de im Verzeichnis usr oder in einem Verzeichnis bis zur Tiefe 3 unterhalb von usr Diese Anfrage ist direkt unter UNIX nicht m glich kann jedoch z B mit einfachen Shell Befehlen programmiert werden Boolesche Anfragen 36 6 Welche Dateinamen befinden sich auf dem Rechner snake cs tu berlin de im Verzeichnis usr oder in einem Verzeichnis unterhalb von usr deren Benutzerkennung laszlo hei t Das Ergebnis soll alphabetisch nach den Namen geordnet werden gt telnet snake cs tu berlin de gt cd usr c Is laR grep laszlo Bei dieser Anfrage werden Eintrage als Ergebnis geliefert die in irgendeinem Attributwert die Zeichenfolge laszlo enthalten Besser ist
356. zen von Internet Informationssystemen 109 4 Aufbau von Anfragesprachen fur Internet Informationssysteme Fir den Aufbau der Sprachen wird empirisches Material aus der Untersuchung von Internet Informationssystemen verwendet siehe Kap 3 Ein gro er Teil der dort kristallisierten An fragem glichkeiten wird in den Anfragesprachen abgebildet Einige Beispielanfragen aus der Untersuchung werden bernommen Aus Komplexit tsgr nden werden die Systemklassen Faktensuche und Intelligente Agenten nicht in die Arbeit einbezogen Die aufgebauten Anfragesprachen sind nicht fiir den Benutzer sondern als Zwischensprachen zwischen Benutzeranfragesprachen und den Informationssystemen konzipiert Nur ein Re chercheexperte benutzt die Anfragesprachen direkt Im ersten Kapitel wird eine Anfragesprache zur Suche in einfach strukturierten Dokumenten SimpleStructuredQL aufgebaut im zweiten und dritten Kapitel werden Anfragesprachen zur Suche in link strukturierten Dokumenten SimpleLinkQL LinkQL aufgebaut und im vierten Kapitel wird eine Anfragesprache zur Suche in geschachtelten und link strukturierten Doku menten Nested amp LinkQL aufgebaut Im f nften Kapitel werden die Anfragesprachen zu einer universellen Anfragesprache zur Suche in strukturierten Dokumenten StructuredQL zusam mengef hrt F r jede Anfragesprache wird deren Syntax und Semantik exakt spezifiziert Anhand von Bei spielen wird vorgef hrt welche Art von Anfragen mit der Spr

Download Pdf Manuals

image

Related Search

Related Contents

TDK MP100  marzocchi 45  Technaxx SpeedyHUB  車 種 適 合 表  important!  Expérimentations pour la jeunesse en Limousin  SERVICE MANUAL 4587 - Ansaldo STS  LIMPIADOR DE RADIADOR PLUS PARA TURISMOS Y V.I.  Netti Mobile  accessories from Physio-control  

Copyright © All rights reserved.
Failed to retrieve file