Home

auf Grundlage des Google Web APIs Services - Friedrich

image

Contents

1. al 4 Abbildung 7 Das GUI von Prot g V3 0 4 2 2 Plugins fiir Prot g Zu Prot g existieren eine Vielzahl von Plugins die ber die Grundfunktionalit ten hin aus weitere Hilfestellungen f r eine Ontologiemodellierung bzw verwaltung geben k n nen So bieten z B die Plugins OntoViz und Jambalaya eine grafische Visualisierung die besonders bei komplexeren Ontologien dem Entwickler einen erleichterten berblick ver schafft Auf den Projektseiten von Prot g ist ein berblick ber alle aktuellen zur Verf gung stehenden Plugins zu finden Stellvertretend f r die vielen Plugins zeigt Abbildung 8 einen Auszug aus dem Jamba laya Plugin Zu sehen ist eine radiale Visualisierung eines Auszuges einer Ontologie wobei ein hellblaues Quadrat jeweils ein Individuum einer bestimmten Klasse gelbe Qua drate darstellt Die Dreiecke stehen f r zusammengefasste in der Hierarchie tiefer liegen de Instanzen oder Klassen Das Plugin erm glicht dar ber hinaus noch eine Vielzahl von 30 http www protege standford edu plugins 31 Projekthomepage von Jambalaya http www thechiselgroup org jambalaya 5 Web Services 28 modifizierten Darstellungsformen die interaktiv bei der Navigation durch die Ontologie genutzt werden k nnen D o O K o On s gt Ba P w amp a _ KO Organisation Pr ig lt ih ar o jowl Thing s
2. Google www google com Die 1 Suche ergibt 46 Treffer Jeder der ersten zehn Treffer zeigt eine gelungene se mantische Zuordnung an Die 2 Suche wird durch ein Klick auf die Zuordnung Fakult t f r Mathematik und Die 1 Suche ergibt ber 704 000 Treffer Die 2 Suche mit zus tzlicher Angabe von site uni jena de ergibt angeblich 87 Treffer Nach 66 Treffern bricht die Auflistung je doch vorzeitig ab Informatik verfeinert und liefert 38 Treffer Beide Recherchen haben die Anzahl der Treffer mit zwei Klicks effektiv auf ein berschau bares Ma verringern k nnen Bei Google wird jedoch vorausgesetzt dass der Nutzer mit dem site Konstrukt vertraut ist Weiterhin sind bei SontoX nur solche Treffer enthalten die von dem Webangebot der Fakult t f r Mathematik und Informatik stammen w hrend bei Google Treffer der gesamten Universit t enthalten sind Bei Sonto kann der Nutzer si cher sein dass alle 38 Treffer aus der angegebenen Fakult t stammen w hrend bei Google eventuell jeder Treffer manuell berpr ft werden muss Sonto Suche Die 1 Suche ergibt 768 Treffer auf die al le zugegriffen werden kann Auch hier wer den passende Zuordnungen gefunden Die 2 Suche wird durch ein Klick auf die Zuordnung Lehrstuhl f r Entwicklungspsy chologie verfeinert und liefert 112 Treffer die eindeutig dem Lehrstuhl zuzuordnen sind Google www google com
3. Biologisch Pharmazeutische Fakult t und Into Philosophische Fakul Medizinische Fakult t Physikalisch Astronomische Fakult t Fakult t f r Sozial und Verhaltenswissenschaften Rechtswissenschaftliche Fakult t Digital Teaching Workspace Webtechnologien Klinikum der Friedrich Schiller Universitat Jena Anfang Zur ck Weiter Ende Index Homepage Text Folie 29 von 34 Klinisches Rechenzentrum BachstraBe Internet Ulniversit tsklinikum Jane http www med uni jena de wzi fp2000_praes sld029 htm 6k Erweiterte Webtechnologien Klinikum der Friedrich Schiller Universitat Jena Anfang Zur ck Weiter Ende Index Homepage Text Folie 37 von 46 Klinisches Rechenzentrum Bachstra e Internet Ulniversit tsklinikum Jane http www med uni jena de wzi internet2000 s1d037 htm 7k Vorlesung Webtechnologien Fakult t f r Mathematik und Informatik Einf hrung Themen bersicht und Materialien zur Vorlesung http www informatik uni jena de sack wS0405 webtechnologien htm 9k Vorlesung Webtechnologien Materialien Fakult t f r Mathematik und Informatik Einf hrung Themen bersicht und Materialien zur Vorlesung http www informatik uni jena de sack WS0405 webtechnologien materialien htm Webtechnologien Fakult t f r Mathematik und Informatik suni jena de sacl 5 webtechnologien htm Dr rer nat
4. 160 0 UO y uloliqig u sse y S pJ lu q AA 15 Screenshots des Sonto Web Interfaces 80 C Screenshots des Sonto Web Interfaces Sonto Webtechnologien Sontox Suche d deutsch englisch Suche beschr nkt auf die Dom ne uni jena de erweiterte Suche Einstellungen Copyright 2005 ARTUSWEB All rights reserved M Web APIs service bets About Sontox Use Google Abbildung 24 Web Interface Startseite ttp Avww artusweb de SontoX index html yo Webtechnalogien Hilfe Sonto deutsch englisch O LGT Such Optionen Suchmaschine HHI 2 Datei Typ Q Anzahl der Suchergebnisse beliebig fio Such Ergebnisse pro Anfrage Ontologie Integration a verwendete Ontologie IV FSU Jena Web Ontologie fsu jena owl kn Klassen Hierarchie R Prot g to HTML Copyright 2005 by Artusweb All rights reserved About Sontox Use Google web APIs serice beta Abbildung 25 Web Interface Erweiterte Einstellungen adv_search php5 15 Screenshots des Sonto Web Interfaces 81 10 erweiterte Suche 2 0 089 sec Webtechnologien Hife Google g 77 1000 deutsch englisch C Web APIs service 1 10 von insgesamt 47 Treffern sch Geowissenschaftliche Fakult t Homepage http uni jena de Anschrift Friedrich Schiller Universit t Jena F rstengraben 1 D 07743 Jena
5. Unbestritten w rde bei einer Dateigr e ber 1 MB eine sp rbare Verz gerung deutlich Die wahre Gr e der vorliegenden Ontologie liegt jedoch bei ca 100 KB und wird selbst bei einer sp teren eventuellen Erweiterung die Gr e von 150 KB kaum berschreiten Die Methode des erneuten Parsens der Ontologie f r jeden einzelnen Programmaufruf wird daher als tolerierbar f r das Gesamtsystem angesehen und in Sonto angewendet 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine Die Programmkomponente die f r die Steuerung der Logik des Web Interfaces zust ndig ist bernimmt zugleich die Integration der Ontologie und die Verwaltung der Suchma schinentreffer Diese Kernfunktionen wurden in der zuvor angesprochenen CONTROL Klasse umgesetzt Die Klasse selbst stellt die Hauptklasse von Sonto dar in der alle an deren Klassen der Klassenbibliothek eingebunden werden Im Web Interface werden kon sequent nur Methoden der CONTROL Klasse aufgerufen Die CONTROL Klasse stellt auf der Ebene der Klassen eine Schnittstelle zwischen dem Web Interface und den beiden Komponenten Suchmaschinentreffer und Ontologie dar 73 Die gemessenen Zeiten stellen den Mittelwert f r jeweils zehn Parser Aufrufen pro Dateigr e dar 74 Siehe System Architektur in Anhang B auf Seite 79 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 56 An dieser Stelle ist es angebracht einen Blick auf 2 sontox die
6. Le gt V AAS a ZDopooooonoonppp Abbildung 8 Hierarchiedarstellung mit dem Plugin Jambalaya Abschlie end bleibt zu bemerken dass jeder der eine Ontologie modellieren verwalten oder erweitern m chte kaum auf die Hilfe von Prot g verzichten kann Die Bereitstellung dieses m chtigen Tools er ffnet auch denjenigen unter den Nutzern die in der Sprachsyn tax von Ontologiesprachen weniger bewandert sind eine einfache M glichkeit in das The ma Ontologie einzusteigen und es f r sich zu gewinnen Dies w rde einen wichtigen Teil der Vision des SWs voranbringen n mlich die schrittweise Akzeptanz von Ontologien und somit auch ihre zwingend notwendige Verbreitung Mit einer stetig wachsenden Zahl an Ontologien im Netz erscheint auch eine relevante Nutzung dieser Wissensbasen f r kommende Semantic Web Anwendungen immer gr er was wiederum das Bereitstellen weiterer Ontologien zur Folge hat usw 5 Web Services Ein Teil der SW Vision besteht in der M glichkeit der teils autonom ablaufenden Kommu nikation zwischen Maschinen Dies ist heute kein Wunschtraum mehr sondern mit dem sog Web Services Ansatz schon seit einigen Jahren umgesetzt Web Services sind spezielle Dienste welche eine Kommunikation zwischen Maschinen erlauben Der Dienstanbieter der Server stellt einen gewissen Dienst f r andere Rechner die Clients zur Verf gung Die Idee basiert auf dem Server Client Prinzip wobei der Client
7. Mit dem Sonto System wird eine effektive Websuche auf den Webseiten der FSU Jena er m glicht die einen Nutzer schnell zum Ziel f hrt Jedoch bietet das System nicht zu allen Suchanfragen Vorteile bez glich einer normalen Websuche Sonto stellt jedoch eine in teressante neue Art einer Websuche dar die im Sinne der SW Vision ein Beispiel f r einen erfolgreichen Einsatz einer Ontologie f r eine semantische Auswertung demonstriert Mit Sonto ist nach Wissen des Autors eine bis jetzt im Web noch nicht existierende Verbin dung zwischen einer Ontologie und einer Suchmaschine gelungen 15 Ausblick Es bleibt abzuwarten ob Sonto sich im Praxiseinsatz bew hrt und von der Nutzergemein de angenommen wird Vielleicht bewirkt Sonto ein Umdenken einiger Webmaster die dadurch erkennen dass ihre Seiten schlecht annotiert sind oder ihre gew hlte Verzeichnis struktur eine Websuche erschweren bzw verhindern Auf Basis einer sauberen Dom nen und Verzeichnisstruktur k nnte Sonto sein Potenzial voll ausspielen Da momentan der Google Web Service als Methode f r die Datenbeschaffung eingesetzt wird ist die Zukunft von Sonto abh ngig von dem sich offiziell immer noch im Beta Status befindlichen Web Service Es ist jedoch anzunehmen dass Google seinen Dienst aufrechterhalten wird Falls nicht kann als alternative Methode das Screen Scraping ver wendet werden Ideen f r eine Weiterentwicklung der Websuche sieht der Autor noch viele
8. Die 1 Suche ergibt ber 164 000 Treffer Die 2 Suche mit zus tzlicher Angabe von site uni jena de ergibt angeblich 831 Treffer Nach 268 Treffern bricht auch diese Auflistung vorzeitig ab 13 Stellung von Sonto in der Semantic Web Vision 74 Die Suche mit Sonto konnte die potenzielle Trefferliste mit zwei Klicks auf 112 Treffer einschr nken von denen alle zum ausgew hlten Lehrstuhl geh ren Google liefert hinge gen mit 268 Treffern eine h here Anzahl jedoch sind unter den Treffern auch Webres sourcen anderer Bereiche der FSU Jena Der Nutzer m sste daher die Treffer manuell berpr fen W rde der Nutzer den site Wert auf die Homepage des Lehrstuhles f r Ent wicklungspsychologie anpassen w rde er hnliche Ergebnisse wie mit Sonto erhalten Es ist jedoch nicht davon auszugehen dass ein Nutzer die Webseitenstruktur der FSU Jena im Detail kennt An dieser Stelle kann Sonto seine St rken ausspielen Dar ber hinaus wird nicht nur Hilfestellung bei der Suchraumeinschr nkung gegeben sondern der Nutzer sieht auf einen Blick auf welchen Bereich er seine Suche einschr nken kann Zus tzlich werden ihm noch erweiterte Informationen zur ausgew hlten Ebene pr sentiert die den semantischen Bezug zur Treffereinschr nkung besser deutlich werden lassen Beide Suchszenarien k nnen nur einen beschr nkten Eindruck vermitteln welchen Vorteil Sonto bei einer Suche bietet Zus tzlich m ssten daf r die semantischen Informatio
9. Lis ting 17 zeigt f r beide Eigenschaften einen Auszug der von Prot g erzeugte OWL Syntax der Definition 67 Sjehe Abschnitt 8 5 S 50 68 Sjehe Abschnitt 10 1 S 58 von O Q Ek Q Hr OD GG A O ur Ww D e 8 Erstellen der Ontologie 48 ee lt owl ObjectProperty rdf ID gehoert_zu gt lt rdfs domain gt lt owl Class gt lt owl unionOf rdf parseType Collection gt lt owl Class rdf about Fakult t gt EE lt owl Class rdf about Klinik gt lt owl Class rdf about Lehrstuhl gt lt owl unionOf gt lt owl Class gt lt rdfs domain gt lt owl ObjectProperty gt Gesi lt wl s Datatype ie eye ir y EE EE EE lt rdfs domain rdf resource Organisation gt lt rdfs range rdf resource http www w3 org 2001 XMLSchema anyURI gt lt owl DatatypeProperty gt Sis Listing 17 Auszug der Definition fiir gehoert_zu und Homepage fsu jena owl In der Definition der gehoert_zu Eigenschaft wird das unionOf Tag in Kombination mit dem Attribut parseType Collection zur zusammenfassenden Festlegung des g ltigen Wertebereiches domain verwendet siehe Listing 17 Zeilen 2 13 F r den Wertebe reich der Eigenschaft Homepage wurde hingegen nur die Klasse Organisation angegeben Zeile 16 Alle anderen Klassen erben diese Eigenschaft implizit aufgrund der subClas sOf Beziehung zur Klasse Organisation Als Datentyp wird anyURI aus der XMLSchema Defini
10. Parser Ein Programm das ein Dokument auf Basis einer speziellen Spezifikation auf syntaktische semantische Korrektheit hin berpr ft bzw zus tzlich die in dem Do kument strukturiert abgelegten Informationen f r eine Weiterverarbeitung interpre tiert Semantic Web Ist eine Erweiterung des gegenw rtigen WWW um eine wohl definier te Bedeutung der Informationen Es ist eine Initiative des W3C und einer gro en Zahl von Interessenten aus Forschung und Industrie Es basiert auf XML und RDF als Sprachsyntax und URIs zur eindeutigen Identifizierung von Dokumenten bzw Objekten Darauf soll eine Vielzahl von Applikationen aufbauen Server Bezeichnet einen Prozess der von Clients kontaktiert wird um diesen Informa tionen zur ck zu liefern Oft wird auch der Rechner auf dem ein Server Prozess abl uft als Server bezeichnet SOAP Bei SOAP handelt es sich um ein von IBM aus XML RPC abgeleitetes auf XML basierendes Protokoll zur Nachrichten bermittlung Das Protokoll regelt speziell die Kommunikation zwischen Maschine und Maschine und bildet somit einen wich tigen Bestandteil der Web Services Architektur SOAP ist seit der der vom W3C verabschiedeten Version 1 2 kein Akronym mehr sondern steht nur noch f r sich selbst URI Uniform Resource Identifier Eine allgemeine Form des URL Uniform Resource Locator Durch die Angabe eines URI kann eine Ressource eindeutig referenziert werden Web Service Web Services sind spezielle Diens
11. o un ou H ro von un ou H Z Beziehen der Datengrundlage 42 hierf r das Open Source Projekt NuSOAP verwendet Es handelt sich dabei um eine Kollektion von PHP Klassen welche eine rasche Umsetzung eines SOAP Clients erm g lichen Listing 12 zeigt die Stellen in der eigens erstellten Klasse zur Steuerung mit der Google API GAPI Klasse an denen die NUSOAP Klasse zum Einsatz kommt D es Einbinden der NuSOAP Class Version 0 6 3 von D Ayala include NUSOAP class php Instanzieren eines SOAP Client Objektes Ssoapclient object new soapclient http api google com search et a 25 rn Google Anfrage ber die doGoogleSearch Methode this gt myResult soapclient gt call doGoogleSearch array this gt Params urn GoogleSearch urn GoogleSearch Cee Listing 12 SOAP Client unter Verwendung der NUSOAP Klasse Nach dem Einbinden der NUSOAP Klasse Zeile 3 stehen alle f r einen Client ben tig ten Methoden zur Verf gung Der Aufruf des Konstruktors mit dem URL des Nachrichten empf ngers http api google com search beta2 als Parameter erzeugt das gew nsch te Client Objekt Zeile 6 Nach erfolgreicher Instanzierung des SOAP Clients wird ber die Objekt Variable soapclient die PHP call Methode aufgerufen Zeile 9 Als Parame ter wird der Name der gew nschten Web Service Funktion hier doGoogleSearch und ein spezieller Parame
12. Eine zusammenfassende Informationsquelle zum Begriff Web Service findet sich unter Jec04 Dar ber hinaus wird in DJ04 die Stellung der Web Service Technologie im Kon text des SW diskutiert Im n chsten Abschnitt wird das SOAP Kommunikationsprotokoll n her betrachtet 33 SOAP stand zu Beginn f r Simple Object Access Protocol da es jedoch weder simpel noch direkt zum Objektzugriff dient entschied die zust ndige W3C Arbeitsgruppe dass SOAP ab der Version 1 2 kein Akronym mehr ist sondern nur noch f r sich selbst steht HLO4 34 Im Web existieren daf r verschiedene Anlaufstellen Z B http uddi microsoft com Microsoft http uddi ibm com ubr registry html IBM oder http uddi sap com SAP 5 Web Services 30 5 1 Das Web Service Protokoll SOA P Bei SOAP handelt es sich um ein aus XML RPC35 abgeleitetes und auf XML basieren des Protokoll zur Nachrichten bermittlung Das von IBM weiterentwickelte Protokoll welches speziell die Kommunikation zwischen Maschine und Maschine regelt stellt einen wichtigen Bestandteil der Web Service Architektur dar SOAP wurde von IBM im April 2000 beim W3C als Vorschlag eingereicht und ist momentan in der Version SOAP 1 2 standardisiert Das Protokoll verwendet zum Nachrichtenaustausch zwischen den Kom munikationspartnern das XML Format Nach HL04 sind f r ein Konzept eines Protokolls zur Nachrichten bermittlung drei Fragen von Bedeutung Wie wird eine Nachricht genau b
13. FRIEDRICH SCHILLER UNIVERSITAT JENA FAKULTAT F R MATHEMATIK UND INFORMATIK INSTITUT F R INFORMATIK Ontologiegest tzte Websuche auf Grundlage des Google Web APIs Services DIPLOMARBEIT zur Erlangung des akademischen Grades Diplom Informatiker eingereicht von UWE KR GER geb am 29 Mai 1972 in Eisenberg Betreuer Prof Dr MARTIN MUNDHENK Jena 21 Juli 2005 II Abstract Das Word Wide Web ist trotz seiner heutigen enormen Bedeutung noch lange nicht am En de seiner Entwicklung angelangt Sein exponentielles Wachstum erfordert das Erforschen neuer Ans tze um der wachsenden Informationsflut Herr zu werden Die Realisierung der schon seit den 90er Jahren existierenden Semantic Web Vision stellt dabei eine der span nendsten und gr ten Herausforderungen der zuk nftigen Webentwicklung dar Bis ein semantisches Netz etabliert ist gilt es noch viele H rden zu berwinden Jedoch stehen die grundlegenden Technologien wie XML RDF OWL Web Services etc heute schon bereit In dieser Arbeit wird untersucht wie es durch Einsatz dieser Technologi en bereits heute m glich ist bei einer konventionellen schl sselwortbasierten Websuche zu den Treffern einer Suchanfrage zus tzliche Semantik anzuzeigen Dem Nutzer soll es erm glicht werden navigierend mit Hilfe der zus tzlichen Bedeutungszuordnung seine Suche effektiv einzugrenzen um somit die Vielzahl von Suchtreffern auf relevante Treffer einzuschr nken Umgesetzt wurde d
14. on 3 0 vorgenommen Die reine Modellierung und die Wissensakquise gingen dabei Hand in Hand und lie en sich nicht klar trennen da erst die Akquise der Daten selbst die Schw chen in der Modellierung aufzeigte woraufhin das Modell der Ontologie angepasst wurde Die im Ergebnis entstandene Ontologie kristallisierte sich als am besten geeignet f r die Problemstellung heraus Die Erstellung wird in drei Schritte untergliedert Festlegung einer geeigneten Menge von Klassen Eine auf die Klassen bezogene Definition sinnvoller Eigenschaften Wissensakquise durch Erzeugung konkreter abgeleiteter Klasseninstanzen Im Folgenden wird das Wesentliche der Umsetzung ergebnisorientiert erl utert ohne auf die konkrete Anwendung von Prot g n her einzugehen Weiter unten in Abschnitt 65 F r Prot g existiert ein ausf hrliches Benutzerhandbuch http protege stanford edu useit html vo a Q WN Be 8 Erstellen der Ontologie 46 8 5 finden sich wichtige Hinweise die bei einer Ontologieerstellung mit Prot g beachtet werden m ssen um eine mit dem Sonto System kompatible Ontologie zu erhalten 8 1 Festlegen der ben tigten Klassen Das Festlegen der ben tigten Klassen stellt das Grund ger st einer Ontologie Definition dar Die Identifizierung der Klassen ist die erste Aufgabe Welche Klassen genau aufgenommen werden und wie detailliert die Struktur aus C owl Thing Y C Organisation C Arbeitsgr
15. Das automatische Beweisen kann sich dabei als problematisch erweisen da es un sicher ist ob ein Beweis berhaupt erbracht werden kann 22 Ein Beweis ist unter anderem dann unm glich zu erbringen wenn nicht ausreichend Regeln definiert sind Ebenso ist es schwer die erwartete Dauer der Beweisfindung zuvor abzusch tzen Eine undefinierte sehr lange Zeitdauer bis zur L sung ist denkbar so dass der Prozess scheinbar unendlich viel Zeit ben tigt Ein automatischer Beweis befindet sich demnach bis zu einer eventuel len L sung in einem undefinierten Zustand Bis heute gibt es keine praktische Realisierung des Proof Layers da hierf r zuerst eine Etablierung der darunter liegenden Schichten not wendig ist 3 2 7 Vertrauen Sicherheit Trust Da in einem semantischen Web wie es bis jetzt besprochen wurde jeder alles behaupten und definieren kann ist es notwendig die vorhandenen Informationen auf ihre G ltigkeit hin zu berpr fen Wenn eine automatische Folgerung aus und das Beweisen von semanti schen Informationen gefordert werden ben tigt man geeignete Vertrauensprinzipien und Authentifizierungsmechanismen Um die Echtheit einer Information feststellen zu k nnen soll das Verfahren der Digitalen Signaturen verwendet werden Unter einer Digitalen Si gnatur versteht man das Verschl sseln von Daten unter Zuhilfenahme eines sog Offentli chen public und privaten private Schl ssels key und einem gepr ften Echtheitszertifi kat D
16. Harald Sack Institut fiir Informatik FSU Jena http www minet uni jena de sack WS0405 materialien webtechnologien O1 prt pdf Microsoft PowerPoint webtechnologien 04 ppt E Fakult t f r Mathematik und Informatik http www informatik uni jena de sack WS0405 webtechnologien htm Webtechnologien Yorlesungsinhalt Teil I Internet und WWW http www minet uni jena de sack WS0405 materialien webtechnologien O4sm pdf Microsoft PowerPoint webtechnologien 06 ppt amp Fakult t f r Mathematik und Informatik Wintersemester 2004 2005 Webtechnologien Webtechnologien http www informatik uni jena de sack WS0405 webtechnologien htm Webtechnologien Dr rer nat http www informatik uni jena de sack wS0405 materialien webtechnologien 06 pdf Microsoft PowerPoint webtechnologien 06 ppt Eg Fakult t f r Mathematik und Informatik http www informatik uni jena de sack wWS0405 webtechnologien htm Webtechnologien Dr rer nat Harald Sack Institut f r Informatik FSU Jena http www minet uni jena de sack WS0405 materialien webtechnologien O6sm pdf Seite 1 234 Copyright 2005 by Artusweb All rights reserved oX Use Google web APIs serice beta Abbildung 26 Web Interface Ergebnis einer Beispielanfrage search php5 15 Literaturverzeichnis 82 Literaturverzeichnis ABK 02 AH04 Bab01 Ber01 Ber99 Ber98 BHL01 BP98 DJ
17. S Yana ee re Wan pa q er te S ab y S M a Sl 39 Google API Service als Datengrundlage 41 Das Klassen Konzept der Ontologie 2 2 22 nn 46 Themenklaster der Webseitenstruktur der FSU Jena 49 Verzeichnis und Dateistruktur des Sonto Systems 56 Beispielzuordnung der Individuen zu den Treffern 58 URL Struktur anhand eines Beispiels 59 Alternativer IR Ansatz 64 Beispiel einer generierten Taxonomie 2 2 2 2 nme 66 Beispiel einer zugrunde liegenden Struktur f r eine Taxonomie 66 Auszug aus der Taxonomie 2 aooaa s er era 67 Auszug aus der Taxonomie 2 22 2 on onen 68 Zus tzliche Informationen zu der aktuellen Suchraumeinschr nkung 69 Web Interface Startseite http www artusweb de SontoX index html 80 Web Interface Erweiterte Einstellungen adv_search php5 80 Web Interface Ergebnis einer Beispielanfrage search php5 81 Listings VIII Listings 1 Quelltext Beispiel einer HTML Webseite 2 2 2220 12 2 Beispiel eines Statements in XML Syntax 17 3 XML Namensraum Deklaration 23 4 OWL Header Definition 23 5 OWL Class Definition CR aus a ua ae E Bx 24 6 OWL Property Definition 2 2 2 2 a 24 7 OWL Individual Definition 2 2 2 2 Cm none 25 8 Beispiel einer einfachen SOAP Nachricht 31 9 Auszug aus der WSDL Datei 2 222 2 NEEN 34 10 doGoogleSearch SOAP Req
18. So k nnte z B dem Nutzer auf der Optionsseite die M glichkeit zur Angabe seiner eigenen Ontolo gie einger umt werden Weiterhin liegt in der modularen Architektur weiteres Potenzial die Beschaffung der Datengrundlage auf eine alternative Suchmaschine aufzubauen Den gr ten Nutzen k nnte Sonto jedoch dadurch erreichen dass auf Basis unterschied licher Ontologien jeweils unterschiedliche Suchr ume abgedeckt werden So w re es z B m glich Dom nen bergreifende Organisationsstrukturen in einer Ontologie abzubilden und sie dann in Sonto einzubinden Auf diese Weise k nnte das Suchverhalten je nach Wunsch variiert und angepasst werden So eingesetzt stellt Sonto ein universelles Werk zeug f r eine erweiterte Websuche dar wobei die Treffer mit den jeweiligen semantischen Informationen aus der Ontologie aufbereitet werden wird die zur Etablierung eines SOAP Clients verwendete NuSOAP Klasse einberechnet so besteht die gesamte Sonto Klassenbibliothek sogar aus ca 5 800 Zeilen Quelltext 15 Glossar 71 A Glossar Agent Oder Web A gent ist ein Softwareprogramm welches vom Nutzer beauftragt v l lig autonom das WWW nach relevanten Informationen absucht wobei ein Web Agent auch Teilaufgaben an andere Web Agenten abgeben kann Grundvorausset zung ist ein etabliertes semantisches Web API Application Program Interface Bezeichnet eine Programmschnittstelle die es einen Softwareentwickler erlaubt Funktionalit t
19. chen Ein konkretes Beispiel soll dies n her erl utern Abbildung 21 Auszug aus Befindet sich die Sonto Suche in der Taxonomie Ebene der Taxonomie des Institutes fiir Informatik Abb 21 so werden nur Webressourcen beriicksichtigt die hinter der zugeh rigen URL Struktur angeordnet sind Der aktuelle Suchstring lautet z B Webtechnologien www fakultaet site minet uni jena de OR site informatik uni jena de Da viele Bereiche der FSU Jena darunter auch das Institut f r Informatik keine konse quente Webseitenstruktur besitzen schl gt die bis jetzt besprochenen Vorgehensweisen 87 Siehe Listing 20 auf Seite 54 88 Mit einer unscharfen Suche Fuzzy Suche ist der Sachverhalt gemeint dass nicht mehr unter einer konkreten Organisationsstruktur gesucht wird sondern ber mehrere Strukturen hinweg so dass es zu ungenauen unscharfen Ergebnissen bez glich der aktuellen Suchraumeinschr nkung kommen kann 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 68 fehl Beispielsweise werden die Webseiten der Professur f r Praktische Informatik K nst liche Intelligenz nicht mit in einer Suche ber cksichtigt da die zugeh rige URL au er halb der Verzeichnisstruktur des Institutes liegt Um diese Art von Sonderf ll zu ber cksichtigen wur REESEN de in Sonto die M glichkeit geschaffen den gew hlten rue for mathematic und Informatik en wo EET Suchraum mit einen Klick auf ein nebenste
20. fen und wenn dann stecken sie noch in den Kinderschuhen oder stellen nur eine spezielle Teill sung dar Es gilt daher eine eigene neue und kreative L sung f r eine m gliche On tologieintegration zu finden und zu implementieren Dabei soll es ausreichend sein eine Insell sung zugeschnitten auf das Webseitenangebot der Friedrich Schiller Universitat Jena zu implementieren anhand derer die universelle Einsetzbarkeit der gefundenen L sung beispielhaft demonstriert wird Aufbau der Arbeit Die theoretischen Grundlagen der behandelten Themenbereiche werden zu Beginn im Teil I vorgestellt Eine kurze Einf hrung zur Entwicklung des WWW bis zum heutigen Tage bildet die Basis f r ein Verst ndnis der Richtung der angestrebten Weiterentwicklung des WWW Die Schwierigkeiten bzw Aufgaben die es mit dem heutigen Entwicklungsstand des WWW zu bew ltigen gilt werden in Bezug auf die Arbeit kurz angeschnitten Darauf folgend werden vorhandene Konzepte von Suchdiensten aufgezeigt und deren prinzipiel le technische Arbeitsweise erl utert Daran anschlie end wird in diesem Zusammenhang die Vision des Semantic Web vorgestellt Dabei werden die einzelnen Etappen hin zur Erf llung dieses Konzeptes kurz besprochen Die nun geschaffene Grundlage f hrt im An schluss auf eine genauere Betrachtung des zentralen Begriffes Ontologie und der sich da hinter verbergenden Relevanz f r die Weiterentwicklung des WWW und f r diese Arbeit In diesem Zusam
21. nengruppen eine allgemeine bereinstimmung ein Konsens ber das Verst ndnis dieser Dom ne gebildet werden kann Wird die Art der verwendeten Ontologie genau spezifiziert so ist f r Jeden Kommunikationsteilnehmer ob Mensch oder Maschine eindeutig klar um welchen Begriff es sich handelt F r eine formale Ausgestaltung eines Wissensgebietes werden spezielle Ontologie Spra chen ben tigt die im Vergleich zu RDF S eine differenziertere Beschreibung von Sach verhalten zulassen und so die Ausdrucksst rke weiter erh hen Dabei sollen Klassen und deren Beziehungen untereinander beschrieben werden die mit Web Dokumenten und An wendungen in Verbindung stehen Mit Hilfe einer formalen Ontologie Sprache soll der Mangel an semantischer Ausdrucksst rke des RDF S Ansatzes ausgeglichen werden 4 1 Die Web Ontology Language Die Web Ontology Language OWL ist eine semantische Auszeichnungssprache Mark up Sprache zum Ver ffentlichen und Austauschen von Ontologien im WWW Die Spra che ist eine Weiterentwicklung der Ontologie Sprache DAML OIL Die Syntax f r OWL ist RDF XML OWL ist eine Spezifikation des W3C und hat bei Abschluss dieser Ar beit den Status einer Empfehlung W3C Recommentation Zus tzlich zu RDF und RDF Schema werden weitere Sprachkonstrukte eingef hrt die es erlauben Ausdr cke hnlich der Pr dikatenlogik zu formulieren Die OWL Spezifikation http www w3 org 2004 OWL besteht aus LJ OWL Overview http www w
22. werden die Vate relemente bis hin zum Wurzelelement FSU Jena dar gestellt w hrend darunter all diejenigen Individuen der Ontologie angezeigt werden die organisatorisch der ak tuellen Ebene untergeordnet sind In Abbildung 19 sind dies vor allem die Lehrst hle bzw Professuren des Jnsti tutes f r Informatik Es werden dem Nutzer nur die n chst folgenden Elemente der Unterebene gezeigt da eine Dar stellung der kompletten Sub Taxonomie zu viel Platz im Friedrich Schiller Universit t Jena Fakult t f r Mathematik und Informatik O Eee e Lehrstuhl f r Bioinformatik Lehrstuhl Digitale Bildverarbeitung Lehrstuhl f r Datenbanken und Info Lehrstuhl f r Rechnerarchitektur und Lehrstuhl Theoretische Informatik Al Lehrstuhl Theoretische Informatik K Lehrstuhl f r Softwaretechnik Biosystemanalyse Professur Technische Informatik II Professur f r Praktische Informatik H Professur f r Betriebssysteme und P Professur f r Praktische Informatik T Professur Technische Informatik I Fachschaft Informatik Bioinformatik Fachschaft Abbildung 19 Beispiel einer generierten Taxonomie Web Interface beanspruchen w rde Der Nutzer kann bei Beibehaltung des Suchwortes in der dargebotenen Taxonomie navigieren indem er auf den Namen des gew nschten neuen Bereiches klickt Friedrich Schiller Universit t Jena Wurzel Element gehoert_zu F
23. Cache gehaltenen Dokumententeiles cachedSize verwendet da diese f r fast alle Treffer zur ckgegeben werden und f r eine Beschreibung einer Webressour ce ausreichend sind Bei Bedarf k nnen weitere Result Elemente aufgenommen werden wie z B der Host Name hostName oder die Kategorie der von Google gef hrten Open Directory Categories directoryCategory 62 Siehe Listing 15 63Der URL wird schon bei der Instanzierung ebenfalls mit verwendet 64 Siehe Google 8 Erstellen der Ontologie 45 8 Erstellen der Ontologie Bevor die Suchtreffer mit mehr Semantik aufbereitet werden k nnen muss eine geeigne te Ontologie f r dieses spezielle Problem erstellt werden In Sonto soll diese Ontologie die Basis der erweiterten Suche darstellen und das Verhalten der Web Anwendung bestim men In der Ontologie sollen diejenigen Informationen untergebracht werden die f r die Zuord nung einzelner Webressourcen zu einer Ebene der konkreten Universit tsstruktur ben tigt werden Z B soll eine Institutsseite als solche erkannt und einer Fakult t als bergeord nete Instanz zuordenbar sein An dieser Stelle muss berlegt werden welche Strukturen der FSU Jena sinnvoll f r die Aufgabe sind und welche daf r weniger relevant sind Die berlegung f hrt zu dem Schluss dass eine 1 1 Modellierung der kompletten und detail lierten Universit tsstruktur kaum der Aufgabe entspricht Die Ontologie w re damit zwar vollst ndig und universell eins
24. Da ein CMS zumeist von Fachleuten programmiert wird und finanziell eine erhebliche Investition bedeutet ist es dem Autor unverst ndlich dass diese Designschw chen auftreten und dass die Organisationen das Problem nicht erkennen Abschlie end bleibt zu diesem Thema Suchraumeinschr nkung festzuhalten dass die Pro bleme durch unterschiedlichen URLs f r dieselbe Homepage nicht vollst ndig gel st wer den konnten Vor allem unterschiedliche Dom nen mit unterschiedlichen Pfadangaben zu einer Homepage stellen ein gro es Problem dar Da dies jedoch auf fragw rdige Websei tenstrukturen der jeweiligen Bereiche beruht soll die daraus entstehende Ungenauigkeit bei der Sonto Suche nicht dem System selbst zu Lasten gelegt werden Eine saubere und dem URI Konzept entsprechende Webseitenstruktur w rde diese Probleme im Ansatz ver meiden Vielleicht gibt diese Arbeit an richtiger Stelle ein Ansto f r ein Umdenken der verantwortlichen Webmaster 10 3 Erweitertes Information Retrieval In Sonto kommt bei Bedarf ein erweiterter Information Retrieval Ansatz zum Einsatz Schl gt eine Zuordnung wie in Abschnitt 10 1 beschrieben fehl werden die Suchtreffer analog zur Google Trefferliste ohne weitere Semantik bez glich der Ontologie angezeigt Sonto sollte hierf r aber eine alternative L sung bieten Es wurde untersucht welcher al ternative IR Ansatz ad quate Informationen ber die jeweilige Web Ressource extrahieren kann Dieser Ansatz soll d
25. Domain Namen Struktur sein die sich im Laufe der Zeit angepasst oder ver ndert hat Ein konkretes Beispiel hierf r sind die Alias Namen minet uni jena und informatik uni jena welche im DNS f r den gleichen Web Server eingetragen sind auf dem die Homepage der Fakult t f r Mathematik und Informatik hinterlegt ist 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 61 Um dieses Problem in den Griff zu bekommen musste f r Sonto eine geeignete L sung gefunden und umgesetzt werden In dem folgenden Unterabschnitt wird eine Teill sung des Problems n her erl utert 10 2 2 Behandlung multipler URLs und der Verzeichnisstrukturen Um trotz unterschiedlicher Dom nen Namen f r denselben Bereich die volle von dem Google Server bereitgehaltene Treffermenge zu erhalten wurde versucht das site Kon strukt mehrfach anzuwenden Obwohl in Google darauf hinweisen wird dass diese An gabe nur einmal pro Suchanfrage ber cksichtigt wird zeigte dieses Vorgehen den ge w nschten Erfolg Google ber cksichtigte alle angegebenen Dom nen Namen und erlaubt so einen Zugriff auf den gesamten indizierten Seitenbestand zu einem bestimmten Web Server Bereich Bedingung f r eine korrekte Funktionsweise ist jedoch die Angabe des booleschen Operators OR zwischen den jeweiligen site Konstrukten Um mehrere URLs ber cksichtigen zu K nnen wurde bereits in der Ontologiedefinition selbst die M glichkeit geschaffen mehrere URLs f
26. Elemente wird ebenfalls durch die Analyse des Individuum Arrays erm glicht dessen Ergebnis der eigentlichen Taxonomie angehangen wird Wie Abbildung 20 zeigt wird die Taxonomie allein durch die Beziehungen die auf die ObjectProperty gehoert_zu beruhen aufgebaut An dieser Stelle wird die in Abschnitt 8 5 geforderte Notwendigkeit f r die Angabe eines Wertes f r die gehoert_zu Eigenschaft deutlich Zur Generierung der Taxonomie wird serverseitig in dem Skript search php5 die Objekt Eigenschaft TaxoHTML der CONTROL Klasse aufgerufen Die Eigenschaft enth lt die fertig generierte Taxonomie in einer f r das Web Interface aufbereiteten Form und braucht nur noch an der gew nschten Stelle eingef gt werden F r die Generierung der Taxonomie ist die Methode gerTaxo der CONTROL Klasse ver antwortlich die bereits w hrend der Instanzierung einer CONTROL Objektinstanz aufge rufen wird Nach Abarbeitung der Methode enth lt die Eigenschaftsvariable TaxoHTML die Taxonomie in Form eines formatierten Strings 10 5 Unscharfe Suche zur Suchraumerweiterung Die Webseitenstruktur der FSU Jena machte es in einigen EEE F llen notwendig die gew hlte Sucheinschr nkung un rehulee far Methemetie und Informed h rfer 8 zu formul dd hlte Such H sch rfer zu formulieren und die zuvor gew hlte Suc Lehrstuhl f r Bioinfor Dik raumeinschr nkung teilweise wieder r ckg ngig zu ma Lehrstuhl Digitale Bildverarbeitung
27. Informationen im Web abgelegt werden Babiak identifiziert einige Hauptursachen f r Probleme bei der heutigen Informationssuche im WWW Bab01 S 3 ff LI Gr e Die wahre Gr e der ber das Internet zug nglichen Informationsmenge hat heute ein gigantisches Ausma angenommen so dass des fteren sogar von einer Inflation der Information die Rede ist Die genaue Anzahl der Webdokumente ist unbekannt und kann nur gesch tzt werden So deckt z B Google nach eigenen Angaben einen Bestand von ber acht Billionen Webseiten ab Da Information nicht nur aus Webseiten sondern oft aus Datenbankbest nden die via Web Schnittstelle abgefragt werden k nnen das sog Deep Web zur Verf gung stehen liegt die wahre Zahl der insgesamt zug nglichen Information um ein vielfaches h her I Organisation Da das Internet keiner zentralen Kontrolle unterworfen ist existiert auch kein Gesamtkatalog aller Inhalte im Internet 1 Strukturierung Die Form der im Netz bereitgestellten Informationen reicht von kur zen Texten oder ganzen Seiten mit integrierten Grafiken bis hin zu gro en Datenban ken Diese verschiedenen Arten der Ver ffentlichung existieren nebeneinander und bieten keinen einheitlichen Ansatz f r eine gezielte Suche L Dynamik T glich kommen tausende Inhalte hinzu andere werden gel scht ver n dert oder an eine andere Stelle verschoben I Qualit t Der bereits erw hnte inflation re Charakter der Informationszun
28. Instanzen einer Klasse angelegt und die durch die Properties zuvor bestimm ten m glichen Attributwerte ausgef llt werden Es wird an dieser Stelle auch von Wis sensakquise gesprochen da das Anlegen von Instanzen eine konkrete Realisierung eines Wissensbereiches anhand einer zuvor definierten leeren Ontologie entspricht Hinter 27 Es sei hier auf die Kurzstudie Tie03 verwiesen Der Leser erh lt dort auf knapp 20 Seiten einen ersten groben berblick ber existierende Software Tools zum Ontologiemanagement 28 Homepage des Prot g Projekts http www protege standford edu 29 Jena2 ist eine Open Source Java Framework API speziell fiir SW Applikationen und stammt aus den Labors von Hewlett Packard http jena sourceforge net 4 Wissensbeschreibung durch Ontologien 27 dem Forms Konzept verbirgt sich die Absicht die Wissensakquise ber spezielle Formu lare zu steuern und zu erleichtern Dem Entwickler steht es frei die verschiedenen Teile der Eingabeformulare nach eigenen Vorstellungen auf der Oberfl che zu arrangieren Teile zu verbergen oder bestimmte Feldrestriktionen zu definieren Der Entwickler kann damit schon im Vorfeld Einfluss darauf nehmen wie genau die eventuelle sp tere Wissensakqui se zu erfolgen hat Eifsu jena Prot g 3 0 file C Programme Apache2 htdocs artusweb de SontoX ontolag D x Fie Edit Project OVL Wizards Code Window Help Jambalaya TGVizTab d eS g
29. Mechanismen und Strategien welche sie zur Erbringung ihres Services einsetzen Im Folgenden soll ein grober berblick ber die grundlegenden Konzepte und Eigenhei ten der verschiedenen angebotenen Suchdienste gegeben werden Eine umfassende Vor stellung der gesamten Funktionsweise der verschiedenen Suchstrategien soll im Rahmen dieser Arbeit nicht geboten werden Hierzu sei ber die angebotene Literatur hinaus auf die zahlreichen im Netz verf gbaren Ausarbeitungen Spezifikationen und Dokumentatio nen zum Thema verwiesen 3 Das Buch von Gl ggler G1503 bietet hier z B einen ersten Einstieg 2 Suchdienste im World Wide Web 6 2 1 Grundtypen von Suchdiensten Wer im WWW recherchiert hat heute die Qual der Wahl zwischen einer Vielzahl von Suchdiensten verschiedenster Anbieter Um einen berblick ber die verschiedenen Arten der Datenbeschaffung Aufbereitung und Darbietung zu erhalten ist eine Einteilung der Suchdienste in drei Grundtypen empfehlenswert G1603 S 1 11 1 Suchmaschinen bieten eine sog Volltextsuche auf einen zuvor automatisch erfass ten und automatisch indizierten Seitenbestand auch indexbasierte Suche genannt d h ein zuvor vom Nutzer eingegebenes Suchwort wird mit einer Schl sselwortlis te verglichen Daraufhin werden die Links aller Webseiten f r die die gesuchten Schl sselw rter als relevant eingestuft wurden in einer nach Relevanz gestaffel ten Rangordnung angezeigt Ein prominent
30. Stelle f r die Google Suchfunktion doGoogleSearch ein kom pletter SOAP Nachrichtenaustausch dargestellt werden Dieses und weitere Beispiele wer den mit dem Google APIs Developer s Kit bereitgestellt lt xml version 1 0 encoding UTF lt SOAP ENV Envelope xmlns SOAP envelope xmlns xsi http www w3 org xmlns xsd http www w3 org lt SOAP ENV Body gt lt nsl doGoogleSearch xmlns nsl SOAP ENV encodingStyle h encoding gt gt ENV http schemas xmlsoap org soap 1999 XMLSchema instance 1999 XMLSchema gt urn GoogleSearch ttp schemas xmlsoap org soap lt key EE lt q xsi type xsd string gt Web technologien site uni jena de lt q gt lt start xsi type xsd int gt 0 lt start gt lt maxResults xsi type xsd in lt filter xsi type xsd boolea lt restrict xsi type xsd stri lt safeSearch xsi type xsd boo t gt 10 lt maxResults gt n gt true lt filter gt ng gt lt restrict gt lean gt false lt safeSearch gt lt lr xsi type xsd string gt lt 1lr gt lt ie xsi type xsd string gt latinl lt ie gt lt oe xsi type xsd string gt latinl lt oe gt 48 Siehe http www google com apis api_terms html 20 21 20 21 22 23 24 25 26 27 28 29 30 31 32 5 Web Services 36 lt ns lt SOAP lt SOAP 1 doGoogleSearch gt ENV Body gt ENV Envelope gt Listing 10 doGoog
31. Systemkomponenten anhand der Verzeichnis und EB m Dateistruktur zu werfen Dadurch soll ein besseres i GE lib Verst ndnis der noch vorzustellenden Techniken im OE Hinblick auf den Ort ihrer Umsetzungen erreicht wer den Abbildung 15 zeigt die Verzeichnis und Datei struktur des Sonto Systems wie sie in der fertigen E Anwendung auf dem Web Server vorzufinden ist CONTROL class GAPI class INQUIRY class NUSOAP class OWLP class RESOURCE class ontology E m im J Iw m m Das Verzeichnis lib stellt die Klassenbibliothek dar und beinhaltet alle sechs PHP Klassendefinitionen die in Sonto verwendet werden Welche Klasse da bei welche Funktionalit ten bereith lt wird in den kommenden Abschnitten n her erl utert ED html oi img i E fsu jena owl about html adv_search php5 Alle f r die Ontologie relevanten Dateien sind unter i i analyse php5 dem Verzeichnis ontology angeordnet Hierzu z hlt Prot g erzeugte HTML Prisentation gt Unterverzei F favicon ico auBer der Ontologie fsu jena owl selbst eine mit config php chnis html und die momentan an dieser Stelle unter ms index html gebrachten Bilder die einigen Individuen zugeordnet H El info phpS 5 search php5 i style css wurden Unterverzeichnis img Die Datei search php5 stellt das Zentrum der Weban wendung dar in der letztendlich alle Faden zusam menlaufen und mit welcher der Nutzer per Browser i
32. Verwendung von RAP das Problem des OWL Parsers effizient l sen und zus tzliche Funktionalit ten wie z B die jetzt schon von RAP unterst tzte RDF Query Language RDOL und ein Schlussfolge rungssystem inference engine bereitstellen 9 1 Entwicklung eines eigenen OWL Parsers Ein OWL Parser soll die Analyse der in OWL kodierten Ontologie vornehmen und die Informationen dem Sonto System in einer strukturierten Form bereitstellen PHP stellt ab der Version 5 eine vereinfachte Methode zur XML Verarbeitung zur Verf gung Es handelt sich dabei um einen Satz an Funktionen die einen effizienten Zugriff auf die Daten einer XML Datei erm glichen Die zentrale Funktion ist dabei simplexml_load_file welche als Parameter den Pfad zu einer XML Datei erwartet und diese einliest this gt xml object simplexml_load_file string Sowl_file Nach Abarbeitung obiger Programmzeile ist mittels einfacher Methoden ein objektori entierter Zugriff auf die Elemente der XML Datei ber die Objekt Variable this gt xml m glich Es wird hierdurch nicht nur ein Zugriff auf die Daten in einem geklammerten Elemente Tag sondern auch auf die einzelnen Attribute eines Tags erm glicht Weiterhin wird zus tzlich eine Unterst tzung des Namensraums bereitgestellt F r eine komplette Analyse der Ontologie ist eine komplexe und umfangreiche Abarbei tung der Elementestruktur der XML Datei erforderlich Schwierigkeiten bereiteten hier vor allem die unt
33. anderen Webseiten deren Linkstruktur nun ebenfalls analysiert wird Das Ergeb nis ist eine gro e Menge von URLs die in einer Datenbank abgelegt werden Ein Webrobot ist demnach f r die Erfassung von neuen und ver nderten Ressourcen im Netz zust ndig LI Die Indexing Software bildet aus den registrierten Seiten eine Datenstruktur die effizient durchsucht werden kann Dazu m ssen relevante Aspekte einer Webseite extrahiert werden Die entsprechenden Informationen k nnen beispielsweise Seiten inhalt Metatags oder Hyperlinkstrukturen liefern Die automatische Analyse und in haltliche Bewertung erfolgt durch sog Information Retrieval Systeme IR Systeme Ergebnis ist eine der Webseite zugeordnete Schl sselwortliste Alle gewonnenen Schl sselwortlisten werden dann zusammengefasst und invertiert So entsteht ein Index invertierter Index der f r ein bestimmtes Schl sselwort auf diejenigen Web seiten verweist f r die dieses Schl sselwort als relevant eingestuft wurde LI Die Search and Ranking Software bearbeitet die Suchanfragen und bernimmt eine eventuell sortierte Ausgabe der Suchtreffer Um eine hohe Relevanz der Suchtreffer zu gew hrleisten Kommen hier von Anbieter zu Anbieter unterschiedliche Techni ken zum Einsatz Zu den wohl bekanntesten Ans tzen auf diesen Gebiet z hlt der PageRank Algorithmus von Google der ein wesentlicher Bestandteil des Erfolgs rezeptes von Google war und ist ber die oben genannten Komponent
34. anyURI gt Bezogen auf die Aufgabenstellung 8 Erstellen der Ontologie 50 http www2 uni jena de svw devpsy lt Homepage gt lt Inhaber rdf datatype http www w3 org 2001 XMLSchema string gt Rainer K Silbereisen Dr phil lt Inhaber gt lt gehoert_zu rdf resource Institut_f r_Psychologie gt lt Lehrstuhl gt Gree Listing 18 Auszug aus der Individuen Definition fsu jena owl In Listing 18 wird am Beispiel des Lehrstuhles fiir Entwicklungspsychologie die durch Prot g generierte entsprechende XML Kodierung einer Individuen Definition in der On tologie gezeigt Das 6ffnende Lehrstuhl Tag Zeile 2 macht deutlich dass es sich um eine Klasseninstanz der zuvor definierten Lehrstuhl Klasse handelt Der Wert fiir das Attribut rdf ID stellt den Bezeichner der Instanz dar Abschlie end zum Thema Wissensakquise soll darauf hingewiesen werden dass sich der ben tigte Aufwand f r die Aufnahme aller Daten als unerwartet hoch erwies und daher nicht untersch tzt werden darf 8 4 Ontologiepflege Um zu garantieren dass Sonto nur korrekte und aktuelle Zuordnungen und Daten anzeigt ist eine gewisse Aktualit t der Ontologie notwendig Es liegt in der Natur des WWW dass Webseiten bzw ihre Strukturen sich schnell ndern Um diese sich ver ndernden Gegeben heiten m glichst rasch erfassen zu k nnen muss die Ontologie in gewissen Zeitabst nden auf Korrektheit und Konsistenz hin b
35. http www w3 org TR 1999 REC rdf syntax 19990222 8 http www w3 org 2001 sw RDFCore 3 Semantic Web 16 d Ressourcen Resources Alle Entit ten in RDF sind Ressourcen Dies kann z B eine gesamte Webseite oder ein Element aus einem HTML oder XML Dokument sein Wichtig ist hierbei dass Objekte nur dann zu den Ressourcen z hlen wenn sie mit einem URI beschrieben werden k nnen Es m ssen nicht zwangsl ufig im Inter net erreichbare Objekte sein eine Zeitschrift oder ein Buch ist ebenfalls denkbar I Eigenschaften Properties Die Ressourcen sind durch spezielle Eigenschaften de finiert und beschrieben Diese Eigenschaften k nnen durch Randbedingungen ge nauer spezifiziert werden Eine Eigenschaft ist somit ein spezieller Aspekt ein At tribut oder eine Beziehung die eine Ressource beschreibt oder besitzt I Beschreibungen oder Aussagen Statements Eine Ressource in Kombination mit einer namentlichen Eigenschaft und dem Wert f r diese Eigenschaft bildet eine Aussage Dies geschieht indem man Tripel aus Subjekt Ressourcen Pr dikaten von Eigenschaften und Werte Objekte bildet Ein Objekt kann eine Ressource URI oder ein sog Literal ein String sein Pr dikat Objekt Abbildung 3 Das RDF Dreigespann Ein Statement beginnt mit einem Subjekt gefolgt von einem Pr dikat und dem abschlie Benden Objekt SPO Notation Dieses Dreigespann bildet das RDF Grundger st siehe Abbildung 3 Es gibt drei unte
36. im Hinblick auf Kodierungsstandards und konzeptuelle Modellierung gepr ft werden Die konkrete Umsetzung einer Ontolo gie erfordert dabei ein hohes Ma an Recherchearbeit um die f r die Aufgabenstellung relevanten Universit tsstrukturen zu identifizieren und zu formalisieren Weiterhin muss eine m glichst stabile L sung f r die Erhaltung einer Datengrundlage auf der die erwei terte Suche aufsetzen kann gefunden werden Hierzu sind eine Betrachtung der prinzipiell m glichen Varianten und deren Einsatztauglichkeit notwendig Flexibilit t und Stabilit t sollen hierf r zwei wichtige Entscheidungskriterien darstellen Die zentrale Herausforde rung dieser Arbeit ist die Verbindung von Ontologie und Suchmaschine Folgende Frage l Auf den folgenden Seiten wird f r den Begriff World Wide Web je nach Kontext synonym auch Netz oder Web verwendet Einleitung 2 stellung steht dabei im Mittelpunkt Wie kann das in der Ontologie formal gefasste Wissen ber die Universit tsstruktur f r eine semantische Aufbereitung des Suchergebnisses einer konventionellen Suchmaschine eingesetzt werden Obwohl die zugrunde liegenden Technologien schon seit einigen Jahren zur Verf gung stehen betritt eine m gliche Umsetzung der Anforderungen weitgehend Neuland Theore tisch ist der Wunsch nach einer semantischen Kennzeichnung der Suchtreffer schon einige Zeit im Gespr ch konkrete Umsetzungen auf diesem Gebiet sind jedoch kaum anzutref
37. mittleren PHP Anwendungen zu keiner sp r baren Performanceeinbu e F r die Implementierung wurde sich daher f r die Program miersprache PHP in der Version 5 entschieden Dabei wurde auf eine m glichst konse quente objektorientierte Umsetzung des gesamten Sonto Quelltextes geachtet um eine eventuelle sp tere Implementierung in eine andere Programmiersprache weitestgehend zu erleichtern 7 Beziehen der Datengrundlage Der Ausgangspunkt f r die Beschaffung einer Datengrundlage liegt in einer Suchabfra ge bei einer der vielz hligen im Web vertretenen Suchdienste Als Datengrundlage wird der Datenbestand einer Suchmaschine verstanden und zwar speziell der Teil der bei ei ner Suchanfrage dem Nutzer im Web Interface der Suchmaschine angezeigt wird Bei der 50 Siche MS04 S 1079 ff 5 Projekthomepage von PHP http www php net 5 Vgl Kra04 S 25 und S 272 ff Z Beziehen der Datengrundlage 39 Nutzung der durch eine Suchmaschine indizierten Datenbasis ergeben sich erhebliche Erleichterungen f r die Weiterverarbeitung der Daten Konkret kann von Folgendem aus gegangen werden J Der URL eines Treffers ist g ltig d h die URL Syntax entspricht der vereinbarten Norm Eine berpr fung der URLs Validierung auf ihre syntaktische Korrekt heit hin vor einer Weiterverarbeitung kann daher entfallen l Die URL Existenz ist mit gro er Wahrscheinlichkeit gegeben da alle erhaltenen URLs von der Suchmaschine vor ku
38. nden keinen Zugang zu der WWW Technologie Selbst in einem reichen Land wie den USA hat ca ein Drittel der Bev lkerung keinen Anteil an dem technologischen Fortschritt des WWW Vgl Wei01 S 15 ff Dies sollte nicht vergessen werden wenn von dem globa len Siegeszug des WWW die Rede ist 2 Suchdienste im World Wide Web 5 Will man jedoch heute die volle angebotene Informationsmenge nutzen so gestaltet sich dies zunehmend schwieriger Oft wird in diesem Zusammenhang von einem Problem des WWW hervorgerufen durch eine inflation re Situation des Informationsangebotes Information Overload gesprochen Hierbei von einem Problem zu sprechen ist zwar inhaltlich nicht falsch hinterl sst aber den Eindruck dass das heutige WWW in sich feh lerhaft sei Unbestritten hat das exponentielle Wachstum des WWW zur Folge dass es f r uns Menschen unm glich geworden ist alle Informationen zu erfassen oder die f r einen selbst relevanten Informationen in ad quater Zeit berhaupt zu finden Es muss je doch beachtet werden dass das WWW sich st ndig weiterentwickelt und expandiert Die Eigendynamik ist dabei die Triebkraft seines Erfolges Die dadurch resultierenden wenn auch momentan unbeherrschbaren Informationsmengen stellen dabei kein eigentliches Problem des WWW dar sondern sind vielmehr eine logische und auch gew nschte Kon sequenz der Philosophie des Webs Jeder kann Informationen bereitstellen Es gilt nun ein neues Ka
39. oder einfach fehl am Platz Nichtsdestotrotz wurde diese Funk tionalit t in Sonto aufgenommen da fehlerhafte oder fehlende Annotation keine System schw che von Sonto darstellen sondern in den Verantwortungsbereich der jeweiligen Webautoren fallen Umsetzung der alternativen Meta Tag Analyse Um diese Informationen zu erhalten ist ein Parsen der Webseiten n tig wobei obiges Performance Problem erneut zu Tage tritt Passenderweise existiert unter PHP die Funk tion getMetaTags die die Meta Tags einer Webseite ausliest und den Inhalt in einem 83 Es sei hier auf den Abschnitt Suchmaschinen im Teil I dieser Arbeit verwiesen bei dem die Schwie rigkeiten der automatischen Analyse von Webseiten beschrieben wurden Das Gleiche trifft auch hier zu 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 65 assoziativen Array bereitstellt Da diese Funktion einzig den Header jeder Webseite aus lesen muss erwies diese sich als relativ schnell Eine gewisse Verz gerung wenn auch eine recht geringe tritt dabei jedoch trotzdem auf Weiterhin kann es vorkommen dass lange Antwortzeiten der jeweiligen Web Server dazu f hren dass die gesamte Sonto Ergebnisseite sich mit einer gro en Verz gerung im Browser des Nutzers aufbaut da die Webseite erst vollst ndig vom Web Server generiert werden muss bevor sie bertragen wird Zur L sung dieses Problems werden die Meta Tag Informationen in einem in der search php5 Websei
40. on automatisch und v llig autonom eigene Schl sse und Ableitungen ber die enthaltenen Daten einer Webressource und deren Bedeutung zu ermitteln Wenn es gel nge k nftig WWW Dokumente konsequent mit semantischen maschinen lesbaren Metadaten anzureichern so w re der Weg frei f r eine Nutzung von Compu tern bei der Gewinnung von Informationen aus dem WWW Die Webseiten w ren dann nicht nur f r eine menschliche Auswertung geeignet sondern zus tzlich erm glicht ein semantisches Netz ein maschinelles Verstehen und Auswerten der Daten Ein Compu terprogramm wird dadurch in die Lage versetzt das WWW schnell und effizient v llig selbstst ndig zu analysieren und k nnte den Menschen dabei eine Menge an Arbeit abneh men Letztendlich k nnte das WWW sein volles Potenzial aussch pfen und ein Medium mit heute noch ungeahnten M glichkeiten bieten Welches Potenzial ein SW entfalten kann wird anschaulich in dem Artikel BHLO1 anhand eines Einsatzszenarios eines Web Agents beschrieben Die heutige Darbietung der Information im WWW ist nicht dazu in der Lage eine automa tische Auswertung im Hinblick auf die Bedeutung der Daten zu erm glichen Zusammen fassend sind die wichtigsten Hindernisse f r eine automatische semantische Auswertung nachstehend aufgef hrt LI Webseiten werden haupts chlich in HTML verfasst HTML strukturiert die Infor mation im Hinblick auf die sp tere Darstellung wobei beschrieben wird wie etwas dargeste
41. owl ObjectProperty rdf ID geschlecht rdf type http www w3 0r9 2002 07 owl FunctionalProperty gt lt rdfs range rdf resource Geschlecht gt lt rdfs domain rdf resource Person gt lt owl ObjectProperty gt lt owl DatatypeProperty rdf ID Abteilung gt lt rdfs range rdf resource http www w3 org 2001 XMLSchema string gt lt rdfs domain rdf resource Abteilung gt lt owl DatatypeProperty gt ER Listing 6 OWL Property Definition Nach der Klassendefinition ist es nun m glich davon abgeleitete Elemente Individuen zu definieren Der einfachste Weg dies zu tun zeigt Listing 7 oN un Nde 4 Wissensbeschreibung durch Ontologien 25 Wo lt Person rdf ID Max Mustermann gt Bersomer elta S ue WE e esto sn lt geschlecht rdf resource weiblich gt lt Abteilung rdf datatype http www w3 org 2001 XMLSchema string gt Rechnungswesen lt Abteilung gt lt Person gt a Listing 7 OWL Individual Definition Obige Definitionen stellen das Grundgeriist eines OWL Dokumentes dar OWL stellt dar ber hinaus eine Vielzahl von komplexen und erweiterten Modellierungsm glichkeiten bereit die hier im Detail nicht alle behandelt werden k nnen Stellvertretend seien einige der erweiterten OWL Sprachmittel genannt 4 4 Durch die Definition sog Eigenschaftsmerkmale werden erweiterte Schluss
42. wird untersucht ob ein Hompage Wert aus der Ontologie eine Teilmenge der URL eines Suchtreffers darstellt Ist dies der Fall wird das jeweilige Individuum der We bressource zugeordnet Da dies f r jede Webressource und ber alle URLs der Ontologie erfolgt sind auch Mehrfachzuordnungen m glich Die Funktionalit t wird ber die mapHomepage Methode der CONTROL Klasse bereit gestellt Die Methode mapHomepage erwartet als Argument einen URL und wird in der Methode gerResults f r jeden Suchtreffer ausgef hrt Listing 21 Zeile 5 public function getResults a foreach this gt INQUIRY gt Resources as Resource Ce Sxhtml string S Sthis gt mapHomepage string Resource gt url Listing 21 Aufruf von mapHomepage in getResult Der R ckgabewert der getResults Methode enth lt den XHTML Quelltext der die Tref fer und die eventuell zugeordneten semantischen Erweiterungen in einer fiir den Browser aufbereiteten Form Abb 16 rechts enth lt 10 2 Einschr nkung des Suchraumes Die meisten Suchmaschinen bieten die M glichkeit die Suche auf eine bestimmte Dom ne zu beschr nken Auf einer Optionsseite muss daf r der entsprechende Dom nen Name in ein Formular eingetragen werden In Sonto wird der Nutzer von dieser M he befreit da die Angabe der entsprechenden Do m ne bei jeder ausgel sten Suchraumeinschr nkung automatisch vorgenommen wird Der konkrete Mechanismus der Suchraume
43. zu s tzlicher Information und Benutzerfreundlichkeit jedoch zeigen sie sich ebenso anf llig in Bezug auf die schon weiter oben besprochenen zahlreichen Probleme bei der Websu che Kritisch sei hier bemerkt dass sowohl Kartoo als auch der TouchGraph sich von der reinen Markupsprachen Darstellung via HTML entfernt haben F r Kartoo wird ein Flash Player Plugin f r den Browser ben tigt und f r den TouchGraph ber die Javascript Funk tionalit t hinaus eine Java Runtime Environment JRE1 3 da der Google Aufsatz ein Java Applet im Browser ausf hrt Diese zus tzlichen technischen Anforderungen an den 10 Siehe http www google com help features html related 3 Semantic Web 11 Benutzer Rechner bzw Browser werden die Akzeptanz dieser Suchdienste wohl kaum steigern k nnen Obwohl mit Sicherheit das Potenzial mit Blick auf die visuelle Darbietung der heutigen Suchmaschinen noch nicht vollends ausgesch pft ist scheint die Entwicklung doch auf der Stelle zu treten Zur L sung dieses Dilemmas m ssen die Voraussetzungen ge ndert wer den Es muss zus tzlich zu den schon vorhandenen Webseiten Daten ber die Semantik der Inhalte in einer einheitlichen standardisierten Form hinterlegt werden Der Computer der heute beim Surfen im WWW zumeist nur noch zu einer blo en bertragungs und Anzeigemaschine degradiert wurde k nnte seine eigentlichen St rken das Rechnen und logische Verarbeiten durch Auswertung dies
44. 04 Fer03 FHLW03 Gil01 G1603 Google GS05 R Anderson M Birbeck M Kay u a XML professionell MITP Verlag Bonn 2002 G Antoniou F Harmelen A Semantic Web Primer The MIT Press Cam bridge Massachusetts 2004 U Babiak Effektive Suche im Internet O Reilly Verlag K ln 2001 M K Bergman The deep Web Surfacing Hidden Value Journal of Electronic Publishing from the University of Michigan July 2001 http www brightplanet com technology deepweb asp T Berners Lee Weaving the Web the original design and ultimate destiny of the World Wide Web HarperCollins Publischers Inc New York 1999 T Berners Lee Semantic Web Road map A road map for the future an architectural plan untested by anything except thought experiments http www w3 org DesignIssues Semantic html 1998 T Berners Lee J Hendler O Lassila The Semantic Web Scientific Ame rican 284 5 2001 34 43 S Brin L Page The Anatomy of a Large Scale Hypertextual Web Search Engine 1998 http www db stanford edu pub papers google pdf W Dostal M Jeckle Semantik und Web Services in JavaSPEKTRUM 4 2004 http www javaspektrum de R Ferber Information Retrieval Suchmodelle und Data Mining Verfahren fiir Textsammlungen und das Web dpunkt verlag GmbH Hei delberg 2003 D Fensel J Hendler H Lieberman W Wahlster u a Spinning the Se mantic Web Bringing the World Wide Web to its F
45. 3 org TR owl features stellt eine allgemeine Einf hrung dar LI OWL Guide http www w3 org TR owl guide behandelt eine erste Einf h rung anhand von einigen Beispielen LI OWL Reference http www w3 org TR owl ref beinhaltet eine informelle kei ne normative OWL Referenz LI OWL Semantics and Abstract Syntax http www w3 org TR owl semantics stellt die eigentliche und einzige normative Referenz zu OWL dar und ist somit das Hauptdokument der OWL Spezifikation Alle anderen Dokumente haben nur den 23 Das anfangs verwendete korrekte Akronym WOL missfiel den Entwicklern woraufhin sie die Sprache in OWL umtauften Sp ter wies ein Mitglied des Teams darauf hin dass in dem bekannten Kinderroman Winnie the Pooh von Milne die Eule engl OWL selbst ihren Namen immer WOL schrieb In Anlehnung daran war quasi eine nachtr gliche Rechtfertigung der Umbenennung gefunden Quelle http www w3 org 2003 08 owlfaq 24 Siehe http daml org 4 Wissensbeschreibung durch Ontologien 22 Zweck einer Erkl rung um den Einstieg in die Sprache so weit wie m glich zu erleichtern 1 OWL Test Case http www w3 org TR owl test besch ftigt sich mit einigen Testf llen f r die Umsetzung der normativen Spezifikation LI OWL Use Case and Requirements http www w3 org TR webont req gibt einige Beispiele f r Anwendungsf lle von OWL und behandelt allgemeine Anforde rungen einer Ontologie Sprac
46. Etablierung eines Informationsraumes f r die Kommunikation von Men schen ber das Medium Internet Um ber diese blo e Bereitstellung eines Informations raumes hinauszugelangen m ssen als erstes die Daten in einem maschinell auswertbaren machine processible Format vorliegen The first step is putting data on the Web in a form that machines can naturally understand or converting it to that form This creates what I call a Semantic Web a web of data can be processed directly or indirectly by machines Ber99 Il Der Begriff Semantic Web wurde von Berners Lee in seiner Roadmap for a semantic web Ber98 gepr gt vo un WY Be 3 Semantic Web 12 Das World Wide Web Consortium W3C besch ftigt sich schon seit den 90er Jahren mit der Frage der Integration semantischer Metadaten in die Struktur des bestehenden WWW Der SW Begriff wird auf der SW Webseite des W3C wie folgt erl utert Ihe Semantic Web provides a common framework that allows data to be shared and reused across application enterprise and community boundaries It is a collaborative effort led by W3C with participation from a large number ofresearchers and industrial partners It is based on the Resource Description Framework RDF which integrates a variety of applications using XML for syntax and URIs for naming W3Cb Entscheidend ist dass das SW kein neues Web sondern eine Erweiterung des heutigen Webs mit wohl definierten
47. Graphical User Inter face GUI ausgestattete m chtige Entwicklungstool Abb 7 zur Ontologiemodellierung bietet ber einen Ontologieeditor hinaus zus tzlich einen Knowledge Base Editor Prot g ist in Java geschrieben und bietet durch den auf der Jena2 API basierten OWL Plugin eine OWL Unterst tzung Dadurch ist es m glich eine auf OWL basierende Ontologie zu erstellen und zu editieren Weiterhin ist eine Ontologie Validierung schon w hrend der Erstellung selbst m glich wodurch Modellierungsfehler bereits zu Beginn erkannt und damit vermieden werden k nnen Der anfangs noch recht unhandlich wirkende Editor erweist sich nach kurzer Einarbei tungszeit schnell als ein unentbehrliches Hilfsmittel Die Benutzeroberfl che bietet eine Anzahl von Registerkarten mit deren Hilfe die Erstellung bzw das Editieren von Ontolo gien erm glicht wird Hierbei sind die wichtigsten die Registerkarten OWL Classes Pro perties Individuals und Forms F r den Aufbau einer Wissensbasis werden zuerst ber OWL Classes die verschiedenen ben tigten Klassen definiert ber die Properties k n nen die Eigenschaften die eine Klasse bzw eine sp tere Instanz der Klasse haben soll festgelegt werden Da die Klassendefinition zuvor schon umgesetzt wurde kann nun kom fortabel zur Definition des Werte Range und Definitionsbereichs Domain der Property auf die Klassen zugegriffen werden Auf der Reiterkarte Individuals k nnen im Anschluss beliebig viele
48. LA H 0 we KN A gt c m E joo E Te BB lt p Ei prot g 7 Facet Constraints Instances instance Tree Jambalaya XML TGVizTab mm Slots SD owmnciasses Pl Properties D gt individuals Qa Metadata lezom CLASS BROWSER For Project fsu jena Forms Ontoviz INSTANCE BROWSER voL U For Class Institut INDIVIDUAL EDITOR For Individual lt D Institut_f r_Informatik instance of Institut L Anni Class Hierarchy NAME gt YD X Name Sameas DifferentFrom O owl Thing gt Y SYSTEM CLASS Organisation 1 Arbeitsgruppe 1 a E Hii H gt Institut _f r _Informatik Institut_f r_Geschichte_der_Medizin_ gt Institut _f r _Glaschemie_Otto Schott I Institut _f r informatik rdfs comment Institut _f r _Klinische_Pharmakologie Einrichtungen 4 Fachschaft 5 Fakuttat 10 G Institut 48 G Klinik 6 G Lehrstuhl 22 Lehrveranstaltung Mitarbeiter Printmedien 2 Professur 1 Institut _f r _Materialwissenschaft_un ee Institut Or Mikrobiologie gt Institut_f r_Musikwissenschaft_Weim Si Institut _f r _Optik_und_Quantenelektr Anschrift Institut _f r _Organische_Chemie_und gt Institut_f r_Pharmazie gt Institut _f r_Philosophie Institut_fi H HHH HH H H Homepage Physikalische_Chemie
49. Metadaten zur Bedeutungsanreicherung darstellt Das SW soll damit zus tzlich zu den Daten deren Semantik integrieren Berners Lee formuliert die Grundidee kurz und Knapp in einem Satz Ihe Semantic Web is an extension of the current web in which information is given well defined meaning better enabling computers and people to work in cooperation BHLO1 Doch was ist genau unter wohl definierte Bedeutung zu verstehen Am besten macht dies das in Listing 1 gezeigte Gegenbeispiel deutlich lt html gt lt body gt lt hl gt Neu im Programm Computerdenken lt hl gt lt img src Cover gif gt lt br gt lt p gt In diesem Buch zum Preis von nur 39 95 Euro gibt Roger Penrose einen Einblick in die Debatte um k nstliche Intelligenz Bewusstsein und die Grenzen der Physik lt p gt lt a href bestellung cgi id 0815 gt lt img src img bestellen gif alt bestellen gt lt a gt lt body gt lt html gt Listing 1 Quelltext Beispiel einer HTML Webseite Ohne Zweifel enth lt die HTML Seite aus Listing 1 eine Information die durch Verwen dung von HTML Markup Tags strukturiert ist Das Buch Computerdenken ist neu im Programm eines Onlinebuchh ndlers Es werden der Autor der Preis und eine kurze In formation zum Inhalt des Buches gegeben Es stellt sich nun die Frage ob es einen allge meinen Algorithmus gibt der aus obiger Repr sentation der Information den Titel Autor Preis und Inhalt des Buche
50. XMLSchema instance gt lt SOAP ENV Header gt lt un Username xmlns un http www ein beispiel de username SOAP ENV mustUnterstand 1 gt Max Mustermann lt un Username gt lt SOAP ENV Header gt lt soap Body gt lt ausgeben xmlns http www ein beispiel de hallowelt gt lt text gt Hallo Welt lt text gt lt ausgeben gt lt soap Body gt lt soap Envelope gt Listing 8 Beispiel einer einfachen SOAP Nachricht Im Folgenden soll das einfache Beispiel aus Listing 8 kurz genauer betrachtet werden Zeilen 1 5 stellen den HTTP Header dar Da die Nachricht mit HTTP bertragen wurde steht der HTTP Header an erster Stelle 28 In Zeile 6 folgt der erste Bestandteil der SOAP Nachricht Da diese auf XML basiert wird an dieser Stelle das f r XML Dokumente typi sche Einleitungs Tag mit der XML Version und dem Zeichensatz angegeben Die Zeilen 7 20 geben den SOAP Envelope plus eingebetteten Header und Body an welcher zwin gend f r eine SOAP Nachricht erforderlich ist Innerhalb des Envelope Tags folgt die De klaration der ben tigten Namespaces wie z B f r das XML Schema Zeile 8 9 und der 37 Siehe HLO4 S 52 f 38 Siehe MS04 S 745 ff oder in RFC 2516 Hypertext Transfer Protocol HTTP 1 1 5 Web Services 32 SOAP Namespace Zeile 7 selbst Im SOAP Header Zeilen 10 14 stehen meist Infor mationen zur Autorisierung und Authentifizierung des Senders und oder spezielle Steue rung
51. ahme be trifft neben der Quantit t die Qualit t der Angebote Es ist eine Tendenz erkennbar dass die stetige Zunahme der Webinhalte mit einer gewissen Qualit tsminderung ein hergeht Die gro e Konkurrenz hat zur Folge dass viele Webseitenbetreiber lieber eine im Netz bereits vorhandene Informationsquelle neu auf ihren Seiten anbieten als auf die bereits bestehende Seite eines vermeintlichen Konkurrenten zu verwei sen Dadurch werden viele Informationen mehrfach publiziert wobei die Qualit t meist auf der Strecke bleibt I Homonyme und Synonyme Zum einen existieren meist verschiedene W rter die ein und dieselbe Bedeutung haben Synonyme Zum anderen kann ein einziges Wort mehrere unterschiedliche Bedeutungen aufweisen Homonyme Beide F lle erschweren die Analyse der Inhalte einer Webseite zus tzlich LJ Datenformate Gemeint ist hier die Einbettung von Information in Grafiken Java Applets Flash Formate etc Die Suchmaschine ist in diesem Fall regelrecht blind und kann diese Informationen nicht f r eine Auswertung nutzen Vgl hierzu Ber01 2 Suchdienste im World Wide Web 9 l Manipulationsf higkeit Leider kann den in einer Webseite hinterlegten Daten bei einer Relevanzbewertung nur bedingt vertraut werden Die Manipulationsversuche der Webseitenprogrammierer zielen meist auf eine Suchmaschinenoptimierung ab um einen vorderen Platz bei den Suchanfragen zu erhalten Dies f hrt mitunter dazu dass ei
52. akult t f r Mathematik und en seroen zu ee Institut f r Informatik aktuelles Element gehoert_zu ObjectProperty der Ontologie zur Referenzierung eines bergeordneten Individuums Professur f r Betriebssysteme und Programmiersprachen Lehrstuhl f r Rechnerarchitektur und Compilerbau Lehrstuhl f r Bioinformatik Lehrstuhl f r Lehrstuhl Digitale Lehrstuhl f r Datenbanken Softwaretechnik Bildverarbeitung und Informationssysteme Sub Elemente des Institutes f r Informatik Abbildung 20 Beispiel einer zugrunde liegenden Struktur f r eine Taxonomie Die Abbildung 20 verdeutlicht welche Strukturen der gezeigten Beispieltaxonomie Ab bildung 19 zugrunde liegen 85 Der Screenshot in Anhang C auf S 79 zeigt die Einordnung der Taxonomie im Web Interface 86 Hier http www minet uni jena de www fakultaet Die Tatsache dass auch mehrere URLs f r ein Individuum zuordenbar sind soll hier ausgeblendet werden Siehe 10 2 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 67 Umsetzung der Taxonomiegenerierung Zu jeder Suchraumeinschr nkung soll die passende Taxonomie generiert werden Hierzu wird ausgehend von der aktuellen Ebene des Suchraumes die Taxonomie sukzessiv bis zum Wurzelelement aufgebaut Genutzt wird hierf r das nach erfolgreichem Parsen der Ontologie zur ckgegebene Individuum Array des OWLP Objektes Die Bestimmung der Sub
53. al Schrift Hingegen ist keine Aus sage enthalten was genau die inhaltliche Bedeutung der Webseite und ihrer Elemente ist und wie die Inhalte eventuell miteinander in Beziehung stehen Um die Inhalte maschi nell sinnvoll weiterverarbeiten zu K nnen werden zus tzliche Informationen ber deren Bedeutung ben tigt Es stellt sich daher die Frage nach einer zus tzlichen Angabe der Semantik Im n chsten Kapitel wird hierzu eine Erweiterung des WWW vorgestellt die genau dieses Ziel verfolgt 2 4 Herausforderung an die Websuche Bei der Weiterentwicklung von Suchmaschinen sind innovative Ideen gefragt Eine m g liche Frage dabei lautet Wie k nnen die heute schon zur Verf gung stehenden Informa tionen grafisch besser dargestellt werden so dass mit den vorhandenen Daten eine nutzer freundlichere Oberfl che erreicht werden kann Obwohl diese Fragestellung schon lange im Raum steht gibt es auf diesem Gebiet noch recht wenige Umsetzungen Beispielhaft soll hier Kartoo und der Google Aufsatz Touch Graph GoogleBrowser auf gef hrt werden Beide gehen bei der Darstellung der Suchergebnisse eigene Wege und stellen die Verlinkungsstruktur zu anderen Webseiten in den Vordergrund http www kartoo com http www touchgraph com TGGoogleBrowser html 2 Suchdienste im World Wide Web 10 Abbildung 1 a zeigt einen Ausschnitt der Kartoo Oberfl che Die Metasuchmaschine Kartoo ordnet die f r einen Suchbegriff gefundenen Webseite
54. anfrage mit bersendet werden muss Die Nutzung der Google Web APls ist jedoch mit einigen Restriktionen verbunden J Die Anzahl der gestellten Suchanfragen ist auf 1000 pro Tag beschr nkt L Pro Suchanfrage werden max 10 Resultate zur ckgeliefert L Der Anfragestring ist limitiert auf 2048 Bytes und max 10 einzelne W rter 45 Siehe MS04 S 593 46 Zu beachten ist hier dass Google aus Gr nden der Performance nur die ersten 110 KB einer Webressource ausliest und in seinem Cache speichert 47 Den Link zur Online Registrierung findet sich unter http www google com apis index html 1 5 Web Services 35 1 Der max zul ssige Wert von start ber diese technischen Einschr nkungen maxResult betr gt 1000 LJ Pro Anfrage darf der site Term nur einmal verwendet werden hinaus gelten f r den Web Service spezielle Nutzungsrichtlinien So ist z B ausdr cklich nur der Einsatz f r einen pers nlichen und nicht kommerziellen Gebrauch gestattet Tabelle 1 Parameter f r die Google Anfrage Parameter Bedeutung key Lizenzschl ssel q Abfragestring start Start Index des ersten Ergebnisses maxResult Anzahl der Ergebnisse filter Filteranweisung restrict Einschr nkung der Suche safeSearch TRUE wenn die Ergebnisse auch f r Kinder geeignet sein sollen Tr Einschr nkung der Sprache 5 2 3 SOAP Nachrichtenaustausch Beispielhaft soll an dieser
55. ann alternativ ausgef hrt werden wenn die exakte Zuordnung auf Basis der URL keinen Erfolg hatte Die erste Idee bestand darin w hrend der Programmlaufzeit jede einzelne Webressour ce der Trefferdekade zu parsen F r diesen Zweck wurde ein eigener HTML Parser 81 Z B www uni jena de content_page_0815 html 82 Parsen bedeutet in diesem Fall das Analysieren der in HTML oder XHTML geschriebenen Webdokumen te auf ihren Inhalt 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 64 geschrieben der pro Webseite als Information zus tzlich den enthaltenen Text und die wichtigsten Meta Daten zur Verf gung stellt Es zeigte sich dass dieses Vorgehen in einer Sackgasse m ndete Es treten hier die gleichen Probleme auf mit denen die Suchmaschinen zu k mpfen haben Zum einen zeigte sich dass eine Zuordnung einer Webseite auf Basis der Schl sselw rter zu einem Individuum unm glich war Die fehlende Semantik und die teils mangelhafte HTML Programmierung lie en eine Zuordnung nicht zu Zum anderen nahm das Parsen der einzelnen Webseiten zu viel Zeit in Anspruch sodass sich die Gesamtlaufzeit der Pro grammausf hrung unakzeptabel in die L nge zog Weiterhin verfolgt dieser Ansatz genau das Vorgehen der Suchmaschinen Das wirft die Frage auf warum nicht gleich eine ei gene Suchmaschinen Implementierung angegangen wird Dies w re die bessere L sung ist aber nicht das erkl rte Ziel dieser Arbeit Aus dies
56. arbeitung beruht Nach dem Parsen der Ontologie steht der CONTROL Klasse ein komplexes Array mit allen Informationen der Individuen zur Verf gung Listing 20 zeigt an einem gek rzten Auszug ein konkretes Beispiel f r die Struktur des von der Methode getIndividual zur ckgegebenen Arrays Dieses Array beinhaltet alle f r Sonto ben tigten Informationen aus der Ontologie und stellt die Basis f r die weitere Verarbeitung dar Array EE 42 gt Array instanceOf gt Lehrstuhl ID gt Lehrstuhl_f r_Entwicklungspsychologie subElements gt Array 0 gt Array element gt Inhaber value gt Rainer K Silbereisen Dr phil Er E Parr aya lement gt gehoert_zu value gt Institut_f r_Psychologie 8 gt Array lement gt Homepag value gt http www uni jena de svw devpsy Listing 20 Struktur des Individuum Arrays 9 3 Speicherung des Parserergebnisses Es stellt sich die Frage ob und wie das Ergebnis der Ontologieanalyse abgespeichert wer den soll um im Weiteren einen effektiven Zugriff auf diese Informationen zu gew hrleis ten Folgende Alternativen wurden zu Beginn in Betracht gezogen Einmalige Parserausf hrung und Abspeicherung des Ergebnisses im Sekund rspei cher um zur Laufzeit diesen Aufwand einzusparen Parsen bei jeder ausgel sten Anfrage und Bereithalten des Ergebnisses ber den System Hauptspeicher Die erste M g
57. arkup Language 2 2 14 3 2 3 Resource Description Framework 2 2222 20 15 3 2 4 Ontologien Ontology vocabular 18 3 2 5 Wissensverarbeitung Logic 2 2 2 2 2 nn nennen 18 3 2 6 Automatische Beweisf hrung Proof 19 3 27 Vertrauen Sicherheit Trust e 19 4 Wissensbeschreibung durch Ontologien 20 4 1 Die Web Ontology Language aoaaa 21 4 1 1 OWL Sprachebenen a wat a wel ee Sb SG LOR Sl 22 4 1 2 Aufbau einerOWL Datel 24 2m Zee a eg e 23 42 Ontologie Ediloren eG ae 4 ble Bla nd denne re 26 42 1 Das Prowse Projekt zeri mea 3 ar aa Ne Ge nds Oe Ag 26 4 2 2 Plugins f r Prot g EENEG 27 Inhaltsverzeichnis IV 5 Web Services 28 5 1 Das Web Service ProtokollSOAP nn 30 5 1 1 bermittlung der Nachricht 30 5 1 2 Aufbau der Nachricht se ass uns E eg 31 9 1 3 mhaltder Nachricht 22 2 ange a EE eG AE 32 5 1 4 Transportprotokolle 2 2 2 2 un n 32 5 2 Googles Web Service 6 2 2 ya Su s e Eu ae 33 3 221 F nkti nalit ten ur u de der ee 33 5 2 2 Nutzungsbedingungen und Einschr nkungen 34 5 2 3 SOAP Nachrichtenaustausch 35 H Implementierung 37 6 Vorgehensweise 37 7 Beziehen der Datengrundlage 38 7 1 Methode des Screen Scrapings 39 7 2 Nutzung des Googles Web Services 40 7 3 Anfragesteuerung in einer eigenen Anfrage Klasse 44 8 Erstellen der Ontologi
58. bieten die m chtigste M glichkeit zur Modellierung einer Ontologie jedoch bei einer nach oben offenen Komplexit ten Abbildung 6 OWL Sprachebenen von a vu bk ou H Be A H re Cc o A a 4 Wissensbeschreibung durch Ontologien 23 4 1 2 Aufbau einer OWL Datei Eine detaillierte Darbietung des vollen Sprachumfanges ist im Rahmen dieser Arbeit nicht m glich Vielmehr wird im Folgenden der prinzipielle Aufbau einer OWL Datei und wich tiger Sprachelemente besprochen F r eine volle Einarbeitung in das Thema ist ein Studi um der umfangreichen OWL Spezifikation OWL notwendig Beginnend mit der f r XML Dateien notwendigen lt xml version 1 0 gt Angabe folgt in einem ffnenden rdf RDF Tag die Deklaration der XML Namensr ume des verwende ten Vokabulars siehe Listing 3 lt xml version 1 0 gt lt rdf RDE xmlns http www artusweb de SontoX ontology su jena owl xml base http www artusweb de SontoX ontology fsu jena owLl xmlns protege http protege stanford edu plugins owl protege xmlns rdf http www w3 org 1999 02 22 rdf syntax nsi xmlns rdfs http www w3 org 2000 01 rdf schema xmlns owl http www w3 org 2002 07 owl gt Fae Listing 3 XML Namensraum Deklaration Der Ontologie Kopf OWL Header eingeschlossen in dem owl Ontology Element bietet die M glichkeit Angaben ber das OWL Dokument selbst zu formulieren M glich sind hier z B eine B
59. cen Juli 2005 Ehrenwortliche Erkl rung Ich versichere dass ich die vorliegende Arbeit selbstst ndig und ohne unerlaubte Hilfe Dritter verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel verwendet habe Diese Arbeit lag in gleicher Weise noch keiner Pr fungsbeh rde vor und wurde bisher noch nicht ver ffentlicht Jena den 21 Juli 2005
60. che Methoden zur L sung des Datenproblems vorgestellt 7 1 Methode des Screen Scrapings Eine M glichkeit der Datengewinnung besteht darin ein HTTP Request an eine Suchma schine seiner Wahl zu senden und die durch HTTP Response zur ck gelieferte Treffersei 33 Die Spezifikation der URL Syntax ist in RFC 1738 und 1808 standardisiert 34 Abbildung 11 zeigt eine vereinfachte Variante des in Anhang B auf Seite 79 aufgef hrten detaillierteren Sonto Architekturmodells Z Beziehen der Datengrundlage 40 te anhand von HTML Analyseverfahren so zu parsen dass die enthalten Informationen in einer f r die Aufgabenstellung strukturierten Form vorliegen Dieses Vorgehen wird als Screen Scraping Fer03 bezeichnet und bietet eine hohe Flexibilit t in der Benutzung und Anpassung auf individuelle Aufgabenstellungen Wer sich f r diese L sung der Datenge winnung entscheidet muss jedoch zwei grundlegende Einschr nkungen beachten Zum einen muss bei einer nderung welche zuerst als solche erkannt werden muss der Webseitenstruktur des Contentanbieters die Screen Scraping Software auf die neuen Ge gebenheiten hin angepasst werden Dies kann von Fall zu Fall sehr aufwendig sein und viel Zeit in Anspruch nehmen wobei ein Erfolg nicht garantiert ist Zum anderen sehen es einige Suchmaschinenbetreiber nicht gerne wenn automatische Anfragen an ihr Web interface gestellt werden So weist z B Google in seinen Dienstleistungsbedingungen gt da
61. che wird im Weiteren mit Hilfe zweier beispielhafter Suchszenarien berpr ft und analysiert Es folgt eine Bewertung der umgesetzten Websuche im Kontext der Semantic Web Vision Eine Zusammenfassung gefolgt von einer Betrachtung der zuk nftigen Wei terentwicklung und Akzeptanz der bereitgestellten Websuche schlie t den Teil III ab Teill Grundlagen 1 Das World Wide Web Begonnen hat alles Ende der 80er Jahre des vergangenen Jahrhunderts mit einer Idee von Tim Berners Lee der als Vater des WWW angesehen werden kann Seine Vision bestand darin beliebige Informationen so zu verkn pfen dass dadurch ein globaler Informations raum entsteht der es erm glichen sollte bequem auf das Wissen der ganzen Menschheit zuzugreifen Analog zu der uns Menschen gegebenen F higkeit Assoziationen zwischen augenscheinlich nicht zusammenh ngenden Dingen zu bilden sollte es doch m glich sein verschiedene Informationen oder Daten ebenfalls auf diese Art miteinander zu verkn pfen Frei nach der Maxime Das Ganze ist mehr als die Summe seiner Teile k nnte ein solcher Informationsraum bis dahin ungeahnte Anwendungsgebiete entstehen lassen und Zusam menh nge aufdecken die sonst unerkannt geblieben w ren Berners Lees Vision war dass potenziell alles mit allem verkn pft werden sollte wodurch sich ein Netz aus Informatio nen bildet Ber99 Es ist bemerkenswert dass diese futuristisch anmutende Idee aus den fr hen 90er Jah ren des vergan
62. d 10 1 Zuordnung der Suchtreffer zu den Individuen Zuerst wurde sich dar ber Gedanken gemacht wie eine Zuordnung der gelieferten Such treffer zu den in der Ontologie aufgenommenen Individuen m glich ist und wie diese kenntlich gemacht werden kann In Abbildung 16 ist die Darstellung einer gelungenen Zuordnung zu sehen 1 Webtechnologien Klinikum der Friedrich Schiller Universit tJena Anfang Zur ck Weiter Ende Index Homepage Text Folie 29 von 34 Klinisches Medizinische Fakult t Rechenzentrum Bachstra e Internet Ulniversit tsklinikum Jane http www med uni jena de wzi fp2000_praes sld029 htm 6k Klinisches Rechenzentrum Bereich Softwarekoorc 2 Webtechnologien E Fakulest fur Mathematik und Informstik Ziel dieser Vorlesung ist es Webtechnologien vorzustellen deren Hauptzweck P es ist Nutzbarkeit der im WWW angebotenen Information zu steigern bzw http www informatik uni jena de sack WS0405 webtechnologien pdf Abbildung 16 Beispielzuordnung der Individuen zu den Treffern Im Beispiel Abb 16 wurde nach dem Begriff Webtechnologien gesucht Auf der lin ken Seite sind die ersten beiden Treffer der von der Google API gelieferten Trefferliste zu sehen Auf der rechten Seite wird in Sonto eine Zuordnung der jeweiligen Webressource zu den in der Ontologie enthaltenen Individuen mittels Einblendung der jeweiligen Na men angezeigt Wie Treffer eins in Abbildung 16 zeigt sind auch mehrer
63. d Wide Web Consortium SOAP Messaging Framework http www w3 org 2003 REC soap12 part1 20030624 S Tietz Kurzstudie Software zum Ontologiemanagement mit OWL Freie Universit t Berlin amp Humboldt Universit t zu Berlin Berlin 2003 http 141 20 27 87 webportal reports Software 20zum 20Ontologiemanagement pdf Organisation for the Advancement of Structured Information Standards UDDI Spezifikation http www oasis open org committees uddi spec doc tcspecs htm The World Wide Web Commity W3C http www w3c org World Wide Web Consortium Semantic Web Activity des W3C http www w3 org 2001 sw World Wide Web Consortium RDF Vocabulary Description Language 1 0 RDF Schema 2003 http www w3 org TR rdf schema World Wide Web Consortium Web Service Architecture Working Group http www w3 org 2002 ws 15 Literaturverzeichnis 84 W3Ce WB04 Wei01 WSDL World Wide Web Consortium Resource Description Framework http www w3 org TR 1999 REC rdf syntax 19990222 D Westphal C Bizer Introduction to RAP RDF API for PHP V0 9 1 2004 http www wi wiss fu berlin suhl bizer rdfapi tutorial intruduction TORAP htm J Weizenbaum Joseph Weizenbaum Computermacht und Gesellschaft Suhrkamp Verlag Frankfurt am Main 2001 World Wide Web Consortium Web Services Description Language WSDL 1 1 2001 http www w3 org TR wsdl Stand der Webressour
64. de Beschreibung Funktionalit t __construct Konstruktor der CONTROL Klasse parseOntology Parsern der Ontologie zur Informationsgewinnung startPageCheck Uberpriift ob die Anfrage von der Startseite gestellt wurde initINQUIRY Ausl sen einer Anfrage an eine Suchmaschine getURLforResource Ermittelt alle URLs f r ein Individuum der Ontologie mapHomepage Versuch der Zuordnung eines URL zu einem Individuen spezischen URL get_status Generiert die Statuszeile oberhalb der Trefferliste get_navigation Generiert die Seitennavigation unterhalb der Trefferliste getNamefromURL Gibt den zugeordneten Namen ID eines URL zuriick getURLfromName Gibt den zugeordneten URL Homepage eines Namen zu riick makeSubTaxo Generiert die Sub Taxonomie unterhalb der aktuellen Ebene der Suchraumeinschr nkung getRootElement Rekursive Methode um f r eine beliebige Ressource das Wurzel Element in der Ontologie zu finden fuzzy_control Ist f r die Steuerung der unscharfen Suche Fuzzy Suche zu st ndig getTaxo Generiert die Taxonomie der Webseiteneinschr nkung getInfo Ist f r die Informationsaufbereitung einer Webressource in ei nem Inline Frame zust ndig makeParamterString Generiert den Parameterstring f r den Skriptaufruf makeParaStrforTaxo Generiert den Parameterstring f r den Skriptaufruf speziell f r Links der Taxonomie getResults Gibt die Treffer der Suchabf
65. de Vorgehensweise bei einer We brecherche wider In dieser Arbeit soll gekl rt werden welche M glichkeiten es gibt dem Nutzer schon im Vorfeld Hinweise ber die inhaltliche Einordnung der einzelnen Suchtreffer einer Volltext suchmaschine zu pr sentieren Der Nutzer soll m glichst auf den ersten Blick erkennen welche Treffer f r ihn eine hohe Relevanz darstellen und welche hingegen uninteressant sind Erreicht werden soll dies durch die Darbietung zus tzlicher Informationen die dem Nutzer eine navigierend sukzessive Verfeinerung der Suche erm glicht Eine Schl sselrol le soll hierf r der Einsatz einer formalen Wissensbeschreibung einer sog Ontologie einnehmen Konkret besteht das Ziel darin beispielhaft eine ontologiegest tzte Websuche f r das Webangebot der Friedrich Schiller Universit t Jena zu implementieren Auf Basis der Datengrundlage einer Suchmaschine soll dem Nutzer damit eine speziell erweiterte Websuche geboten werden die zus tzlich die Suchtreffer visuell den einzelnen Bereichen der Universit tsstruktur zuordnet und bei Bedarf eine M glichkeit f r eine Sucheinschr n kung bietet Weiterhin soll untersucht werden wie eine Anreicherung an Semantik zu den Suchtreffern erreicht werden kann F r obige Zielsetzung ist es notwendig einen berblick ber den heutigen Entwicklungs stand des WWW und den darin zur Verf gung stehenden Suchdiensten zu erhalten Die M glichkeiten einer Ontologierealisierung m ssen
66. det wird beginnt die Beschreibung der Implementierung mit der Erl uterung der Beschaf fung einer Datengrundlage Dies beinhaltet die Umsetzung eines SOAP Clients der f r die Kommunikation mit dem Google Web Service ben tigt wird Ein erarbeitetes Archi tekturmodell illustriert die einzelnen Systemkomponenten im Hinblick auf den Ort der jeweiligen Umsetzung und ihrer Aufgaben Es folgt eine Beschreibung der durchlaufenen Arbeitsschritte f r die Ontologieerstellung Weiter wird gezeigt wie die Informationen aus der Ontologie mittels eines Parsers in eine geeignete Datenstruktur f r die anschlie ende Nutzung berf hrt werden Die Verbindung zwischen Ontologie und der Datengrundlage einer Suchmaschine wird Schritt f r Schritt anhand einzelner Teile der fertigen Implemen tierung vorgestellt Es wird gezeigt welche Ideen hinter den einzelnen logischen Teilen der Implementierung stecken und wie sie realisiert wurden Alle Ausz ge aus dem Quell text geben meist nur den Kern der umgesetzten Funktionsweise wieder und wurden von programmspezifischen Besonderheiten und Kommentaren bereinigt Die wirkliche Imple mentierung weist eine komplexere Syntax auf auf die hier jedoch zu Gunsten der Lesbar keit verzichtet wird Der im Praxisteil implementierten Software wurde der Name Sonto Search Ontogie eXtension verliehen synonym stehend f r die umgesetzte Konzeption Die entwickel te Websuche ist im WWW unter dem URL http www artusweb de So
67. e Abbildung 2 Schichtenmodell der Semantic Web Architektur 3 2 1 Unicode URI Die Basis aller h heren Ebenen ist zum einen die Unicode Kodierung die die Zeichen s tze f r fast jede nat rliche Sprache bereitstellt und damit die globale Anwendbarkeit des SW garantiert Zum anderen soll jedes beliebige Objekt ber einen Uniform Resour ce Identifier URI identifiziert werden k nnen Der bekannte Uniform Resource Locator URL stellt einen Teil dieses Ansatzes dar MS04 S 723 ff Durch die Verwendung von URIs wird es m glich auch Objekte zu repr sentieren die nicht durch das WWW abgeru fen werden k nnen Als Beispiel sei hier ein Buch in einer Bibliothek genannt das auch mit einem URI hier die ISBN Nummer eindeutig identifiziert und referenziert werden kann 3 2 2 Extensible Markup Language F r den aus der komplexen Standard Generalized Markup Language SGML abgeleite ten beschr nkten HTML Sprachstandard hatten sich die Webentwickler damals sehr be wusst zu Gunsten der Nutzerfreundlichkeit entschieden Die relativ leicht erlernbare 14 Mehr Informationen unter http www unicode org 15 HTML stellt eine Teilmenge von SGML dar 3 Semantic Web 15 Markupsprache bietet einen ausreichend gro en Sprachumfang f r eine Strukturdefinition von Webdokumenten Jedoch stellt diese Beschr nktheit nun ein Hindernis f r die weitere Webentwicklung dar W nschenswert w re eine universelle erweiterbare Ma
68. e 45 8 1 Festlegen der ben tigten Klassen 2 2 2 2 un en 46 8 2 Definition der ben tigten Eigenschaften 47 8 3 Wissensakquise Das Schaffen einer Wissensbasis 48 8 4 Ontologieplleser ws er a ade amp D ee e 50 8 5 Anforderungen an eine Sonto konforme Ontologie 50 9 Vorverarbeitung der Ontologie 51 9 1 Entwicklung eines eigenen OWL Parsers 2 2 52 9 2 Erstellung einer OWL Parser Klasse 2 2 2 2 2 53 9 3 Speicherung des Parserergebnisses 54 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 55 10 1 Zuordnung der Suchtreffer zu den Individuen 58 10 2 Einschr nkung des Suchraumes nn 59 10 2 1 Multiple Webressource URLs 2 222220 60 10 2 2 Behandlung multipler URLs und der Verzeichnisstrukturen 61 10 2 3 Zus tzliches Problem mit den Verzeichnisstrukturen 61 10 2 4 Probleme mit der URL Struktur 2 2 2 2 2220 63 10 3 Erweitertes Information Retrieval e 63 10 4 Hilfestellung auf Basis der Ontologie f r die Suchraumeinschr nkung 65 10 5 Unscharfe Suche zur Suchraumerweiterung 67 10 6 Zusatzinformationen zur aktuellen Suchraumeinschrankung 69 Inhaltsverzeichnis V III Auswertung und Zusammenfassung 71 11 Betrachtung der Umsetzung im Hinblick auf die Problemstellung 71 11 1 St rken von SontoX a re Bes 71 11 2 Grenzen von Sonto sl N a teh eth ahh 2 72 12 Einsatz
69. e Zuordnungen m glich Mit einem Klick auf die jeweilige erkannte Strukturebene der FSU Jena kann der Nutzer seine Suche auf die entsprechende zugeordnete Dom ne einschr nken Im Beispiel w r de ein Klick auf die Zuordnung Fakult t f r Mathematik und Informatik die Suche auf die der Fakult t f r Mathematik und Informatik zugeordneten Dom nen f r die Eigen schaft Homepage erfolgen Wie dies im Detail umgesetzt wurde wird im Abschnitt 10 2 erl utert Funktionsweise der Zuordnung Der erste und zugleich nahe liegende Ansatz zum Information Retrieval besteht in der Aus wertung der syntaktischen URL Struktur einer Webseite Die weltweit einmalige Adressie rung liefert einen ersten Ansatzpunkt zur inhaltlichen Zuordnung der Webseite F r eine exakte Auswertung des URL muss ein Blick auf die formale Syntax geworfen werden Abbildung 17 zeigt f r obiges Beispiel die einzelnen URL Komponenten mit ihrer jewei ligen Bedeutung 76 Der Name entspricht dabei dem Attributwert von rdf ID der Individuen Definition in der Ontologie 77 Siehe Spezifikation in RFC 1738 und 1808 oo na Q a YN Be Ne 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 59 bertragungs Protokoll Dom ne Dokumenten Pfad http www informatik uni jena de sack WS0405 webtechnol ogien pdf ken Sub Dom ne n Top Level Dom ne Dokumenten Name Abbildung 17 URL Struktur anhand eines Beispiels In Sonto
70. eine speziell formulierte Anfrage an den Server stellt welcher in Abh ngigkeit seines angebotenen Dienstes die An frage bearbeitet und das Ergebnis an den Client zur ckgibt Die Web Service Architecture Working Group des W3C definiert Web Services wie folgt A Web service is a software application identified by a URI whose inter faces and binding are capable of being defined described and discovered by XML artifacts and supports direct interactions with other software applicati ons using XML based messages via internet based protocols 32 http www w3 org TR 2002 WD wsa regs 20021011 IDAGWEBD 5 Web Services 29 Obwohl diese Technologie noch in den Kinderschu hen steckt und es heute nur eine geringe Zahl von Implementierungen im WWW gibt haben die Web Services ihre Feuertaufe berstanden und sind auf dem besten Weg eine gro e Rolle in der zuk nftigen Servicelandschaft des WWW zu spielen Die Schl s selfrage bei dieser Technologie besteht in der Bereit stellung eines geeigneten Protokolls auf dessen Ba sis ein standardisierter Kommunikationsfluss ablau fen kann In diesem Bereich hat sich das sog SOAP Protokoll etabliert Im Zusammenhang mit diesem Ansatz wird auch von einer Middleware Architektur gesprochen Abbildung 9 zeigt die service orientierte Web Services Architektur wobei drei auf XML ba sierende Standards die Grundlage bilden Service broker La UDDI x x finden wen ond bekannt bi
71. en Datentypen und der unterschiedlichen Encoding Formen finden sich in SOAP 5 1 4 Transportprotokolle Das im obigen Beispiel eingesetzte HTTP Transportprotokoll ist im Zusammenhang mit der SOAP Nachrichten bermittlung am h ufigsten vorzufinden Die SOAP Nachricht be n tigt ein Tr ger Transportprotokoll welches die Nachricht zwischen Sender und Emp f nger quasi verpackt weiterleitet Seit Beginn der Web Service Entwicklung nimmt HTTP einen bevorzugten Stellenwert ein So enth lt die SOAP Spezifikation Version 1 1 sogar einen eigenen Teil f r den Einsatz von HTTP bei der SOAP Nachrichten bermitt lung Mit HTTP geht SOAP dabei eine enge Bindung ein HTTP ist jedoch nicht zwingend das einzig nutzbare Transportprotokoll Die SOAP 1 2 Spezifikation beinhaltet ein Rahmenwerk SOAP Protocol Bindung Framework welches das Einbinden anderer Transportprotokolle regelt z B kann daf r auch das Simple Mail Transport Protocol SMTP eingesetzt werden 39 Siehe HL04 S 52 f 40 http www w3 org 2003 05 soap encoding 41 Vol hierzu HL04 S 65 f 5 Web Services 33 SMTP dient als Protokoll f r den Austausch von elektronischer Post E Mails In Verbin dung mit SOAP ist jedoch nur das Absetzen einer Anfrage an den Web Service Anbieter m glich wobei die Antwort meist aus einer kurzen Best tigung besteht Die Anwendung richtiger RPCs ist hiermit nicht m glich Dies kann dadurch umgangen werden dass de
72. en Gr nden wurde die Idee fallen gelassen und ein alternativer praxistauglicher Ansatz gesucht Eine automatische Bestimmung der Semantik anhand des Webseitentextes f hrte nicht zum Ziel jedoch enthalten die Webseiten wenn auch rudiment r semantische Informatio nen in einigen Meta Tags Zumindest diese sollten f r Sonto ausgelesen und aufbereitet werden Abbildung 18 zeigt als Beispiel die ausgelesenen Annotationen der Meta Tags einer Webseite so wie sie in Sonto umgesetzt wurde 19 Materialien zur Vorlesung Informatik der digitalen Medien Harald Sack Technische Grundlagen des Elektronischen Publizierens Meinel Sack B Materialien zur Vorlesung Meinel Sack SS 1999 Jni Trier Hinweis im Browser muss Javascript Informatik Medien digitale neue Internet WWW Le http www minet uni jena de sack SS04 info digi materialien htm 90k Universitat Vorlesung Vorlesungsangebot Netzwerke Internetworking TCPIP P2P Suchmaschinen Abbildung 18 Alternativer IR Ansatz In Abbildung 18 rechts sind Angaben zum Autor author zur Beschreibung descrip tion und zu den Schl sselw rter keywords einer Webseite zu sehen Das Beispiel zeigt den Idealfall einer annotierten Webseite wie er nur in Ausnahmef llen anzutreffen ist Der weitaus berwiegende Teil der Webautoren macht kaum Gebrauch von dieser einfa chen Art der semantischen Auszeichnung Liegen Annotationen vor dann sind die Inhalte oftmals kaum brauchbar
73. en eines Programms in eine eigene An wendung zu integrieren Browser Ein spezielles Programm das auf dem Computer des WWW Nutzers l uft und welches die in HTML kodierten Webdokumente in eine am Monitor darstellbare Form berf hrt Client Bezeichnet ein Programm welches einen Server kontaktiert und von diesem In formationen anfordert Der im WWW eingesetzte Browser ist in diesem Sinne ein Client Aber es gibt auch andere Clients im WWW die WWW Server kontaktieren und Informationen von diesen herunterladen wie z B Suchmaschinen oder Agen ten DNS Domain Name Service Geh rt zu den Verzeichnisdiensten im Internet Der Dienst erm glicht eine Zuordnung logischer Bezeichnungen zu einer numerischen IP Adres se Diese Bezeichnung erleichtert Menschen einen erheblich leichteren Umgang mit den unterschiedlichen Netzwerk Endsystemen als die Verwendung blo er IP Adressen Die R ck bersetzung einer IP Adresse aus einer logischen Bezeichnung bernehmen die im Netz verteilten DNS Name Server HTML Hypertext Markup Language Das einheitliche Dokumentenformat f r Hyperme dia Dokumente im WWW Dokumente die im WWW bertragen und vom Browser dargestellt werden sollen sind in HTML kodiert HTTP Hypertext Transfer Protocol Das Protokoll das die Kommunikation von Brow sern und WWW Servern im WWW regelt Fordert ein Browser ein Dokument vom WWW Server an oder beantwortet der WWW Server eine Anfrage muss diese An frage den Konvent
74. en hinaus lassen sich noch weitere relevante Subsys teme einer Suchmaschine identifizieren Diese zu erl utern soll jedoch nicht Bestandteil dieser Arbeit sein Als weiterf hrende Literatur sei hier auf G1603 und Bab01 verwie sen 2 3 Grenzen heutiger Suchdienste Die Suchdienste geben zwar eine unverzichtbare Hilfestellung bei der Websuche sind je doch mit ihren heutigen Technologien nicht in der Lage die Gesamtheit des WWW zu erfassen bzw dem Benutzer ausreichend relevante Suchergebnisse zu pr sentieren Trotz 5 Synonym f r Webrobot wird h ufig von Robot Wanderer Crawler oder auch Spider gesprochen Zum Beschleunigen des Sammelprozesses werden dazu mehrere Webrobots eingesetzt 6 Erkl rungen zum Google PageRank sind z B unter http www google de intl de why_use html oder in BP98 zu finden 2 Suchdienste im World Wide Web 8 ausgekl gelten Suchstrategien ist es den Suchmaschinenbetreibern nicht m glich die Ge samtheit der im WWW verf gbaren Dokumente in ihre Datenbank aufzunehmen Viel mehr ergeben Sch tzungen ber die tats chliche Menge der im WWW verf gbaren Doku mente im Vergleich mit den Angaben gro er Suchmaschinenbetreiber eine Diskrepanz Es zeigt sich dass nur ca 30 40 aller Dokumente von den Suchmaschinen erfasst werden Vgl Fer03 S 301 und GS05 Nicht nur die st ndig wachsende Anzahl der Webdo kumente erschweren den Suchmaschinen ihre Arbeit sondern auch die Art und Weise wie
75. enennung der Ontologie rdfs label ein Kommentar rdfs comment die Angabe von Versionsinformationen owl versionInfo owl priorVersion oder das Impor tieren einer anderen Ontologie owl import Listing 4 zeigt einen beispielhaften OWL Header ee lt owl Ontology rdf about gt lt owl versionInfo gt 1 0 2005 06 04 lt owl versionInfo gt lt rdfs label xml lang de gt Beispiel Ontologie lt rdfs label gt lt owl imports rdf resource http protege stanford edu plugins owl protege gt lt rdfs comment xml lang de gt Beschreibung der Ontologie lt rdfs comment gt lt owl Ontology gt Ses Listing 4 OWL Header Definition Zwischen Header und dem schlieBenden lt rdf RDF gt Tag erfolgt die eigentliche Defini tion der Wissensdom ne Als erstes wird ein Satz von Wurzelklassen gt der Dom ne mit Hilfe von OWL Basisdefinitionen definiert owl Class Darauf aufbauend k nnen spezi ellere Klassen abgeleitet werden rdfs subClassOf wodurch eine Taxonomie der Klas senstruktur ausgedr ckt wird Listing 5 zeigt hierf r ein einfaches Beispiel 25 Das eigentliche Wurzelelement von dem alle OWL Elemente abgeleitet sind ist das Element owl Thing Jede nutzerdefinierte Klasse ist daher implizit eine Unterklasse von owl Thing 26 Das subClassOf Element besitzt dabei die Eigenschaft der Transitivit t von O Q ou DS gt von O Q ou NY Be mo 4 Wissensbeschreibung durch Ont
76. er Daten vollends ausnutzen Um dies aber mit Blick auf die Semantik von Informationen erreichen zu k nnen m ssen neue Techno logien entwickelt werden die den Aufbau eines Netzes von semantischen Informationen erlauben Der n chste Abschnitt beschreibt wohin die Entwicklung des WWW konkret ge hen soll und welche Technologien daf r eingesetzt werden sollen Obwohl die vorliegende Arbeit nur einen Teil der Idee eines zuk nftigen semantischen Netzes aufgreift n mlich haupts chlich die Ontologien soll das Thema zur besseren sp teren Einordnung dieser Arbeit im Folgenden vorgestellt werden 3 Semantic Web 3 1 Die Vision eines semantischen Netzes I have a dream for the Web so beginnt ein Kapitel des von Berners Lee 1999 ver f fentlichten Buches Weaving the Web Ber99 Nachdem seine Idee des WWW weitge hend realisiert wurde sieht er seit l ngerem ein weiteres durchaus m chtigeres Potenzial in einer effektiveren Nutzung von menschlichen Geist und logischer Rechenleistung der Computer Um dieses Potenzial freizulegen propagiert er die Schaffung eines semanti schen Netzes dem sog Semantic Web SW Die Grundidee besteht in der Nutzung der Computer und Netzwerke ber ihre bisherige Aufgabe hinaus so dass eine Kommunika tion zwischen Maschine und Maschine ber Inhalte einzelner Webressourcen erm glicht wird Der heutige Einsatz dieser Systeme auf der Ebene des Internets beruht zum gr ten Teil auf der
77. er Vertreter dieser Gattung ist z B der Google Suchdienst www google com I Webkataloge werden redaktionell gepflegt d h letztendlich entscheiden Menschen dar ber ob und wie bestimmte Webseiten in den Katalog aufgenommen werden Die einzelnen Seiten werden zuvor von einem Mitarbeiter begutachtet und dann wenn kein Grund dagegen spricht unter einer passenden Kategorie abgelegt Dies hat zur Folge dass unrelevante unseri se oder gar kriminelle Angebote von Vornherein herausgefiltert werden womit ein hohes Qualit tsniveau der Suchtreffer sicherge stellt werden kann Jedoch ist dies der Grund daf r dass die Webkataloge nicht das vollst ndige Web ber cksichtigen Weiterhin fallen die Aktualisierungszyklen im Vergleich zu den Suchmaschinen l nger aus Als ein Vertreter dieses Typs sei der Webkatalog dmoz www dmoz org genannt LI Das Konzept der Meta Suchmaschinen verbindet gleichzeitige Suchanfragen an unterschiedliche Suchdienste ob durch Webkatalog oder Suchmaschine zu einem neuen gesamten und berarbeiteten Suchergebnis Da die gro e Zahl der Ergebnisse jedoch zuvor einzeln von den verwendeten Suchmaschinen bzw katalogen abge fragt und aufbereitet werden muss ben tigt eine Suchanfrage naturgem eine l n gere Zeit Sie deckt jedoch in der Regel einen gr eren Seitenbestand ab und kann somit einen m glichst gro en Teil der im Web verf gbaren Dokumente ber cksich tigen Dar ber hinaus existieren Suchdiens
78. ermittelt Wie ist die Nachricht aufgebaut Wie genau sieht der Inhalt der Nachricht aus 5 1 1 bermittlung der Nachricht SOAP Nachrichten k nnen entweder als einfache Nachrichten in eine Richtung versandt werden oder wie bei XML RPC in Form einer Anfrage und Antwort ablaufen wobei die Antwort einen Methodenaufruf mit R ckgabewert darstellt Der Pfad den die Nach richt vom Sender zum Empf nger nimmt wird Message Path genannt und f hrt ber drei unterschiedliche Arten von Knoten Nodes SOAP I SOAP sender Der Sender der SOAP Nachricht der diese zuerst abschickt L SOAP intermediaries Intermedi re sind Zwischenstationen die die Nachricht emp fangen und weiterleiten K nnen L SOAP receiver Der Empf nger der die Nachricht endg ltig erh lt und verarbeitet Damit sich Sender und Empf nger finden enth lt die Nachricht den URI des Empf ngers plus einen eventuellen zus tzlichen URI f r den n chsten Intermedian Der Versand einer SOAP Nachricht wird zumeist ber das Transportprotokoll HTTP realisiert Da HTTP ein zustandsloses Transportprotokoll ist ist auch jede SOAP Nachricht zustandslos d h auf dem Weg ist der aktuelle Status der Nachricht nicht bekannt 35 XML RPC XML Remote Procedure Calls erm glicht Methoden oder Funktionsaufrufe ber ein Netz werk Entwickelt wurde XML RPC 1998 von Dave Winer der die Idee hatte XML und HTTP so zu verbinden dass ein Nachrichtenausta
79. erpr ft und ggf angepasst werden Nach Einsch t zung des Autors sollte ein berpr fungsintervall von bis zu drei Monaten angestrebt wer den In erster Linie ist die Aufgabe der Ontologiepflege 1 die Erreichbarkeit der URLs f r jedes Individuum und 1 die Korrektheit der Eigenschaftswerte der Individuen zu kontrollieren Dar ber hinaus ist eine Kontrolle der Klassen und Eigenschaftsdefinitionen in einem gr Beren Zeitintervall angebracht z B innerhalb von sechs Monaten Hinsichtlich der G l tigkeit der URLs ist hier eine softwaregest tzte berpr fung denkbar wodurch Probleme schnell und einfach erkannt werden k nnen Die berpr fung der Definitionen muss manu ell erledigt werden jedoch wird der damit verbundene Aufwand als gering eingesch tzt Unter Nutzung von Prot g ist es leicht m glich die Ontologie einzulesen und dann im Anschluss die gew nschten Anderungen vorzunehmen 8 5 Anforderungen an eine Sonto konforme Ontologie Obwohl in Sonto eine Datenunabh ngigkeit bez glich der verwendeten Ontologie ange strebt wurde konnte dieser Anspruch nicht vollst ndig aufrechterhalten werden Folgende vier Beschr nkungen haben sich in der Umsetzungsphase des Systems ergeben und sind 9 Vorverarbeitung der Ontologie 51 bei einer Ontologieerstellung zu beachten damit die Ontologie sp ter in Sonto eingebun den werden kann Verwendung von Prot g in der Version 3 0 als Garantie f r eine korrekte um
80. erschiedlichen in der Ontologie genutzten Namensr ume wie z B rdf rdfs und owl F r jeden Zugriff auf ein Element bzw dessen Attribute muss zus tzlich zum Namen der korrekte Namensraum angegeben werden Die automatische Analyse der Ontologie wird dadurch erheblich komplexer und schwieriger als das Parsen einfacher XML Dateien Das Vorhaben einer Implementierung eines universellen OWL Parsers der jede beliebige OWL Ontologie verarbeiten kann musste im Laufe der Arbeit jedoch fallen gelassen wer den Es zeigte sich dass die Komplexit t und der Arbeitsaufwand den Zeitrahmen dieser Diplomarbeit bersteigen Obwohl OWL und vor allem OWL Lite im Prinzip eine einfa che Konzeptabbildung erlaubt k nnen damit ebenso sehr anspruchsvolle und umfangrei che Ontologien modelliert werden Die Schwierigkeit bei der Programmierung eines Par sers lag haupts chlich in der M chtigkeit der OWL Syntax welche es erlaubt ein und den selben Sachverhalt mit verschiedenen Sprachkonstrukten und an unterschiedlichen Stellen umzusetzen Nicht zuletzt erh ht die M glichkeit einer hohen Verschachtelungstiefe der OWL Elemente die Komplexit t einer automatischen Verarbeitung betr chtlich Der Anspruch einer m glichen Ontologieunabh ngigkeit soll aber weitgehend aufrecht erhalten bleiben Da f r die Umsetzung der Universit tsontologie nur ein sehr kleiner Teil der m glichen Sprachelemente zum Einsatz gekommen ist entstand die Idee einen 71 Z B kann m
81. ert Die unterschiedlichen Dom nen werden wie oben beschrieben mit dem site Konstrukt an den Suchstring angehangen Google verkn pft 79 Der boolesche Operator AND wird implizit durch die Angabe eines Leerzeichens ausgedr ckt 80 In Wirklichkeit wird hier noch die Dom ne mathematik uni jena de angegeben die einen weiteren DNS Aliasnamen der Fakult t darstellt 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 62 den Suchbegriff und die Pfadangabe durch ein logisches AND Dies bewirkt dass nur sol che Webdokumente in der Trefferliste erscheinen die zus tzlich zu dem Suchbegriff die Zeichenkette www fakultaet enthalten Da Google auch die URL zur Indizierung der Webseiten nutzt werden nur Webseiten des Instituts f r Informatik zur ckgegeben da nur f r diese der richtige Pfad in der URL enthalten ist Prinzipiell ist aber nicht auszuschlie Ben dass in obigen Fall auch Treffer anderer Bereiche im Ergebnis gelistet werden Jedoch zeigte sich dass dies bei Google nicht der Fall war F r den 1 Fall w rde in Sonto folgender Suchstring an Google bergeben Webtechnologien www fakultaet site minet uni jena de OR site informatik uni jena de 2 Fall Unterschiedliche URLs mit verschiedenen Pfaden z B Biologisch Pharmazeuti schen Fakult t I http pinguin biologie uni jena de fakultaet I http www2 uni jena de biologie F r die Biologisch Pharmazeutischen Fakult t treten zu den un
82. esent xsi type xsd boolean gt true lt relatedInformationPresent gt lt snippet xsi type xsd string gt Einftihrung Themen bersicht und Materialien zur Vorlesung lt snippet gt lt summary xsi type xsd string gt lt summary gt lt title xsi type xsd string gt Vorlesung amp lt b amp gt Webtechnologien amp lt b amp gt lt title gt lt item gt en lt resultElements gt lt endIndex xsi type xsd int gt 3 lt endIndex gt lt searchTips xsi type xsd string gt lt searchTips gt lt searchTime xsi type xsd double gt 0 122631 lt searchTime gt lt startIndex xsi type xsd int gt 1 lt startIndex gt lt estimatelsExact xsi type xsd boolean gt true lt estimatelsExact gt lt searchQuery xsi type xsd string gt Webtechnologien site uni jena de lt searchQuery gt ISIE Wes 1 doGoogleSearchResponse gt ENV Body gt T invelope gt Listing 11 doGoogleSearch SOAP Response 37 Teilll Implementierung 6 Vorgehensweise Im Folgenden werden die f r die L sung der Aufgabenstellung eingesetzten Methoden Schritt f r Schritt erarbeitet und teils an Abbildungen und Beispielen beschrieben Die aufgetretenen Schwierigkeiten werden nicht verschwiegen und bilden an einigen Stellen die Grundlage f r die Begr ndung des eingeschlagenen L sungsweges Nachdem im n chsten Absatz die Wahl der eingesetzten Programmiersprache begr n
83. esuchen Die gebotenen Zusatzinformationen zur aktuellen Suchraumeinschr nkung Bild und n here Beschreibung unterst tzen zu jeder Zeit der Suche den Bezug zu der Ebene der FSU Jena auf welche die Suche beschr nkt ist und vermittelt dadurch einen engeren Bezug zur aktuellen Suchraumeinschr nkung 11 Betrachtung der Umsetzung im Hinblick auf die Problemstellung 72 Da Sonto die semantischen Informationen allein aus einer zuvor erstellten Onto logie bezieht kann durch eine Modifikation der Ontologie eine rasche Anpassung an die jeweiligen Bed rfnisse erm glicht werden Diese Datenunabh ngigkeit des Sonto Systems erm glicht eine flexibel angepasste Websuche Durch die Erstellung einer neuen Ontologie ist es m glich nicht nur eine lokale un ter einer einzigen Dom ne umgesetzte Organisationsstruktur eines Web Angebotes umzusetzen sondern dar ber hinaus kann in Sonto auch eine Ontologie von ei ner virtuellen Organisationsstruktur genutzt werden Mit einer virtuellen Organisati onsstruktur ist z B die ber das ganze WWW verteilte Menge an unterschiedlichen Dom nen gemeint die sich alle einem gleichen Thema widmen und unter einer hierarchischen Struktur mit einem Wurzelelement vereinigt sind Sonto kann auf Basis dieser neuen Ontologie die einzelnen Quellen zu einer virtuellen Einheit ver schmelzen auf der sich die weitere Websuche beschr nkt 11 2 Grenzen von Sonto Die umgesetzte ontologiebasierte Web S
84. etzbar jedoch w rde der Aufwand f r die Modellierung und die Dateigr e selbst in keinem Verh ltnis zu dem Nutzen f r eine Webseitenerkennung stehen Eine spezielle f r die Aufgabenstellung zugeschnittene Ontologie in der nur sol che Konzepte der Wirklichkeit modelliert werden die auch von Nutzen sind stellt hier daher den besseren Weg dar Zur Kodierung der Ontologie kommt in Sonto der vom W3C propagierte neue OWL Sprachstandard zum Einsatz Zu Beginn dieser Arbeit wurde versucht die Ontologie ma nuell in einem einfachen Texteditor zu kodieren Es sollte so ein m glichst nahes Arbei ten mit der OWL Syntax erreicht werden Die Basiskonstrukte wurden hierf r analog zur OWL Referenz verwendet um eine Standardkonformit t zu gew hrleisten Der Au tor sah sich jedoch schnell zwei Problemen gegen ber Zum einen stellte sich die Frage der Validierung der Ontologie und zum anderen sollte es sp teren Anwendern erm glicht werden die Ontologie leicht zu ndern oder zu erweitern ohne im Detail mit der OWL Sprachsyntax vertraut zu sein Wie im Teil I der Arbeit vorgestellt bietet sich hier Prot g als Entwicklungsumgebung an welche unter anderem eine korrekte OWL Syntax garan tiert Weiterhin kann sich der Entwickler voll und ganz auf die logische Ebene konzentrie ren ohne sich im Detail mit der Sprachreferenz auseinandersetzen zu m ssen Die Modellierung der Ontologie wurde in dieser Arbeit mit Hilfe von Prot g in der Versi
85. f r seinen Web Service der Entwicklergemeinde ein API Developer Kit application program interface bereit Im SDK findet sich eine Kurzdokumentation in Form eines HTML Dokuments eine WSDL Datei GoogleSearch wsdl f r Verwen dung in beliebigen Programmiersprachen sowie fertige Beispiele und Klassen f r Java und NET Theoretisch kann die Google Abfrage in jedes Programm eingebunden werden Das Entwickler Kit beinhaltet alles was zum Schreiben eigener Programme die die Goo gle Web APIs nutzen ben tigt wird 5 2 1 Funktionalit ten Ein Blick in GoogleSearch wsdl Listing 9 zeigt eine Zusammenfassung der Dienste im Zweig portType wo derzeit drei Elemente operation existieren die f r die Nachrichten die Ein und Ausgabefunktionen definieren Es handelt sich dabei um die Google Such funktionen die mit diesen Web Service angeboten werden 42 http www google com apis index html SDK Software Development Kit Die Bezeichnungen Google Web Service und Google Web APIs Services haben hier die gleiche Bedeu tung a O ur Q H e S So o A DWH a Hr 5 Web Services 34 Cares lt Port for Google Web APIs GoogleSearch gt lt portType name GoogleSearchPort gt lt operation name doGetCachedPage gt lt input message typens doGetCachedPage gt lt output message typens doGetCachedPageResponse gt lt operation gt lt operation name doSpellingSuggestion gt lt input message typens doSpellin
86. folge rungen erm glicht So k nnen transitive TransitiveProperty symmetrische Sym metricProperty und funktionale FunctionalProperty Eigenschaften festgelegt wer den Mit inversOf k nnen inverse Eigenschaften und mit InverseFunctionalProperty inverse funtionale Eigenschaften definiert werden Zus tzlich zu den schon oben besprochenen Beschr nkungen von Eigenschaften durch cardinality und hasValue stehen die Konstrukte allValuesFrom und someVa luesFrom zur Verf gung Mit equivalentClass und equivalentProperty ist es m glich auszudr cken dass ein zelne Klassen oder Eigenschaften aus einer Ontologie quivalent zu Klassen und Eigenschaften einer anderen Ontologie sind Durch samelndividualAs wird hnlich wie bei den Klassen ausgedr ckt dass zwei verschiedene Individuen in ihrer Bedeutung identisch sind Das Konstrukt differenet From dr ckt genau das Gegenteil aus OWL Klassenerweiterungen stellen Mengen dar auf denen Mechanismem f r die Bildung von Durchschnitt intersectionOf Vereinigung unionOf und Komple ment complementOf existieren Eine Separierung von Mengen von Klassen kann mit disjointWith ausgedr ckt wer den Hiermit wird sichergestellt dass ein Individuum als Element einer Klasse nicht gleichzeitig eines einer anderen Klasse sein darf Einzelnen Klassendefinitionen k nnen mit oneOf zu einer einzigen aufz hlenden Definition zusammengefasst werden Alle aufgez hlten OWL Sprachkonstrukten sind
87. g XMLS Datatype E Mail DatatypeProperty string XMLS Datatype Fax DatatypeProperty string XMLS Datatype gehoert_zu ObjectProperty instance of class Homepage DatatypeProperty anyURL XMLS Datatype Inhaber DatatypeProperty string XMLS Datatype Leiter DatatypeProperty string XMLS Datatype Picturer DatatypeProperty anyURL XMLS Datatype Telefon DatatypeProperty string XMLS Datatype Die Entscheidung ber den endg ltigen Satz an Eigenschaften wurde analog zur Klassen wahl nach einigen Tests im Zusammenhang mit der Benutzerschnittstelle getroffen Zwei Eigenschaften wurden dabei von Anfang an als Notwendigkeit f r das Sonto System identifiziert L die ObjectProperty gehoert_zu 1 und die DatatypeProperty Homepage Beide spielen eine ausschlaggebende Rolle bei der gesamten Umsetzung und sind zwin gend notwendig um ein korrektes Arbeiten von Sonto zu gew hrleisten Mit Hilfe von gehoert_zu wird ein Aufbau einer Taxonomie der noch zu akquirierenden Instanzen ber haupt erst m glicht Die Eigenschaft fungiert als Bindeglied zur Referenzierung einer In stanz aus einer anderen heraus In Abschnitt 10 4 wird dieser Sachverhalt n her erl utert ber die zweite wichtige Eigenschaft Homepage wird eine eindeutige Zuordnung einer im Treffersatz der Suchmaschine aufgef hrte Webseite zu einer Instanz aus der Ontologie sichergestellt Auch dieses Konzept geh rt zur Hauptidee die hinter SontoX steckt
88. gSuggestion gt lt output message typens doSpellingSuggestionResponse gt lt operation gt lt operation name doGoogleSearch gt lt input message typens doGoogleSearch gt lt output message typens doGoogleSearchResponse gt lt operation gt lt portType gt Eee Listing 9 Auszug aus der WSDL Datei Cache Request Die Cache Anfrage doGetCachedPage bermittelt einen URL und erh lt als Ergebnis den in Base64 kodierten Inhalt des zugeh renden Webdokumentes Erfolg hat diese Anfrage nur wenn Google f r den URL den Inhalt in seinem Cache bereith lt Spelling Request Die Schreibweise Anfrage doSpellingSuggestion bergibt eine Zeichen kette an den Google Web APIs Service und liefert wenn verf gbar ein Korrekturvor schlag bez glich der Schreibweise so wie es von der Google Webseite bekannt ist Search Request Die Such Anfrage doGoogleSearch stellt die Standardsuche dar Es wird hierf r ein Anfragestring zusammen mit weiteren Parametern siehe Tabelle 1 bermittelt Als Ergebnis werden die gefundenen Treffer in strukturierter Form analog der Suche auf www google com zur ckgegeben 5 2 2 Nutzungsbedingungen und Einschr nkungen Um den Google Web Service nutzen zu k nnen muss zuvor eine Registrierung bei Google erfolgen Im Gegenzug wird ein g ltiger Account angelegt und der Nutzer erh lt per E Mail seinen eigenen Lizenzschl ssel der zuk nftig bei jeder Such
89. genen Jahrhunderts heute weitgehend Wirklichkeit geworden und sogar aus dem allt glichen Leben nicht mehr wegzudenken ist Es ist heute kaum vorstellbar dass die Entwicklung des WWW vor nicht einmal 15 Jahren ihren Anfang genommen hat Na t rlich war der Erfolg abh ngig von der Schaffung eines weltweit umspannenden Compu ternetzwerkes dem Internet jedoch d rfte das enorme Wachstum des WWW wohl selbst Berners Lee berrascht haben Der Erfolg des WWW beruht auf der Nutzung zweier relativ einfacher Standards n mlich der HyperText Markup Language HTML zur Kodierung und dem HyperText Transfer Protocol HTTP zur bertragung der Information Dar ber hinaus ist es jedem Nutzer m glich beliebige Informationen weltweit abrufbar bereitzustellen Je mehr von dieser M glichkeit Gebrauch machten umso mehr vergr erte sich der Nutzen und die hierdurch bereitgestellte Informationsmenge was wiederum zu einer breiteren Akzeptanz und somit zu einem neuen Entwicklungsschub f hrte Schon im Sommer 1993 hatte sich die Ent wicklung des WWW verselbst ndigt no longer had to push the bobsled It was time to Jump in and steer Ber99 Sch tzungen zufolge erm glicht das heutige WWW den Zugriff auf mehr als 50 Milliar den Webdokumente wobei sich die Anzahl ca alle 6 Monate verdoppelt Ber01 GS05 2 Eine Bemerkung sei an dieser Stelle erlaubt Der berwiegende Teil der Bev lkerung auf der Erde hat zumeist aus konomischen Gr
90. gesetz te OWL Syntax sowie einer erfolgreichen Verarbeitung Anlegen einer Wurzel Klasse Sie fasst alle anderen Klassen zusammen und stellt das oberste Element einer Organisationsstruktur dar Der Name der Klasse kann frei gew hlt werden Anlegen einer ObjectProperty gehoert_zu F r jedes neu aufgenommene Individu um muss als Wert f r diese Eigenschaft ein bergeordnetes Individuum zugeordnet werden Die Ausnahme stellt hier das Wurzel Individuum dar Anlegen einer DatatypProperty Homepage Eine Wertezuordnung f r ein Individu um ist zwar nicht zwingend notwendig wird jedoch dringend empfohlen da f r Sonto dieser Wert eine zentrale Rolle spielt Ist kein URL f r diese Eigenschaft vorhanden ist zu berlegen ob das entsprechende Individuum aus der Ontologie ganz entfernt werden kann Werden alle oberen Punkte beachtet kann im Prinzip jede beliebige auf diese Weise er stellte Ontologie einer Webseitenstruktur in Sonto eingebunden werden 9 Vorverarbeitung der Ontologie Die erstellte Ontologie soll nun daf r verwendet werden die Suchtreffer auf die enthalte nen Konzepte bestm glich abzubilden und diese Zuordnung dem Nutzer sp ter im Web Interface kenntlich zu machen Des Weiteren soll der hierarchische Zusammenhang der einzelnen Individuen geeignet repr sentiert werden Hierzu ist es notwendig den Inhalt der Ontologie automatisch zu analysieren Zur L sung dieser Aufgabe wurde ein eigener OWL Parser program
91. gle de intV de terms html 56 Gemeint sind die jeweils zehn erlaubten Suchtreffer aus der Menge aller m glichen gefundenen Treffer pro Anfrage an den Google Server Z Beziehen der Datengrundlage 41 Die zweite wichtige Einschr nkung erfordert hin gegen eine prinzipielle Diskussion ber das F r Den aon und Wider des eingesetzten Web Services Die SE Rede ist von der Beschr nkung auf max 1000 ragen TT Einzelabfragen pro Tag Stellt diese Schranke NN BEEN f r eine kleine private Homepage kaum ein Pro blem dar so ist bei gr eren Webseiten Projek ten die Grenze eventuell schnell erreicht Aus schlaggebend sind hierf r die Anzahl der sog Klicks d h die t glichen gestellten Anfragen Abbildung 12 Google API Service als Es muss also genau im Vorfeld analysiert wer den welcher Zielgruppe der eigene Suchdienst angeboten werden soll und ob eine t gliche Nutzerzahl jenseits der 1000er Marke zu er warten ist SOAP Response Google Web Service Datengrundlage Nichtsdestotrotz erscheint der Google Web Service u erst verlockend sodass sich trotz Beschr nkungen f r dessen Einsatz entschieden wurde Obwohl in dieser Arbeit schlus sendlich eine f r alle im Netz verf gbare Sonto Version angestrebt wird kann nur der Praxiseinsatz zeigen ob die 1000er Marke berschritten wird Abbildung 12 zeigt als konkrete Realisierung einer Datenbeschaffung die Integratio
92. he Bei OWL Dateien handelt es sich zun chst um XML Dateien Um die Ausdrucksm chtig keit von OWL gegen ber XML XML Schema RDF und RDF Schema zu erweitern wer den weitere Konstrukte bereitgestellt Mit OWL k nnen Klassen Classes Eigenschaften Properties und Instanzen Individuals beschrieben werden Die Klassen stehen dabei f r sog Konzepte welche spezielle Eigenschaften besitzen K nnen Instanzen sind hierbei Individuen einer oder mehrerer Klassen 4 1 1 OWL Sprachebenen OWL selbst besteht aus einer Menge von drei unterschiedlichen zunehmend komplexeren Sprachversionen OWL LI OWL Lite stellt eine einfache Sprachversion minimale Untermenge von OWL zur Umsetzung einfacher Klassifikationshierarchie und einfachen Beschr nkungsei genschaften dar OWL Lite soll f r die Entwickler einen Kompromiss zwischen N tzlichkeit und Zug nglichkeit darstellen um die Akzeptanz zu forcieren 3 OWL DL beinhaltet den vollst ndigen OWL Wortschatz welcher unter einer An zahl einfacher Beschr nkungen interpretiert wird DL steht hier f r Description Lo gic Begriffslogik die semantische Netze in ihrer Ausdruckst rke erweitert Dabei ist OWL DL am ehesten mit DAML OIL vergleichbar L OWL Full umfasst den gesamten OWL Wortschatz plus der vollst ndigen RDF Syntax Damit ist eine Erstellung von Ontologien in einer reinen RDF Syntax m g lich OWL Full Dokumente sind daher zugleich RDF Dokumente und umgekehrt HLO4 und
93. hen aber popul re Skriptsprachen wie z B Perl oder PHP zur Verf gung Bei PHP PHP Hypertext Preprocessor handelt es sich um eine serverseitig ausgef hrte Web Skriptsprache mit deren Hilfe eine schnelle und effiziente Entwicklung dynamischer Webanwendungen erm glicht wird PHP ist eine schnelle umfangreiche und leistungs starke Skriptsprache und besticht vor allem durch seinen gro en Funktionsumfang Die Sprache bietet die verbreitete C Syntax gute Modellierungsm glichkeiten und kann da bei als plattformunabh ngig angesehen werden da sie f r alle g ngigen Plattformen be reitsteht Trotz der vielen Vorz ge ist PHP5 jedoch eher zu den semiprofessionellen Sprachen zu z hlen So gibt es eine Vielzahl von typischen objektorientierten Eigenschaften die in PHP5 noch nicht umgesetzt wurden Weiterhin ist und bleibt PHP nur eine Skriptspa che bei der f r die Ausf hrung eines Programms ein Parser der Preprocessor zum Einsatz kommt Dies hat einen negativen Einfluss auf die Performance einer Anwendung Aufgrund der Notwendigkeit des Parsens f r jeden einzelnen Programmaufruf kommt es zu einem gewissen Mehraufwand Grund Over Head Es bleibt zusammenfassend festzuhalten dass PHP trotz seiner Einschr nkungen f r klei nere und mittlere Web Projekte trotzdem hervorragend geeignet ist Da Webanwendungen untrennbar mit HTML zusammenarbeiten ist PHP schon deshalb eine gute Wahl Der Grund Over Head f hrt bei kleineren und
94. hendes Plus Lehrstuhl f r Bioinformati Icon Abb 21 unscharf zu erweitern Die momenta n ne Suchraumeinschr nkung wird dadurch fallen gelassen Abbildung 22 Auszug aus Der neue Suchstring wird aus dem Suchbegriff aus dem der Taxonomie Individuennamen der aktuellen Ebene und aus den Do m nen site Angaben der in der Taxonomie dar ber liegenden Ebene gebildet Die so gew hlte Erweiterung der Suche wird im Web Interface anhand einer hellblauen Um rahmung der nun unscharf eingeschlossenen Ebenen kenntlich gemacht Abb 22 Der Suchstring der mit der Abbildung 22 korrespondiert lautet z B Webtechnologien Institut f r Informatik site informatik uni jena de OR site mathematik uni jena de OR site minet uni jena de Die Webseiten der Professur f r Praktische Informatik K nstliche Intelligenz werden nun bei der Suche mit aufgelistet Voraussetzung ist hier dass der String Institut f r Infor matik an einer Stelle der jeweiligen Webseiten enthalten ist Ein Klick auf das Minus Icon hebt die unscharfe Suchraumerweiterung wieder auf Gesteuert wird diese Funktionalit t in der CONTROL Klasse ber die Methode fuzzy_control die in der schon erw hnten Methode gerTaxo eingesetzt wird und f r die jeweilige Modellierung der Taxonomiedarstellung und f r das Zusammenstellen der jeweiligen Parameterstrings zu den Verlinkungen der Plus und Minus Icons verantwort lich ist Diese Art von Suchraumerweite
95. hrt zur Modellierung folgender Suchstringerweiterung testquery site minet uni jena de Unter minet uni jena de sind die Webseiten der Fakult t f r Mathematik und Informatik im WWW zu erreichen Google wird durch diese Angabe veranlasst nur solche Treffer zur ckzugeben die unter dieser Dom ne angeordnet sind An dieser Stelle tritt jedoch ein Problem zu Tage So k nnen f r ein und denselben Web Server unterschiedliche Dom nen Namen existieren Diesem Problem widmet sich der n chste Abschnitt 10 2 1 Multiple Webressource URLs Google erlaubt nach eigenen Angaben nur eine einmalige Verwendung des site Konstruk tes pro Suchanfrage Google Existieren f r einen Web Server unterschiedliche multiple Dom nen Namen ist es im Prinzip nur m glich einen dieser Namen auszuw hlen und der Suchmaschine als Parameter zu bergeben Dies f hrt jedoch dazu dass all diejenigen Suchtreffer der alternativen Dom nen Namen nicht mit in der Trefferliste ber cksichtigt werden Es zeigte sich dass dadurch ein gro er Teil des Webangebotes der jeweiligen Web seiten ausgeblendet wurde Leider existieren im WWW und auch auf den WWW Servern der FSU Jena viele Homepages die unter unterschiedlichen Dom ne Namen erreichbar sind Technisch gesehen handelt es sich meist dabei um zus tzliche Alternativ Eintr ge sog Alias Namen im Domain Name System DNS f r dieselbe physische Web Server Adres se Ein Grund f r diese Umsetzung kann eine gewachsene
96. ieser Ansatz f r das Webseiten Angebot der Dom ne der Friedrich Schiller Universit t Jena fsu jena de Die semantische Information der Webseitenstruktur der FSU Jena wurde zuerst in einer eigens erstellten Ontologie unter Verwendung des OWL Sprachstandards modelliert Als Datengrundlage f r die Websuche kommt der Google API Web Service unter Verwendung des Webservice Kommunikations Protokolls SOAP zum Einsatz Nach Erl uterung der theoretisch technischen Grundlagen der eingesetzten Technologien beschreibt diese Arbeit auf welchem Weg und inwieweit es gelungen ist die in der Ontologie modellierte Wissensbasis mit den Ergebnissen der Suchmaschine in einer eigens programmierten Web Anwendung zu verbinden Die im Zuge der Umsetzung aufgedeckten Probleme werden dabei an gegebener Stelle jeweils kurz kritisch diskutiert Inhaltsverzeichnis II Inhaltsverzeichnis Abstract II Tabellenverzeichnis VI Abbildungsverzeichnis VII Listingsverzeichnis VIII Abk rzungen und Akronyme IX Einleitung 1 I Grundlagen 4 1 Das World Wide Web 4 2 Suchdienste im World Wide Web 5 2 1 Grundtypen von Suchdiensten a 6 2 2 Funktionsweise von Suchmaschinen 7 2 3 Grenzen heutiger Suchdienste 2 22 2m nn 7 2 4 Herausforderung an die Websuche 0 9 3 Semantic Web 11 3 1 Die Vision eines semantischen Netzes 11 3 2 Die Semantic Web Architektur 14 3 2 1 Unicode FURL 2 202 He water ee 14 3 2 2 Extensible M
97. ietet und die Probleme die Sonto momentan nicht l sen kann getrennt in kompakter Form darge legt Dabei werden nur solche Punkte diskutiert die wesentliche St rken bzw Schw chen des Systems darstellen 11 1 St rken von Sonto Der Einsatz von Sonto bietet einem Nutzer einige Vorteile im Vergleich zu einer konven tionellen Suchmaschine wie z B auf Basis der Google Suche Im Folgenden werden die Eigenheiten von Sonto aufgef hrt die eine Web Suche auf Basis der Webseiten der FSU Jena erleichtern bzw erweitern Durch die effektive Einschr nkung des Suchraumes werden all diejenigen Resulta te ausgeblendet die von vornherein nicht von Interesse sind da sie nicht unter der Dom ne der FSU Jena bzw einer Unterstruktur der FSU Jena angeordnet sind Ohne dass der Nutzer die genaue Dom nenstruktur kennen muss f hrt dies zu ei ner raschen Minimierung der potenziell relevanten Trefferanzahl mit dem positiven Effekt dass sehr schnell eine kleine berschaubare Trefferliste f r den gesuchten Begriff angezeigt wird Dem Nutzer k nnen bereits bei der Auflistung der Suchtreffer semantische Informa tionen ber die Zugeh rigkeit der Webressourcen zu der Universit tsstruktur gebo ten werden Ohne die Webseite zu besuchen bzw genaue Kenntnisse ber die Struk tur der FSU Jena zu besitzen kann dadurch der Nutzer schnell eine Entscheidung ber die jeweilige Relevanz eines Suchtreffers f llen ohne alle Webseiten einzeln zu b
98. ight 0 name info width 445 gt lt iframe gt 10 RE 1 2 3 4 5 Homepage http www physik uni jena de 6 7 8 9 Listing 23 Beispiel des Quelltextes fiir das Einbetten der Anzeige der Zusatzinformationen Listing 23 zeigt den entsprechenden Abschnitt des XHTML Quelltextes so wie er fiir das Beispiel letztendlich vom Web Server an den Browser des Nutzers tibertragen wird Die da bei per HTTP GET bertragenen Parameter werden in der Datei info php5 zur endg ltigen 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 70 Formatierung der Anzeige ausgewertet und zu einer XHTML Webseite zusammengef gt Diese wird dann vom Web Server an den Nutzer gesendet Um die Zeichenkette der Anschrift an den richtigen Stellen umzubrechen wurden diese Stellen schon w hrend der Wissensakquise mit einem Komma als Separater markiert Die ses Hilfsmittel erlaubt die Erkennung der richtigen Umbruchstelle und dient einer sauber formatierten Darstellung im Web Interface Um unsch ne horizontale Scrollbalken bzw eine unleserliche Anzeige zu vermeiden sollte dieses Komma bei der Erstellung der Onto logie mit angegeben werden 71 Teil III Auswertung und Zusammenfassung 11 Betrachtung der Umsetzung im Hinblick auf die Problemstellung Mit Blick auf die Problemstellung soll im Folgenden die durch Sonto bereitgestellte Web Suche kritisch betrachtet werden Es werden dabei die Vorteile die das System b
99. igitale Signaturen k nnen die Echtheit des Kommunikationspartners best tigen Ein manuelles Festlegen glaubhafter Quellen reicht jedoch nicht aus um alle m glichen Infor mationsquellen zu beschreiben Einer Agent Software muss es m glich sein ihre eigenen meist implizit im Semantic Web vorhandenen Vertrauensquellen zu kontaktieren und so z B von einer expliziten Vertrauensstelle eine weitere implizit zu erreichen und deren Informationen mit in die Auswertung einflie en zu lassen Es muss hier ein Kompromiss zwischen maximaler Vertrauensstellung und realistischer Ergebnisfindung erreicht werden Die Hoffnung ist somit ein Web of Trust zu schaffen in dem nur mit wenigen transitiven Schritten eine Vertrauensbeziehung zwischen zwei beliebigen Agenten beschrieben wer den kann Vgl AH04 S 18 22 Dieses Problem ist quivalent zum sog Halteproblem in der Theoretischen Informatik 4 Wissensbeschreibung durch Ontologien 20 4 Wissensbeschreibung durch Ontologien Menschen greifen bei der Arbeit mit abstrakten Daten jeglicher Art auf pers nliches ge speichertes Kontextwissen zur ck welches auf fr heren Erfahrungen beruht Gibt es auf diese Weise keine L sung helfen umfangreiche Lehrb cher Lexika Fachliteratur oder Regelwerke einheitliche Konventionen ber bestimmte Begriffe eines speziellen Wissens bereiches ausreichend unmissverst ndlich f r Dialoge und Diskurse zu verwenden Ein Computerprogramm kann im Allgemeine
100. in ihrer Verwendbarkeit abh ngig von der verwendeten OWL Sprachebene und stellen einen Teil des vollen OWL Sprachumfangs dar Eine komplette Auflistung aller Sprachelemente und Hinweise zu ihrer korrekten Ver wendung findet sich auf den Spezifikations Webseiten http www w3 org 2004 OWL 4 Wissensbeschreibung durch Ontologien 26 4 2 Ontologie Editoren Eine Schl sselrolle f r die erfolgreiche Entstehung eines SW nimmt die Entwicklung spe zieller Software Tools f r die Erstellung von Ontologien ein Eine m gliche weite Ver breitung von Ontologien wird nur dann Erfolg haben wenn dem Nutzer ausreichend aus gereifte Tools zur Erstellung und Verwaltung eigener Ontologien zur Verf gung stehen Obwohl sich die Idee des SWs wachsender Beliebtheit erfreut existieren bisher nur weni ge Applikationen f r eine Ontologieentwicklung Speziell f r die junge Ontologiesprache OWL stehen dem Entwickler momentan wenige Tools zur Verf gung Hinsichtlich der Ent wicklungsumgebungen nimmt das Protege Projekt der Universit t Stanford eine f hrende Stellung ein Die Editoren OilEd von der University Manchester und OntoEdit von der Firma OntoPrise sind zwei weitere umfangreiche Vertreter f r Ontologieeditoren welche zur Vollst ndigkeit erw hnt werden 4 2 1 Das Protege Projekt Bei Prot g handelt es sich um ein Open Source Projekt der Universit t Stanford wel ches seit Fr hjahr 2005 als Version 3 0 erh ltlich ist Das mit einem
101. inschr nkung h ngt jedoch von der eingesetz ten Suchmaschine ab Google gibt den Nutzer die M glichkeit ber eine Suchstringerwei terung mittels dem Konstrukt site die Suche einzuschr nken Dieser Mechanismus wird 78 Alternativ kann diese Angabe auch in dem Suchstring mit untergebracht werden wo sie im Endeffekt immer mit bergeben wird 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 60 auch durch die Google API unterst tzt Als Parameter wird der Dom nen Name des Web Servers bergeben auf dessen Seitenbestand die Suche beschr nkt werden soll Zum Bei spiel w rde ein Klick auf die untere Zuordnung in Abbildung 16 eine neue Suchanfrage mit dem Suchstring Webtechnologien site minet uni jena de ausl sen Sonto erweitert hierzu den eigentlichen Suchstring durch Angabe der jeweiligen Dom ne Um unabh ngig von der konkret eingesetzten Suchmaschine zu sein wurde die Model lierungsfunktion in der INQUIRY Klasse untergebracht Die Suchstringerweiterung wird dort in der Methode makeQueryString vorgenommen In ihr wird momentan die Google spezifische site Angabe zusammengestellt Die Kontrolle der aktuellen Sucheinschr nkung wird durch den Parameter rn resource na me gesteuert welcher den rdf ID Namen f r die jeweilige Strukturebene enth lt so wie er in der Ontologie angegeben wurde Der Sonto Skriptaufruf search php5 q testquery rn Fakultat f r Mathematik und Informatik f
102. ionen des HTTP Protokolls gehorchen Information Retrieval IR Bezeichnet die Methode der computergest tzten inhaltsori entierten Suche in einer Menge von Dokumenten bzw Datenbest nden zur Infor mationsgewinnung Dabei liegt das Ziel darin die implizit in den Datenbest nden enthaltenen Informationen zu extrahieren Im Zusammenhang mit einer Informati onsgewinnung auf Basis des WWW wird hier auch von Online Retrieval gespro chen Namensdienst Naming Service ein im Netzwerk implementierter Mechanismus der logische leicht merkbare Namen einer Ressource oder einer Person auf numerische Netzwerkadressen abbildet 15 Glossar 78 Ontologie Im Kontext des Semantic Web wird darunter eine formale Sammlung und Strukturierung zusammengeh riger Begriffe verstanden Die in einer Ontologie zu sammengef hrten Begriffe werden in ihr geordnet hierarchisiert und miteinander in definierte Beziehungen gebracht Das Wissensgebiet das mit Hilfe einer Ontologie beschrieben und erschlossen wird wird hierbei als Dom ne bezeichnet OWL Web Ontology Language Ist eine semantische Auszeichnungs Sprache Markup Sprache zum Ver ffentlichen und Austauschen von Ontologien im WWW Die Sprache ist eine Weiterentwicklung der Ontologie Sprache DAML OIL PHP PHP Hypertext Preprocessor Ist eine serverseitig in HTML eingebettete Web skriptsprache mit deren Hilfe eine schnelle und effiziente Entwicklung dynamischer Webanwendungen erm glicht wird
103. it der Funktion children auf alle Sub Elemente eines XML Tags zugegriffen werden w h rend ber attributes ein Zugriff auf alle Attribute eines Tags m glich ist A OV ur ou Hr 9 Vorverarbeitung der Ontologie 53 speziellen eigens f r die Gegebenheiten umgesetzten OWL Parser auf Basis einer OWL Lite Teilmenge in Angriff zu nehmen Die verwendeten Konstrukte erwiesen sich dabei als v llig ausreichend um die f r diese Aufgabenstellung ben tigten Informationen zu modellieren 9 2 Erstellung einer OWL Parser Klasse Die Funktionalit t eines Parsers f r die Analyse einer OWL Datei wurde in einer eige nen Parser Klasse OWLP class umgesetzt Die Klasse erm glicht eine f r diese Arbeit zugeschnittene Ontologieauswertung Folgende Methoden wurden daf r programmiert Ll array getClass object SimpleXMLElement L array getObjectProperty object SimpleXMLElement L array getDatatypeProperty object SimpleXMLElement LJ array getIndividual object SimpleXMLElement array classes LJ array getIndividualRecursiv object SimpleXMLElement string classname Bedeutend in Sonto ist die Methode getIndividual die die Hilfsmethode getIndividual Recursiv aufruft Die rekursive Methode bernimmt die eigentliche Arbeit indem sie die Individuen Definitionen unabh ngig von der Verschachtelungstiefe der Elemente aus liest Ein Objekt der OWLP Klasse wird in der CONTROL Klasse bei jeder gestellten Suchanfrage instanziert
104. l zuzuordnen Weiterhin bietet die RDF S Syntax keine M glichkeit Disjunktheit von Klassen auszudr cken oder neue Klassen durch Kombination aus bereits bestehender zu definieren Mit RDF S k nnen keine Kardinalit tsrestriktionen oder inverse Beziehungen zwischen Klassen formuliert werden F r eine gr ere Freiheit bei der Modellierung semantischer Informationen werden zu s tzliche Beschreibungselemente ben tigt die durch den auf RDF RDFS aufsetzenden Ontology Layer bereitgestellt werden sollen 3 2 4 Ontologien Ontology vocabular Ontologien sind neben XML und RDF die dritte wesentliche Komponente des SW Im Kontext des SW wird eine Ontologie als eine Kollektion von strukturierten zusammenge h rigen Begriffen angesehen die eine formale Beschreibung eines bestimmten Wissens gebietes Dom ne bereitstellen Diese erm glicht dann eine maschinelle Auswertung der modellierten Wirklichkeit Konzepte und erlaubt so die Verbindung von Daten mit Se mantik Der RDF RDFS Layer bietet nur die M glichkeit Beziehungen zwischen Ressourcen aus zudr cken Ontologien sollen den Ressourcen eine Bedeutung zuordnen die als eine Art Konvention zwischen Daten und Bedeutung aufgefasst werden kann welche zuvor von einem Menschen festgelegt werden muss Im Abschnitt 4 wird das Thema Ontologien ausf hrlicher erl utert 3 2 5 Wissensverarbeitung Logic Damit ein Bedeutungsnetzwerk von Maschinen verarbeitet werden kann muss dieses nicht in de
105. leSearch SOAP Request lt xml version 1 0 encoding UTF 8 gt lt SOAP E NV Envelope xmlns SOAP ENV http schemas xmlsoap org soap envelope xmlns xsi http www w3 org 1999 XMLSchema instance xmlns xsd http www w3 org 1999 XMLSchema gt lt SOA2 lt nsl KE lt lt ns lt SOAP lt SOAP ENV E ENV Body gt doGoogleSearchResponse xmlns nsl urn GoogleSearch SOAP ENV encodingStyle http schemas xmlsoap org soap encoding gt eturn xsi type ns1l GoogleSearchResult gt lt documentFiltering xsi type xsd boolean gt false lt documentFiltering gt lt estimatedTotalResultsCount xsi type xsd int gt 3 lt estimatedTotalResultsCount gt lt directoryCategories xmlns ns2 http schemas xmlsoap org soap encoding xsi type ns2 Array ns2 arrayType nsl DirectoryCategory 0 gt lt directoryCategories gt lt searchTime xsi type xsd double gt 0 194871 lt searchTime gt lt resultElements xmlns ns3 http schemas xmlsoap org soap encoding xsi type ns3 Array ns3 arrayType nsl ResultElement 3 gt lt item xsi type nsl ResultElement gt lt URL xsi type xsd string gt http www informatik uni jena de sack WS0405 webtechnologien themen htm lt URL gt lt cachedSize xsi type xsd string gt 17k lt cachedSize gt lt directoryTitle xsi type xsd string gt lt directoryTitle gt lt hostName xsi type xsd string gt lt hostName gt lt relatedInformationPr
106. lichkeit suggeriert einen Performancegewinn Werden die Daten in einer Datei abgespeichert m ssen sie jedoch bei jedem Programmaufruf aus der Datei wieder eingelesen werden und der anf ngliche Performancegewinn wird dadurch wieder geschm lert Die Speicherung in einer Datenbank w rde hingegen einen schnellen Zugriff auf die 72 In Listing 19 Zeilen 5 und 6 sind diese daher auskommentiert wurden 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 55 Daten ber ein Datenbank Management System garantieren Verlockend ist besonders die M glichkeit einer integrierten Anfragesteuerung mittels der Structured Query Language SOL F r diese Arbeit wurde sich jedoch gegen diese M glichkeit entschieden da der Aufwand f r den Einsatz eines speziellen Datenhaltungssystems in keiner vern nftigen Relation zu der tats chlich anfallenden Datenmenge steht Obwohl die zweite M glichkeit auf den ersten Blick die weniger sch ne Variante der bei den darstellt zeigt sich dass der zu vermutende Performanceverlust relativ gering ausf llt Tabelle 3 zeigt einen Performancevergleich des Parsers f r unterschiedliche Dateigr en der Ontologie Tabelle 3 Parser Ausf hrungszeit Dateigr e der Ontologie Ausf hrungszeit des Parsers gesamt simplexml_load_file 100 Kilobyte 0 03 Sekunden 0 005 Sekunden 500 Kilobyte 0 23 Sekunden 0 04 Sekunden 1000 Kilobyte 0 74 Sekunden 0 08 Sekunden
107. llt werden soll und nicht was die Inhalte bedeuten Einer Maschine ist es in der Regel nicht m glich damit die Bedeutung der so strukturierten Daten zu erfas sen LI Das blo e HTML Konzept der Hyperlinks erlaubt zwar dar ber hinaus eine Ver kn pfung der Webdokumente untereinander gibt jedoch auch hier keine Hilfestel lung bei der Frage der Semantik LJ Mit den durch den HTML Standard bereitgestellten sog Meta Tags ist prinzipiell eine wenn auch sehr beschr nkte Bedeutungszuordnung zu einem gesamten Webdokument m glich Der seltene und oft missbr uchliche Einsatz dieser Tags ist neben der mangelnden Ausdrucksst rke der Hauptgrund f r die Unzul nglichkeit dieses Ansatzes f r die hier diskutierte Problemstellung 13 Es wird hier oft von Agenten Systemen kurz engl Agent gesprochen 3 Semantic Web 14 Wie es gelingen soll zus tzlich zu dem heutigen bestehenden WWW ein semantisches Netz zu etablieren wird in den folgenden Abschnitt erl utert 3 2 Die Semantic Web Architektur In diesem Abschnitt werden die einzelnen Entwicklungsschritte f r eine erfolgreiche SW Realisierung dargelegt Abbildung 2 zeigt das momentan favorisierte Architekturmodell des SW wie es auf den Webseiten des W3C zu finden ist W3Cb Die einzelnen Schich ten stellen jeweils eine Abstraktionsebene dar die alle zusammengenommen das SW bil den Rules Da Digital Signature Unicod
108. lt owl Class rdf ID Organisation gt lt rdfs subClassof gt lt owl Class gt SEENEN lt rdfs subClassOf rdf resource Organisation gt lt owl Class gt de Listing 16 Auszug aus der Klassendefinition fsu jena owl Wie in den Zeilen 2 7 im Listing 16 zu sehen ist entscheidet Prot g von Fall zu Fall selbst ber die Art und Weise der Anwendung der OWL Konstrukte Die Definition der Klasse Organisation erfolgt an Ort und Stelle der eigentlichen subClassOf Definition der Klasse Arbeitsgruppe Zeile 4 66 Die komplette OWL Ontologie ist unter dem URL http www artusweb de SontoX ontology fsu jena owl einzusehen 8 Erstellen der Ontologie 47 8 2 Definition der ben tigten Eigenschaften Nach der Wahl der eingesetzten Klassen wurde ein hinreichend gro er Satz von zugeh rigen Eigenschaften definiert Gesucht waren nur solche Eigenschaften die typisch und aussagekr ftig f r eine sp tere Webseiten Instanz sind Dies ist z B bei der Eigenschaft Homepage gegeben da der sp tere Wert die Angabe eines URL eine Webressource ein deutig referenziert In Tabelle 2 sind alle aufgenommenen Eigenschaften alphabetisch auf gelistet Tabelle 2 Definierte Eigenschaften der Ontologie Bezeichnung OWL Typ Wertezuordnung Anschrift DatatypeProperty string XMLS Datatype Dekan DatatypeProperty string XMLS Datatype Direktor DatatypeProperty strin
109. menhang wird als Entwicklungswerkzeug ein Ontologieeditor vorgestellt der in dieser Arbeit zum Einsatz kam Weiterhin wird die zur m glichen formalen Ausge staltung einer Ontologie einsetzbare Ontologiesprache OWL vorgestellt Ebenso wird die f r die Datengewinnung eingesetzte Technik der Web Services und als konkretes Beispiel der f r die Implementierung favorisierte Google Web Service erl utert Eine Beschreibung der konkreten Vorgehensweise bez glich der Umsetzung der Problem stellung erfolgt im Teil II Nach einer Begr ndung ber die getroffene Wahl der f r die Implementierung eingesetzten Programmiersprache wird als erster Schritt die Beschaffung einer Datengrundlage in Form einer automatisch gestellten Suchabfrage an eine Suchma schine erl utert Es folgt eine Beschreibung der vorgenommenen Schritte zur Ontologie modellierung Als weiteren Punkt wird anschlie end das Problem der automatischen On tologieverarbeitung und dort konkret das Erstellen eines speziell zugeschnittenen Parsers aufgezeigt Auf dieser Grundlage wird anhand einzelner Komponenten erl utert an wel chen Stellen der programmierten Websuche eine Integration der Ontologie zu den ein zelnen Suchtreffern erreicht wurde und welche Techniken und Ideen daf r zum Einsatz kamen Einleitung In Teil HI wird zu Beginn eine Auswertung der erreichten Umsetzung anhand einer Ana lyse der Schw chen und St rken vorgenommen Die Funktionsweise der programmierten Websu
110. mentenstrukturen bilden auf dessen Einzelheiten hier nicht ersch pfend eingegangen werden kann und soll Dabei bietet RDF selbst keine M glichkeit die Beziehungen zwischen Eigenschaften und Res sourcen zu definieren und gegebenenfalls Restriktionen aufzuerlegen Um diese Bezie hungen und eventuelle Restriktionen zu deklarieren werden sog RDF Schemata RDFS eingesetzt Mit einem RDF Schema ist es analog dem XML Schema m glich ein ei genes strukturiertes RDF Vokabular zu definieren Es bietet definierte Konzepte zur Be schreibung von Klassen Ressourcen und Eigenschaften sowie deren Zusammenh nge Mit 20 Alternativ wird hier auch ein Oval verwendet 3 Semantic Web 18 RDFS wird eine Typisierung von RIDE Ressourcen erm glicht Es K nnen hierarchische Strukturen Taxonomien und ihre Beziehungen untereinander modelliert Datentypen defi niert und Restriktionen auferlegt werden Dar ber hinaus sind noch weitere Anwendungen denkbar Mit RDF steht eine einfache Modellierungssprache zur Verf gung die jedoch f r eine Formulierung von Wissen allein noch nicht ausreicht So ist es mit RDF S nicht m g lich global definierte Eigenschaften lokal f r bestimmte Instanzen einzuschr nken Liegt z B eine Eigenschaft ben tigt_Kraftstoff vor f r die die Klasse PKW als Domain und die Klasse Kraftstoff mit den Sub Klassen Benzin und Diesel als Range definiert ist ist es nicht m glich einer PKW Instanz nur den Kraftstoff Diese
111. miert Dieser erm glicht die Abbildung des Inhaltes der OWL Datei auf eine geeignete Datenstruktur zur Weiterverarbeitung Die Programmierung eines eigenen OWL Parsers war zu Beginn der Problembearbeitung nicht das angestrebte Ziel Es wurde zuvor untersucht ob f r PHP eine entsprechende OWL Parser Klasse zur Verf gung steht In der Tat findet sich hierf r ein viel verspre chendes Projekt Die Rede ist von der RAP RDF API f r PHP einem SW Toolkit f r PHP Entwickler Die Dokumentation WB04 verspricht die Bereitstellung eines RD F XML Parsers und mit der integrierten OntModel API eine Verarbeitungsm glichkeit von Klassen Eigenschaften und Individuen einer Ontologie Dem Autor ist es jedoch nicht gelungen die erstellte OWL Datei in RAP einzulesen Pro bleme bereitete hier die Integration des korrekten OWL Namensraums Nach genauerem Studium der Dokumentation fand sich ein Hinweis darauf dass das Generieren eines Ontologie Modells gegenw rtig nur unter Verwendung des RDFS Vokabulars m glich ist Eine Implementierung des OWL Vokabulars sei f r die Zukunft angedacht Aus diesen 70 RAP ist ein Open Source Projekt der Freien Universit t Berlin und ist momentan unter http sourceforge net projects rdfapi php in der Version 0 9 1 zu beziehen 9 Vorverarbeitung der Ontologie 52 Gr nden war zum Entwurfszeitpunkt von Sonto der Einsatz von RAP nicht m glich F r eine sp tere Weiterentwicklung von Sonto k nnte jedoch die
112. n Web Agents die selbstst ndig die Information im Netz durchsuchen und eigenst ndig Schl sse ziehen k nnen In der Lite ratur finden sich diesbez glich viele Beispielszenarien Diese Beispiele tragen dazu bei die Idee des SW einem breiten Publikum nahe zu bringen und so die Zahl derer die sich mit diesem Thema besch ftigen zu vergr ern Eine vollst ndige Etablierung eines SW ist nach Meinung des Autors in den kommenden zehn Jahren nicht in Sicht Jedoch bleibt zu vermuten dass einige Spezialanwendungen schon bald die Vorteile eines SW klar demonstrieren k nnten und so seine Umsetzung hnlich der WWW Entwicklung beschleunigen wird 14 Zusammenfassung In dieser Arbeit wurde eine ontologiegest tzte Websuche entwickelt die anschaulich de monstriert welches Potenzial die Nutzung einer Ontologie f r eine semantische Suche im WWW bereith lt Als erstes wurde das Problem der Beschaffung einer Datengrund lage durch den Einsatz des Google Web Services erfolgreich gel st wobei gleichzeitig ein gutes Beispiel f r die Einsatzm glichkeit von Web Services gegeben wurde Die Qua lit t und die Anzahl der von Google indizierten Webressourcen bildete f r Sonto eine wichtige Grundlage auf die sich die programmierte Websuche st tzt und von der auch deren G te abh ngig ist Als zweite wichtige Komponente wurde eine eigens zugeschnit tene Ontologie unter Zuhilfenahme des Ontologieeditors Prot g in der Ontologies
113. n des Google Web Services in die schon zuvor vorgestellte Systemarchitektur Die dunkelgrau unterlegten Felder sind die speziell auf den Google Web Service zugeschnittenen System komponenten Implementierung eines SOAP Clients Um die Schnittstelle zu Google nutzen zu k nnen ist die Implementierung eines SOAP Client erforderlich Der SOAP Client ist ein Teil des Gesamtsystems der die Kommuni kation mit dem Web Service bernimmt PHP h lt ab der Version 5 die M glichkeit eines internen SOAP Moduls bereit Unter Linux muss dazu z B PHP5 mit dem Schalter with soap kompiliert werden 7 Danach ist es m glich die fest implementierte SOAP Klasse f r die Erstellung eines eigenen SOAP Clients zu nutzen Da f r Sonto eine m glichst gro e Unabh ngigkeit von einer speziellen Webserverkonfiguration angestrebt wurde und die meisten Host Provider PHP5 ohne eine SOAP Unterst tzung bereitstellen empfiehlt sich die Umsetzung eines eigenen SOAP Clienten Obwohl das SOAP Protokoll relativ einfach aufgebaut ist und das XML Austauschformat eine Kontrolle des Nachrichtenaustausches vereinfacht sollte der Aufwand f r die Um setzung eines eigenen SOAP Clients nicht untersch tzt werden Die Entwicklergemeinde von PHP h lt speziell f r die Implementierung eines SOAP Clients einige frei zug ngliche Klassen bereit sodass eine eigene Programmierung nicht notwendig ist In Sonto wurde 57 Siehe hierzu http www php net 58 Vgl dazu Kra04
114. n dieses Ansatzes von der Qualit t der von den jeweiligen Webmastern gemachten Annotationen abh ngig ist 10 4 Hilfestellung auf Basis der Ontologie f r die Suchraumeinschr nkung Dem Nutzer soll ber die Zuordnung der Treffer zu den in der Ontologie enthaltenen Kon zepten hinaus eine Hilfestellung f r eine individuelle Suchraumeinschr nkung gegeben werden Die in der Ontologie enthaltenen Informationen bildet daf r die Grundlage Ange strebt wurde eine Visualisierung der Individuen die ber die Eigenschaft gehort_zu in der Ontologie miteinander in Beziehung stehen Die so angezeigte Taxonomie soll den Nut zer ber die momentan gew hlte Suchraumeinschr nkung informieren und ihn zus tzlich die M glichkeit einer alternativen Suchraumeinschr nkung geben 84 Eingebettete Frames iframe inline frame sind Bestandteil des XHTML Standards und erzeugen in einer Webseite einen eigenst ndigen Bereich in dem es erm glicht wird Inhalte einer anderen Webseite anzuzeigen 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 66 Abbildung 19 zeigt eine Beispielauspr gung der in Sonto generierten Taxonomie Die im Beispiel aktuelle Ebe ne ist das Institut f r Informatik welche als Zeichen der momentanen Suchraumeinschr nkung blau hinterlegt ist Das hei t es werden nur Treffer angezeigt die unter der Homepage der Institutes f r Informatik angeordnet sind Oberhalb der aktuell gew hlten Ebene
115. n ist es nicht Ziel der Arbeit die Gesamtheit aller existierenden Webseiten zu sichten und zu analysieren Vielmehr beruht der Satz der aufgenommenen Homepages der subjektiven Einsch tzung des Autors Bei genauerer Betrachtung ist darin sogar eine St r ke der Idee hinter dem Sonto System zu sehen Die Ontologie kann so durch Aufnahme von n tzlich und wichtig erscheinenden Konzepten optimal angepasst werden Da ein semantisches Netz noch nicht existiert und die Angabe von geeigneten Metada ten von kaum einem Webmaster der einzelnen Bereiche auch nur ansatzweise umgesetzt wurde war eine automatische Auswertung und Relevanzbewertung zum gegenw rtigen Zeitpunkt noch nicht m glich sesch lt Lehrstuhl rdf ID Lehrstuhl_f r_Entwicklungspsychologie gt lt Telefon rdf datatype http www w3 org 2001 XMLSchema string gt 03641 945200 lt Telefon gt lt Anschrift rdf datatype http www w3 org 2001 XMLSchema string gt Am Steiger 3 1 D 07743 Jena lt Anschrift gt lt E Mail rdf datatype http www w3 org 2001 XMLSchema string gt Rainer Silbereisen uni jena de lt E Mail gt lt Picture rdf datatype http www w3 org 2001 XMLSchema anyURI gt http www artusweb de SontoX ontology img Lehrstuhl_fuer_Entwicklungspsychologie png lt Picture gt lt Homepage rdf datatype http www w3 org 2001 XMLSchema anyURI gt http www uni jena de svw devpsy lt Homepage gt lt Homepage rdf datatype http www w3 org 2001 XMLSchema
116. n nach ihrer Relevanz und Themenzugeh rigkeit um m gliche themengleiche Webressourcen in einer Wolken Darstellung blaue Bereiche zu gruppieren Der Nutzer kann sich interaktiv in der Hyper linklandschaft bewegen und seine Suche mit einem Klick auf eine Webressource Kno ten oder einem Link Kante verfeinern bzw steuern Die auf den ersten Blick recht ungewohnte Suchoberfl che und Bedienung hat nach einer kleinen Eingew hnungspha se durchaus ihren Reiz Kartoo bietet dabei einen gro en Funktionsumfang auf den hier nicht weiter eingegangen werden soll heat soziologie uni jena d swt informatik uni jena de unt ie m urt de urt d e N tu ilmenau de e d tu harburg de harburg de Abbildung 1 Teilausschnitt der Metasuchmaschine Kartoo a und des TouchGraph GoogleBrow sers b Der in Abbildung 1 b gezeigte Touch Graph GoogleBrowser stellt f r einen eingegebe nen URL die Linkstruktur in Form eines Graphen dar Die Knoten sind die einzelnen URLs und die Kanten stehen jeweils f r die nach Einsch tzung von Google verwand ten Webressourcen Genutzt wird hierbei ausschlie lich die related link Funktion von Google So innovativ und interaktiv die beiden vorgestellten Beispiele auch sein m gen eine wirk liche prinzipielle Verbesserung der Websuche bieten diese nach Meinung des Autors nicht Auf Grundlage der heutigen Situation im Web bieten obige Beispiele zwar ein Plus an
117. n nicht auf ein derartiges Hintergrundwissen zu r ckgreifen Das Konzept der Ontologien soll nun diese L cke schlie en und eine Art formales Nachschlagewerk f r Programme bereitstellen Der Begriff Ontologie ist aus der Philosophie entlehnt und steht dort f r die Lehre vom Sein Vgl AH04 S 10 f In weitgehender Anlehnung an diese Bedeutung bedient sich die Informatik des Ontologie Begriffes Er bezeichnet hier eine einheitlich zusammenge fasste Repr sentation von Begriffen bezogen auf einen zugrunde liegenden speziellen Wis sensbereich knowledge domain Die Anzahl potenzieller Wissensbereiche ist dabei so gro wie die Vielfalt des kulturellen und wissenschaftlichen Lebens selbst Wie Hesse in Hes02 schreibt macht daher im Kontext der Informatik im Gegensatz zur Philoso phie auch der Gebrauch des Plurals Ontologien Sinn Eine Ontologie kann definiert werden als eine explicit and formal specification of a conceptualization AH04 Ontologien sind formale semantische Modelle die dazu dienen den Austausch und das Teilen von Wissen insbesondere zwischen menschlichen und maschinellen Akteuren zu erleichtern Die einzelnen modellierten Wissensgebiete werden dabei auch Dom nen ge nannt Begriff Beispielauspr gung bezieht sich auf erweckt P steht f r De aa s bezieht sich auf gc Symbol ar Ding Apache Abbildung 5 Kommu
118. n von Eigenschaften DatatypProperty in der Ontologie wie sie in Tabelle 2 auf Seite 47 aufgef hrt wurden Die Reihenfolge der Auflistung kann in der Datei config php welche sich im Sonto Stammverzeichnis befindet mit entsprechenden Angaben beeinflusst werden Die Array Variable conf_ShowInfo bestimmt die jeweilige Reihenfolge Listing 22 zeigt den entsprechenden Auszug aus der Konfigurationsdatei geo Sconf_ShowInfo array Direktor Inhaber H e Ee Dekan Telefon Bex Mes t omepaser Nas larslicie A Listing 22 Festlegen der Reihenfolge f r die Informationsanzeige config php Um die Information anzuzeigen wird die Methode getInfo der CONTROL Klasse an entsprechender Stelle aufgerufen In der Methode selbst wird das Konzept des eingebette ten Frames iframe genutzt damit eine eventuelle Ladeverz gerung f r die Anzeige des Bildes sich nicht auf die Anzeigegeschwindigkeit des restlichen Web Interfaces nieder schl gt Hierzu wird in den definierten iframe als Quellattribut src die Datei info php5 mit den zuvor in getInfo ermittelten Informationen als Parameter bergeben e lt iframe sre info php5 infoElementString Dekan Prof Dr Paul Seidel Telefon 03641 947000 Fax 03641 947002 E Mailldekanat paf uni jena de Anschrift Max Wien Platz 1 07743 Jena amp CurrentTaxoLevel Physikalisch Astronomische_Fakult t frameborder 0 marginhe
119. nden machen gt Vi lt SOAP ES Service Konsument Service Anbieter Client Server Abbildung 9 Schema der service orientierten Web Service Architektur SOAP Der Name SOAP steht f r einen Kommunikationsprotokoll Standard der die Kommunikation von im Internet verteilten Applikationen unabh ngig von der zugrunde liegenden Software Architektur ber XML Nachrichtenaustausch regelt Im n chsten Abschnitt werden die wichtigsten Merkmale von SOAP kurz umschnit ten Web Service Description Language WSDL Hierbei handelt es sich um einen Standard zur Dienst Beschreibung von Web Services Eine WSDL Beschreibung wird mit Hilfe von XML formuliert und beinhaltet unter anderen Informationen ber Datentypen Methoden und Daten einer Nachricht und die m glichen bertragungs protokolle Siehe WSDL HL04 Universal Description Discovery and Integration UDDD UDDI ist ein auf XML basierender Verzeichnisdienst Standard der es einem Service Anbieter erm glicht seinen Web Service zu publizieren Ein Nutzer kann daraufhin in einem UDDI Verzeichnis nach einem bestimmten Web Service suchen UDDI erm glicht eine Registrierung eine spezifische Suche und eine Schnittstellendefinition Der Stan dard befindet sich in der Obhut des OASIS Konsortiums Organisation for the Ad vancement of Structured Information Standards und ist aktuell in der Version 3 verabschiedet UDDI
120. ne Webseite mit popul ren Schl sselw rtern angereichert wird die kaum et was mit dem wahren Inhalt der Seiten zu tun haben Die Suchmaschine weist dann solchen Seiten unter Umst nden eine vermeintlich positivere Relevanzbewertung bzw ein h heren Rang zu Wie gezeigt wurde gibt es eine Vielzahl von Schwierigkeiten f r eine automatische ma schinelle Auswertung Besonders die fehlende Semantik verhindert weitgehend eine auto matische Relevanzbewertung von Webseiten Alle bisher besprochenen Techniken besonders die Ergebnisse der IR Systeme erreichen heute nur suboptimale L sungen Bei n herer Betrachtung kristallisiert sich eine Barrie re heraus die momentan kaum und wenn dann nur mit komplexen und speziellen IR Ans tzen berwunden werden kann Die Rede ist von einer der wichtigsten Grundeigen schaften des heutigen WWW Webseiten werden von Menschen f r Menschen bereitge stellt Die Aufmerksamkeit liegt darauf die Information dem Leser optisch ad quat aufbereitet zu pr sentieren Im WWW werden Dokumente daf r zumeist mit Hilfe von HTML so strukturiert dass ein Browser welcher die Webseite interpretiert die Inhalte in eine f r den Menschen lesbare Form umwandelt und am Bildschirm darstellt Eine m gliche ma schinelle Auswertung der Dokumente ist auf diese Art nicht m glich Webseiten enthalten Meta Informationen Informationen ber Informationen dar ber wie Inhalte dargestellt werden z B in 14 Punkt gro er Ari
121. nen im Web Interface und ihre visuelle Aufbereitung mit in Betracht gezogen werden 13 Stellung von Sonto in der Semantic Web Vision Es stellt sich die Frage wie Sonto im Hinblick auf die SW Vision eingeordnet werden und welchen Beitrag diese Arbeit zur Entwicklung des SWs beisteuern kann Sonto kann im engeren Sinne nicht als eine SW Anwendung betrachtet werden da ein SW momentan noch nicht realisiert ist Eine Grundvoraussetzung f r ein SW ist die An notation der Webseiten mit semantischen Informationen wovon im heutigen WWW noch nicht die Rede sein kann Was jedoch getan werden kann um trotzdem einen ersten Schritt in Richtung einer SW Umsetzung zu gehen ist die Schaffung einer externen Semantikbe schreibung die heute schon von Anwendungen genutzt werden k nnen In Sonto wurde dies mit der Modellierung einer eigens f r das Problem zugeschnittenen Wissensbeschrei bung in Form einer Ontologie umgesetzt Die Ontologie wenn auch in einem beschr nk ten Ma e erm glicht eine semantische Auswertung der entsprechenden Webressourcen im Hinblick auf ihre Einordnung in die Organisationsstruktur der FSU Jena und gibt so ein gutes Beispiel f r den Einsatz und Nutzen einer Ontologie im WWW In dieser Arbeit wurden die Einsatzm glichkeiten einer Ontologie f r den Spezialbereich einer Websuche untersucht Die Ergebnisse geben der Entwicklergemeinde eventuell neue Denkanst e und helfen mit die Akzeptanz und die Verbreitung von Ontol
122. nikationssituation Semiotisches Dreieck Die Kommunikationssituation in der sich die Akteure befinden wird durch das Semio tische Dreieck oder auch semantisches Dreieck beschrieben siehe Abbildung 5 links Symbole sind im Kontext des semiotischen Dreiecks geschriebene W rter einer spe ziellen Sprache Das Symbol erweckt einen bestimmten Begriff Konzept eine kognitive Projektion des Symbols auf einen Gegenstand der realen Welt Nun sind aber die kogniti ven Projektionen aller potenziellen Akteure keineswegs zwingend identisch Daraus folgt dass das Symbol selbst keine eindeutige Assoziationen mit einem Objekt der realen Welt garantiert Abbildung 5 rechts macht anhand eines Beispiels die mehrdeutige Interpreta tionsm glichkeit in einer Kommunikationssituation deutlich 4 Wissensbeschreibung durch Ontologien 21 Das Symbol Apache Abbildung 5 rechts kann drei m gliche Projektionen auf einen Begriff ausl sen Jeder dieser drei m glichen Begriffe besitzt eigens charakteristische Be schreibungen F r den Indianer w re dies z B Mensch amerikanischer Ureinwohner ge h rt zum Stamm der Apachen Alle diese Beschreibungen entsprechen einer speziellen Ontologie oder k nnen zu solchen zusammengefasst werden Mit ihrer Hilfe soll definiert werden auf welches Objekt der Wirklichkeit der jeweilige Begriff projiziert werden soll Mit Ontologien soll Wissen einer Dom ne so dargestellt werden dass innerhalb der Perso
123. nteragiert Weiterhin existiert als Einstiegsseite die Datei index html und als Optionsseite die Datei adv_search php5 Dieses klassische Dreigespann ist in den Web Schnittstellen der meisten Suchmaschinen anzutreffen und wurde auch f r Sonto bernommen da sich diese Struktur bew hrt hat und die meisten Nutzer damit vertraut sind Auf eine genaue Er l uterung der klassischen Benutzerf hrung einer Suchmaschine wird daher hier verzichtet In Anhang C auf Seite 80 sind jeweils Screenshots aller drei Webseiten des Web Interfaces abgebildet Die beiden Webseiten analyse php5 und info php5 werden vom Nutzer nicht di rekt aufgerufen sondern kommen vielmehr als Darstellungshilfe in der Datei search php5 bei Bedarf zum Einsatz Die Webseite about html gibt dem Nutzer Hilfestellung bei der Benutzung der Sonto Suche und Interpretation der Ergebnisse Abbildung 15 Verzeichnis und Dateistruktur des Sonto Systems Speziell zur Realisierung des Web Interfaces im Hinblick auf das Webdesign wird die Datei style css Stylesheets zur Formatierung der Ausgabe und das Verzeichnis img Gra fiken des Web Interfaces ben tigt Die Datei config php beinhaltet einige globale Konfi gurationseinstellungen des Systems 75 Abrufbar unter http www artusweb de SontoX ontology html index html 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 57 Tabelle 4 Implementierte Methoden der CONTROL Klasse Metho
124. ntoX zu errei chen Die Wahl der Programmiersprache Vor Beginn der Programmierung einer Web Applikation muss sich f r eine geeignete Pro grammiersprache entschieden werden Die Applikation selbst soll sp ter auf einem Server dem Web Server im WWW erreichbar sein und dort mit der Benutzerschnittstelle Der Name Sonto sprich sontox ist mehr ein Kunstname als ein Akronym und setzt sich aus Search ontology und eXtension zusammen Damit soll das Konzept ausgedr ckt werden mit Hilfe einer Ontologie Erweiterung die Suchtreffer einer konventionellen Suchmaschine m glichst mit zus tzlichen semantischen Informationen zu versehen Z Beziehen der Datengrundlage 38 Web Interface interagieren Mit Hilfe des Common Gateway Interfaces CGI ist es m glich eine externe Anwendung f r die Erstellung dynamischer HTML Dokumente auf Basis der Benutzereingaben und in Abh ngigkeit der gebotenen Funktionalit t der Anwen dung zu verwenden Diese Anwendung kann z B in einer Hochsprache wie Java C oder C geschrieben werden Wer jedoch nicht gerade einen WWW Server sein Eigen nennen darf bzw erweiterte administrative Rechte f r einen solchen besitzt ist auf einen dement sprechenden Serviceanbieter einen sog Host Provider angewiesen Nicht zuletzt aus Sicherheitsgr nden verbieten oder beschr nken die Provider ihren Kunden zumeist die Ausf hrung eigener ausf hrbarer Programme auf ihren Servern In der Regel ste
125. ogien f r eine semantische Auszeichnung im WWW voranzubringen In diesem Sinn kann Sonto als ein kleiner Schritt hin zu einem SW angesehen werden Der Versuch einer Prognose ber die SW Entwicklung Es kann nicht mit Sicherheit vorhergesagt werden wie und ob sich das SW in der Zukunft umsetzen l sst oder ob es vielleicht nur eine Vision bleiben wird Doch obwohl es derzeit 2 1Siehe http www artusweb de SontoX 14 Zusammenfassung 75 noch viele technische und organisatorische Probleme zu bew ltigen gilt spricht einiges daf r dass das SW eines Tages Wirklichkeit werden wird Die bereits angesprochene Inflation der Information ist ein wichtiger Grund daf r nach geeigneten L sungen f r die Bew ltigung der Informationsflut zu suchen Mit der Reali sierung des SW w rde eine M glichkeit geschaffen werden dem Computer effizient und effektiv die Arbeit der Informationssuche verwaltung akquise und recherche usw zu berlassen und dem st ndig steigenden Informationsangebot entgegenzutreten Die stei gende Nachfrage nach geeigneten L sungen k nnte daher die Entwicklungsbem hungen weltweit forcieren Dass diese Entwicklung bereits begonnen hat zeigt die in den letzten Jahren wachsende Anzahl an Publikationen und Forschungsaktivit ten vor allem an den Hochschulen und auch in der Industrie Eine der spannendsten Anwendungsgebiete eines zuk nftigen SW ist der Wunsch nach sich autonom im Web bewegenden Agentensysteme
126. ologien 24 re lt owl Class rdf ID Person gt lt owl Class rdf ID Abteilung gt lt owl Class rdf ID Geschlecht gt lt owl Class rdf ID Frau gt lt rdfs subClassOf rdf resource Person gt lt owl Restriction gt lt owl onProperty rdf resource geschlecht gt lt owl hasValue rdf resource weiblich rdf type Geschlecht gt lt owl Restriction gt lt owl Class gt ess Listing 5 OWL Class Definition Listing 5 zeigt des weiteren in Zeilen 7 10 ein Beispiel f r eine Eigenschaftsbeschr nkung owl Restriction die ausdr ckt dass die Klasse Frau f r die Eigenschaft des Geschlech tes den Wert weiblich besitzt ber das Element Restriction lassen sich weiterhin Be schr nkungen der Kardinalit t owl cardinality definieren Mit owl maxCardinality und owl minCardinality min max Notation ist es m glich einen Wertebereich festzulegen ber eine blo e Klassen Taxonomie hinaus lassen sich mit der Definition von Eigenschaf ten Properties Aussagen ber Klassen und davon abgeleiteten Elementen Individuen treffen Listing 6 Zu den beiden wichtigsten Typen von OWL Properties geh ren L ObjectProperty Mit Hilfe einer Objekteigenschaft owl ObjectProperty werden Be ziehungen zwischen Elementen von Klassen definiert L DatatypeProperty Die Datentypeigenschaft owl DatatypeProperty erlaubt die Zu ordnung eines XML Datentypes zu einem Element ee lt
127. omplexType gt lt xsd complexType name ResultElement gt lt xsd all gt lt xsd element name summary type xsd string gt lt xsd element name URL type xsd string gt lt xsd element name snippet type xsd string gt lt xsd element name title type xsd string gt lt xsd element name cachedSize type xsd string gt lt xsd element name relatedInformationPresent type xsd boolean gt lt xsd element name hostName type xsd string gt lt xsd element name directoryCategory type typens DirectoryCategory gt lt xsd element name directoryTitle type xsd string gt lt xsd all gt lt xsd comp Ce lexType gt Listing 14 Datentypen GoogleSearchResult und ResultElement WSDL Datei vo a a un bk ou H ro 8 Beziehen der Datengrundlage 44 7 3 Anfragesteuerung in einer eigenen Anfrage Klasse Die ben tigte Anfragesteuerung zur Erhaltung einer Datengrundlage wird in einer eigens definierten Anfrage Klasse INQUIRY class zusammengefasst siehe Abb 12 Die Klas se selbst ist in der Hauptklasse CONTROL class eingebunden und wird von dort aus instanziert Der Aufruf der Methode get_data einer zuvor erzeugten Objektinstanz der INQUIRY Klasse l st eine Anfrage an eine Suchmaschine aus Dazu kann prinzipiell jede beliebige Suchmaschine abgefragt werden Die Anfrage wird automatisch bei der Instanzierung eines CONTROL Objektes in der CONTROL Klasse vorgenommen sodass ein eventuelle
128. or Resource Description Framework RDF Schema Remote Procedure Calls Simple Mail Transport Protocol Structured Query Language Semantic Web Transmission Control Protocol Universal Description Discovery and Integration of Web Services Uniform Resource Identificator Uniform Resource Locator Uniform Resource Name World Wide Web Consortium Web Services Description Language World Wide Web Extensible Hypertext Markup Language Extensible Markup Language XML Schema Extensible Style Language XSL Transformations Einleitung Die Entwicklung des World Wide Web WWW hat heute ein Stadium erreicht in dem sich die Suchdienste einer immer schneller wachsenden Flut an Dokumenten gegen ber sehen Eine reine schl sselwortbasierte Volltextsuche einer Suchmaschine kann dem Nutzer nur ein Suchergebnis auf Basis der Schl sselwortvergleiche liefern Eine inhaltliche Einord nung einer bestimmten Webseite zu einem Bedeutungskreis ist aufgrund dieser Strategie kaum m glich Die von einem Suchdienst pro Suchtreffer angegeben Informationen wie der Titel ein kurzer Textabriss Engl snippets und einen URL reichen dabei meist nicht aus um eine ad quate Relevanzpr fung auf einen Blick zu erm glichen So muss der Nutzer die gefundenen Suchtreffer manuell auf ihre Relevanz hin berpr fen was unter Umst nden einen erheblichen Aufwand darstellt wobei der Erfolg nicht einmal garantiert ist Dies spiegelt die im Allgemeinen heute vorherrschen
129. pitel in der WWW Entwicklung zu ffnen und sich den Heraus forderungen der neuen Gegebenheiten zu stellen Die Aufgabe besteht in der Entwicklung neuer und in der Weiterentwicklung bereits bekannter Technologien um der wachsenden Informationsflut Herr zu werden und damit die riesige Menge an Webdokumenten besser und auf eine neue Art nutzen zu k nnen 2 Suchdienste im World Wide Web Wurde zu Beginn des WWW noch eine Art Liste der verf gbaren und neu hinzugekom menen Webseiten gepflegt so waren aufgrund des rasanten Zuwachses die Grenzen des Darstellbaren bald erreicht Ber99 Bereits kurz nach der Erfindung des WWW wur den Webseiten angeboten die nur den Zweck dienten dem Nutzer bei einer Webrecher che zu unterst tzen Zu den Pionieren dieser Idee geh ren z B die Suchdienste Yahoo http www yahoo com und metacrawler http www metacrawler com Beide wur den 1994 gegr ndet und existieren wenn auch in erweiterter Form heute noch Derzeit stehen unz hlige verschiedenartige Suchdienste im WWW bereit und auch hier kommen fast t glich neue Vertreter hinzu Die Suchdienste sind dabei ein fester Bestandteil bei der Nutzung des WWW geworden Sie sind f r viele Internetnutzer ein wenn nicht DAS wich tigstes Hilfsmittel bei einer Webrecherche und werden dabei gerne als erster Webeinstieg genutzt So einheitlich die Benutzerschnittstellen und die Intensionen der Suchdienste sind so unterschiedlich sind meist die eingesetzten
130. pra che OWL erstellt Ein eigener OWL Parser bernimmt die Aufgabe der Informationsex traktion aus der Ontologie Die so erhaltenen Informationen sollten in einer geeigneten Weise mit den Suchtreffern in Verbindung gebracht werden In Sonto wurde die Ver bindung von Ontologie und Datengrundlage an verschiedenen Stellen erfolgreich umge setzt und im Web Interface aufbereitet angezeigt Ausschlaggebend hierf r ist die OWL ObjectProperty gehoert_zu die eine hierarchische Strukturierung der in der Ontologie um gesetzten Organisationseinheiten erst erm glicht und die jedem Individuum zugeordnete OWL DatatypeProperty Homepage die eine Zuordnung einzelner Suchtreffer zu einem 92 Verwiesen sei hier auf Berners Lee Beschreibung eines SW Anwendungsszenarios f r Web Agenten in BHLO1 23Die Entwicklung von Sonto tr gt ihren Teil dazu bei 15 Ausblick 76 Individuum sicherstellt Die daf r n tige Programmierung der zugrunde liegenden Steuer logik gestaltete sich an vielen Stellen als sehr komplex und aufw ndig Die schlussendlich im Web Interface dargebotene Suche mit den zus tzlichen semantischen Auszeichnungen lassen kaum erahnen dass allein die Klassenbibliothek von Sonto mehr als 1800 Zeilen PHP Quelltext umfasst Am problematischsten zeigten sich die vielen Spezialf lle die meist aus einer ungeeigneten und unsauberen Gestaltung der Webseitenstruktur der FSU Jena resultierten und eine teils aufw ndige Behandlung erforderten
131. r Serviceanbieter eine von dem Konsumenten erhaltene Anfrage Request so interpretiert dass er daraufhin ebenfalls eine Anfrage an den Konsumenten sendet die inhaltlich einer komplexeren Antwort auf die zuvor gestellten Anfrage darstellt Mit diesem Kunstgriff wird die SMTP Beschr nkung umgangen In der Praxis wird SMTP meist dort eingesetzt wo die Netzwerkphilosophie einer Firma z B aus Sicherheitsgr nden kein HTTP mit der Au enwelt erlaubt jedoch den E Mail Verkehr ber SMTP gestattet 5 2 Googles Web Service Google als einer der beliebtesten Suchdienste im Web bietet seit April 2002 einen eige nen Web Service an der die Abfrage der Suchmaschine per Software erlaubt Der Web Service befindet sich seit Beginn an im Testbetrieb Beta d h der Dienst wird derzeit von Google als experimentell eingestuft Im August 2002 folgte eine aktualisierte Beta2 Version die bis heute die aktuelle Version darstellt Wie die Zukunft dieses Web Services aussehen wird ob er die Betaphase berwindet oder ob der Service vielleicht pl tzlich wieder eingestellt wird ist heute noch nicht abzusehen Die GoogleAPI ist f r neue be sondere kreative Anwendungen geschaffen worden Einige Vorschl ge von Google sollen dabei die Phantasie der Entwickler anregen automatisches Monitoring des Web f r neue Informationen zu einem Subjekt Marktforschungs Tools und Trendanalysen eine neue Benutzeroberfl che f r die Suche etc Google stellt
132. r wodurch z B eine exakte Suchraumeinschr nkung auf Basis des site Konstruktes nicht optimal genutzt werden kann bzw ganz versagt Der heute noch vorherrschende Mangel an semantischer Annotation der Webseiten gibt Sonto nur die M glichkeit die Semantik der einzelnen Webressourcen allein 20 Optional ist in SontoX eine Erh hung auf max 20 Suchtreffer m glich 12 Einsatzszenario des Sonto Systems 73 ber die IR Methode der URL Analyse zu ermitteln Auf Basis einer Webseitenaus wertung ist eine eindeutige Zuordnung zu einem bestimmten Themenbereich nicht m glich 12 Einsatzszenario des Sonto Systems An dieser Stelle soll anhand zweier konkreter Suchszenarien die Funktionsweise von Sonto dokumentiert werden Hierzu wird die Verwendung von Sonto mit der Suche ber http www google com verglichen Skizzenhaft wird das Vorgehen und das Resul tat beider Varianten gegen bergestellt und abschlie end zu jedem Suchszenario eine kurze zusammenfassende Analyse vorgenommen die die Vorteile des Sonto Systems zur rei nen Google Suche herausstellen Es werden Materialien der von der Fakult t f r Mathematik und Informatik angebo tenen Vorlesung Webtechnologien gesucht Suchbegriff Webtechnologien Gesucht sind Informationen ber die Vorlesung Einf hrung in die Entwicklungs psychologie des Institutes f r Psychologie Suchbegriff Entwicklungspsycholo gie Sonto Suche
133. r Lage sein z B die wahre Bedeutung des Wortes Apache genau zu verstehen Es ist ausreichend ein Regelwerk zu erstellen mit dem logische R ckschl sse gezogen wer den k nnen automatic reasoning inference Fakten die durch Ontologien ausgedr ckt werden k nnen als Grundlage f r logische Schlussfolgerungen verwendet werden Ein Schlussfolgerungssystem Reasoner kann anschlie end z B eine Ontologie auf ihre Kon sistenz hin berpr fen oder mit Hilfe weiterer referenzierter Ontologien den Wissensvorrat erweitern Vgl AH04 S 152 ff 21 F r n here Informationen ber RDFS siehe W3Cc 4 Semantic Web 19 Ein kurzes und einfaches Beispiel soll dies demonstrieren Angenommen in einer Ontolo gie ist festgelegt dass die Telefonvorwahl von Jena 03641 lautet In einer weiteren Ontolo gie ber einen Mitarbeiterstamm einer Firma ist f r das B ro des Herrn Mustermanns die Vorwahl 03641 eingetragen Obwohl die Information ber den Ort seines B ros in keiner Ontologie explizit angegeben ist kann ein Reasoner ber die Verbindung der identischen Vorwahlen ermitteln dass das B ro von Herrn Mustermann in Jena liegen muss 3 2 6 Automatische Beweisf hrung Proof F r eine aufgestellte Behauptung Statement soll eine sog Heuristic Engine solange das SW nach Regeln und Ontologien durchsuchen bis die Aussage entweder belegt oder wi derlegt werden kann Der Logic Layer bernimmt das Anwenden und Folgern aus den Regeln
134. r ein Individuum anzugeben Welche alternativen URLs f r ein Individuum vorliegen wird mit Hilfe des vom OWL Parser be reitgestellten Individuen Array in der CONTROL Klasse ermittelt Der INQUIRY Klasse wird bei der Instanzierung dann ein Array der verschiedenen URLs bergeben In der Methode makeQueryString wird mit Hilfe dieses Arrays der Suchstring mit den entspre chenden site Angaben mittels OR Verkn pfung erweitert F r den Suchbegriff Webtech nologien mit der aktuellen Suchraumeinschr nkung f r die Fakult t f r Mathematik und Informatik hat der endg ltige Suchstring folgenden Inhalt 8 Webtechnologien site minet uni jena de OR site informatik uni jena de 10 2 3 Zus tzliches Problem mit den Verzeichnisstrukturen Ein weiteres Problem tritt bei unterschiedlichen Verzeichnisstrukturen und gleichzeitigen multiplen URLs eines Individuums auf Im Folgenden soll anhand zweier Problemf lle beispielhaft deren prinzipielle Bearbeitung skizziert werden 1 Fall Unterschiedliche URLs mit identischen Pfad z B Institut f r Informatik LJ http www minet uni jena de www fakultaet LJ http www informatik uni jena de www fakultaet F r die Homepage des Institutes fiir Informatik ist zusatzlich die Pfadangabe Avww fakul taet von Bedeutung Google erlaubt jedoch nur die Sucheinschr nkung ber Dom nen In Sonto wird in diesem Fall der von Nutzer eingegebene Suchbegriff mit der zus tz lichen Angabe des Pfades erweit
135. rage in formatierter Form zur ck getAnalyselnfo Versucht die Meta Daten einer Webressource auszulesen falls mapHomepage erfolglos war Alle in der CONTROL Klasse implementierten Methoden sind in der Tabelle 4 zusam menfassend mit einer jeweiligen kurzen Beschreibung aufgelistet Die mit einem Stern markierten Methodennamen stellen dabei die Hauptfunktionalit ten bereit w hrend die unmarkierten Methoden als Hilfsmethoden in den Hauptmethoden zum Einsatz kommen Die wichtigsten Methoden der Tabelle 4 werden an sp terer Stelle anhand eines jeweiligen Beispiels genauer vorgestellt Da die Implementierung untrennbar mit der visuellen Aufbereitung des Web Interfaces verbunden ist werden die umgesetzten Techniken und die daf r eingesetzten Methoden in engem Zusammenhang mit der endg ltigen dem Nutzer dargebotenen Form erl utert Zu diesem Zweck werden die umgesetzten Ideen anhand eines jeweiligen Ausschnittes des Web Interfaces vorgestellt und deren Umsetzung anschlie end genauer besprochen Auf das Thema Webprogrammierung in Hinblick auf das Web Design HTML XHTML 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 58 CSS Browserkompatibilit t Variablen bergabe Benutzerf hrung etc wird in dieser Ar beit nicht eingegangen da dies eher eine handwerkliche Komponente darstellt die zwar sehr wichtig f r das Gelingen einer Web Anwendung ist jedoch in dieser Arbeit voraus gesetzt wir
136. rauf hin dass keine Meta Suche per Software erlaubt ist Hierzu m sste ein Zusatzver trag mit Google vereinbart werden Um unliebsame berraschungen zu vermeiden sollte daher zuvor ein gr ndlicher Blick in die Nutzungsbedingungen des jeweiligen Suchdiens tes geworfen werden Obwohl in Sonto ein anderes Verfahren zum Einsatz kommt soll die Option des Screen Scrapings als zweite Wahl nicht f r eine sp tere alternative Realisierung der Datenbe schaffung aus den Augen verloren werden weil dadurch ein breites Spektrum von Such maschinen genutzt werden kann 7 2 Nutzung des Googles Web Services Eine weitaus elegantere und zuverl ssigere Methode zur Datengewinnung stellt der im Teil I vorgestellte Google Web Service dar Er erm glicht eine bequeme und relativ einfache M glichkeit einer WWW Suche aus einem Anwendungsprogramm heraus Bedenklich sind jedoch die von Google auferlegten Beschr nkungen Dass nur max zehn Suchergebnisse pro Anfrage zur ckgegeben werden ist durch im Hintergrund ablaufende Mehrfachabfragen leicht kompensierbar Auch kann durch die Angabe eines exakten Star tindexes 0 bis max 1000 der Anwendungsprogrammierer eine entsprechende Ergebnis Dekade anfordern und dadurch bequem durch die Trefferliste navigieren Hierzu muss jedoch bei der Umsetzung der Programm Logik etwas M he investiert werden um eine exakte Navigation durch die einzelnen Suchtrefferseiten umzusetzen 55 http www goo
137. rkupsprache welche den Nutzern eine beliebige nach den eigenen W nschen und Bed rfnissen ange passte Strukturierung der Daten erm glicht Hierf r kommt XML zum Einsatz das HTML zuk nftig abl sen soll Bei XML handelt es sich wie bei HTML um eine einfache Teilmenge von SGML entscheidend ist jedoch die im Gegensatz zu HTML gegebene M glichkeit der Erweiterbarkeit Mit XML l sst sich jede gew nschte Syntax realisieren Der Nutzer kann eigene einfache und komplexere Da tentypen frei definieren und den XML Elementen spezielle Eigenschaften ber Attribut definitionen zuweisen Die Definition der verwendeten XML Syntax Struktur sollte heute vorzugsweise in der XML Schema Language XMLS erfolgen 5 F r mehr Informationen ber XML und XML Schema sei an dieser Stelle auf ABK 02 verwiesen Grammatikdefinitionen erm glichen die Erstellung einheitlicher XML Dokumente und die Durchf hrung von Syntaxpr fungen allerdings bieten sie keinen Aufschluss ber die Bedeutung der einzelnen Elemente Mit XML k nnen eigene Tags definiert und die Ele mente einer Webseite damit gekennzeichnet werden Dies allein reicht jedoch nicht aus da z B sp tere Web Agenten die Bedeutung der Tags nicht kennen Das Element ist mit einem bestimmten Namen gekennzeichnet jedoch kann die Bedeutung ein Computerpro gramm nicht ohne weiteres ermitteln Es herrscht daher nicht nur ein Bedarf an syntakti scher Interoperabilit t wie von XML angeboten sondern auch an
138. rschiedliche Sichtweisen auf ein Statement Es sei folgen des Beispiel Statement gegeben Max Mustermann ist Ersteller der Webseite http www max mustermann de Die erste M glichkeit das obige Statement zu interpretieren liegt in der Gruppierung der beteiligten Subjekt Pr dikat und Objekt Auspr gungen Max Mustermann http www beispiel org website creator http www max mustermann de Es handelt sich um ein Tripel der Form x P y Das Pr dikat P hier ist Ersteller von verbindet dabei das Subjekt x Max Mustermann mit dem Objekt y http www max mustermann de ausgedr ckt durch P x y Das es sich hierbei um ein bin res Pr dikat handelt ist eine Grundeigenschaft von RDF Vgl AH04 S 61 ff Die Darstellung als Graph auch N3 Notation genannt ist die zweite f r Menschen be vorzugte Darstellungsform Die Tatsache der bin ren Pr dikate zeigt sich in jeweils einer gerichteten Kante im Graph pro Statement Es sei hier bemerkt dass nat rlich von einem Subjekt beliebig viele Kanten auf jeweils andere Objekte ausgehen d rfen Abbildung 4 zeigt die grafische Darstellung des Statements welches durch die zus tzliche Beschrei bung des Titels der Webseite erweitert ist 19 Vgl AH04 S 64 66 3 Semantic Web 17 http www beispiel org mein rdf ns website creator I Max Mustermann website creator http www max mustermann de website titel gt Meine Homepage http w
139. rung stellt einen nicht zufrieden stellenden Ansatz dar und kann keinen positiven Effekt f r die Websuche garantieren Vielmehr wird dem Nutzer da mit die M glichkeit geboten immer dann wenn wider Erwarten sehr wenige oder gar keine Treffer f r eine Ebene angezeigt werden den Suchraum etwas zu erweitern Diese Option kann in einigen F llen den gew nscht Erfolg bringen w hrend in anderen Situa tionen kein Effekt damit erzielt wird Die Option der unscharfen Suche kann daher nur bedingt eine Hilfestellung bieten 89 http www minet uni jena de beckstei 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 69 10 6 Zusatzinformationen zur aktuellen Suchraumeinschr nkung In Sonto werden rechts neben der Taxonomie f r je de Ebene der Einschr nkung des Suchraumes Zusatzin formationen ber die jeweilige ausgew hlte Organisati onseinheit der FSU Jena angezeigt Die Informationen selbst beruhen auf den in der Ontologie hinterlegten Zu satzinformationen ber das jeweilige aufgenommene In dividuum In Abbildung 23 ist ein Ausschnitt des Web Interfaces zu sehen indem die Zusatzinformationen f r SZ m IER Abbildung 23 Zus tzliche In formationen zu der aktuellen Suchraumeinschr nkung den aktuellen Suchraum der Physikalisch Astronomische Fakult t angezeigt werden Die f r eine m gliche Anzeige zur Verf gung stehenden Informationen beruhen auf den zuvor getroffenen Definitione
140. rzem erfolgreich auf Erreichbarkeit gepr ft wurden Sonto wurde so konzipiert dass die Wahl des eigentlichen Verfahrens zur Suchmaschi nenabfrage m glichst unabh ngig vom Kernsystem realisiert ist Dies hat den Vorteil dass bei Bedarf relativ unkompliziert ein Wechsel zu einem anderen Verfahren erfolgen kann Daf r wurde die Funktion der Datenbeschaffung durch eine eigene Anfrage Klasse IN OUIRY class siehe Abb 11 realisiert Bei einem Wechsel zu einer anderen Suchmaschi ne muss lediglich die Anfrage Klasse modifiziert werden in der gegebenenfalls weitere Klassen die spezielle auf die gew hlte Suchmaschine abgestimmte Methoden bereit hal ten einzubinden sind Web Interface index html Klassen Bibliothek Ontologie fsu jena owl RESOURCE class INQUIRY class Klasse zur Beschaffung einer Datengrundlage Suchdienst CONTROL class OWLP class search php5 adv_search php5 Kontrolle des Web Interfaces und Verbindung der Trefferliste mit der Ontologie Eingabemaske und Anzeige der Suchtreffer Angepasste Methode n Abbildung 11 Architektur Modell mit gekennzeichneter Schnittstelle zur Datenbeschaffung Abbildung 11 zeigt die Sonto Systemarchitektur in der die zur Datenbeschaffung rele vanten Programmteile dunkelgrau markiert sind In den n chsten beiden Teilabschnitten werden zwei grunds tzli
141. s Anfrageergebnis bereits kurz nach Beginn der Pro grammausf hrung vorliegt In der INQUIRY Klasse selbst wird f r jedes ResultElement ein RESOURCE Objekt gene riert Nach Aufruf der get_data Methode aus der INQUIRY Klasse heraus besitzt das INQUIRY Objekt die f r die weitere Verarbeitung wichtigen Eigenschaften Resources und ResponseMetaData Die Variable Resources ist dabei ein Array von Objektinstanzen der RESOURCE Klasse und die Variable ResponseMetaData enth lt in Form eines as soziativen Arrays die wichtigsten Metadaten der Suchanfrage CTS Einbinden der RESOURCE Klasse Jedes Webdokument der Trefferliste wird als Objektinstanz der RESOURCE Klasse repr sentiert include RESOURCE class php eee i 0 foreach GAPI gt myResult resultElements as Sr neues Resource Objekt erzeugen gt Array von Resource Objekten Sthis gt Resources i object new RESOURCE string r URL Sthis gt Resourees Si l gt title Sr title Sthis gt Resources i gt snippet r snippet Sthis gt Resources i gt cachedSize r cachedSize Sin saa Listing 15 Verarbeiten der Suchergebnisse in der INQUIRY Klasse Listing 15 zeigt dass nicht das volle Potenzial an Ressourceninformationen in Sonto ge nutzt wird Momentan werden nur der Titel title die kurze Beschreibung snipper und die Gr e des im
142. s zuverl ssig extrahieren kann Die Antwort lautet NEIN Die Bedeutung ist ohne weitere Hilfe f r einen Automaten nicht zu erschlie en Von einer wohl definierten Bedeutung kann im obigen HTML Fragment also keine Rede sein Ziel des SW ist aber genau dies zu erreichen 12 Das World Wide Web Consortium stellt eines der wichtigsten Standardisierungsgremien im Web dar http w3c org 3 Semantic Web 13 Wenn in diesem Zusammenhang von einem maschinellen Verstehen der Daten die Rede ist so ist damit die Tatsache gemeint dass Computer eine standardisierte formale Struktu rierung der Daten nutzen k nnen um einzelne Datenteile einer bestimmten Bedeutung zu zuordnen Ein wirkliches Verstehen wie es sich die K nstliche Intelligenz KI w nscht wird dadurch nat rlich nicht realisiert Die Daten formal mit Semantik zu versehen ist im Prinzip eine Erweiterung des Metadatenkonzeptes bzw der Markup Strategie bei Textan notationen Hinter dem SW verbirgt sich jedoch mehr als nur eine blo e Metadatenauswer tung Verschiedene autonome Softwareprogramme sollen k nftig die auf unterschiedli che Art und Weise kodierte Semantik so verarbeiten k nnen dass sie den Inhalt eines Webdokumentes sicher einem Bedeutungskreis zuordnen k nnen Dar ber hinaus w re es einem Agenten m glich eine inhaltliche Beziehung zu anderen Webdokumenten und de ren Semantik herzustellen und schlie lich mit Hilfe dieser semantischen Zusatzinformati
143. sd string gt lt part name oe type xsd string gt lt message gt Sie Das assoziativ Listing 13 Parameter fiir doGoogleSearch WSDL Datei e Array beinhaltet nach jeder Suchanfrage einen Satz von Meta Daten als Statusinformation Listing 14 Zeilen 2 16 und ressourcenspezifische Informationen f r jeden einzelnen der zehn Suchtreffer Zeilen 18 30 Die genaue Semantik dieser Varia blen wird ebenfalls in Google spezifiziert Prinzipiell wird dadurch die identische Infor mation die auch bei einer Suche ber das Google Web Interface geboten wird bereitge stellt ee lt xsd complexType name GoogleSearchResult gt e a l gt lt xsd element name documentFiltering type xsd boolean gt lt xsd element name searchComments type xsd string gt lt xsd element name estimatedTotalResultsCount type xsd int gt lt xsd element name estimatelsExact type xsd boolean gt SRC olemenesneme iszesuikemliememesisseypezievpenispresullkerelememezesrzaiy PS lt xsd element name searchQuery type xsd string gt lt xsd element name startIndex type xsd int gt lt xsd element name endIndex type xsd int gt lt xsd element name searchTips type xsd string gt lt xsd element name directoryCategories type typens DirectoryCategoryArray gt lt xsd element name searchTime type xsd double gt lt xsd all gt lt xsd c
144. semantischer Interope rabilit t Bei XML ist ein Mangel an deklarativer Semantik festzustellen da durch XMLS zwar eine Spezifizierung der Syntax erm glicht wird jedoch ber die genaue Semantik keine einheitliche Vereinbarung besteht Um die XML Konstrukte in Beziehung zueinan der setzen zu k nnen muss etwas ber deren Bedeutung festgelegt werden k nnen Einen Mechanismus daf r wird durch das Resource Description Framework bereitgestellt 3 2 3 Resource Description Framework Das Resource Description Framework RDF stellt einen ersten Schritt hin zum SW dar und hat seine Wurzeln in Berners Lee s SW Idee RDF ist seit Februar 1999 eine W3C Recommendation RDF bildet die Grundlage f r die Verarbeitung von Metadaten an hand derer es m glich wird einer bestimmten durch einen URI identifizierten Ressource eine Bedeutung zuzuordnen RDF selbst stellt eine XML Untermenge dar deren Voka bular eine fest vorgeschriebene Semantik besitzt Zu diesem Ansatz existiert beim W3C eine eigene Arbeitsgruppe namens RDF Core Working Group die sich mit der Weiter entwicklung und der Etablierung dieses Standards besch ftigt Das RDF Modell bietet prinzipiell eine syntaxunabh ngige Darstellungsform f r RDF Ausdr cke und besteht aus drei Objekttypen W3Ce 16 XML Schema ist ebenfalls eine beim W3C standardisierte Definitionssprache und soll die nicht auf XML selbst beruhende bisher verwendete Dokument Type Definition DTD abl sen 17
145. shinweise f r die Nachrichten bermittlung Der Wert 1 entspricht true f r das mu stUnderstand Attribut weist dem Empf nger der Nachricht an dass er den Header kennen muss Ein weiteres Beispiel f r eine Transaktionssteuerung ist z B das relay Attribut Hat es den Wert 1 true wird der Intermedi r angewiesen das entsprechende Header Element weiterzuleiten In Zeilen 15 19 steht die eigentliche SOAP Nachricht eingefasst in dem soap Body Tag Ein SOAP Body muss im Gegensatz zum SOAP Header in jeder Nach richt enthalten sein 5 1 3 Inhalt der Nachricht Damit eine Kommunikation zwischen Anbieter und Konsument Erfolg hat muss eine SOAP Nachricht exakt und unmissverst ndlich nach den Spezifikationen des Web Ser vices verschl sselt werden Die Verschl sselung Encoding bernimmt die Aufgabe die Methodenaufrufe und deren Parameter plus Datentypen in XML zu verschl sseln XML Serialisation Die Spezifikation des SOAP Encodings regelt die Umwandlung von Da ten in f r beide Kommunikationspartner verst ndliches XML Die Encoding Regeln wer den als XML Schema im SOAP Body mit dem Attribut encodingStyle eingebunden SOAP ENV encodingStyle http schemas xmlsoap org soap encoding Die SOAP Spezifikation stellt eine Vielzahl von Datentypen bereit die in einer Nachricht verwendet werden k nnen F r das SOAP Encoding stehen hnliche Datentypen wie f r den XML Schema Standard bereit Eine genaue Auflistung der m glich
146. szenario des SontoX Systems 73 13 Stellung von Sonto in der Semantic Web Vision 74 14 Zusammenfassung 75 15 Ausblick 76 A Glossar 77 B Das Architektur Modell von Sonto 79 C Screenshots des Sonto Web Interfaces 80 Literaturverzeichnis 82 Tabellenverzeichnis VI Tabellenverzeichnis Q L Parameter f r die Google Anfrage 00 35 Definierte Eigenschaften der Ontologie 47 Parser Ausf hrungszeit 2 34 2 at ah a re s e 55 Implementierte Methoden der CONTROL Klasse 57 Abbildungsverzeichnis VII Abbildungsverzeichnis 1 ka ONDAN VD GJ ON Q O NWN mo HAHAHAHA LS LS2S H SN A OQ LD CH Teilausschnitt der Metasuchmaschine Kartoo a und des TouchGraph Goo gleBrowsers b oon 8 a Kr an 2b edi As ee Q q w S q oe Q SUNSU Q 10 Schichtenmodell der Semantic Web Architektur 14 Das RDF Dreigespann 16 RDF Beziehungen als Graph N3 Notation 17 Kommunikationssituation Semiotisches Dreieck 20 OWL Spr chebenen 44 2 22 2 22 2 22 a 2u4 Bra an Ban 22 Das GUI von Protege V3 0 Sa Ah a es o 27 Hierarchiedarstellung mit dem Plugin Jambalaya 28 Schema der service orientierten Web Service Architektur 29 Aufbau einer SOAP Nachricht 2 2 onen een 31 Architektur Modell mit gekennzeichneter Schnittstelle zur Datenbeschaf FUNS Se a ae ss S ae tide
147. te die sich auf einen bestimmten Bereich fokussiert haben Hierzu z hlen spezielle E Commerce Multimedia und Topic Suchdienste Hinzu kommt die sog Deep Web Suche bei der ber eine Webschnittstelle in den Datenbest n den diverser Datenbanken gesucht werden kann An dieser Stelle soll kurz auf die sog Payed Placement Suchmaschinen eingegangen wer den Z B r umt der Overture Service den Kunden gegen Bezahlung einen vorderen Platz in seinen Suchtreffern ein Diese Vorgehensweise f hrt zu einer Mischung aus index basierten Suchtreffern und bewusst platzierten kommerziellen Eintr gen Nach Meinung des Autors liefert dieses Konzept eine recht exotische Treffermischung die kaum eine ob jektive Repr sentation der im WWW bereitgestellten Informationen bietet und somit eher eine spezielle Rolle in der Suchdienstlandschaft des WWW einnimmt 4 Overture ist eine Service der Yahoo search marketing Initiative http www overture com 2 Suchdienste im World Wide Web 7 2 2 Funktionsweise von Suchmaschinen Da die Suchmaschinen ein wichtiges Fundament f r die Websuche bilden soll im folgen den Abschnitt deren allgemeine Funktionsweise grob erl utert werden Traditionell lassen sich Suchmaschinen in nachstehende Komponenten untergliedern zusammenfassend aus G1603 T Ausgehend von einer bereits bekannten Webseite werden sog Webrobot Systeme zur Analyse der Hyperlinks dieser Seite eingesetzt Die Hyperlinks f hren wiederum zu
148. te welche eine Kommunikation zwi schen Maschinen erlauben Der Dienstanbieter der Server stellt einen speziellen Dienst Service f r andere Rechner die Clients ber das Web zur Verf gung Die Idee basiert auf dem Server Client Prinzip wobei der Client eine speziell formu lierte Anfrage an den Server stellt welcher in Abh ngigkeit seines angebotenen Dienstes die Anfrage bearbeitet und das Ergebnis an den Client zur ck sendet 79 15 Das Architektur Modell von Sonto B Das Architektur Modell von Sonto asuodsey dvOS ll lshiuu5S Idy 916009 sSSse O IdVOS Slu9l lO dVOS s ul u l j 1s i 1 g sse OS dYOSNN Tmo pu ost Lele ey ble BIINIAS Q9M 9160059 ysenbey dVOS But 2s 2ondoyeu ezep 326 B6uni n ls BeuJuv lu unyoq q AA SSe HOANOSFTA I8 eq TAO Jap uasued ATSAND9YTENPTATPUTF35 Tenprarpul295 sseTo3 5 sseT9 dIMO SSeTO RYINONI Spu lu q AA WAP wu sayosnejsneuajeq s p 9011UOY 8160J04UO Jop yw Be puni6 uayeg Jap 6unpuiqi gA vorzebraeu 335 oJuIss Teuy33b ebedauoydeur satnsey386 oxe1285 sn2e2s 326 Azrnburqrur AboToJuoss ed SSET2 TOLLNOI li suels Tuqu x pur sg li sldneH cdyd ysaess u uonguuojJul 5o oluO pun syons u li wu3 Gdyud yozees ape A A
149. te eingebetteten Frame angezeigt Dies hat den Vorteil dass die In halte der Hauptseite von Sonto komplett im Browser des Benutzers erscheinen w hrend in den jeweiligen eingebetteten Frames die Abfrage der Meta Tags noch im Gange ist Das Ergebnis ist eine Gesamtpr sentation die nicht einen st renden Eindruck einer Anfrage verz gerung hinterl sst Die Datei analyse php5 aus dem Stammverzeichnis von Sonto wird dazu mit dem je weiligen URL Prameter in den eingebetteten Frame geladen Die PHP Funktion getMe taTags ist in dieser Datei untergebracht und stellt f r jedes Frame eine Anfrage Wenn keines der drei ausgew hlten Meta Tags vorhanden ist bleibt der Frame leer In der schon angesprochenen Methode gerResults wird immer dann wenn eine Zuord nung fehlschl gt die Methode getAnalyseInfo aufgerufen Sxhtml lt td gt Sthis gt getAnalyselnfo Resource gt url lt td gt Der R ckgabewert ist vom Typ string und enth lt den modellierten XHTML Quelltext der in der Abbildung 18 rechts angezeigten Meta Tag Auswertung Obwohl dieser Ansatz allein auf Basis der drei Meta Tags beruht zeigte sich im Praxis insatz von Sonto dass bei entsprechenden aussagekr ftigen Inhalten der Meta Tags dem Nutzer auf einem Blick wichtige Informationen ber den Inhalt der jeweiligen Webres source zur Verf gung stehen ohne diese besuchen zu m ssen Es soll hier nochmals dar auf hingewiesen werden dass der Nutze
150. tersatz this gt Params bergeben Ein Blick in die WSDL Datei zeigt eine Zusammenstellung aller in this gt Params Zeile 9 ben tigten Parameter mit ihren jeweiligen Datentypen Listing 13 Die Bedeutung der einzelnen Parameter wird in Google genau spezifiziert und wurde in Tabelle 1 auf S 35 bereits kurz vorgestellt Nach einer erfolgreichen Anfrage enth lt die Variable rhis gt myResult die Ergebnisinformatio nen in Form eines assoziativen Arrays Greer lt message name doGoogleSearch gt lt part name key type xsd string gt lt part name q type xsd string gt lt part name start type xsd int gt lt part name maxResults type xsd int gt lt part name filter type xsd boolean gt lt part name restrict type xsd string gt lt part name safeSearch type xsd boolean gt lt part name 1r type xsd string gt 5 NuSOAP ist ein Web Services Toolkit for PHP und wird unter der GNU Lesser General Public License von der NuSphere Corporation bereitgestellt http www nusphere com 60 Alternativ sei auf die PEAR Klassenbibliothek verwiesen die ebenfalls einige Klassen zum Thema be reitstellt http pear php net 61 Die Zeilennummerierung dient hier und im Folgendem der Referenzierung einer entsprechenden Zeile aus dem Text heraus und entspricht nicht der originalen Nummerierung des Quelltextes Z Beziehen der Datengrundlage 43 lt part name ie type x
151. terschiedlichen Dom nen zus tzliche sich unterscheidende Pfadangaben in Erscheinung Hierbei handelt es sich um ein Problem dass in Sonto nicht 100 ig behandelt werden konnte und nur durch einen Kompromiss teilweise gel st ist Des Weiteren stellt dies einen besonders problematischen Fall dar Die beiden Dom nen Namen sind keine DNS Alias Namen f r den gleichen Webserver sondern stehen f r zwei unterschiedliche IP Adressen Welcher Sinn hinter dieser augenscheinlichen Spiegelung des Webangebotes auf zwei Web Server steckt bleib den Autor verborgen Werden beide Pfade wie zuvor beschrieben an den Suchbegriff per AND Verkn pfung an gehangen liefert Google keine Treffer Der Grund liegt darin dass nur solche Webseiten der angegebenen Dom nen ber cksichtigt werden bei den zu dem Suchbegriff die Zei chenfolge fakultaet und biologie enthalten ist Da dies entweder in dem ersten oder zweiten URL der Fall ist aber nicht bei beiden gleichzeitig kann Google keine berein stimmung mit seinem indizierten Seitenbestand finden In Sonto wird in solch einem Fall eine von den beiden Pfadangaben zuf llig ausgew hlt und an den Suchstring angehangen F r den 2 Fall w hlt Sonto eines der beiden folgen den M glichkeiten aus Webtechnologien fakultaet site pinguin biologie uni jena de OR site www2 uni jena de oder Webtechnologien biologie site pinguin biologie uni jena de OR site www2 uni jena de Die Methode der automatischen S
152. this gt OWLP object new OWLP string owlOntologyFile Der Konstruktor der OWLP Klasse parst bereits im Aufruf den Inhalt der bergebenen XML Datei Listing 19 zeigt den Aufruf der einzelnen Parser Methoden im Konstruktor nae publie Tune jem _ Construct Sow tile this gt xml object simplexml_load_file owl_file this gt classes array Sthis gt getClass object this gt xml Sthis gt getObjectProperty object Sthis gt xml Sthis gt getDatatypeProperty object this gt xml Sthis gt individuals array this gt getIndividual object this gt xml array this gt classes Listing 19 Konstruktor der OWLP Klasse Die richtige Reihenfolge der Methodenausf hrung ist hier zu beachten So kann getln dividual erst aufgerufen werden wenn mit geftClass ein Array mit allen enthaltenen Klassen Definitionen bereitgestellt wurde Es zeigte sich dass die Auswertung der Klas sendefinition und der davon abgeleiteten Individuen die ben tigten Informationen f r Sonto bereitstellen Die zu Beginn mit umgesetzten Property Methoden kommen daher oe a O Q E GQ H e S xo wm A SO Q Q H re 9 Vorverarbeitung der Ontologie 54 im momentanen Sonto System nicht zum Einsatz stehen jedoch f r einen zuk nftigen eventuellen Einsatz bereit Der Kern der Anwendung stellt das Array mit den enthaltenen Individuen dar auf dessen Basis die gesamte Weiterver
153. tion festgelegt Zeile 17 8 3 Wissensakquise Das Schaffen einer Wissensbasis Auf Grundlage der zuvor definierten Klassen und Eigenschaften wird eine Wissensbasis aufgebaut Dieser Vorgang wird auch als Wissensakquise bezeichnet Voraussetzung war hierf r eine umfangreiche Recherche der aktuellen Webseitenlandschaft der FSU Jena Es wurden nur solche Organisationseinheiten der FSU Jena aufgenommen f r die eine hinreichend gro e Webpr senz angeboten wird Die Identifizierung erfolgte manuell durch eine pers nliche Webrecherche des Autors wobei als Einstiegspunkt die Homepage der FSU Jena gew hlt wurde http www uni jena de Ausgehend von den zehn Fakult ten der FSU Jena wurden die Institute und die Lehrst hle aufgenommen f r die aussagekr fti ge Homepages existieren Kleine Bereiche die nur aus einer Webseite bestehen und dazu kaum Informationen enthalten wurden zu Gunsten der Ontologiegr e und aufgrund ih rer geringen Relevanz f r eine Websuche nicht mit in die Ontologie aufgenommen Damit begr ndet sich auch die Tatsache dass die in der Ontologie kodierte Wissensbasis keinen Anspruch auf Vollst ndigkeit erhebt vo oa Q Ww H ro 8 Erstellen der Ontologie 49 Abbildung 14 zeigt eine Einsch tzung ber die Gesamt struktur der Webseitenlandschaft der FSU Jena grup piert in geeignete Themengebiete Die angegebenen Pro zentwerte sind dabei grobe Sch tzungen des Autors und beruhen auf Erfahr
154. uche zeigt an einigen Stellen Grenzen auf die haupts chlich auf der mangelnden Semantik der Webseiten und deren unzureichenden An notation mit Meta Daten beruhen Zu den grunds tzlichen Problemen die bei einer Suche mit Sonto auftreten geh ren Es k nnen nur solche Webseiten einem Individuum zugeordnet werden zu denen ein entsprechender Eintrag in der Ontologie vorgenommen wurde Weil in der On tologie nur eine Teilmenge der real existierenden Webseitenmenge der Dom ne fsu Jena de modelliert wurde k nnen zwangsl ufig Suchtreffer auftreten f r die keine Zuordnung m glich ist In diesem Fall werden jedoch wenn m glich alternativ die Meta Tags einer HTML Webseite ausgelesen und angezeigt Die Nutzung des Google Web Services garantiert zwar eine umfangreiche Daten basis jedoch schl gt sich die Begrenzung der Suchtreffer auf max zehn pro An frage auf die Umsetzung des gesamten Systems nieder Sonto besitzt zu keinem Zeitpunkt der Programmausf hrung Informationen zu mehr als max zehn Ressour cen Eine eventuelle Neuarrangierung von z B 100 Suchtreffern zu einer neuen Liste beruhend auf einer eigenen Relevanzbewertung ist somit nicht m glich Das volle Potenzial von Sonto wird durch die teils mangelnde Umsetzung der Ver zeichnisstruktur f r die abgelegten Webseiten der einzelnen Bereiche stark ausge bremst Viele Verzeichnisstrukturen spiegeln nicht die wahre Struktur der Universi t tsorganisation wide
155. uchstringerweiterung mit der Pfadangabe kommt in Sonto auch zum Einsatz wenn f r ein Individuum nur eine einzige URL existiert diese aber eine Pfadangabe enth lt Dann muss zur korrekten Suchraumeinschr nkung dieser Pfad auch zus tzlich zu dem Suchbegriff angehangen werden da auch hier die Angabe des alleinigen Dom ne Name nicht die richtigen Treffer liefern w rde 10 Verbindung der Ontologie mit der Datengrundlage einer Suchmaschine 63 10 2 4 Probleme mit der URL Struktur Als u erst ungeeignet zeigten sich die momentane URL Struktur der WWW Seiten der FSU Jena unter der Dom ne uni jena de Die Verzeichnis bzw Seitennamen stellen sich dort z B oft als unlesbar heraus Grund daf r ist das eingesetzte Content Management Systems CMS welches zur internen Organisation der Webseiten nicht einen eindeutig lesbaren Namen nutzt sondern auf eine Nummerierung setzt Nach der Einsch tzung des Autors ist dies auf eine konzeptuelle Designschw che oder auf einer mangelnden Aufmerk samkeit zur ckzuf hren Die Universit t Jena steht mit diesem Problem leider nicht alleine da Vielmehr finden sich solch kryptische URLs bei vielen Webangeboten welche zu meist wohl ebenfalls auf die Verwendung eines CMS zur ckzuf hren sind Als Beispiel ist hier die Homepage der Fachhochschule Jena www fh jena de zu nennen die eben falls auf ein CMS setzt welches eine v llig Nutzer und Suchmaschinen unfreundliche URL Struktur verwendet
156. uest 2 2 2 2 En nn 35 11 doGoogleSearch SOAP Response 2 2 2 2 2 nn 36 12 SOAP Client unter Verwendung der NUSOAP Klasse 42 13 Parameter f r doGoogleSearch WSDL Datei 4 42 14 Datentypen GoogleSearchResult und ResultElement WSDL Datei 43 15 Verarbeiten der Suchergebnisse in der INQUIRY Klasse 44 16 Auszug aus der Klassendefinition fsu jena ow 22 22 20 46 17 Auszug der Definition f r gehoert_zu und Homepage fsu jena owl 48 18 Auszug aus der Individuen Definition fsu jena ow 49 19 Konstruktor der OWLP Klasse 2 2 2 Connor 53 20 Struktur des Individuum Arrays _ 00004 54 21 Aufruf von mapHomepage in getResult o 2 222er 59 22 Festlegen der Reihenfolge f r die Informationsanzeige config php 69 23 Beispiel des Quelltextes f r das Einbetten der Anzeige der Zusatzinforma COMO Tee Mors geht ee ee eden es Dede alle ee es El Da S ee ns re EN 69 Abk rzungen und Akronyme Abk rzungen und Akronyme API ASCII CGI DNS GUI HTML HTTP IP OWL PHP RDF RDFS RPC SMTP SQL SW TCP UDDI URI URL URN W3C WSDL WWW XHTML XML XMLS XSL XSLT Application Program Interface American Standard Code for Information Interchange Common Gateway Interfaces Domain Name Service Graphical User Interface HyperText Markup Language HyperText Transfer Protocol Internet Protocol Web Ontology Language PHP Hypertext Preprocess
157. ull Potential The MIT Press Cambridge Massachusetts 2003 W J Gilmore PHP professionell Das Handbuch f r Umsteiger und Fort geschrittene Galileo Press GmbH Bonn 2001 M Gl ggler Suchmaschinen im Internet Funktionsweise Ranking Me thoden Top Positionen Springer Verlag Berlin Heidelberg 2003 Google Google Web APIs Reference http www google com apis reference html A Gulli A Signorini The Indexable Web is More than 11 5 billion pages in WWW 2005 May 2005 Chiba Japan ACM 1595930515 05 0005 http www cs uiowa edu asignori web size size indexable web pdf 15 Literaturverzeichnis 83 HLO4 Hes02 Jec04 Kra04 MS04 OWL SOAP Tie03 UDDI W3Ca W3Cb W3Cc W3Cd T Hauser U M L wer Web Services Die Standards Galileo Press GmbH Bonn 2004 W Hesse Ontologie n Informatik Spektrum Springer Verlag Berlin Heidelberg 2002 M Jeckle Web Services Grundlegende Informationen zum im Entste hen begriffenen Technikgebiet Web Services 2004 http www jeckle de webServices index html J Krause PHP 5 Grundlagen und Profiwissen Webserver Programmierung unter Windows und Linux Carl Hanser Verlag Miinchen 2004 C Meinel H Sack WWW Kommunikation Internetworking Web Technologien Springer Berlin 2004 Web Ontology Working Group W3C Web Ontology Language OWL http www w3 org 200 OWL Worl
158. ungswerten w hrend der Zeit der In itialerstellung der Ontologie Die Grafik zeigt welchen Anteil in etwa die einzelnen Gruppen an der Menge der ber die Dom ne der FSU Jena zug nglichen Webseiten i s as haben In der Ontologie haben haupts chlich die Fakult Fakult ten Institute Lehrst hle etc ten die Institute und ein gro er Teil der Lehrst hle Ein a sr FSU Jena gang gefunden Weiterhin wurden wichtige Zentrale Ein pusan richtungen Verb nde Kliniken Arbeitsgruppen etc auf genommen Die Homepages der Mitarbeiter und Studen ten wurden aufgrund der gro en Anzahl und ihrer ber wiegend geringen Bedeutung nicht mit ber cksichtigt Auch die Hauptwebseiten der FSU Jena uni jena de die auf einem Content Management System CMS beru hen konnten nicht ber cksichtigt werden da die angebotenen Webseiten v llig unstruktu riert hinter der Dom ne uni jena de angeordnet sind und somit eine inhaltlichen Gruppie rung themenverwandter Webseiten kaum m glich ist L Zentrale Einrichtungen Verb nde etc Homepage Studenten m sonstige Abbildung 14 Themenklas ter der Webseitenstruktur der FSU Jena Eine komplette Aufnahme aller Webseiten unter der Dom ne fsu Jena de w re zwar w n schenswert erwies sich aber als u erst schwierig und hinderlich f r die weitere Arbeit Zum einen existiert f r jede Struktureinheit nicht zwangsl ufig eine eigene Homepage und zum andere
159. uppe fallen soll musste hierbei immer mit Blick auf den Nut C Einrichtung zen abgewogen werden Abbildung 13 zeigt die Klassen Fachschaft die f r die Arbeit letztendlich als relevant eingesch tzt Fakult t wurden Es sind dabei nur solche Entit ten als Klasse de finiert f r die eine ausreichend gro e Anzahl an aussage kr ftigen Webressourcen existiert Institut Klinik Printmedien Bei der Definition der Klassen darf nicht der Fehler be gt n I I I l C Professur gangen werden die logischen Hierarchiestufen der Uni L I Verband versit t anhand des subClassOf Konstruktes in Prot g umzusetzen Daf r d rfen ausschlie lich und allein Ge sichtspunkte wie sie beim Klassenkonzept der objektori entierten Programmierung zum Einsatz kommen ange wandt werden D h es muss berlegt werden welche Ei genschaften die einzelnen relevanten Organisationsstrukturen haben und an welcher Stelle eine Klassenhierarchie bei der Definition sinnvoll erscheint In Abbildung 13 gilt f r die rechts einger ckten Klassen die subClassOf Beziehung zu der Klasse Organisation die die Wurzelklasse darstellt und eine Sub Klasse von owl Thing ist Listing 16 zeigt einen Auszug der von Prot g automatisch generierten Syntax der OWL Klassendefinition Lehrstuhl Abbildung 13 Das Klassen Konzept der Ontologie es lt owl Class rdf ID Arbeitsgruppe gt lt r Es GS asco
160. usch via XML ber das Internet m glich ist Weiterf hrende Infor mationen unter http www xmirpc com 36 Siehe MS04 S 735 ff na un ou Ye Re oN O Q BR Ww NY KF O So we 5 Web Services 31 5 1 2 Aufbau der Nachricht Eine SOAP Nachricht kann in drei Teile untergliedert werden Wie eine Art Umschlag fungiert der SOAP Envelope den Da Transportprotokoll tenkopf der Nachricht stellt der SOAP Header dar und der E SOAP Body beinhaltet den eigentlichen Nachrichtenteil Wie SOAP Envelope Abbildung 10 zeigt wird der Header und der Body in dem En velope gekapselt Dieses Paket wird dann wiederum in das ver SOAP Header wendete Transportprotokoll hier HTTP eingebettet Listing 8 zeigt in Anlehnung an HL04 ein Beispiel einer per HTTP SOAP Body Request bermittelten SOAP Nachricht wobei die Angabe des Headers hier nur zur Demonstration hinzugef gt wurde Der SOAP Header ist optional und fehlt bei vielen Implemen Abbildung 10 Aufbau tierungen ganz einer SOAP Nachricht POST Ausgabe ausgabe asmx HTTP 1 1 Rosts localhost Content Type text xml charset utf 8 Comcen lenmgicing Lengen SOAPAction http www ein beispiel de hallowelt ausgeben lt xml version 1 1 encoding utf 8 gt lt SOAP Envelope xmlns SOAP ENV http schemas xmlsoap org soap envelope fee xmlns xsd http www w3 org 2001 XMLSchema xmlns xsi http www w3 org 2001
161. ww beispiel org mein rdf ns website titel Abbildung 4 RDF Beziehungen als Graph N3 Notation Das Oval repr sentiert eine Ressource Subjekt Die beschrifteten Kanten stellen die Pr dikate Eigenschaften dar und die Rechtecke sind die Objekte Werte Es handelt sich hier genauer gesagt um zwei Statements also zwei Tripel Das Statement aus Abbildung 4 kann wiederum als eine Ressource in einem weiteren Statement verwendet werden womit eine M glichkeit einer beliebigen Schachtelung von Statements sog Reifications gege ben ist Die dritte M glichkeit ein Statement zu repr sentieren besteht in der formalen Beschrei bung mittels XML Syntax Da ein Programm diese Repr sentation nur seriell abarbei ten kann wird diese Repr sentationsform auch als XML Serialisation RDF Serialization Format bezeichnet Listing 2 gibt hierf r ein Beispiel lt xml version 1 0 encoding UTF 16 gt lt rdf RDF xmlns rdf http www w3 org 1999 02 22 rdf syntax ns xmlns meine_domain http www beispiel org mein rdf ns gt lt rdf Description rdf about http www max mustermann de gt lt meine_domain website creator gt ax Mustermann lt meine_domain website creator gt lt meine_domain website titel gt ine Homepag lt meine_domain website titel gt lt rdf Description gt lt 7 ele INDI Listing 2 Beispiel eines Statements in XML Syntax Es lassen sich mit RDF sehr komplexe und m chtige Doku

Download Pdf Manuals

image

Related Search

Related Contents

JESCO Lighting WS631 Installation Guide  NI PXIe-4844 Installation Guide and Specifications  Le Damagaram - Nigerdiaspora  CDX-GT50UI  Reflecta Porta 253  Fiche de collecte de renseignements pour une étude détaillée  Computer Wheelchair Interface (CWI) Installation and user manual  Hotpoint HHP6.5CM User's Manual  

Copyright © All rights reserved.
Failed to retrieve file