24
1 Software Solutions GmbH & Co. KG Stresemannstraße 374 • 22761 Hamburg http://www.engine.de Entwicklung einer MetaSuchmaschine für Online– Weiterbildungsinformationen

1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

Embed Size (px)

Citation preview

Page 1: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

1

Software Solutions GmbH & Co. KGStresemannstraße 374 • 22761 Hamburghttp://www.engine.de

Entwicklung einer MetaSuchmaschine für

Online–Weiterbildungsinformationen

Page 2: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

2

Suchmaschinen: Technische Lösungen

Klassische Suchmaschinen

Spezialisierte Suchmaschinen

Neue Wege zur Vernetzung von Informationsangebote

Page 3: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

3

Klassische Suchmaschinen: Robots

Crawling: Über Links verbundene Web-Seiten und Inhalte im Internet durchsuchen

Indizieren:Erstellung von Volltextindizes und Cache

Bewertung:Algorithmen zur Bewertung der Qualität der Inhalte

Page 4: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

4

Spezialisierte Suchmaschinen

Meta Suchmaschinen:Suchmaschinen die Ergebnisse anderer Suchmaschinen zusammenfassen.Beispiele:– http://www.metacrawler.com .– http://www.search.com .

Thematisch spezialisierte Suchmaschinen.Beispiele:– Volkswitschaft: http://www.inomics.com .– Finanzen: http://www.financialfind.com .– Medizin: http://www.hon.ch/MedHunt .

Page 5: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

5

Lösungsansätze spezialisierter Suchmaschinen

Konzentrieren auf bestimmte Themen Halb-automatische Stichwort-Indizes

Konzentrieren auf gezielte Quellen Spezialisierung auf Struktur und Aufbau der Quellen so wie der Anfragetechnik und Ergebnisform der Quelle

Page 6: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

6

Neue Wege der Vernetzung von Informationsangebote

Definierte CGI-Einstiegspunkte für Anfragen und Form der Ergebnisse (Buchhandlung Lehmanns)

Konventionen zum Datenaustausch beschrieben in XML-Schemata (Stichwort Biztalk.org)

Web Services – SOAP (Stichwort UDDI.org)

Page 7: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

7

XML-Schemata: BizTalk.org

BizTalk.org ist eine zentrale Datenbank für Schnittstellen zu anderen Datenbanken ..

Jeder hat Zugriff auf BizTalk.org– Schnittstellen in Form von Schemata, Dokumentation und Beispiele

der Implementierung

Page 8: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

8

Die Bedeutung von XML

XML – ein Standard entwickelt von dem gleichen Gremium, das HTML verabschiedete: Das W3C.org (World-Wide Web-Consortium)

Auf XML basierend entwickelte Standards– XSD: XML-Schemata, facilities for describing the structure and

constraining the contents of XML 1.0 documents (Stichwort DTD – Document Type Definition).

– XSLT: language for transforming XML documents into other XML documents.

– SOAP: SOAP is a lightweight protocol for exchange of information in a decentralized, distributed environment.

Page 9: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

9

XML Transformation

InputXML

OutputXML

XSD XSD

Daten in XML Format

Daten in XML Format

Definition der DatenTransformation

Beschreibung der Datenstruktur

Beschreibung der Datenstruktur

XSLT

Page 10: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

10

Input Beispiel XSD + XML-Daten

<?xml version="1.0" encoding="UTF-8"?><SeminarKatalog xmlns:xsi=http://www.w3.org/2000/10/XMLSchema-instance xsi:noNamespaceSchemaLocation="SeminarKatalog1.xsd"> <Seminar> <Bezeichnung>SQL-Datenbankabfragesprache</Bezeichnung> <Anbieter>bios AG</Anbieter> <Ort>Brauhausstieg 15-17, 22041 Hamburg</Ort> </Seminar> <Seminar> <Bezeichnung>Datenbankgestütze Informationssysteme</Bezeichnung> <Anbieter>Denkträume - Frauenbildung</Anbieter> <Ort>60443 Montabaur, Isarstr. 3 </Ort> </Seminar></SeminarKatalog>

<?xml version="1.0" encoding="UTF-8"?><xsd:schema xmlns:xsd="http://www.w3.org/2000/10/XMLSchema" elementFormDefault="qualified"> <xsd:element name="Anbieter" type="xsd:string"/> <xsd:element name="Bezeichnung" type="xsd:string"/> <xsd:element name="Ort" type="xsd:string"/> <xsd:element name="Seminar"> <xsd:complexType> <xsd:sequence> <xsd:element ref="Bezeichnung"/> <xsd:element ref="Anbieter"/> <xsd:element ref="Ort"/> </xsd:sequence> </xsd:complexType> </xsd:element> <xsd:element name="SeminarKatalog"> <xsd:complexType> <xsd:sequence> <xsd:element ref="Seminar" maxOccurs="unbounded"/> </xsd:sequence> </xsd:complexType> </xsd:element></xsd:schema>

XSD XML

Page 11: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

11

Transformations Beispiel XSLT

<?xml version="1.0" encoding="UTF-8"?><xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> <xsl:output method="xml" version="1.0" encoding="UTF-8" indent="yes"/>

<xsl:template match="/"> <Liste> <xsl:apply-templates select="SeminarKatalog/Seminar"/> </Liste> </xsl:template>

<xsl:template match="SeminarKatalog/Seminar"> <Angebot> <name><xsl:value-of select="Bezeichnung"/></name> <Anbieter><xsl:value-of select="Anbieter"/></Anbieter> <Adresse><xsl:value-of select="Ort"/></Adresse> </Angebot> </xsl:template>

</xsl:stylesheet>

XSLT

Page 12: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

12

Output Beispiel XSD + XML-Daten

<?xml version="1.0" encoding="UTF-8"?><Liste xmlns:xsi="http://www.w3.org/2000/10/XMLSchema-instance" xsi:noNamespaceSchemaLocation="SeminarKatalog2.xsd"> <Angebot> <name>SQL-Datenbankabfragesprache</name> <Anbieter>bios AG</Anbieter> <Adresse>Brauhausstieg 15-17, 22041 Hamburg</Adresse> </Angebot> <Angebot> <name>Datenbankgestütze Informationssysteme</name> <Anbieter>Denkträume - Frauenbildung</Anbieter> <Adresse>60443 Montabaur, Isarstr. 3 </Adresse> </Angebot></Liste>

<?xml version="1.0" encoding="UTF-8"?><xsd:schema xmlns:xsd="http://www.w3.org/2000/10/XMLSchema" elementFormDefault="qualified"> <xsd:element name="Adresse" type="xsd:string"/> <xsd:element name="Anbieter" type="xsd:string"/> <xsd:element name="Angebot"> <xsd:complexType> <xsd:sequence> <xsd:element ref="name"/> <xsd:element ref="Anbieter"/> <xsd:element ref="Adresse"/> </xsd:sequence> </xsd:complexType> </xsd:element> <xsd:element name="Liste"> <xsd:complexType> <xsd:sequence> <xsd:element ref="Angebot" maxOccurs="unbounded"/> <xsd:sequence> </xsd:complexType> </xsd:element> <xsd:element name="name" type="xsd:string"/></xsd:schema>

XSD XML

Page 13: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

13

Tools zur Erstellung von XSLT

Biztalk Mapper

Page 14: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

14

Biztalk Server

Server Software die für den flexiblen Datenaustausch entwickelt wurde

Unterstützung diverser Transportmechanismen– HTTP, HTTPS, FTP, SMTP, EDI

Unterstützung diverser Datenformate– XML, Textfile-Formate (z.B. Tab-Delimited), mdb, etc.

Framework ist über Komponenten Erweiterbar

Page 15: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

15

Web Services

Web Services:– Dienste wie stockwatch.de liefern Bedienoberfläche im Browser Dienste wie stockwatch.de liefern Bedienoberfläche im Browser

(Endanwender als Zielgruppe)(Endanwender als Zielgruppe)– Künftig Dienste, welche programmatisch nutzbar sindKünftig Dienste, welche programmatisch nutzbar sind

Web Services basieren auf SOAP

SOAP: Plattformübergreifende Objektkommunikation im Internet über XML

Keine Bindung an bestimmte Plattformen oder Programmiersprachen / Laufzeitumgebungen

Page 16: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

16

Web Services - Technisch

Programmatischer Zugriff auf Services im Web

Kommunikation von Web-Anwendungen untereinander

XML als Standard für Daten(beschreibung) (plattform- und sprachunabhängig)

SOAP als Protokoll für Funktionsaufrufe (plattform- und sprachunabhängig)

WSDL als Metabeschreibung der Web Services

UDDI die Gelbenseiten der Web Services

Page 17: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

17

UDDI

UDDIVerzeichniss

Client

Server

Query

Publish

Request

Page 19: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

19

Cache + Synchrone Weiterleitung der Anfrage

InfoWebCache

InfoWeb WeiterbildungWeb Schnittstelle

BenutzerAnfrage

DB-Anbieter

DB-Anbieter

CGI SchnittstelleWeb Schnittstelle

WebService Anfrage

Schnittstelle

DB-Anbieter

Ergebniss

Page 20: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

20

Cache Daten Import

BizTalk

Sektion

Titel

Beschreibung

Ort

PLZ

Vorbildung

Suchwörter

.

MainGroup

Title

Content

Location

ZIP

ShortDesc

CacheInfoWeb

Robot

Anfragen

Web-ServiceXML-Katalog

Import über Diverse Formate: • MDE, MDB• Text-File (z.B. Tab-Delimited)

Und Transport-Mechanismen:• HTTP, FTP, SMTP, etc.

Page 21: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

21

BizTalk - Mapping und Schnittstellen

InfoWeb

BizTalk

Sektion

Titel

Beschreibung

Ort

PLZ

Vorbildung

Suchwörter..

Bereich

Überschrift

Inhalt

Ort

PLZ

.

KeyWords

.

Sektion

Titel

Beschreibung

Ort

PLZ

Vorbildung

.

.

MainGroup

Title

Content

Location

ZIP

ShortDesc

Summe der Informationen

definieren

Beispiel 1Daten-Mapping

Beispiel 2Daten-Mapping

Standard -Mapping

Direktkommunikationmit dem BizTalk-Server

HTTP, SMTP, FTP, EDI …

Schnittstelle

InfoWeb DBase

Schnittstelle

InfoWeb MySQL

Schnittstelle

InfoWeb Informix

Publikation im Biztalk.org

Page 22: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

22

Definierte Schnittstellen

Schnittstelle

InfoWeb DBase

Schnittstelle

InfoWeb MySQL

Schnittstelle

InfoWeb Informix

BizTalk

Sektion

Titel

Beschreibung

Ort

PLZ

Vorbildung

Suchwörter.. BizTalk

FTP, SMPT, HTTP…

WebServices(SOAP)

WebService(SOAP)

PortaleThemenspezifische

BranchenspezifischeRegionalspezifische

WeiterbildungsDB-Anbieter

WeiterbildungsDB-Anbieter

WeiterbildungsDB-Anbieter

WeiterbildungsDB-Anbieter

WeiterbildungsDB-Anbieter

UDDIPublikation

Sektion

Titel

Beschreibung

Ort

PLZ

Vorbildung

Suchwörter

.

MainGroup

Title

Content

Location

ZIP

ShortDesc

InfoWeb

Page 23: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

23

Quellen

Suchmaschinen– www.searchenginewatch.com– www.robotstxt.org– The Invisble Web (1,2,3)

W3C World Wide Web Consortium– HTML: HyperText Markup Language – XML: Extensible Markup Language– XHTML: Extensible HyperText Markup Language – XSL: Extensible Stylesheet Language– XSLT: language for transforming XML documents into other XML

documents – XPath: language for addressing parts of an XML document – XSD: XML Schema definition language– SOAP: Simple Object Access Protocol

Page 24: 1 Software Solutions GmbH & Co. KG Stresemannstraße 374 22761 Hamburg  Entwicklung einer MetaSuchmaschine für Online–Weiterbildungsinformationen

24

Vielen Dank für Ihre Aufmerksamkeit.