© 2004 - 2007, (), Matthias Schneider Confident Guten Morgen, meine Name ist… Wer: Matthias

© 2004 - 2007, www.semager.de (www.ng-search.com), Matthias Schneider Confident

Guten Morgen, meine Name ist…

Wer:

• Matthias Schneider, 34 Jahre, verheiratet.

• Minilebenslauf: Geburt – Schule - Studium ;-)

• Um mein Studium finanzieren zu können, arbeiteteich eigenverantwortlich als Webdesigner und Programmierer, sowie als Administrator für kleinereBetriebe. Dem folgte eine zweieinhalbjährige Karriereals Angestellter in einer Würzburger IT-Firma zunächst als Webdesigner und Webmaster, später als Service Manager für Großkunden. Zu meinen Aufgaben dort zählten das Erfüllen von Serviceverträgen, Projektsteuerung, Dokumentation, etc.

• Irgendwann erfasste dann auch uns die geplatzte dot.Com Blase und ich wurde wegrationalisiert.

• Also startete ich in die Selbstständigkeit und beschäftige mich seitdem mit Online Marketing,SEO, PHP, Ajax, Blogs, Wikis … und seit 2 Jahren mit der Entwicklung von Semager.


Warum noch eine Suchmaschine?

Was:

Suchmaschinen gibt es viele. Warum noch eine und was könnte den Reiz einer neuen Suchmaschine ausmachen?

• Meine Daten sind mir heilig, ich mag es nun mal nicht, wenn meine Suchanfragen und private Daten auf „irgendwelchen“ Servern rumliegen. Und was damit gemacht wird, weiß ich auch nicht (lesen Sie doch mal sorgfältig die AGBs von bekannten Suchmaschinen durch).

• Deutschland hinkt in der Suchmaschinenbranche stark hinterher (schade eigentlich, gibt es doch genügend schlaue Köpfe und Ideen in unserem Land).

• Das Wissen der Welt gehört der Menschheit + Sind Sie nicht im Index, existieren Sie auch nicht = Der Filter von Suchmaschinen entscheidet (kann entscheidend sein) über unser Existenz.

Neue Filter braucht das Land. Filter bei denen Sie auch gefunden werden, wenn Sie nicht gerade eine hochoptimierte Internetseite haben. Suchmaschinen, die eine Alternative zu dem stark amerikanisch diktierten Markt sind und vielleicht hier und dort sogar noch etwas bessere Suchergebnisse liefern können.

Das ist sicherlich nicht ganz einfach, aber es ist machbar (z.B. mit semantischer Suche).


Problem und Lösung der Volltextsuche

Problem

Es werden Internetseiten gefunden in denen die eingegebenen Suchbegriffe (relativ) exakt vorkommen (Volltextsuche). Seiten die Inhaltlich dem gesuchten entsprechen, aber die Suchbegriffe nicht enthalten, werden gefiltert.

Lösung

Es werden Internetseiten gefunden, in denen nicht unbedingt die Suchbegriffe vorkommen müssen, aber doch deren semantische Schnittpunkte. Idealerweise beides in einem ausgewogenem Mischverhältnis. Dazu notwendig:

• Berechnung einer Semantik (bei Semager als Verwandtschaftsgrad zwischen Wörtern)

• Erstellung einer „semantischen Landkarte“, dem Beziehungsgeflecht aller Wörter

• Berechnung der „gemeinsamen Nenner“ der Suchbegriffe durcha) der kürzesten Verbindung zwischen den Suchwörtern (ähnlich

Routenplaner) oder

b) der stärkste Assoziation (neuronales Netz)und/oder

c) durch Berechnung einer Taxonomie (Vater/Sohn Gruppierung)


• Thesaurus

Anbindung/Import einer bestehenden Thesaurus Datenbank und vergleich der Suchanfragen mit dieser

+ Einfach und schnell+ Bei einzelnen Wörter gute Ergebnisse- Nur relativ wenig Wörter bekannt- Keine Komplexen berechnung

• Clustern

Indem man z.B. die Wörter in den Titeln der ersten 100 Treffern einfach mathematisch gruppiert.

+ rel. schnell- Ungenau (da nicht semantisch, sondern eben nur geclustert)

Bestehende Ansätze zu semantischen Suche


• Folksonomy

Eine durch Benutzer erzeugte Stichwortsammlung zu einer Internetseite, Bild oder Artikel.

+ Sehr genau, da menschlich generiert- Kein Algorithmus und somit nicht überall anwendbar

• Auswertung der Suchanfragen

Man speichere die Suchanfragen von Benutzern einer Suchmaschine. Bei einer genügend hohen Anzahl von Anfragen kann man ein gehäuftes Vorkommen mit gleichen Wörtern messen und Beziehungen darüber herstellen.

+ Funktioniert gut bei Namen (z.B. „Georg Bush“)- Wird stark von aktuellen Ereignissen beeinflusst- Manchmal semantisch, manchmal nicht



• LSI (Latent Semantic Indexing)

Man kann feststellen, das in den meisten Dokumenten bei denen es um iPods geht, auch oft MP3 und Player genannt wird. Andere Dokumente in denen diese Begriffe ebenfalls genannt werden sind somit Latent Semantisch Nahe.

+ Semantisch Nähe- Längere Such- und Analysezeiten im Index, Rechenintensiv- Eben doch nur Latent

• PLSI (Probabilistic Latent Semantic Indexing)

Im Vergleich zu LSI welches auf einer Matrixzerlegung basiert (Singular Value Decomposition), hat die the probabilistische Variante statistische Grundlagen..

+ Exakter als LSI- Rechenintensiv



• HAL (Hyperspace Analogue to Language)

Jedes Wort wird durch die Gesamtheit seiner Nachbarschaften im Kontext repräsentiert, oder einfacher ausgedrückt, Wörter mit ähnlicher Bedeutung erscheinen in ähnlichen Sätzen.

+ Semantische Nähe= Ergebnisse ähnlich LSI



Nennen wir es einmal Neuronales routing durch PI-LSI erzeugtem Sprachraum

oder kurzNeuronales routing

oder langNeuronalesrouting viavorsortiert indexierte undinkrementel berechneteHAL & LSI erzeugteSprachdatenbank

PI-LSI = Predefined and Incremental LSI

Predefined = vorsortiert IndexiertIm Gegensatz zur zufälligen Indexierung benutze ich zur Berechnung nur Dokumente von denen ich weiß, um was Sie handeln.

Incremental = in Addition zu bestehenden ErgebnissenNeue Ergebnisse werden zu bestehenden hinzugefügt und festigen die Semantik.

Wie grenzt sich Semager ab?


Wie soll das funktionieren?

Lösungsansatz:

1) Berechnung von Wortverwandtschaften durch Analyse von (unbegrenzt) vorhandenen und verlinkten Internetseiten.

Besonderheit:

• Zeitliche und/oder regionale Eingrenzung der Quellen• Die Ergebnisse können durch aktuelle Ereignisse (weit verbreitete Nachrichten) beeinflusst werden, aber nicht gezielt manipuliert.

2) Wird eine Wort-Wort Beziehung wiederholt erkannt, erhöht sich die Glaubwürdigkeit dieser Beziehung. Aktuelle Ereignisse können eine Beziehung immer noch Beeinflussen, aber mit jeder wiederholten Berechnung etwas weniger. Eine Beziehung wird „sicherer“.

Besonderheit:• Erkennung von „One-Hit-Wonder“


Wie soll das funktionieren?

Lösungsansatz:

3) Es wird die Stärke einer Beziehung in Prozent berechnet. Dies ermöglicht eine Aussage über die Nähe zwischen Worten, welches sowohl für „den kürzesten Weg“ (Routing) als auch für ein neuronale Netz Grundlage ist.

Wörtern und Beziehungen aus Lexikas oder importierten Datenbanken wird eine höhere Festigkeit eingeräumt, als selbst gelerntem.

4) Es wird unterschieden zwischen abgehenden und eingehenden Beziehung - vergleichbar mit eingehenden und ausgehenden Internetlinks. Eine Wort-zu-Wort Beziehung kann auch wechselseitig sein (was natürlich auch häufig der Fall ist), hat aber dann in den allermeisten Fällen zumindest unterschiedlich starke „Links“.

Besonderheit:• „Einbahnstraßen“ und asynchrone Wege• Ähnlich einem Netzwerkrouting (siehe auch BGP, OSPF und Metrik)


Routing-Berechnung des gesuchten

Berechnung: der kürzeste Weg

Mit den bekannten Wortverwandschaften lässt sich eine „Landkarte“ erstellen (mit den Wörtern als Städte, der Stärke der Beziehung als Autobahn oder Landstraße, der Richtung als Einbahnstraße oder beidseitig befahrbar).

Es werden die kürzesten/schnellsten/synchronsten Wege zwischen den Suchbegriffen berechnet (ähnlich einer GPS Navigation, A*-Algorithmus)

Die Wörter welche in der Mitte des Weges sind, werden als größte Gemeinsamkeit angenommen.

Bild: Wikipedia


Beispiel: Landkarte/Netzwerk von „Voip“

Die ersten 25 Beziehungen (Nachbarn) von „Voip“ sowie deren Beziehungen untereinander.

Je dunkler ein Linie, je stärker die Beziehung.Keine Linie,keine Beziehung.

Eine solche lokale „Landkarte“ lässt sich für jedes Wort berechnen. Es entsteht eine „Weltkarte“.

Besonderheit: Erkennung von nahe gelegenen Wörtern die jedoch keine Beziehung untereinander haben.


Beispiel: Verknüpfungen von „Voip“


Neuronale Berechnung

Berechnung: die stärkste Assoziation

Mit den bekannten Wortverwandschaften lässt sich ein Neuronales-Netz erstellen (Wörter als Neuronen, Stärke der Beziehung als Synapsen, Richtung als Dendrit oder Axon).

Ausgehenden von den Suchbegriffen „feuern“ die Neuronen und kaskadieren weiter.

Die Wörter welche am meisten feuern, werden als stärkste Assoziation angenommen.

Besonderheit:• Schwellenwert eines „Neurons“ • variable „Konzentrationsenergie“

Bild: Wikipedia


Neuronale Berechnung „Blumen“


Suche des gesuchten

Stichwort: Automatic Query Refinement

Wir schreiben die Suchanfrage des Benutzers einfach um.

a) Volltext

Wir schreiben die Suchanfrage doch nicht um. Der Benutzer bekommt nur Seiten angezeigt, in denen seine Suchwörter genau so (nämlich 100% genau so) enthalten sind.

b) Wortstamm

Wir schreiben die Suchanfrage so um, das der Benutzer auch Seiten findet, in denen die Suchwörter auch in ähnlicher Schreibweise geschrieben sein können.

c) Semantisch

Wir schreiben die Suchanfrage so um, das der Benutzer auch Seiten findet, in denen die Suchwörter noch nicht einmal in ähnlich Schreibweise stehen müssen, sondern Wörter enthalten die im Grunde genommen das gleiche meinen.

Bild: Wikipedia


Statistik vom 31.7.2007 zum semantischen Index

Deutsch:

Wörter und Wortkombinationen: 1.611.907Beziehungen untereinander: 100.614.760

Englisch:

Wörter und Wortkombinationen: 249.440Beziehungen untereinander: 8.131.394

Pro Tag werden ca. 250.000 Beziehung berechnet.


Schlusswort

Danke für Ihre Aufmerksamkeit.

Ich hoffe ich konnte Ihnen die Idee einer semantischen Suchmaschine Näher bringen.

Ich nur noch ein kleines Problem ;-)

Nicht genügend Mittel, um die Suchmaschine mit mehr Rechenkapazität auszustatten, Mitarbeiter einzustellen und Werbung zu machen.

Bei Interesse bitte melden!

NG-Marketing / SemagerMatthias SchneiderSedanstraße 2797082 Würzburg

Tel 0931 . 207 41 07Mobil 0179 . 273 68 68Email [email protected]

Documents

© 2004 - 2007, (), Matthias Schneider Confident Guten Morgen, meine Name ist… Wer: Matthias