20
Bedeutungsorientierte (kognitive) Suche mit Sprachverstehen statt Stichwortsuche Eine Kurzpräsentation, 2020-08-01 SEMPRIA GmbH, Grafenberger Allee 277–287, 40237 Düsseldorf, https://www.sempria.de/

statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

Bedeutungsorientierte (kognitive) Suchemit Sprachverstehen statt StichwortsucheEine Kurzpräsentation, 2020-08-01

SEMPRIA GmbH, Grafenberger Allee 277–287, 40237 Düsseldorf, https://www.sempria.de/

Page 2: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

Gliederung

* Motivation und wissenschaftlicher Hintergrund

* Problem von Such-Anwendern und Lösung von SEMPRIA

* Technologie und Kompetenzen bei SEMPRIA

* SEMPRIA-Suchmaschine: Systemmerkmale, Beispiele, Vorteile

* Fazit

1 SEMPRIA, 2020-08-01

Page 3: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

Teil 1

Motivation und wissenschaftlicher Hintergrund

2 SEMPRIA, 2020-08-01

Page 4: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

SEMPRIA Entstehung und Entwicklung

1992 bis 2015: Lehrgebiet Intelligente Informations- und Kommunikationssysteme von Prof. Helbig(FernUni Hagen); Forschung auf dem Gebiet der wissensbasierten Systemehttp://pi7.fernuni-hagen.de/forschung/

2003 bis 2010: erfolgreiche Teilnahmen an internationalen Wettbewerben im Bereich Suche undInformation Retrieval (CLEF)

2009: Prof. Helbig und langjährige Mitarbeiter gründen die SEMPRIA GmbH in Düsseldorf

3 SEMPRIA, 2020-08-01

Page 5: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

Motivation und Einstieg

Mängel bisheriger Suchmaschinen und Sprachtechnologie

I Mehrdeutigkeit weitgehend ignoriertMünster, Kohl, MausI geringe Korrektheit der Suchergebnisse

I semantische Beziehungen zwischen Wörtern nicht berücksichtigtWaffenimport vs. führt . . . Haubitzen . . . einSüdfruchteinfuhr vs. importiert DattelnI geringe Vollständigkeit der Suchergebnisse

SEMPRIA-Lösung

I Semantik-orientierter Ansatz – Bedeutung von Texten im System bestimmt und repräsentiert

I Repräsentation ist homogen und interoperabel: Wörter, Phrasen, Sätze, Texte

I Repräsentation ist universell: über Anwendungen und Sprachen hinweg (Deutsch, Englisch,Mandarin)

4 SEMPRIA, 2020-08-01

Page 6: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

Teil 2

Problem von Suchenden und Lösung von SEMPRIA

5 SEMPRIA, 2020-08-01

Page 7: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

Problem von Suchenden und Lösung von SEMPRIA

1. ProblemArchivbesitzer (Verlage, Rundfunkhäuser, Web-Sites, Organisationen . . . ):haben Probleme, ihre Archive voll und effizient zu erschließen2. LösungSEMPRIA-Suchmaschine hilft durchI höhere Vollständigkeit von SuchergebnissenI höhere Genauigkeit von SuchergebnissenI Fragefunktion (Möglichkeit gezielter Fragen)3. Wie?eigene Technologie (70 Mannjahre) für deutsche (englische, chinesische) Texte:automatisches Sprachverstehen durch tiefe semantische Analyse4. Alleinstellungsmerkmal der Lösungdurch Einsatz von Sprachverstehen deutliche LeistungssteigerungenI Nutzer (Leser, Redakteure, Analysten . . . ) sparen RecherchezeitI Nutzer finden öfter das eine relevante Dokument

6 SEMPRIA, 2020-08-01

Page 8: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

Teil 3

Technologie und Kompetenzen bei SEMPRIA

7 SEMPRIA, 2020-08-01

Page 9: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

SEMPRIA Kompetenz: Bedeutungsanalyse

Bedeutungsanalyse von Texten:Natürliche Sprache ; Bedeutungsdarstellung mit semantischen Netzen

8 SEMPRIA, 2020-08-01

Page 10: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

SEMPRIA Kompetenz: Wissensbasen

I Aufbau lexikalisch-semantischer RessourcenI Synonyme: ausführen und exportierenI Unterbegriffe und Oberbegriffe: Einkommensteuer und SteuerI Nominalisierungen: AusfuhrI Schreibvarianten: geographisch und geografischI Fremdsprachliches, Fachsprachliches: soziale Medien und Social MediaI Geographisches Wissen: Flingern ist Teil von DüsseldorfI zusammen: über 200.000 Beziehungen

I Aufbau logischer RegelsystemeI Erfassung komplexer Beziehungen zwischen Wortbedeutungen: ausführen und Exporteur

I Automatische Erzeugung von Wissensbasen aus TextenI z.B. deutsche Wikipedia (125 Millionen Sätze, Stand 2020-08-01)

I Entwicklung von Werkzeugen zur WissensakquisitionI Unterstützung des Wissensingenieurs beim semi-automatischen Wissenserwerb

9 SEMPRIA, 2020-08-01

Page 11: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

Teil 4

SEMPRIA-Suchmaschine:Systemmerkmale, Beispiele, Vorteile

10 SEMPRIA, 2020-08-01

Page 12: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

SEMPRIA-Search Beispiel

Suchanfrage:

Import von Öl

Zusätzliche richtige Treffer gegenüber Stichwortsuche ( I Vollständigkeit):

importierten Öls

Öl importen aus . . .

Import von Erdgas und . . . Erdöl

führte 2011 . . . Öl ein

Vermiedene falsche Treffer der Stichwortsuche( I Genauigkeit durch semantische Filter):

. . . um den Import mit Öl zu bezahlen.

11 SEMPRIA, 2020-08-01

Page 13: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

SEMPRIA-Search Beispiele (Fragebeantwortung) Blindenschrift

Suchanfrage: Wer war der Erfinder der Blindenschrift?auch: Wer erfand die Blindenschrift?

Antwort:Louis Braille.Laut Kahlisch beherrschen etwa zehn Prozent . . . die Punktschrift, die von Louis Braille erfundenwurde.

Phänomene:

I Verbindung der Begriffe Erfinder und erfinden (ein Erfinder erfindet etwas)

I Synonymie zwischen Blindenschrift und Punktschrift

12 SEMPRIA, 2020-08-01

Page 14: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

SEMPRIA-Search Produkfeatures

Traditionelle Suchmaschinen beherrschen nur (teils unvollständig):Flexion (Haus J I Hauses), Derivation (ändern J I Änderung), Komposita (Motor J I E-Motor )

SEMPRIA-Search beherrscht zusätzlich:Mehrwortausdrücke Sankt Augustin (als Einheit)Zahlen, Maße 10 km J I 10000 Meter J I 10.000 m

90 EUR J I neunzig Euro J I 90,00 €relative Zeitangaben vorgestern UND Publikationsdatum=13.03.2020

J I 11.03.2020Idiome, Metonymie Handtuch werfen J I aufgebenFunktionsverbgefüge Antrag stellen J I beantragenMehrdeutigkeiten (lexikalische, strukturelle) Gerresheim Ort

PersonRolle von Ereignis-Beteiligten Kauf der Dresdner Bank

Kauf durch Dresdner Bank

13 SEMPRIA, 2020-08-01

Page 15: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

SEMPRIA-Search Produkfeatures 2

Bezüge von Pronomen * Die X1 kritisierte den Y. Sie1 antwortete . . .

Beziehungen zwischen Objekten Was hat Firma X mit Kriegswaffen zu tun?

Bedeutung aus mehreren Sätzen/Dokumenten Wer exportiert seltene Erden?Dokument 1: seltene Erde Neodym + Dokument 2: X führt Neodym aus

semantische Suchvorschläge aus den DokumentenEingabe: för I Vorschläge: öffentliche Fördermittel, förderfähige Kosten, . . .

Integration von FAQs in die SuchvorschlägeEingabe: Wa oder Büro I Vorschläge: Wann ist das Büro geöffnet?, . . .

Fehlerrobustheit für Suchanfragen (Rechtschreibung, Zusammenschreibung)Fusball WM J I Fußball-WM

* abhängig vom verfügbaren Hintergrundwissen

14 SEMPRIA, 2020-08-01

Page 16: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

Teil 5

SEMPRIA-Suchmaschine für FIRMA

15 SEMPRIA, 2020-08-01

Page 17: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

Produkte: SEMPRIA-Search SaaS

Suchmaschine als Software-as-a-Servive (SaaS)

I kein Installations-Aufwand, kein Update-Aufwand, keine Hardwarekosten

I hochverfügbare Lösung in deutschem Rechenzentrum

I preiswerte Monatsgebühren (nach Zahl der Dokumente, Dokumenten-Updates und Suchanfragen)

I automatische Software-Updates

Randbedingungen:

I Integration eines kurzen Programmcode-Schnipsels im CMS (für Suche und Suchvorschläge)

16 SEMPRIA, 2020-08-01

Page 18: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

Anwendungsszenario für FIRMA

I SEMPRIA-Search SaaS gehostet für FIRMA

I Verwendete Dokumente: von FIRMAoptional: PDFs, Webseiten weiterer Portale, Veranstaltungsdatenbanken . . .

I Anpassung an die Besonderheiten von Inhalten und Umgebung:

– Vokabular der Dokumente und Anfragen– typische Anfragen (aus Such-Logdatei)

I Aktualisierung der Daten:

– wöchentlich,– täglich,– zu definierten Uhrzeiten oder– in Realzeit (d.h. bei Veröffentlichung eines neuen Dokuments)

I Auswertungen der Suchanfragen: monatlich, wöchentlich oder . . .

I Auswertungen zum Sprachgebrauch der Dokumente: regelmäßig (besonders: Tippfehler)

17 SEMPRIA, 2020-08-01

Page 19: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

Fazit

I Such-Ergebnisse: signifikant vollständiger und genauer.

I Frage-Antwort-Funktionalität: Präzise Antworten auf gezielte Fragen.

I Recherche für den Nutzer: schneller und effektiver.

I Nutzererlebnis wird komfortabler: Suchvorschläge, aufbereitete Treffer, FAQ.

18 SEMPRIA, 2020-08-01

Page 20: statt Stichwortsuche mit Sprachverstehen ... · Typo3, WordPress, ... I Unternehmensweite Suche (enterprise search) I Archivierungsunterstützung –Verschlagwortung, Verstichwortung,

Impressum

SEMPRIA GmbHGrafenberger Allee 277–28740237 Düsseldorf

Telefon: 0211/566693-57Web: https://www.sempria.de/E-Mail: [email protected]

Geschäftsführer: Dr. Sven HartrumpfHandelsregister: Amtsgericht Düsseldorf, HRB 62168UStID-Nr: DE268248179