Winfried Gödert ● Klaus Lepsky
Modul Modul Information Retrieval (IR 4)
Was erwartet Sie ?
Etwas Neues
Viele Anregungen zum Nachdenken und selbstständigen Tun
Wenig Unterhaltung – aber Einblick in Zusammenhänge
Arbeit
Und das im Rahmen der folgenden Veranstaltungen
Modul Information Retrieval (IR 4)
IR 4.1 - : Information Retrieval - Theorie
IR 4.2 – : Information Retrieval - Praxis
http://www.indexierung-retrieval.de/2014/09/modul-information-retrieval-ir-4.html
Inhalte
Prinzipien des Indexaufbaus (Invertierte Liste)Boolesches RetrievalVektorraummodellTermgewichtung
RankingalgorithmenWeb-Retrieval mit SuchmaschinenIndexierungs- und Retrievalstudien
Ziele und Charakter der Veranstaltung sind nicht
• das Erlernen und Reproduzieren von Fakten• das angeleitete Nachmachen von Vorgemachtem
sondern
• das Erwerben eines fachorientierten Themenüberblicks• das Verinnerlichen von gebietstypischen Zusammenhängen• die Bearbeitung gebietstypischer Aufgabenstellungen• die Fähigkeit zum aufgabenangemessenen Auswählen von Methoden
und Werkzeugen zur Lösung gebietstypischer Probleme und Erstellung von Produkten
Geschäftsgrundlage der Veranstaltungsdurchführung
• die Bearbeitung von Aufgaben in den Laborveranstaltungen erfolgt selbstbestimmt und ohne vorgegebenen Zeittakt
• die Betreuung in den Laborveranstaltungen ist an den einzelnen Personen, ihren Fragen und Ergebnissen orientiert, Fragen aus dem Teilnehmerkreis werden immer gerne beantwortet
• es werden Anregungen zur Beschäftigung mit den methodischen Hintergründen gegeben und zur Übertragung auf die Eigenschaften von Produkten gegeben
Werfen wir einen Blick in das Modulbuch
http://www.fbi.fh-koeln.de/studium/informationswissenschaft/MODULHANDBUCH_AIW_20140522.pdf
Das Modulbuch stellt einen Vertrag dar, dessen Einhaltung ein erfolgreiches Studium sicherstellen soll. Die Einhaltung muss durch beide Partner erfolgen:
Wir bieten vertragsgerecht an – Sie nehmen vertragsgerecht wahr.
Vorlesung: Information Retrieval - Theorie
Vermittelt die für die praktischen Aufgabenstellungen notwendigen oder hilfreichen Hintergründe
Laborpraktikum : Information Retrieval - Praxis
Dient der Bearbeitung der praktischen Aufgabenstellungen, die für den Erwerb der notwendigen Kenntnisse erforderlich sind
Themenabfolge:http://ixtrieve.fh-koeln.de/lehre/ir-4-information-retrieval-wiederholungsfragen.pdf
Ablauf der Veranstaltung
Material zur Vorbereitung:
http://ixtrieve.fh-koeln.de/lehre/ir-4-information-retrieval-wiederholungsfragen.pdf
Prüfungsform: Klausur
Material zu den Veranstaltungen:
Kapitel 5 und 6
http://www.indexierung-retrieval.de/2014/09/modul-information-retrieval-ir-4.html
http://ixtrieve.fh-koeln.de/lehre/AIW_IR4_WS_2014-15.pptx[Präsentation der Vorlesung]
http://ixtrieve.fh-koeln.de/lehre/ir-4-information-retrieval-wiederholungsfragen.pdf
Mit welcher Art von Fragestellungen beschäftigen wir uns ?
Versuchen wir eine Einführung anhand einiger Beispiele
Geordnetes Speichernder
Inhaltsrepräsentationen
DokumenteMedien, Objekte
Inhalts-analyseInhalts-
erschließung
Retrieval
Suchenund
Findenoder
nicht Finden
Informationssystem
KlassifikationssystemeSchlagwortsprachen
ThesauriAbstracts
Automatisches IndexierenAutomatisches Klassifizieren
SucherlebnisseEine wichtige Methode der Inhaltserschließung und des Information Retrieval besteht aus der Durchführung von Experimenten und der aufmerksamen Beobachtung ihrer Ergebnisse.Betrachten wir ein Beispiel:
Welche Erklärung gibt es für das Auftreten des Wortes sowohl im Singular als auch im Plural ???
Wissen von Google oder Magie ?
Weiteres Beispiel:
Wieso kann Google jetzt Singular und Plural nicht zusammenführen ?
Analyse der Trefferzahlen für house und houses:
Man sieht, Google kann auch für dieses Beispiel den Singular eines Wortes nicht mit seinem Plural zusammenführen.
Man darf sich also nicht auf den ersten Augenschein verlassen.
Weiteres Beispiel: Behandlung von Umlauten
Genauere Analyse durch Einsatz feinerer Werkzeuge
Wie viele andere Suchmaschinen hatte auch Google das „+“ bzw. das „-“ Zeichen zur Präzisierung von Suchanfragen verwendet:
+ Wort soll vorkommen / - Wort soll nicht vorkommen
Beispiele:
Inzwischen hat Google diesen Mechanismus abgeschafft, um Schwierigkeiten bei der Suche nach Google+ zu vermeiden (Vermutung!).
Wiederholung der Suchen am 07.10.2015 zeigen nun die Ergebnisse:
Gleiches Ergebnis
Vorher: ~ 6.900
Vorher: ~ 1.370.000 Vorher: ~ 87.200
Die alten Ergebniszahlen konnte man erklären,
die neuen nicht
Wie schafft man es, die · unter allen · zu finden ?
Bingo
Wie erfolgt überhaupt eine Suche in einer Datenbank ?
Modell der sequenziellen Suche mit Pattern Matching
Sequenzielle Suche, Pattern Matching mit einer Schablone
1101001110110001010101100111011010101000010101111..
Anwendung
Suche im Volltext (vgl. z.B. die Funktion in Word)
Vorteil
Jedes Muster kann gezielt gesucht und gefunden werdenDamit auch Suche nach Wortfragmenten und Sonderzeichen möglich
Nachteile
ZeitaufwandExaktheit der Übereinstimmung, z.B. UmlauteDer gesamte Datenbestand muss zum Zeitpunkt der Suche verfügbar sein
010101100101011001010110
NeinNeinNein
01010110
Nein
01010110
Nein
01010110
Bingo
Gesucht wird:
Suche in einem Index, z.B. alphabetisch sortiertEintrag01Eintrag02Eintrag03Eintrag04Eintrag05Eintrag06Eintrag07Eintrag08Eintrag09Eintrag10Eintrag11Eintrag12Eintrag13Eintrag14Eintrag15Eintrag16Eintrag17Eintrag18Eintrag19Eintrag20Eintrag21Eintrag21Eintrag22Eintrag23Eintrag24
Suche sequenziell ?
NeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNein
So nicht !!!
Gesuchter Eintrag
Suche in einem Index, z.B. alphabetisch sortiertEintrag01Eintrag02Eintrag03Eintrag04Eintrag05Eintrag06Eintrag07Eintrag08Eintrag09Eintrag10Eintrag11Eintrag12Eintrag13Eintrag14Eintrag15Eintrag16Eintrag17Eintrag18Eintrag19Eintrag20Eintrag21Eintrag21Eintrag22Eintrag23Eintrag24
Bildung von Hälften
Test, ob gesuchter Eintrag in der ersten Häfte
oder in der zweiten Häfte
Nein
Ja
Das Verfahren wird mit der zutreffenden Hälfte fortgesetzt
Eintrag13Eintrag14Eintrag15Eintrag16Eintrag17Eintrag18Eintrag19Eintrag20Eintrag21Eintrag21Eintrag22Eintrag23Eintrag24
Nein
Ja
Eintrag19Eintrag20Eintrag21Eintrag21Eintrag22Eintrag23Eintrag24
Das Verfahren folgt einem binären Entscheidungsbaum und kommt auch bei großen Indizes sehr schnell zu einem Ergebnis
Ja
Eintrag19Eintrag20Eintrag21Eintrag21
Ja
Eintrag19Eintrag20
Nein
Ja
Autor: van de Rak, Jan Willem
Titel: Zwischen Pleonasmus und Fassette: Das Regelwerk als sinnstiftendes Element in Zeiten erschließerischer Verrohung.
Ort: Normstett
Jahr: 1998
Schlagworte: Regelwerk ; Norm ; soziokulturelle Studie
Abstract: Die Arbeit untersucht die Bedeutung von Regelwerken vor dem Hintergrund des weltweit zu beobachtenden Niedergangs der Erschließungskultur im späten 20. Jh. Lösungsmöglichkeiten sieht der Autor in einer deutlich weitergehenden Reglementierung aller Bereiche des täglichen Lebens.
Prinzip: Invertierte ListeEin Beispiel
Liste der Einzelwörtermit Kategorien-angabe:
20 ABSaller ABSals TIarbeit ABSautor ABSbedeutung ABSbeobachtenden ABSbereiche ABSdas TIdem ABSder(2) ABSdes(2) ABSdeutlich ABSdie(2) ABSeiner ABSelement TIerschließerischer TIerschließungskultur ABSfassette TIhintergrund ABSIm ABSin(2) TI, ABSjh ABSlebens ABSlösungsmöglichkeiten ABS
...
Niedergangs ABSNorm ABSPleonasmus TIRegelwerk TIRegelwerk SWRegelwerken ABSReglementierung ABSSieht ABSSinnstiftendes TISoziokulturelle SWspäten ABSStudie SWtäglichen ABSUnd TIUntersucht ABSVerrohung TIVon ABSVor ABSWeitergehenden ABSWeltweit ABSZeiten TIZu ABSZwischen TI
Invertierte Listen: Eigenschaften
Suche in einem Index mit speziellem Aufbau
Durchsuchen eines i.d.R. alphabetisch sortierten Suchregisters, das alle oder eine Teilmenge aller Zeichenketten aller Datensätze der Datenbank enthält
• sehr gute Performance (Schnelligkeit) durch Zugriff auf sortierte Menge
• gute Voraussetzungen für kategorienspezifische Suchen
• gute Voraussetzungen für Boolesche Verknüpfungen
• damit gute Voraussetzungen für kategorienübergreifende Boolesche Suchen
aber auch
• ggf. eingeschränkte Suchmöglichkeiten (z.B. wenn Dokumente nicht vollständig indexiert sind)
• bedarf Techniken für Indexaufbau und –aktualisierung
• der Index / die Indizes bedarf / bedürfen eines nicht unerheblichen Speicheraufwandes und wachsen nicht linear mit der anwachsenden Dokumentenkollektion
Suche nach einem Primärschlüssel
Datensatz-NummerFragmentierung der DatensätzeSuchalgorithmen zur Optimierung der Suchgeschwindigkeit
Aufgabe der Datenbank-Software
Suche nach einem Sekundärmerkmal der Dokumentbeschreibung
Invertierte Listen
Autor 0034, 0234StW 0017, 0045, 0067, 0224, 0456, 0734,
1504, 3390SW 0234, 1504, 1809, 4336Jahr 0055, 0152, 0234, 0334, 0335, 0457,
0547, 0623, 0734
Suche nach verknüpften Merkmalen
Einsatz von Hilfsmitteln und Anwendung von Suchlogik,z.B. UND = Gemeinsames Vorkommen der Dok-Nr.
Suche nach einem Primärschlüssel
Datensatz-NummerFragmentierung der DatensätzeSuchalgorithmen zur Optimierung der Suchgeschwindigkeit
Aufgabe der Datenbank-Software
Suche nach einem Sekundärmerkmal der Dokumentbeschreibung
Invertierte Listen
Autor 0034, 0234StW 0017, 0045, 0067, 0224, 0456, 0734,
1504, 3390SW 0234, 1504, 1809, 4336Jahr 0055, 0152, 0234, 0334, 0335, 0457,
0547, 0623, 0734+
Suche nach verknüpften Merkmalen
Einsatz von Hilfsmitteln und Anwendung von Suchlogik,z.B. UND = Gemeinsames Vorkommen der Dok-Nr.
Umsetzung in eine Datenbank: Beispiel MIDOS
Die Suchumgebung mit Abfragekategorien
Bildretrieval – Bild-Identifikation
Google Bildsuche
Wolfram Image Identify
Google Bildsuche
Die Bilder werden durch eine Übereinstimmung der eingegebenen Suchwörter mit den auf einer Webseite ermittelten Wörter ermittelt ermittelt.
Durch diese Vorgehensweise können beliebig viele Fehltreffer entstehen
Geht man der Ursache für die Trefferbildung nach, stößt man auf Webseiten, die die eingegebenen einzelnen Wörter, aber nicht unbedingt ein Bild der gemeinten Person, enthalten.Von einer präzisen Suche nach dem Inhalt von Bildern kann also nicht gesprochen werden.
Ein Beispiel
Zur präzisen Recherche nach Bildinhalten geht in der Regel kein Weg daran vorbei, zuvor eine strukturierte Datenbank und die interessierenden Inhalte durch eine intellektuelle Bearbeitung zu ermitteln und dokumentationssprachlich zu beschreiben – so wie wir das im Laborpraktikum behandelt haben.
Im Web gibt es zahlreiche Beispiele für solche Datenbanken, die als Anschauungsmaterial dienen können.
Es gibt zahlreiche Forschungsansätze zur automatischen Bilderschließung und zum Bildretrieval, die vielfach auf Methoden der Künstlichen Intelligenz (Mustererkennung) aufbauen. Unverzichtbar ist in der Regel eine Datenbank, die die Muster mit einer strukturierten Verbalisierung (einer Art Thesaurus) verbindet, um danach mit Hilfe von Wörtern suchen zu können.
Näheres hierzu ist ebenfalls im Web dokumentiert.
Nachfolgend soll ein Projekt angesprochen werden, das 2015 vorgestellt wurde und das den Stand des derzeit Erreichbaren für die Identifikation von Bildinhalten dokumentiert:
Wolfram Image Identify
Zuvor soll zum besseren Eindruck des Hintergrunds des Urhebers von Image Identify eine spezielle Suchmaschine vorgestellt werden:
Wolfram alpha http://www.wolframalpha.com/
Die besondere Stärke dieser Suchmaschine liegt auf der Recherche von Fakten, Vergleichen von Daten und Berechnungen auf der Basis mathematischer Formeln. Eine Vielzahl von vordefinierten Beispielen illustrieren diese Möglichkeiten:
07.10.2015
Bild-Identifikation - Wolfram Image Identify
https://www.imageidentify.com/
Hier gibt es viele Hinweise
auf die Funktionsweise
Beispiel 1
= Vorhängeschloss
Beispiel 2
= Pfeife
Beispiel 3
= Schloss / Burg
Beispiel 4
= Haus
Beispiel 5
= Haus
Weitere Hinweise zu den eingesetzten Methoden:http://blog.stephenwolfram.com/2015/05/wolfram-language-artificial-intelligence-the-image-identification-project/