Vom dokument parser zum lucene index

  • Published on
    18-Dec-2014

  • View
    754

  • Download
    2

Embed Size (px)

DESCRIPTION

 

Transcript

<ul><li> 1. Vom Dokument-Parser zum Lucene Index. Josiane Gamgo Maerz 2009 </li> <li> 2. Agenda Indizierungsprozess: bersicht Dokument-Parser Das Lucene Dokument Indizierungstechniken Die Lucene Index Datenstruktur Vorbereitung der Index-Suche 2 </li> <li> 3. Indizierungsprozess: bersichtInput Parser Lucene Analyzer Dokument Index Inverted Index Vorbereitung der Index-Suche 3 </li> <li> 4. Dokument-Parser Arbeitsweise Dokumentenhandler Beispiel einen PDF Parser: PDFBOX Adaptierbarkeit Vorbereitung der Index-Suche 4 </li> <li> 5. Arbeitsweise Interface DocumentHandler implementieren Neue Instanz der Parser erzeugen Neue Instanz von org.apache.lucene.document.Document Zu parsende Dokument ffnen Attribute und Werte zu Lucene Dokument einfgen Geparste Dokument schlieen Vorbereitung der Index-Suche 5 </li> <li> 6. Arbeitsweise extends Interface Parser Lucene Dokument DocumentHandler Insidethe Documenthandler Lucene Dokument Interface InputStream DocumentHandler Vorbereitung der Index-Suche 6 </li> <li> 7. Dokumentenhandler Die Klasse DocumentHandler()Public class parserTyp implements DocumentHandler{...}public interface DokumentHandler {/** * Erzeugt ein Lucene Dokument aus ein InputStream * */Document getDocument(InputStream is)throw DocumentHandlerException;} Vorbereitung der Index-Suche 7 </li> <li> 8. PDF Dokument LucenePDFDocument ParseDocument (InputStream) DocumentcosDoc .... cosDoc Memory Text DecryptDocument PDFTextstripper PDFTextstripper (cosDoc) Metadata </li> <li> 9. Adaptierbarkeit class ParserHandlercollector Grammatik Class Lparser extends Handlercollector{} Vorbereitung der Index-Suche 9 </li> <li> 10. Das Lucene Dokument Aufbau Datenstruktur Index Erstellung mit mapReduce Vorbereitung der Index-Suche 10 </li> <li> 11. Aufbau Zu jedem zu parsende Datei eine org.apache.lucene.document.Document Instanz.private Document doc; Mit DokumentHandler: Text Inhalte extrahieren und Instanz von Lucene Dokument erstellen. Beispiel: Erstellung von Lucene Dokument mit SAX. Vorbereitung der Index-Suche 11 </li> <li> 12. Datenstruktur LuceneHTMLDokument Factory-Methode indexed tokenized stored Field.Text(String, String) x x x Field.Text(String, Reader) x x Field.KeyWord(String,date) x x Field.UnIndexed(String, String) x Field.Unstored(String,String) x x Vorbereitung der Index-Suche 12 </li> <li> 13. Datenstruktur LucenePDFDocument Field indexed tokenized stored Bemerkung Url x Url lokal oder im Netz modified x fr Indexupdate wichtig uid x fr inkrementelle Indizierung content x x Der eigentliche Inhalt Summary x Die ersten 500 Zeichen Vorbereitung der Index-Suche 13 </li> <li> 14. Index Erstellung mit MapReduce master A-f G-p Q-z Inverter A-f Parser A-f G-p Q-z Parser Inverter G-p ...... ... Inverter Parser A-f G-p Q-z Q-z Map Phase Reduce Phase Segment Files Disk Vorbereitung der Index-Suche 14 </li> <li> 15. Indizierungstechniken Was ist IR(Information Retrieval)? Indizierungstechniken in der IR Lucene Indizierungstechnik Vergleich Vorbereitung der Index-Suche 15 </li> <li> 16. Was ist IR? Verlorene Informationen wiedergewinnen Bedrfnis nach Informationen innerhalb von groen Datenmenge erfllen. Vorbereitung der Index-Suche 16 </li> <li> 17. Indizierungstechniken in der IR Signatur Dateien Suffix-Arrays Invertierte Listen Vorbereitung der Index-Suche 17 </li> <li> 18. Signatur Dateien Zerlegung der block1 block2 Heute ist Montag Rosenmontag in Bayern Dokumente in ungefhr die gleiche gre. h(block1) h(block2) Erstellung einer 001 010 Signatur Datei mittels Hashfunktion. Suche nach: Montag AND Rosenmontag Anfrage = Boolesche 001 + 010 = 011 UND oder ODER Verknpfung Vorbereitung der Index-Suche 18 </li> <li> 19. Suffix-Arrays Suffixe eines Dokument speichern Representation der Suffixe in eine Baum Struktur, in Lexicographischer Reihenfolge Suche nach ra Vorbereitung der Index-Suche 19 </li> <li> 20. Invertierte Listen Zerlegung des Dokument in Terms Zuordnung von Dokument Indexterm zu Dokument-IDs. Sortierung der Paare (Terms , DokumentIDs) Terme in Index Dateien speichern Vorbereitung der Index-Suche 20 </li> <li> 21. Lucene Indizierungstechnik Terms Dokument Id Terms Frequenz Posting List Der 3 Erhhung 3 Der 1 3 im 2 Erhhung 1 3 im 3 im 2 2 3 Juli 2 Juli 2 2 3 Juli 3 Neue 1 1 Neue 1 steigt 1 1 steigt 1 Umsatz 2 2 3 Umsatz 2 Umsatzprognose 1 1 Umsatz 3Umsatzprognose 1 Vorbereitung der Index-Suche 21 </li> <li> 22. Vergleich Invertierte Listen Signatur-Dateien Suffix-Arrays Lucene Invertierte Index Boolesches Retrieval ja ja ja jaAlgebraisches Retrieval ja nein nein ja Fuzzy Retrieval ja nein nein ja Gre O(n0.85) O(n) O(n) O(n0.85) 0.8 Anfragedauer O(n ) O(n) O(logn) O(n0.8) Kompression sehr gut gut gut sehr gut Vorbereitung der Index-Suche 22 </li> <li> 23. Die Lucene Index Datenstruktur Lucene Index Dokument ... Feld ... Term . ... ... Feld ... Dokument ... Vorbereitung der Index-Suche 23 </li> <li> 24. Vielen Dank fr Ihre Aufmerksamkeit! </li> </ul>

Recommended

View more >