of 39/39
Web Intelligence Research and Engineering Corsin Capol Einführung in Web Science Die Wissenschaft des Web und Social Media Metriken

Einführung in Web Science

  • View
    506

  • Download
    1

Embed Size (px)

Text of Einführung in Web Science

  1. 1. Web Intelligence Researchand Engineering Corsin Capol Einfhrung in Web Science Die Wissenschaft des Web und Social Media Metriken
  2. 2. Web Science als interdisziplinre Wissenschaft Quelle Bild: http://blogs.exeter.ac.uk/wip/blog/2010/05/28/the-emerging-web-science/
  3. 3. Agenda Thema Vorstellung berblickberdieTechnologien derWebScience Pause Machine Learning Pause Workshop Clustering
  4. 4. Vorstellung We create value from data by providing innovative, data driven software Software Development | Media Monitoring | Information Retrieval http://muncca.com
  5. 5. Lernziele Begriff Web Science positionieren Ziele und Methoden zum Erheben von Social Media Metriken erlutern Beschreiben inwiefern das Web und das Internet als Netzwerk aufgefasst werden knnen Grundzge des Machine Learnings Skizzieren, wozu Clustering Techniken dienen und erlutern dieser
  6. 6. BERBLICK Die Technologien der Web Science
  7. 7. Machine Learning Ziele Durch algorithmische Analyse vorhandener Daten Voraussagen ber andere Daten zu treffen Daten Analysieren Zusammenhnge finden/aufzeigen Daten Klassifizieren Einsatzgebiete Recommender Systems Information Retrieval Big Data Analysis
  8. 8. Natural Language Processing Ziele Przisierung der Ergebnisse durch natrliche Sprache Computergesttzte Verarbeitung natrlicher Sprachen Einsatzgebiete Sentiment Analysis Maschinelle bersetzung Information Retrieval
  9. 9. Natural Language Processing
  10. 10. Natural Language Processing
  11. 11. Natural Language Processing PRP VBP NN NN NN I like sentiment analysis @munccagmbh Part-of-Speech-Tagging (Penn Treebank Tagset) VBP: Verb, non-3rd person singular present PRP: Personal Pronoun NN: Noun, singular or mass
  12. 12. Information Retrieval Begriff erstmals gebraucht von Calvin N. Mooers (1950) The requirements of information retrieval, of finding information whose location or very existence is a priori unknown. . . . Ziele Information Reprsentieren Speichern Organisieren (Wieder-) auffinden Einsatzgebiete Enterprise Search Digital Library Web Search Garfield, E. (1997). A tribute to Calvin N. Mooers, a pioneer of information retrieval. The Scientist, 11(6), 9.
  13. 13. Information Retrieval
  14. 14. Netzwerkanalyse Ziele Analyse von Netzwerktopologien Klassifizierung von Netzwerken Bestimmung von Eigenschaften ganzer Netzwerke Bestimmung von Eigenschaften einzelner Knoten im Netzwerk Einsatzgebiete Soziale Netze World Wide Web Stromnetz Wassernetz
  15. 15. Netzwerkanalyse Netzwerkanalyse der Programmiersprache Java (Klassen) mit Gephi
  16. 16. Semantic Web Most of todays web is suitable for human consumption Ziele Web um Wissen erweitern, dass fr Maschinen semantisch interpretierbar ist Einsatzgebiete Personal Agents Information Retrieval Wissensmanagement B2B / B2C Semiotisches Dreieck: Charles Morris Calegari, S., & Sanchez, E. (2008). Object-fuzzy concept network: An enrichment of ontologies in semantic information retrieval. Journal of the American Society for Information Science and Technology. Zeichen Benutzer Situation Syntax Pragmatik Semantik Bedeutung
  17. 17. Semantic Web http://dbpedia.org/ontology/university
  18. 18. MACHINE LEARNING
  19. 19. Abgrenzung Anwendung von Methoden des maschinellen Lernens auf grssere Datenbanken nennt man Data Mining Nutzt Methoden der Statistik Prdiktives Modell Zuknftige Vorhersagen zu treffen Deskriptives Modell Wissen aufgrund der Daten zu erlangen
  20. 20. Distanz- und hnlichkeitsmasse Distanzmasse Unhnlichkeit zwischen zwei Vektoren Bei grsserer Distanz sind sich die Vektoren weniger hnlich Beispiele Euklidische Distanz Minkowski Distanz Canberra Distanz hnlichkeitsmasse hnlichkeit zwischen zwei Vektoren Wert ist bei grsserer bereinstimmung hher Cosinus Similarity Pearson Korrelationskoeffizient Jaccard Koeffizient
  21. 21. Euklidische Distanz Abstand zwischen zwei Vektoren im mehrdimensionalen Raum Bei der quadrierten euklidischen Distanz werden grosse Abstnde zwischen den Vektoren strker gewichtet als kleine Abstnde d(x, y) = (xi yi )2 i=1 n
  22. 22. Jaccard-Koeffizient hnlichkeitsmass fr binre Attribute Mengenbezogen Entwickelt von Schweizer Botaniker Paul Jaccard Siehe auch Jaccard-Metrik Wert zwischen 0 und 1 Je nher bei 1, desto hnlicher sind sich die Mengen J(A, B) = | AB | | AB |
  23. 23. Lernmethoden Supervised Learning Unsupervised Learning
  24. 24. Supervised Learning berwachtes Lernen Die Eingabedaten und die dazugehrigen Ausgabedaten, werden dazu verwendet um daraus die Abbildung der Eingabe auf die Ausgabe zu erlernen Trainingsdaten sind notwendig Unterscheidung zwischen Klassifikationsproblem Eingabedaten analysieren und bestehender Klasse zuordnen Mustererkennung Regressionsproblem Vorhersage quantitative Eigenschaften
  25. 25. Beispiele K-Nearest-Neighbors Nave Bayes Support Vector Machines Decision Trees
  26. 26. Nave Bayes Klassifizierte Daten Zuordnung neuer Objekte zu einer Klasse, aufgrund Wahrscheinlichkeit Naiv Mgliche Abhngigkeiten zwischen Eingabewerten, werden ignoriert und multivariantes Problem wird auf eine Gruppe von univarianten Problemen reduziert Effektive Methode zur Klassifizierung Trainieren Klassifizierung Nicht sensitiv fr irrelevante Features
  27. 27. Nave Bayes Beispiel Ausgangslage 40 grne Punkte P(X=grn) = 40/60 20 rote Punkte P(x=rot) = 20/60 Vorgehen Zeichnen einen Kreis um X und zhle die Punkte Wahrscheinlichkeitberechnen P(X=grn) = 1/40 = 0.025 P(X=rot) = 3/20 = 0.15 Wahrscheinlichkeiten multiplizieren P(X=grn) = 4/6 * 1/40 = 1/60 = 0.017 P(X=rot) = 2/6 * 3/20 = 1/20 = 0.05 Quelle: http://www.statsoft.com/Textbook/Naive-Bayes-Classifier
  28. 28. Unsupervised Learning Unberwachtes Lernen Durch algorithmische Analyse der Eingabedaten wird versucht, die Struktur in diesen Daten zu erkennen Nur die Eingabedaten sind bekannt
  29. 29. Beispiele K-Means DBSCAN Singular Value Decomposition
  30. 30. Clustering Clusteranalyseverfahren Unvollstndig Ergebnis lediglich eine rumliche Darstellung in einem niedrigdimensionalen Raum Zuordnung der Elemente (Klassifikationsobjekte) wird nicht vorgenommen Geometrische Methoden Beispiel: Multiple Korrespondenzanalyse, Nichtmetrische Mehrdimensionale Skalierung Deterministisch Cluster werden berechnet und Elemente deterministisch zugeordnet Disjunkt (nur einem Cluster), berlappend (mehreren Clustern zugewiesen) Beispiel fr disjunktes deterministisches Verfahren ist K-Means Probabilistisch Grundlage ist Wahrscheinlichkeit, dass Element zu einem Cluster gehrt
  31. 31. Hierarchisches Clustering Deterministisches Verfahren Baumstruktur entsteht Varianten Bottom-Up Es wird mit allen Elementen gestartet und diese werden sukzessiv zu einem Cluster verschmolzen Top-Down Mit einem grossen Cluster starten und rekursiv in kleine Cluster aufteilen
  32. 32. Hierarchisches Clustering Vorgehen bei Bottom-up Algorithmus 1. Anfangs bildet jedes Element sein eigenes Clusterzentrum 2. Zwei hnlichsten Cluster suchen 3. Clusterpaar verschmelzen Je nach Verfahren die Clusterzentren neu berechnen 4. Wiederholen der Schritte zwei und drei, bis alle Elemente zu einem Cluster gehren Verfahren um die Clusterzentren zu berechnen Single Linkage Cluster mit der geringsten Distanz werden verschmolzen Complete Linkage, Average Linkage, Median, Zentroid, Ward
  33. 33. Hierarchisches Clustering Beispiel Ausgangslage Fnf Elemente im mehrdimensionalen Raum Hierarchisches Clustering Single Linkage Verfahren Euklidische Distanz Bottom-Up Jedes Element bildet eigener Cluster
  34. 34. Hierarchisches Clustering Beispiel Dendrogramm Hierarchische Zerlegung der Datenmenge in kleinere Teilmengen Baumstruktur Wurzel reprsentiert Cluster mit Gesamter Menge
  35. 35. K-Means Disjunktes deterministisches Verfahren Clusterzentren werden konstruiert zur Bildung von Clustern Anzahl Cluster muss im voraus bekannt sein Gefundene Cluster hngen von initial bestimmten Zentren ab. Mehrfach durchfhren. Vorgehen 1. k-Clusterzentren zufllig festlegen 2. Jedes Element dem naheliegendsten Clusterzenter zuordnen Distanzmass 3. Clusterzentren berechnen (mehrdimensionaler Mittelwert) 4. Schritte zwei und drei wiederholen, bis es keine nderungen mehr gibt oder die festgelegte Iterationstiefe erreichtwurde
  36. 36. K-Means Beispiel Ausgangslage Fnf Elemente und zwei zufllig platzierte Cluster im mehrdimensionalen Raum k-Means Clustering Quadrierte Euklidische Distanz
  37. 37. K-Means Beispiel Neue Clusterzentren berechnet Zuordnung mittels Distanzfunktion Zuordnung hat sich nicht gendert Beenden des Clusterings
  38. 38. WORKSHOP CLUSTERING 40 Minuten Workshop / 20 Minuten Prsentation
  39. 39. KONTAKT [email protected] http://muncca.com muncca GmbH Ottostrasse 29 7000Chur Switzerland