28
Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl für Intelligente Sensor-Aktor-Systeme (ISAS) Prof. Dr.-Ing. Uwe D. Hanebeck Seminar

Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

Embed Size (px)

Citation preview

Page 1: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

Von Big Data zu Data Science- Moderne Methoden der Informationsverarbeitung

Jörg Fischer

SS 2014

Fakultät für InformatikInstitut für Anthropomatik

Lehrstuhl für Intelligente Sensor-Aktor-Systeme (ISAS)Prof. Dr.-Ing. Uwe D. Hanebeck

Seminar

Page 2: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

2Jörg Fischer

Ablauf

Formale Randbedingungen

Ausarbeitung

Vortrag

Page 3: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

3Jörg Fischer

Formale Anforderungen

Vortrag 15 Minuten PowerPoint oder LaTeX (Vorlage auf WWW-Seite)

Schriftliche Ausarbeitung 5 Seiten zweispaltig LaTeX (Vorlage auf WWW-Seite) PDF und LaTeX-Sourcen (als ZIP mit Bildern)

Anwesenheit bei allen Veranstaltungenhttp://isas.uka.de/de/Seminar

Page 4: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

4Jörg Fischer

Ablauf des Seminars

Themenauswahl Themen an Betreuer gebunden

Recherche Empfohlene Literatur auf der Web-Seite Eigenständige Recherche

Ausarbeitung

Vortrag

Page 5: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

5Jörg Fischer

Meilensteine

Themenauswahl (heute)

Ausarbeitung Vorstellung des Themas und Gliederung (Mo. 19.05.2014) Erste ausformulierte Fassung (Mo. 16.06.2014) Endgültige Fassung (Mo. 30.07.2014)

Vortrag Vortragsfolien (Mo.

07.07.2014) Vortrag ( Juli )

Page 6: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

6Jörg Fischer

Ablauf

Formale Randbedingungen

Ausarbeitung

Vortrag

Page 7: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

7Jörg Fischer

Form der Ausarbeitung

Ausarbeitung ist wissenschaftliche Arbeit Keine Umgangssprache i.d.R. keine erste Person Verwendete Literatur referenzieren

(Literaturverzeichnis) Zitate kennzeichnen und referenzieren (mit

Seitenangabe)

Konsistenz Einheitliche Verwendung von Symbolen Einheitliche Verwendung von Fachtermini

Abkürzungen erklären (nur gebräuchliche verwenden)

Page 8: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

8Jörg Fischer

Grafiken in Ausarbeitung

Pixelgrafiken sinnvoll skalieren Fotos als JPG einbinden Unverrauschte Bilder als PNG einbinden

Beschriftung in Sprache der Ausarbeitung Graphen vollständig beschriften Auch Grafiken müssen korrekt

referenziert werden Auf jede Grafik im Text Bezug nehmen

Page 9: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

9Jörg Fischer

Ablauf

Formale Randbedingungen

Ausarbeitung

Vortrag

Page 10: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

10Jörg Fischer

Inhalt eines Vortrages

Vor dem Vortrag zu beachten: Wer hört zu? Welches Wissen kann

vorausgesetzt werden? Was ist das Ziel des Vortrages? Welche Informationen sollen

„hängenbleiben“?

Wissenschaftlicher Vortrag

Page 11: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

11Jörg Fischer

Vortragslänge

Zeitbeschränkung beachten! (15 Min.)

Aber: Vortrag sollte auch nicht zu kurz sein

Viele Informationen Wenig Zeit

Konzentration auf das Wesentliche

Page 12: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

12Jörg Fischer

Vortragsgliederung

Beginn Beginnen mit Titel und Gliederungsübersicht (ca. 2

Folien) Einleitung und Motivation (1-2 Folien)

Hauptteil Schluss

Zusammenfassung und Ausblick (ca. 2 Folien)

Mit einem Dank für die Aufmerksamkeit schließen

Page 13: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

13Jörg Fischer

Gestaltung von Folien (I)

ISAS-Vorlage aus WWW verwenden

Klare, einheitliche Gestaltung (Konsistenz)

Wenige Punkte pro Folie (nur Schlagworte)

Jeden Punkt auf einer Folie ansprechen

Page 14: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

14Jörg Fischer

Gestaltung von Folien (II)

Grafiken und Bilder benutzen, falls möglich Farben

Verdeutlichung von Zusammenhängen Achtung: Farben haben auch Symbolwerte

Rahmen Name des Vortragenden Seitenzahl

Animierte Seitenübergänge, etc.meistens überflüssig

Page 15: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

15Jörg Fischer

Folien – Schriftarten und -größen8 Punkt

12 Punkt

18 Punkt20 Punkt

24 Punkt28 Punkt32 Punkt36 Punkt40 Punkt

Dieser Text istzu klein.

8 Punkt

12 Punkt

18 Punkt20 Punkt

24 Punkt28 Punkt32 Punkt36 Punkt40 Punkt

Serifenlose Schrift (links)

mind. 18 Punkt

Page 16: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

16Jörg Fischer

Folien – Negatives Beispiel (I)

Page 17: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

17Jörg Fischer

Folien – Negatives Beispiel (II)

1 2 3 4 5 6 7 8 9 10-100

-50

0

50

100

150

200

Page 18: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

18Jörg Fischer

Vortragsstil

Frei und flüssig sprechen Laut, deutlich und zum Publikum sprechen

(Blickkontakt!) Reaktionen der Zuhörer beachten Seitlich neben der Projektionsfläche stehen

(freie Sicht) An der Projektionsfläche erklären Vortrag planen und üben

Page 19: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

19Jörg Fischer

Probleme bei Beamer-Präsentationen

Kompatibilität mit dem Vortragsrechner PowerPoint:

Nicht-Standard-Schriftarten? TrueType-Schriftarten einbetten

Open Office / LateX: PDF generieren

Videos oft problematisch Vorher auf Vortragsrechner testen

Page 20: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

20Jörg Fischer

DANKE FÜR DIE AUFMERKSAMKEIT!

Page 21: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

21Jörg Fischer

Seminar

Themen[Vergeben] Lösung konvexer Optimierungsprobleme mittels Interior-Point-MethodeOptimierungsverfahren spielen eine sehr wichtige Rolle in Analyse von Daten und Entscheidungsfindung auf deren Basis. Die betrachteten Probleme haben oft weit über hunderte Entscheidungsvariablen, welche noch zusätlich Beschränkungen unterliegen. Die Interior-Point-Methode stellt ein für die Praxis äußerst relevantes Optimierungsverfahren dar. Im Rahmen dieser Arbeit soll die Interior-Point-Methode vorgestellt und mit anderen Optimierungsverfahren verglichen werden.Betreuer Maxim Dolgov

Page 22: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

22Jörg Fischer

Seminar

Themen[Vergeben] Regression mit GaußprozessenDas Ziel der Regression besteht darin, eine kontinuierliche Funktion bestmöglich an gegebene Daten anzupassen. Hierzu können Gaußprozesse verwendet werden. Ein Gaußprozess kann als unendlichdimensionale Wahrscheinlichkeitsverteilung über Funktionen betrachtet werden, wobei jede endliche Teilmenge gemeinsam gaußverteilt ist. Gaußprozesse können zur Regression eingesetzt werden, indem die wahrscheinlichste Funktion gegeben eines gewissen Datensatzes bestimmt wird. Dabei kann eine sogenannte Kovarianzfunktion verwendet werden, um die Eigenschaften der Regression zu beeinflussen.Betreuer: Gerhard Kurz

Page 23: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

23Jörg Fischer

SeminarThemen[Vergeben] Algorithmische Spieltheorie oder "Leben retten mit gerichteten Graphen"Gegenstand der algorithmischen Spieltheorie ist die algorithmische Untersuchung und Implementierung spieltheoretischer Mechanismen. Dementsprechend sind die Anwendungsfelder weit gestreut und reichen von der Ausgestaltung von Auktionsmechanismen für Online-Handelsplattformen oder Internetwerbeeinblendungen über die Umsetzung der Versteigerung von Frequenzbereichen bis hin zu Organtauschmechanismen bei Organspenden. Dementsprechend hat dieses zunächst sehr theoretische Forschungsfeld eine enorme praktische Relevanz. Im Rahmen dieses Seminars sollen grundlegende Begriffe und Theoreme im Bereich der Mechanismus-Design-Theorie erarbeitet und anhang eines konkreten Algorithmus vorgestellt werden.Betreuer: Igor Gilitschenski

Page 24: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

24Jörg Fischer

Seminar

Themen[Vergeben] Identifikation linearer SystemeIn dieser Seminararbeit soll Systemidentifikation auf Basis linearer Modelle mittels traditioneller Methoden und der Unterraumsuche (Subspace Identification) ausgearbeitet werden.Untersuchung und Abgleich von Datensätzen und dessen unterliegende Systemdynamik, ist ein wichtiges Thema in vielen Anwendungsbereichen. Je nach Anwendungsbereich wird dies Outlier-, Anomaly-, Change- oder Change-Point-, Novelty- oder Fault-Detection oder auch Concept-Drift genannt. Dabei ist bei riesigen Datensätzen schnell klar, dass der Vergleich direkt auf Datenbasis nicht sehr effektiv ist. Ein möglicher Ansatz ist, eine repräsentative Formulierung der Datensätze zu finden, auf dessen Basis sich ein effektiver Vergleich durchführen lässt. Dies kann als modellbasierter Ansatz zusammengefasst werden.Betreuer: Christof Chlebek

Page 25: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

25Jörg Fischer

Seminar

ThemenDas Ensemble Kalman FilterFür lineare System- und Messmodelle liefert das Kalman Filter optimale geschlossene Lösungen. Dies gilt aber nicht für nichtlineare Modelle, wo stattdessen häufig sample-basierte Filterverfahren zum Einsatz kommen. Ein Filter dieser Klasse ist das sogenannte Ensemble Kalman Filter (EnKF), welches insbesondere in der Wettervorhersage verwendet wird. Dieses verwendet eine Menge von Samples um die nichtlinearen Modelle auszuwerten und um den Systemzustand sowie dessen Unsicherheit zu repräsentieren. Im Zuge dieser Seminararbeit soll dessen Funktionsweise erarbeitet und vorgestellt werden.Betreuer: Jannik Steinbring

Page 26: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

26Jörg Fischer

Seminar

ThemenStrukturlernen in unsicheren DatenDie Zusammenhänge in einer Vielzahl abhängiger und zugleich unsicher Daten lassen sich durch eine Verbundwahrscheinlichkeitsverteilung bzw. -kovarianzmatrix darstellen. Die auch als Gauß-Markov-Zufallsfeld bezeichnete Zusammenhangsstruktur muss in der Regel aus Messdaten empirisch bestimmt werden. Hierbei wird eine einfache (dünnbesetzte) Beschreibung der Zusammenhänge bevorzugt, um Speicheraufwand und Weiterverarbeitung, z.B. Inferenz, zu vereinfachen. Im Rahmen dieser Seminararbeit soll diese Problemstellung untersucht werden und wichtige Lösungsansätze vorgestellt werden.

Betreuer Benjamin Noack

Page 27: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

27Jörg Fischer

Seminar

ThemenFitting von Ellipsen mit verrauschten MessungenBeim Tracking ausgedehnter Objekte verhindern verrauschte Messungen die Schätzung einer detaillierten Form. Eine mögliche Lösung ist es, die Form als eine Ellipse zu approximieren, die dann in den meisten Fällen mit der Methode der kleinsten Fehlerquadrate geschätzt wird. In dieser Seminararbeit sollen einige, darauf basierende Lösungsansätze untersucht und beschrieben werden.Betreuer Antonio Zea

Page 28: Von Big Data zu Data Science - Moderne Methoden der Informationsverarbeitung Jörg Fischer SS 2014 Fakultät für Informatik Institut für Anthropomatik Lehrstuhl

28Jörg Fischer

Seminar

Themen[Vergeben] Konsensus Algorithmen in SensornetzenAuf Grund immer größer werdender Datenmengen, steigenden Anforderungen an die Skalierbarkeit der moderner Datenverarbeitung und einem starken Bedarf an zuverlässigen Systemen, hat die Dezentralisierung von Systemen signifikant an Bedeutung gewonnen. In dieser Seminararbeit soll der Ansatz der „Konsensus“-Algorithmen anhand aktueller Forschungsarbeiten untersucht und offene Forschungsfelder identifiziert werden.Betreuer Marc Reinhardt