Grundlagen des Data-Minings für strukturierte Daten (WS 2017/2018)

Titel Grundlagen des Data-Minings für strukturierte Daten
Foundations of structured data mining
Veranstalter Dr. Nils Kriege
Veranstaltungsart Proseminar mit Präsentationskurs (INF-BSc-110, Elemente 1 und 2)
Veranstaltungsnummer 040605
SWS 3
Max. Teilnehmer 16

Allgemeine Hinweise

  • Die Anmeldung zum Proseminar erfolgt online.
  • Die Veranstaltung beinhaltet einen Kurs zu Präsentationstechniken.

Inhalt

Soziale Netzwerke, Moleküle sowie Straßen- und Rechnernetze sind nur einige anschauliche Beispiele für strukturierte Daten, die sich durch Graphen repräsentieren lassen. Derartige Daten sind zunehmend in großen Mengen verfügbar und ihre Nutzung erfordert die automatisierte Extraktion von Informationen, die für eine spezielle Fragestellung relevant sind. Ein aktuelles Forschungsgebiet, das z.B. in der Chemie- und Bioinformatik zunehmend an Bedeutung gewinnt, befasst sich daher mit der Anwendung von Methoden des Data-Minings auf Graphen.

Im Rahmen des Proseminars möchten wir uns mit grundlegenden Techniken des Data-Minings befassen, die sich auf strukturierte Daten wie Graphen anwenden lassen. Es sollen ausgewählte Themen wie u.a. PageRank und Locality-Sensitive Hashing behandelt werden.

Themen

Nr. Thema Teilnehmer Bemerkung
Überwachtes Lernen
1 Perceptrons Robin Thunig
2 Support-Vector Machines Jonas Poth
3 Nächste-Nachbarn-Klassifikation Luise Weickhmann
4 Neuronale Netze Thanh Long Phn
5 Decision Trees Merle Gänßinger
Unüberwachtes Lernen
6 K-Means Antonie Vietor
7 CURE Daniel Nemitz
8 BIRCH & BUBBLE Joshua Engel
9 Self-organizing maps Timo Strackfeldt
Allgemeine Techniken, Datenreduktion
10 Hauptkomponentenanalyse Ioana Bejan
11 Isomap Oliver Ostgathe
12 Locality-Sensitive Hashing ohne MinHashing
13 Bloom Filters Marco Greco
14 MapReduce Jonas Zunker
Strukturierte Daten
15 Ähnlichkeit von Dokumenten: Shingling, MinHashing Frederik Stehli
16 Frequent Itemsets & der Apriori-Algorithmus
17 Datenströme: Sampling, Filtering & Counting Pascal Lasarz
18 Linked Data: PageRank Lukas Kersting
19 Image Retrieval: The Earth Mover's Distance Jan Fischer Original Quelle
Soziale Netzwerke
20 Clustering of Social-Network Graphs Donghui He
21 Community Detection & Partitioning Thorben Krause
22 Simrank Sebastian Prior

Literatur

  • Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman, 2014.
  • Introduction to Machine Learning, Ethem Alpaydin, MIT Press, Second Edition, 2010.
  • Foundations of Data Science, Avrim Blum, John Hopcroft, Ravindran Kannan, 2016 (unpublished draft).
  • Knowledge Discovery in Databases: Techniken und Anwendungen, Martin Ester, Jörg Sander, Springer 2000.

Ablauf & Termine

Diese Veranstaltung ist ein Proseminar für Studierende im Grundstudium. Sie umfasst 3SWS und beinhaltet einen Präsentationskurs. Die Themenverteilung erfolgt während der Vorbesprechung. Im weiteren Verlauf des Semesters haben die Teilnehmer Zeit, die Ausarbeitung zu schreiben und den Vortrag vorzubereiten. In dieser Zeit wird es regelmäßigen Treffen im Rahmen des Präsentationskurses geben und ggf. themenbezogene Einzelgespräch.

Die schriftlichen Ausarbeitung soll 10-12 Seiten umfassen und mit LaTeX erstellt werden (Vorlage). Die Abgabe erfolgt per E-Mail als PDF. Es wird empfohlen, rechtzeitig vor der Abgabe der schriftlichen Ausarbeitung dem Betreuer ein kurzes Konzeptpapier vorzulegen, in dem der Inhalt und Aufbau der Ausarbeitung stichpunktartig erläutert wird. Denn eine Aufgabe der Teilnehmer/innen besteht auch darin, den zu präsentierenden Stoff aus der Literaturquelle sorgsam auszuwählen. Es geht nicht darum, den ganzen Inhalt zu präsentieren, sondern die interessanten Aspekte. Hierbei ist eine frühzeitige Rückmeldung oft hilfreich. Der Inhalt der Ausarbeitung stimmt i.A. mit dem Inhalt der späteren Präsentation überein.

Jede Ausarbeitung wird von zwei Teilnehmer/innen korrigiert. Die zu beachtenden Kriterien werden zuvor rechtzeitig bekannt gegeben. Die Teilnehmer/innen senden die korrigierte Versionen zu einem festgelegten Zeitpunkt an den Betreuer und den Verfasser. Nach einer gemeinsamen Diskussion, haben die Teilnehmer/innen die Gelegenheit, ihre Ausarbeitung noch einmal zu überarbeiteten und endgültig abzugeben.

Anfang Januar halten alle Teilnehmer/innen einen 5-minütigen Vortrag zur Vorstellung ihres Themas sowie dem geplanten Inhalt. Dieser dient dazu, die Umsetzung der im Präsentationskurs gelernten Techniken zu kontrollieren und häufige Fehler bei den Abschlussvorträgen zu vermeiden. Die dabei genutzten Folien könne als Grundlage für den Abschlussvortrag dienen und erweitert werden. Um die vorbereiteten Abschlussvorträge zu perfektionieren, treffen sich die Teilnehmer/innen ggf. in kleineren Gruppen um sich gegenseitig zu unterstützen. Der Betreuer steht für Fragen zur Verfügung.

Alle Teilnehmer halten kurz nach Ende der Vorlesungszeit einen 30-minütigen Vortrag über das festgelegte Thema im Rahmen eines Blockseminars. Im Anschluss folgt eine Diskussion über Thema und Vortrag. Es herrscht Anwesenheitspflicht bei allen Vorträgen. Bitte beachten Sie auch die Hinweise zur Foliengestaltung!

Mangelhafte Ausarbeitungen, Plagiate und 1:1-Übersetzungen sowie mangelhafte Vorträge führen zum Nicht-Bestehen des Proseminars. Auch nicht rechtzeitig abgegebene Ausarbeitungen können zum Nicht-Bestehen führen.

Termin Datum Zeit Ort
Vorbesprechung 09.10.2017 14:15 – 15:45 R202, OH14
Präsentationskurs 23.10.2017 14:15 – 17:45 R202, OH14
Abgabe eines Ausarbeitungskonzepts optional, nach Bedarf
Abgabe der Ausarbeitung 22.11.2017 23:59
Besprechung der Ausarbeitungen 04.12.2017 14:15 – 17:45 R202, OH14
Präsentationskurs 11.12.2017 14:15 – 17:45 R202, OH14
Präsentationskurs 18.12.2017 14:15 – 17:45 R202, OH14
Abgabe der Ausarbeitung (finale Version) 07.01.2017 23:59
Kurzvorträge zur Probe 08.01.2017 14:15 – 17:45 R202, OH14
Vorträge 05.–07.02.2018 R304, OH14

Materialien

Materialien zu dieser Veranstaltung werden auf der zugehörigen Moodle-Seite angeboten.

 
Last modified: 2017-11-14 13:08 by Nils Kriege
DokuWikiRSS-Feed