Grundlagen des Data-Minings für strukturierte Daten (WS 2017/2018)

Titel Grundlagen des Data-Minings für strukturierte Daten
Foundations of structured data mining
Veranstalter Dr. Nils Kriege
Veranstaltungsart Proseminar mit Präsentationskurs (INF-BSc-110, Elemente 1 und 2)
Veranstaltungsnummer 040605
SWS 3
Max. Teilnehmer 16

Allgemeine Hinweise

  • Die Anmeldung zum Proseminar erfolgt online.
  • Die Veranstaltung beinhaltet einen Kurs zu Präsentationstechniken.

Inhalt

Soziale Netzwerke, Moleküle sowie Straßen- und Rechnernetze sind nur einige anschauliche Beispiele für strukturierte Daten, die sich durch Graphen repräsentieren lassen. Derartige Daten sind zunehmend in großen Mengen verfügbar und ihre Nutzung erfordert die automatisierte Extraktion von Informationen, die für eine spezielle Fragestellung relevant sind. Ein aktuelles Forschungsgebiet, das z.B. in der Chemie- und Bioinformatik zunehmend an Bedeutung gewinnt, befasst sich daher mit der Anwendung von Methoden des Data-Minings auf Graphen.

Im Rahmen des Proseminars möchten wir uns mit grundlegenden Techniken des Data-Minings befassen, die sich auf strukturierte Daten wie Graphen anwenden lassen. Es sollen ausgewählte Themen wie u.a. PageRank und Locality-Sensitive Hashing behandelt werden.

Themen

Nr. Thema Teilnehmer Bemerkung
Überwachtes Lernen
1 Perceptrons Robin Thunig
2 Support-Vector Machines Jonas Poth
3 Nächste-Nachbarn-Klassifikation Luise Weickhmann
4 Neuronale Netze Thanh Long Phn
5 Decision Trees Merle Gänßinger
Unüberwachtes Lernen
6 K-Means Antonie Vietor
7 CURE Daniel Nemitz
8 BIRCH & BUBBLE Joshua Engel
9 Self-organizing maps Timo Strackfeldt
Allgemeine Techniken, Datenreduktion
10 Hauptkomponentenanalyse Ioana Bejan
11 Isomap Oliver Ostgathe
12 Locality-Sensitive Hashing ohne MinHashing
13 Bloom Filters Marco Greco
14 MapReduce Jonas Zunker
Strukturierte Daten
15 Ähnlichkeit von Dokumenten: Shingling, MinHashing Frederik Stehli
16 Frequent Itemsets & der Apriori-Algorithmus
17 Datenströme: Sampling, Filtering & Counting Pascal Lasarz
18 Linked Data: PageRank Lukas Kersting
19 Image Retrieval: The Earth Mover's Distance Jan Fischer Original Quelle
Soziale Netzwerke
20 Clustering of Social-Network Graphs Donghui He
21 Community Detection & Partitioning Thorben Krause
22 Simrank Sebastian Prior

Literatur

  • Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman, 2014.
  • Introduction to Machine Learning, Ethem Alpaydin, MIT Press, Second Edition, 2010.
  • Foundations of Data Science, Avrim Blum, John Hopcroft, Ravindran Kannan, 2016 (unpublished draft).
  • Knowledge Discovery in Databases: Techniken und Anwendungen, Martin Ester, Jörg Sander, Springer 2000.

Ablauf

Diese Veranstaltung ist ein Proseminar für Studierende im Grundstudium. Sie umfasst 3SWS und beinhaltet einen Präsentationskurs. Die Themenverteilung erfolgt während der Vorbesprechung. Im weiteren Verlauf des Semesters haben die Teilnehmer Zeit, die Ausarbeitung zu schreiben und den Vortrag vorzubereiten. In dieser Zeit wird es regelmäßigen Treffen im Rahmen des Präsentationskurses geben und ggf. themenbezogene Einzelgespräch.

Die schriftliche Ausarbeitung soll 10-12 Seiten umfassen und mit LaTeX erstellt werden (Vorlage). Die Abgabe erfolgt per E-Mail als PDF. Es wird empfohlen, rechtzeitig vor der Abgabe der schriftlichen Ausarbeitung dem Betreuer ein kurzes Konzeptpapier vorzulegen, in dem der Inhalt und Aufbau der Ausarbeitung stichpunktartig erläutert wird. Denn eine Aufgabe der Teilnehmer/innen besteht auch darin, den zu präsentierenden Stoff aus der Literaturquelle sorgsam auszuwählen. Es geht nicht darum, den ganzen Inhalt zu präsentieren, sondern die interessanten Aspekte. Hierbei ist eine frühzeitige Rückmeldung oft hilfreich. Der Inhalt der Ausarbeitung stimmt im Allgemeinen mit dem Inhalt der späteren Präsentation überein.

Jede Ausarbeitung wird von zwei Teilnehmer/innen korrigiert. Die zu beachtenden Kriterien werden zuvor rechtzeitig bekannt gegeben. Die Teilnehmer/innen senden die korrigierte Versionen zu einem festgelegten Zeitpunkt an den Betreuer und den Verfasser. Nach einer gemeinsamen Diskussion, haben die Teilnehmer/innen die Gelegenheit, ihre Ausarbeitung noch einmal zu überarbeiteten und endgültig abzugeben.

Anfang Januar halten alle Teilnehmer/innen einen 5-minütigen Vortrag zur Vorstellung ihres Themas sowie dem geplanten Inhalt. Dieser dient dazu, die Umsetzung der im Präsentationskurs gelernten Techniken zu kontrollieren und häufige Fehler bei den Abschlussvorträgen zu vermeiden. Die dabei genutzten Folien könne als Grundlage für den Abschlussvortrag dienen und erweitert werden. Um die vorbereiteten Abschlussvorträge zu perfektionieren, treffen sich die Teilnehmer/innen ggf. in kleineren Gruppen um sich gegenseitig zu unterstützen. Der Betreuer steht für Fragen zur Verfügung.

Alle Teilnehmer halten kurz nach Ende der Vorlesungszeit einen 30-minütigen Vortrag über das festgelegte Thema im Rahmen eines Blockseminars. Im Anschluss folgt eine Diskussion über Thema und Vortrag. Es herrscht Anwesenheitspflicht bei allen Vorträgen. Bitte beachten Sie auch die Hinweise zur Foliengestaltung!

Mangelhafte Ausarbeitungen, Plagiate und 1:1-Übersetzungen sowie mangelhafte Vorträge führen zum Nicht-Bestehen des Proseminars. Auch nicht rechtzeitig abgegebene Ausarbeitungen können zum Nicht-Bestehen führen.

Termine

Termin Datum Zeit Ort
Vorbesprechung 09.10.2017 14:15 – 15:45 R202, OH14
Präsentationskurs 23.10.2017 14:15 – 17:45 R202, OH14
Abgabe eines Ausarbeitungskonzepts optional, nach Bedarf
Abgabe der Ausarbeitung 22.11.2017 23:59
Besprechung der Ausarbeitungen 04.12.2017 14:15 – 17:45 R202, OH14
Präsentationskurs 11.12.2017 14:15 – 17:45 R202, OH14
Präsentationskurs 18.12.2017 14:15 – 17:45 R202, OH14
Abgabe der Ausarbeitung (finale Version) 07.01.2018 23:59
Kurzvorträge zur Probe 08.01.2018 14:15 – 17:45 R202, OH14
Abgabe der Folien 23.01.2018 23:59
Besprechung der Folien 29.01.2018 14:15 – 17:45 R202, OH14
Vorträge 05.–06.02.2018 R304, OH14

Zeitplan

Montag, 05.02.2018 Dienstag, 06.02.2018
10:15 – 11:00 Perceptrons
Robin Thunig
BIRCH & BUBBLE
Joshua Engel
11:00 – 11:45 Support-Vector Machines
Jonas Poth
MapReduce
Jonas Zunker
11:45 – 12:30 Nächste-Nachbarn-Klassifikation
Luise Weickhmann
Ähnlichkeit von Dokumenten: Shingling, MinHashing
Frederik Stehli
12:30 – 13:30 Mittagspause Mittagspause
13:30 – 14:15 Neuronale Netze
Thanh Long Phn
Datenströme: Sampling, Filtering & Counting
Pascal Lasarz
14:15 – 15:00 Decision Trees
Merle Gänßinger
Image Retrieval: The Earth Mover's Distance
Jan Fischer
15:00 – 15:45 K-Means
Antonie Vietor
Clustering of Social-Network Graphs
Donghui He
15:45 – 16:30 Self-organizing maps
Timo Strackfeldt
Simrank
Sebastian Prior
Abschlussrunde

Korrekturgruppen

Teilnehmer Arbeiten
Robin Thuning (2) Support-Vector Machines
(4) Neuronale Netze
Timo Strackfeldt (2) Support-Vector Machines
(4) Neuronale Netze
Jonas Poth (1) Perceptrons
(9) Self-organizing maps
Thanh Long Phan (1) Perceptrons
(9) Self-organizing maps
Luise Weickhmann (5) Decision Trees
(6) K-Means
Joshua Engel (5) Decision Trees
(6) K-Means
Merle Gänßinge (3) Nächste-Nachbarn-Klassifikation
(8) BIRCH & BUBBLE
Antonie Vietor (3) Nächste-Nachbarn-Klassifikation
(8) BIRCH & BUBBLE
Frederik Stehli (19) Image Retrieval: The Earth Mover's Distance
(14) MapReduce
Jonas Zunker (20) Clustering of Social-Network Graphs
(15) Ähnlichkeit von Dokumenten: Shingling, MinHashing
Donghui He (14) MapReduce
(22) Simrank
Pascal Lasarz (19) Image Retrieval: The Earth Mover's Distance
(22) Simrank
Jan Fischer (15) Ähnlichkeit von Dokumenten: Shingling, MinHashing
(17) Datenströme: Sampling, Filtering & Counting
Sebastian Prior (17) Datenströme: Sampling, Filtering & Counting
(20) Clustering of Social-Network Graphs

Materialien

Materialien zu dieser Veranstaltung werden auf der zugehörigen Moodle-Seite angeboten.

 
Last modified: 2018-01-09 13:31 by Nils Kriege
DokuWikiRSS-Feed