Table of Contents
Grundlagen des Data-Minings für strukturierte Daten (WS 2017/2018)
Titel | Grundlagen des Data-Minings für strukturierte Daten |
Foundations of structured data mining | |
Veranstalter | Dr. Nils Kriege |
Veranstaltungsart | Proseminar mit Präsentationskurs (INF-BSc-110, Elemente 1 und 2) |
Veranstaltungsnummer | 040605 |
SWS | 3 |
Max. Teilnehmer | 16 |
Allgemeine Hinweise
- Die Anmeldung zum Proseminar erfolgt online.
- Die Veranstaltung beinhaltet einen Kurs zu Präsentationstechniken.
Inhalt
Soziale Netzwerke, Moleküle sowie Straßen- und Rechnernetze sind nur einige anschauliche Beispiele für strukturierte Daten, die sich durch Graphen repräsentieren lassen. Derartige Daten sind zunehmend in großen Mengen verfügbar und ihre Nutzung erfordert die automatisierte Extraktion von Informationen, die für eine spezielle Fragestellung relevant sind. Ein aktuelles Forschungsgebiet, das z.B. in der Chemie- und Bioinformatik zunehmend an Bedeutung gewinnt, befasst sich daher mit der Anwendung von Methoden des Data-Minings auf Graphen.
Im Rahmen des Proseminars möchten wir uns mit grundlegenden Techniken des Data-Minings befassen, die sich auf strukturierte Daten wie Graphen anwenden lassen. Es sollen ausgewählte Themen wie u.a. PageRank und Locality-Sensitive Hashing behandelt werden.
Themen
Nr. | Thema | Teilnehmer | Bemerkung |
---|---|---|---|
Überwachtes Lernen | |||
1 | Perceptrons | Robin Thunig | |
2 | Support-Vector Machines | Jonas Poth | |
3 | Nächste-Nachbarn-Klassifikation | Luise Weickhmann | |
4 | Neuronale Netze | Thanh Long Phn | |
5 | Decision Trees | Merle Gänßinger | |
Unüberwachtes Lernen | |||
6 | K-Means | Antonie Vietor | |
7 | CURE | Daniel Nemitz | |
8 | BIRCH & BUBBLE | Joshua Engel | |
9 | Self-organizing maps | Timo Strackfeldt | |
Allgemeine Techniken, Datenreduktion | |||
10 | Hauptkomponentenanalyse | Ioana Bejan | |
11 | Isomap | Oliver Ostgathe | |
12 | Locality-Sensitive Hashing | ohne MinHashing | |
13 | Bloom Filters | Marco Greco | |
14 | MapReduce | Jonas Zunker | |
Strukturierte Daten | |||
15 | Ähnlichkeit von Dokumenten: Shingling, MinHashing | Frederik Stehli | |
16 | Frequent Itemsets & der Apriori-Algorithmus | ||
17 | Datenströme: Sampling, Filtering & Counting | Pascal Lasarz | |
18 | Linked Data: PageRank | Lukas Kersting | |
19 | Image Retrieval: The Earth Mover's Distance | Jan Fischer | Original Quelle |
Soziale Netzwerke | |||
20 | Clustering of Social-Network Graphs | Donghui He | |
21 | Community Detection & Partitioning | Thorben Krause | |
22 | Simrank | Sebastian Prior |
Literatur
- Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman, 2014.
- Introduction to Machine Learning, Ethem Alpaydin, MIT Press, Second Edition, 2010.
- Foundations of Data Science, Avrim Blum, John Hopcroft, Ravindran Kannan, 2016 (unpublished draft).
- Knowledge Discovery in Databases: Techniken und Anwendungen, Martin Ester, Jörg Sander, Springer 2000.
Ablauf
Diese Veranstaltung ist ein Proseminar für Studierende im Grundstudium. Sie umfasst 3SWS und beinhaltet einen Präsentationskurs. Die Themenverteilung erfolgt während der Vorbesprechung. Im weiteren Verlauf des Semesters haben die Teilnehmer Zeit, die Ausarbeitung zu schreiben und den Vortrag vorzubereiten. In dieser Zeit wird es regelmäßigen Treffen im Rahmen des Präsentationskurses geben und ggf. themenbezogene Einzelgespräch.
Die schriftliche Ausarbeitung soll 10-12 Seiten umfassen und mit LaTeX erstellt werden (Vorlage). Die Abgabe erfolgt per E-Mail als PDF. Es wird empfohlen, rechtzeitig vor der Abgabe der schriftlichen Ausarbeitung dem Betreuer ein kurzes Konzeptpapier vorzulegen, in dem der Inhalt und Aufbau der Ausarbeitung stichpunktartig erläutert wird. Denn eine Aufgabe der Teilnehmer/innen besteht auch darin, den zu präsentierenden Stoff aus der Literaturquelle sorgsam auszuwählen. Es geht nicht darum, den ganzen Inhalt zu präsentieren, sondern die interessanten Aspekte. Hierbei ist eine frühzeitige Rückmeldung oft hilfreich. Der Inhalt der Ausarbeitung stimmt im Allgemeinen mit dem Inhalt der späteren Präsentation überein.
Jede Ausarbeitung wird von zwei Teilnehmer/innen korrigiert. Die zu beachtenden Kriterien werden zuvor rechtzeitig bekannt gegeben. Die Teilnehmer/innen senden die korrigierte Versionen zu einem festgelegten Zeitpunkt an den Betreuer und den Verfasser. Nach einer gemeinsamen Diskussion, haben die Teilnehmer/innen die Gelegenheit, ihre Ausarbeitung noch einmal zu überarbeiteten und endgültig abzugeben.
Anfang Januar halten alle Teilnehmer/innen einen 5-minütigen Vortrag zur Vorstellung ihres Themas sowie dem geplanten Inhalt. Dieser dient dazu, die Umsetzung der im Präsentationskurs gelernten Techniken zu kontrollieren und häufige Fehler bei den Abschlussvorträgen zu vermeiden. Die dabei genutzten Folien könne als Grundlage für den Abschlussvortrag dienen und erweitert werden. Um die vorbereiteten Abschlussvorträge zu perfektionieren, treffen sich die Teilnehmer/innen ggf. in kleineren Gruppen um sich gegenseitig zu unterstützen. Der Betreuer steht für Fragen zur Verfügung.
Alle Teilnehmer halten kurz nach Ende der Vorlesungszeit einen 30-minütigen Vortrag über das festgelegte Thema im Rahmen eines Blockseminars. Im Anschluss folgt eine Diskussion über Thema und Vortrag. Es herrscht Anwesenheitspflicht bei allen Vorträgen. Bitte beachten Sie auch die Hinweise zur Foliengestaltung!
Mangelhafte Ausarbeitungen, Plagiate und 1:1-Übersetzungen sowie mangelhafte Vorträge führen zum Nicht-Bestehen des Proseminars. Auch nicht rechtzeitig abgegebene Ausarbeitungen können zum Nicht-Bestehen führen.
Termine
Termin | Datum | Zeit | Ort |
---|---|---|---|
Vorbesprechung | 09.10.2017 | 14:15 – 15:45 | R202, OH14 |
Präsentationskurs | 23.10.2017 | 14:15 – 17:45 | R202, OH14 |
Abgabe eines Ausarbeitungskonzepts | optional, nach Bedarf | ||
Abgabe der Ausarbeitung | 22.11.2017 | 23:59 | — |
Besprechung der Ausarbeitungen | 04.12.2017 | 14:15 – 17:45 | R202, OH14 |
Präsentationskurs | 11.12.2017 | 14:15 – 17:45 | R202, OH14 |
Präsentationskurs | 18.12.2017 | 14:15 – 17:45 | R202, OH14 |
Abgabe der Ausarbeitung (finale Version) | 07.01.2018 | 23:59 | — |
Kurzvorträge zur Probe | 08.01.2018 | 14:15 – 17:45 | R202, OH14 |
Abgabe der Folien | 23.01.2018 | 23:59 | — |
Besprechung der Folien | 29.01.2018 | 14:15 – 17:45 | R202, OH14 |
Vorträge | 05.–06.02.2018 | R304, OH14 |
Zeitplan
Montag, 05.02.2018 | Dienstag, 06.02.2018 | |
---|---|---|
10:15 – 11:00 | Perceptrons Robin Thunig | BIRCH & BUBBLE Joshua Engel |
11:00 – 11:45 | Support-Vector Machines Jonas Poth | MapReduce Jonas Zunker |
11:45 – 12:30 | Nächste-Nachbarn-Klassifikation Luise Weickhmann | Ähnlichkeit von Dokumenten: Shingling, MinHashing Frederik Stehli |
12:30 – 13:30 | Mittagspause | Mittagspause |
13:30 – 14:15 | Neuronale Netze Thanh Long Phn | Datenströme: Sampling, Filtering & Counting Pascal Lasarz |
14:15 – 15:00 | Decision Trees Merle Gänßinger | Image Retrieval: The Earth Mover's Distance Jan Fischer |
15:00 – 15:45 | K-Means Antonie Vietor | Clustering of Social-Network Graphs Donghui He |
15:45 – 16:30 | Self-organizing maps Timo Strackfeldt | Simrank Sebastian Prior |
Abschlussrunde |
Korrekturgruppen
Teilnehmer | Arbeiten |
---|---|
Robin Thuning | (2) Support-Vector Machines (4) Neuronale Netze |
Timo Strackfeldt | (2) Support-Vector Machines (4) Neuronale Netze |
Jonas Poth | (1) Perceptrons (9) Self-organizing maps |
Thanh Long Phan | (1) Perceptrons (9) Self-organizing maps |
Luise Weickhmann | (5) Decision Trees (6) K-Means |
Joshua Engel | (5) Decision Trees (6) K-Means |
Merle Gänßinge | (3) Nächste-Nachbarn-Klassifikation (8) BIRCH & BUBBLE |
Antonie Vietor | (3) Nächste-Nachbarn-Klassifikation (8) BIRCH & BUBBLE |
Frederik Stehli | (19) Image Retrieval: The Earth Mover's Distance (14) MapReduce |
Jonas Zunker | (20) Clustering of Social-Network Graphs (15) Ähnlichkeit von Dokumenten: Shingling, MinHashing |
Donghui He | (14) MapReduce (22) Simrank |
Pascal Lasarz | (19) Image Retrieval: The Earth Mover's Distance (22) Simrank |
Jan Fischer | (15) Ähnlichkeit von Dokumenten: Shingling, MinHashing (17) Datenströme: Sampling, Filtering & Counting |
Sebastian Prior | (17) Datenströme: Sampling, Filtering & Counting (20) Clustering of Social-Network Graphs |
Materialien
Materialien zu dieser Veranstaltung werden auf der zugehörigen Moodle-Seite angeboten.