Grundlagen des Data-Minings für strukturierte Daten (WS 2017/2018)

Titel	Grundlagen des Data-Minings für strukturierte Daten
	Foundations of structured data mining
Veranstalter	Dr. Nils Kriege
Veranstaltungsart	Proseminar mit Präsentationskurs (INF-BSc-110, Elemente 1 und 2)
Veranstaltungsnummer	040605
SWS	3
Max. Teilnehmer	16

Allgemeine Hinweise

Die Anmeldung zum Proseminar erfolgt online.
Die Veranstaltung beinhaltet einen Kurs zu Präsentationstechniken.

Inhalt

Soziale Netzwerke, Moleküle sowie Straßen- und Rechnernetze sind nur einige anschauliche Beispiele für strukturierte Daten, die sich durch Graphen repräsentieren lassen. Derartige Daten sind zunehmend in großen Mengen verfügbar und ihre Nutzung erfordert die automatisierte Extraktion von Informationen, die für eine spezielle Fragestellung relevant sind. Ein aktuelles Forschungsgebiet, das z.B. in der Chemie- und Bioinformatik zunehmend an Bedeutung gewinnt, befasst sich daher mit der Anwendung von Methoden des Data-Minings auf Graphen.

Im Rahmen des Proseminars möchten wir uns mit grundlegenden Techniken des Data-Minings befassen, die sich auf strukturierte Daten wie Graphen anwenden lassen. Es sollen ausgewählte Themen wie u.a. PageRank und Locality-Sensitive Hashing behandelt werden.

Themen

Nr.	Thema	Teilnehmer	Bemerkung
Überwachtes Lernen
1	Perceptrons	Robin Thunig
2	Support-Vector Machines	Jonas Poth
3	Nächste-Nachbarn-Klassifikation	Luise Weickhmann
4	Neuronale Netze	Thanh Long Phn
5	Decision Trees	Merle Gänßinger
Unüberwachtes Lernen
6	K-Means	Antonie Vietor
7	CURE	Daniel Nemitz
8	BIRCH & BUBBLE	Joshua Engel
9	Self-organizing maps	Timo Strackfeldt
Allgemeine Techniken, Datenreduktion
10	Hauptkomponentenanalyse	Ioana Bejan
11	Isomap	Oliver Ostgathe
12	Locality-Sensitive Hashing		ohne MinHashing
13	Bloom Filters	Marco Greco
14	MapReduce	Jonas Zunker
Strukturierte Daten
15	Ähnlichkeit von Dokumenten: Shingling, MinHashing	Frederik Stehli
16	Frequent Itemsets & der Apriori-Algorithmus
17	Datenströme: Sampling, Filtering & Counting	Pascal Lasarz
18	Linked Data: PageRank	Lukas Kersting
19	Image Retrieval: The Earth Mover's Distance	Jan Fischer	Original Quelle
Soziale Netzwerke
20	Clustering of Social-Network Graphs	Donghui He
21	Community Detection & Partitioning	Thorben Krause
22	Simrank	Sebastian Prior

Literatur

Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman, 2014.
Introduction to Machine Learning, Ethem Alpaydin, MIT Press, Second Edition, 2010.
Foundations of Data Science, Avrim Blum, John Hopcroft, Ravindran Kannan, 2016 (unpublished draft).
Knowledge Discovery in Databases: Techniken und Anwendungen, Martin Ester, Jörg Sander, Springer 2000.

Ablauf

Diese Veranstaltung ist ein Proseminar für Studierende im Grundstudium. Sie umfasst 3SWS und beinhaltet einen Präsentationskurs. Die Themenverteilung erfolgt während der Vorbesprechung. Im weiteren Verlauf des Semesters haben die Teilnehmer Zeit, die Ausarbeitung zu schreiben und den Vortrag vorzubereiten. In dieser Zeit wird es regelmäßigen Treffen im Rahmen des Präsentationskurses geben und ggf. themenbezogene Einzelgespräch.

Die schriftliche Ausarbeitung soll 10-12 Seiten umfassen und mit LaTeX erstellt werden (Vorlage). Die Abgabe erfolgt per E-Mail als PDF. Es wird empfohlen, rechtzeitig vor der Abgabe der schriftlichen Ausarbeitung dem Betreuer ein kurzes Konzeptpapier vorzulegen, in dem der Inhalt und Aufbau der Ausarbeitung stichpunktartig erläutert wird. Denn eine Aufgabe der Teilnehmer/innen besteht auch darin, den zu präsentierenden Stoff aus der Literaturquelle sorgsam auszuwählen. Es geht nicht darum, den ganzen Inhalt zu präsentieren, sondern die interessanten Aspekte. Hierbei ist eine frühzeitige Rückmeldung oft hilfreich. Der Inhalt der Ausarbeitung stimmt im Allgemeinen mit dem Inhalt der späteren Präsentation überein.

Jede Ausarbeitung wird von zwei Teilnehmer/innen korrigiert. Die zu beachtenden Kriterien werden zuvor rechtzeitig bekannt gegeben. Die Teilnehmer/innen senden die korrigierte Versionen zu einem festgelegten Zeitpunkt an den Betreuer und den Verfasser. Nach einer gemeinsamen Diskussion, haben die Teilnehmer/innen die Gelegenheit, ihre Ausarbeitung noch einmal zu überarbeiteten und endgültig abzugeben.

Anfang Januar halten alle Teilnehmer/innen einen 5-minütigen Vortrag zur Vorstellung ihres Themas sowie dem geplanten Inhalt. Dieser dient dazu, die Umsetzung der im Präsentationskurs gelernten Techniken zu kontrollieren und häufige Fehler bei den Abschlussvorträgen zu vermeiden. Die dabei genutzten Folien könne als Grundlage für den Abschlussvortrag dienen und erweitert werden. Um die vorbereiteten Abschlussvorträge zu perfektionieren, treffen sich die Teilnehmer/innen ggf. in kleineren Gruppen um sich gegenseitig zu unterstützen. Der Betreuer steht für Fragen zur Verfügung.

Alle Teilnehmer halten kurz nach Ende der Vorlesungszeit einen 30-minütigen Vortrag über das festgelegte Thema im Rahmen eines Blockseminars. Im Anschluss folgt eine Diskussion über Thema und Vortrag. Es herrscht Anwesenheitspflicht bei allen Vorträgen. Bitte beachten Sie auch die Hinweise zur Foliengestaltung!

Mangelhafte Ausarbeitungen, Plagiate und 1:1-Übersetzungen sowie mangelhafte Vorträge führen zum Nicht-Bestehen des Proseminars. Auch nicht rechtzeitig abgegebene Ausarbeitungen können zum Nicht-Bestehen führen.

Termine

Termin	Datum	Zeit	Ort
Vorbesprechung	09.10.2017	14:15 – 15:45	R202, OH14
Präsentationskurs	23.10.2017	14:15 – 17:45	R202, OH14
Abgabe eines Ausarbeitungskonzepts	optional, nach Bedarf
Abgabe der Ausarbeitung	22.11.2017	23:59	—
Besprechung der Ausarbeitungen	04.12.2017	14:15 – 17:45	R202, OH14
Präsentationskurs	11.12.2017	14:15 – 17:45	R202, OH14
Präsentationskurs	18.12.2017	14:15 – 17:45	R202, OH14
Abgabe der Ausarbeitung (finale Version)	07.01.2018	23:59	—
Kurzvorträge zur Probe	08.01.2018	14:15 – 17:45	R202, OH14
Abgabe der Folien	23.01.2018	23:59	—
Besprechung der Folien	29.01.2018	14:15 – 17:45	R202, OH14
Vorträge	05.–06.02.2018		R304, OH14

Zeitplan

	Montag, 05.02.2018	Dienstag, 06.02.2018
10:15 – 11:00	Perceptrons Robin Thunig	BIRCH & BUBBLE Joshua Engel
11:00 – 11:45	Support-Vector Machines Jonas Poth	MapReduce Jonas Zunker
11:45 – 12:30	Nächste-Nachbarn-Klassifikation Luise Weickhmann	Ähnlichkeit von Dokumenten: Shingling, MinHashing Frederik Stehli
12:30 – 13:30	Mittagspause	Mittagspause
13:30 – 14:15	Neuronale Netze Thanh Long Phn	Datenströme: Sampling, Filtering & Counting Pascal Lasarz
14:15 – 15:00	Decision Trees Merle Gänßinger	Image Retrieval: The Earth Mover's Distance Jan Fischer
15:00 – 15:45	K-Means Antonie Vietor	Clustering of Social-Network Graphs Donghui He
15:45 – 16:30	Self-organizing maps Timo Strackfeldt	Simrank Sebastian Prior
		Abschlussrunde

Korrekturgruppen

Teilnehmer	Arbeiten
Robin Thuning	(2) Support-Vector Machines (4) Neuronale Netze
Timo Strackfeldt	(2) Support-Vector Machines (4) Neuronale Netze
Jonas Poth	(1) Perceptrons (9) Self-organizing maps
Thanh Long Phan	(1) Perceptrons (9) Self-organizing maps

Luise Weickhmann	(5) Decision Trees (6) K-Means
Joshua Engel	(5) Decision Trees (6) K-Means
Merle Gänßinge	(3) Nächste-Nachbarn-Klassifikation (8) BIRCH & BUBBLE
Antonie Vietor	(3) Nächste-Nachbarn-Klassifikation (8) BIRCH & BUBBLE

Frederik Stehli	(19) Image Retrieval: The Earth Mover's Distance (14) MapReduce
Jonas Zunker	(20) Clustering of Social-Network Graphs (15) Ähnlichkeit von Dokumenten: Shingling, MinHashing
Donghui He	(14) MapReduce (22) Simrank
Pascal Lasarz	(19) Image Retrieval: The Earth Mover's Distance (22) Simrank
Jan Fischer	(15) Ähnlichkeit von Dokumenten: Shingling, MinHashing (17) Datenströme: Sampling, Filtering & Counting
Sebastian Prior	(17) Datenströme: Sampling, Filtering & Counting (20) Clustering of Social-Network Graphs

Materialien

Materialien zu dieser Veranstaltung werden auf der zugehörigen Moodle-Seite angeboten.

Chair 11

Teaching

Research Groups

Table of Contents