====== Grundlagen des Data-Minings für strukturierte Daten (WS 2017/2018) ====== | Titel | Grundlagen des Data-Minings für strukturierte Daten | | | Foundations of structured data mining | | Veranstalter | [[staff:kriege|Dr. Nils Kriege]] | | Veranstaltungsart | Proseminar mit Präsentationskurs ([[http://www.cs.tu-dortmund.de/nps/de/Studium/Ordnungen_Handbuecher_Beschluesse/Modulhandbuecher/Bachelor_Inf/INF/INF-P/INF-BSc-110.pdf|INF-BSc-110]], Elemente 1 und 2) | | Veranstaltungsnummer | [[https://www.lsf.tu-dortmund.de/qisserver/rds?state=verpublish&status=init&vmfile=no&publishid=191722&moduleCall=webInfo&publishConfFile=webInfo&publishSubDir=veranstaltung|040605]] | | SWS | 3 | | Max. Teilnehmer | 16 | ===== Allgemeine Hinweise ===== * Die Anmeldung zum Proseminar erfolgt [[http://www.cs.tu-dortmund.de/nps/de/Studium/besondere_Lehrveranstaltungen/Proseminare/index.html|online]]. * Die Veranstaltung beinhaltet einen Kurs zu Präsentationstechniken. ===== Inhalt ===== Soziale Netzwerke, Moleküle sowie Straßen- und Rechnernetze sind nur einige anschauliche Beispiele für strukturierte Daten, die sich durch Graphen repräsentieren lassen. Derartige Daten sind zunehmend in großen Mengen verfügbar und ihre Nutzung erfordert die automatisierte Extraktion von Informationen, die für eine spezielle Fragestellung relevant sind. Ein aktuelles Forschungsgebiet, das z.B. in der Chemie- und Bioinformatik zunehmend an Bedeutung gewinnt, befasst sich daher mit der Anwendung von Methoden des Data-Minings auf Graphen. Im Rahmen des Proseminars möchten wir uns mit grundlegenden Techniken des Data-Minings befassen, die sich auf strukturierte Daten wie Graphen anwenden lassen. Es sollen ausgewählte Themen wie u.a. PageRank und Locality-Sensitive Hashing behandelt werden. ===== Themen ===== ^ Nr. ^ Thema ^ Teilnehmer ^ Bemerkung ^ |**Überwachtes Lernen** |||| | 1| Perceptrons | Robin Thunig | | | 2| Support-Vector Machines | Jonas Poth | | | 3| Nächste-Nachbarn-Klassifikation | Luise Weickhmann | | | 4| Neuronale Netze | Thanh Long Phn | | | 5| Decision Trees | Merle Gänßinger | | |**Unüberwachtes Lernen** |||| | 6| K-Means | Antonie Vietor | | | 7| CURE | Daniel Nemitz | | | 8| BIRCH & BUBBLE | Joshua Engel | | | 9| Self-organizing maps | Timo Strackfeldt | | |**Allgemeine Techniken, Datenreduktion** |||| | 10| Hauptkomponentenanalyse | Ioana Bejan | | | 11| Isomap | Oliver Ostgathe | | | 12| Locality-Sensitive Hashing | | ohne MinHashing | | 13| Bloom Filters | Marco Greco | | | 14| MapReduce | Jonas Zunker | | |**Strukturierte Daten** |||| | 15| Ähnlichkeit von Dokumenten: Shingling, MinHashing | Frederik Stehli | | | 16| Frequent Itemsets & der Apriori-Algorithmus | | | | 17| Datenströme: Sampling, Filtering & Counting | Pascal Lasarz | | | 18| Linked Data: PageRank | Lukas Kersting | | | 19| Image Retrieval: The Earth Mover's Distance | Jan Fischer | Original Quelle | |**Soziale Netzwerke** |||| | 20| Clustering of Social-Network Graphs | Donghui He | | | 21| Community Detection & Partitioning | Thorben Krause | | | 22| Simrank | Sebastian Prior | | ==== Literatur ==== * [[http://infolab.stanford.edu/~ullman/mmds/book.pdf|Mining of Massive Datasets]], Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman, 2014. * Introduction to Machine Learning, Ethem Alpaydin, MIT Press, Second Edition, 2010. * [[https://www.cs.cornell.edu/jeh/book2016June9.pdf|Foundations of Data Science]], Avrim Blum, John Hopcroft, Ravindran Kannan, 2016 (unpublished draft). * Knowledge Discovery in Databases: Techniken und Anwendungen, Martin Ester, Jörg Sander, Springer 2000. ===== Ablauf ===== Diese Veranstaltung ist ein Proseminar für Studierende im Grundstudium. Sie umfasst 3SWS und beinhaltet einen Präsentationskurs. Die Themenverteilung erfolgt während der Vorbesprechung. Im weiteren Verlauf des Semesters haben die Teilnehmer Zeit, die Ausarbeitung zu schreiben und den Vortrag vorzubereiten. In dieser Zeit wird es regelmäßigen Treffen im Rahmen des Präsentationskurses geben und ggf. themenbezogene Einzelgespräch. Die schriftliche Ausarbeitung soll **10-12 Seiten** umfassen und mit **LaTeX** erstellt werden ({{:teaching:proseminar-gdm-ws2017:template_gdm_ws2017.zip|Vorlage}}). Die Abgabe erfolgt per E-Mail als PDF. Es wird empfohlen, rechtzeitig vor der Abgabe der schriftlichen Ausarbeitung dem Betreuer ein kurzes Konzeptpapier vorzulegen, in dem der Inhalt und Aufbau der Ausarbeitung stichpunktartig erläutert wird. Denn eine Aufgabe der Teilnehmer/innen besteht auch darin, den zu präsentierenden Stoff aus der Literaturquelle sorgsam auszuwählen. Es geht nicht darum, den ganzen Inhalt zu präsentieren, sondern die interessanten Aspekte. Hierbei ist eine frühzeitige Rückmeldung oft hilfreich. Der Inhalt der Ausarbeitung stimmt im Allgemeinen mit dem Inhalt der späteren Präsentation überein. Jede Ausarbeitung wird von zwei Teilnehmer/innen korrigiert. Die zu beachtenden Kriterien werden zuvor rechtzeitig bekannt gegeben. Die Teilnehmer/innen senden die korrigierte Versionen zu einem festgelegten Zeitpunkt an den Betreuer und den Verfasser. Nach einer gemeinsamen Diskussion, haben die Teilnehmer/innen die Gelegenheit, ihre Ausarbeitung noch einmal zu überarbeiteten und endgültig abzugeben. Anfang Januar halten alle Teilnehmer/innen einen 5-minütigen Vortrag zur Vorstellung ihres Themas sowie dem geplanten Inhalt. Dieser dient dazu, die Umsetzung der im Präsentationskurs gelernten Techniken zu kontrollieren und häufige Fehler bei den Abschlussvorträgen zu vermeiden. Die dabei genutzten Folien könne als Grundlage für den Abschlussvortrag dienen und erweitert werden. Um die vorbereiteten Abschlussvorträge zu perfektionieren, treffen sich die Teilnehmer/innen ggf. in kleineren Gruppen um sich gegenseitig zu unterstützen. Der Betreuer steht für Fragen zur Verfügung. Alle Teilnehmer halten kurz nach Ende der Vorlesungszeit einen **30-minütigen** Vortrag über das festgelegte Thema im Rahmen eines Blockseminars. Im Anschluss folgt eine Diskussion über Thema und Vortrag. Es herrscht Anwesenheitspflicht bei allen Vorträgen. Bitte beachten Sie auch die [[http://ls11-www.cs.tu-dortmund.de/people/chimani/seminarfolien.html|Hinweise]] zur Foliengestaltung! Mangelhafte Ausarbeitungen, Plagiate und 1:1-Übersetzungen sowie mangelhafte Vorträge führen zum Nicht-Bestehen des Proseminars. Auch nicht rechtzeitig abgegebene Ausarbeitungen können zum Nicht-Bestehen führen. === Termine === ^ Termin ^ Datum ^ Zeit ^ Ort ^ | **Vorbesprechung** | **09.10.2017** | **14:15 -- 15:45** | R202, OH14 | | **Präsentationskurs** | **23.10.2017** | **14:15 -- 17:45** | R202, OH14 | | Abgabe eines Ausarbeitungskonzepts | optional, nach Bedarf ||| | Abgabe der Ausarbeitung | 22.11.2017 | 23:59 | --- | | **Besprechung der Ausarbeitungen** | **04.12.2017** | **14:15 -- 17:45** | R202, OH14 | | **Präsentationskurs** | **11.12.2017** | **14:15 -- 17:45** | R202, OH14 | | **Präsentationskurs** | **18.12.2017** | **14:15 -- 17:45** | R202, OH14 | | Abgabe der Ausarbeitung (finale Version) | 07.01.2018 | 23:59 | --- | | **Kurzvorträge zur Probe** | **08.01.2018** | **14:15 -- 17:45** | R202, OH14 | | Abgabe der Folien | 23.01.2018 | 23:59 | --- | | **Besprechung der Folien** | **29.01.2018** | **14:15 -- 17:45** | R202, OH14 | | **Vorträge** | **05.--06.02.2018** || R304, OH14 | === Zeitplan === | ^ Montag, 05.02.2018 ^ Dienstag, 06.02.2018 ^ ^ 10:15 -- 11:00 | **Perceptrons** \\ Robin Thunig | **BIRCH & BUBBLE** \\ Joshua Engel | ^ 11:00 -- 11:45 | **Support-Vector Machines** \\ Jonas Poth | **MapReduce** \\ Jonas Zunker | ^ 11:45 -- 12:30 | **Nächste-Nachbarn-Klassifikation** \\ Luise Weickhmann | **Ähnlichkeit von Dokumenten: Shingling, MinHashing** \\ Frederik Stehli | ^ 12:30 -- 13:30 | **Mittagspause** | **Mittagspause** | ^ 13:30 -- 14:15 | **Neuronale Netze** \\ Thanh Long Phn | **Datenströme: Sampling, Filtering & Counting** \\ Pascal Lasarz | ^ 14:15 -- 15:00 | **Decision Trees** \\ Merle Gänßinger | **Image Retrieval: The Earth Mover's Distance** \\ Jan Fischer | ^ 15:00 -- 15:45 | **K-Means** \\ Antonie Vietor | **Clustering of Social-Network Graphs** \\ Donghui He | ^ 15:45 -- 16:30 | **Self-organizing maps** \\ Timo Strackfeldt | **Simrank** \\ Sebastian Prior | ^ | | **Abschlussrunde** | ==== Korrekturgruppen ==== ^ Teilnehmer ^ Arbeiten ^ | Robin Thuning | (2) Support-Vector Machines \\ (4) Neuronale Netze | | Timo Strackfeldt | (2) Support-Vector Machines \\ (4) Neuronale Netze | | Jonas Poth | (1) Perceptrons \\ (9) Self-organizing maps | | Thanh Long Phan | (1) Perceptrons \\ (9) Self-organizing maps | | || | Luise Weickhmann | (5) Decision Trees \\ (6) K-Means | | Joshua Engel | (5) Decision Trees \\ (6) K-Means | | Merle Gänßinge | (3) Nächste-Nachbarn-Klassifikation \\ (8) BIRCH & BUBBLE | | Antonie Vietor | (3) Nächste-Nachbarn-Klassifikation \\ (8) BIRCH & BUBBLE | | || | Frederik Stehli | (19) Image Retrieval: The Earth Mover's Distance \\ (14) MapReduce | | Jonas Zunker | (20) Clustering of Social-Network Graphs \\ (15) Ähnlichkeit von Dokumenten: Shingling, MinHashing | | Donghui He | (14) MapReduce \\ (22) Simrank | | Pascal Lasarz | (19) Image Retrieval: The Earth Mover's Distance \\ (22) Simrank | | Jan Fischer | (15) Ähnlichkeit von Dokumenten: Shingling, MinHashing \\ (17) Datenströme: Sampling, Filtering & Counting | | Sebastian Prior | (17) Datenströme: Sampling, Filtering & Counting \\ (20) Clustering of Social-Network Graphs | ===== Materialien ===== Materialien zu dieser Veranstaltung werden auf der zugehörigen [[https://moodle.tu-dortmund.de/course/view.php?id=9922|Moodle-Seite]] angeboten.