Proseminar Data Mining in Astronomy

Veranstalter OStR' Renate Thies, Dipl. Inform. Andreas Thom, Prof. Dr. Jan Vahrenhold
Modul Bachelor, INF-BSc-110 (Informatik, Angewandte Informatik)
Veranstaltungsart Proseminar
Veranstaltungsnummer 040606
SWS 3
Max. Teilnehmer 15

Inhalt und Themen

Teleskope der neuesten Generation sind in der Lage, innerhalb kürzester Zeit eine sehr große Menge an hochauflösenden Bilddaten zu liefern: Der Sloan Digital Sky Survey-Katalog (SDSS) basiert beispielsweise auf Rohdaten im Umfang von ca. 30 TB, die von einem einzelnen Teleskop aus erfasst wurden. Das Large Synoptic Survey Telescope wird in Zukunft pro Nacht eine Datenmenge von etwa 30 TB liefern; bei Projektabschluss im Jahr 2025 soll das gesamte archivierte Bildmaterial einen Umfang von 200 PB besitzen.

Zur Bereitstellung und Integration astronomischer Datensätze wurden so genannte virtuelle Observatorien eingerichtet, die den Zugriff auf verschiedene Datenquellen vereinheitlichen. Diese stetig anwachsenden, hochdimensionalen Datenmengen bieten Astronomen und Astrophysikern die Möglichkeit, bekannte astronomische Objekte in einer großen Detailtiefe zu analysieren und somit die Suche nach bisher unentdeckten Objekten, Konstellationen oder Zusammenhängen zu unterstützen. Die Analyse der Daten erfolgt fast immer durch Verfahren des Data Mining, deren Ziel darin besteht (halb-)automatisiert Muster, Zusammenhänge und Gesetzmäßigkeiten in gegebenen Daten zu erkennen.

In diesem Proseminar sollen verschiedene aktuell eingesetzte Verfahren im Kontext ihrer jeweiligen astronomischen Fragestellung besprochen werden. Die notwendigen astronomischen bzw. astrophysikalischen Begrifflichkeiten werden im Rahmen des Proseminars gemeinsam erarbeitet, es sind also keine Vorkenntnisse aus der Astronomie oder Astrophysik notwendig.

Dieses Seminar findet in Kooperation mit dem Lehrstuhl für Astronomie der Ruhr-Universität Bochum statt.

Vorläufige Themen:

  • Hauptkomponentenanalyse
  • ISOMAP
  • Selbstorganisierende Karten
  • Partitionierende Clusterverfahren
  • Density-Based Spatial Clustering of Applications with Noise
  • Hierarchische Clusterverfahren
  • Neuronale Netze
  • Entscheidungsbäume
  • Major Clust
  • Nächste-Nachbarn-Klassifikation und Erkennung von Ausreißern
  • kd-Baum mit unterschiedlichen Splitregel
  • QuadTree
  • Merkmalsauswahl und Leistungsmaße
  • Bayes Klassifizierer und Kerndichteschätzer
  • Virtuelles Observatorium

Ablauf des Seminars

Dieses Proseminar richtet sich an Studierende im Grundstudium und umfasst 3SWS. Es beinhaltet einen Präsentationskurs (1SWS), der als Blockveranstaltung angeboten wird. Dieser Kurs ist für Bachelorstudenten verpfichtend. Nähere Informationen werden demnächst hier noch bekannt gegeben.

Die Themenverteilung erfolgt während der Vorbesprechung. Im weiteren Verlauf des Semesters haben die Teilnehmer Zeit die Ausarbeitung zu schreiben und den Vortrag vorzubereiten. In dieser Zeit wird es keine regelmäßigen Treffen in der Gruppe geben, die Seminarteilnehmer besprechen sich allerdings mit ihrem zugeordneten Betreuer.

Jeder Teilnehmer hält während des Seminars (die Termine werden in der Vorbesprechung vergeben) einen Vortrag von 45-60 Minuten Dauer das zugeordnete Thema; im Anschluss folgt eine ca. 15-minütige Diskussion über Thema und Vortrag. Voraussetzung für den Vortrag ist die vorherige Abgabe der Folien.

Zusätzlich ist von jedem Teilnehmer einer schriftliche Ausarbeitung über das Vortragsthema im Unfang von 10-15 Seiten zu erstellen. Diese Ausarbeitung muss bis zu einem ebenfalls in der Vorbesprechung vereinbarten Termin (vermutlich: Ende der Vorlesungszeit) abgegeben werden.

Mangelhafte Folien oder Ausarbeitungen (d.h. insbesondere Plagiate und reine Übersetzungen) führen zum Nicht-Bestehen des Seminars.

Termine

  • Vorbesprechung und Themenvergabe: 20. Juli 2011, 10.00 Uhr, OH 14, Raum 202
  • Folien: zwei Wochen vor dem jeweiligen Vortrag
  • schriftliche Ausarbeitung:

Im Regelfall wird eine verspätete Abgabe zum zum Nichtbestehen des Proseminars führen.

Anmeldung

Die Anmeldung erfolgt über das zentrale Verfahren.

Literatur

  • Ethem Alpaydin. Introduction to Machine Learning. MIT Press, Second Edition, 2010.
  • Robert Tibshirani und Jerome Friedman Trevor Hastie. The Elements of Statistical Learning. Springer, 2009.
  • Martin Ester und Jörg Sander. Knowledge Discovery in Databases. Springer 2000.
  • Ian H. Witten und Frank Eibe. Data Mining: Pratical Machine Learning Tools and Techniques. Elsevier, Second Edition 2005.
  • Kirk Borne. Scientific Data Mining in Astronomy. November 2009.
  • Nicholas M. Ball and Robert J. Brunner. Data Mining and Machine Learning in Astronomy. June 2009.

Ansprechpartner

Bei Fragen zu dieser Veranstaltung wenden Sie sich bitte an Renate Thies, Dipl. Inform. Andreas Thom

 
Last modified: 2015-09-11 10:49 (external edit)
DokuWikiRSS-Feed