Das Ziel dieser Projektgruppe (PG) ist es, eine auf dynamischen Textindizes basierende Datenstruktur zu entwickeln. Hierbei soll diese in der Lage sein, mehrere individuelle Genomsequenzen zu verwalten, ohne dass das Hinzufügen oder Entfernen einzelner Sequenzen zum vollständigen neuen Aufbau der Indexe führt. Der erstellte Index soll sowohl effizient in Bezug auf den Speicherbedarf (hinsichtlich Arbeitsspeicher und Festplattenspeicher) sein, als auch verschiedene praxisrelevante Anfragen wie eine Mustersuche in möglichst effizienter Laufzeit unterstützen.
Die Nützlichkeit der Arbeit dieser Projektgruppe liegt darin begründet, dass zum einen Genome sehr speicheraufwändig sein können (naives Speichern der Genome aller menschlichen Einwohner Dortmunds würde ca. 500TB benötigen). Zum anderen liegt die Variation zwischen verschiedenen Individuen der selben Spezies nur bei ca. 0.5%. Dies zusammen mit dem stark beschränktem Alphabet (A, C, G, T, evtl. wenige weitere Zeichen) der Genome legt einem bereits nahe, dass sich diese stark komprimieren lassen. Ebenfalls sind Zugriffe auf speziell annotierte Teile (also Gensequenzen, welche von einer Person eine bestimmte textliche Beschreibung erhalten haben wie z.B. welches Enzym hier codiert wird) eines Genoms aus medizinischer Sicht durchaus wichtig. So ist es bspw. für die korrekte Anwendung einiger Medikamente wichtig zu wissen, welche Genvariation bei dem aktuellen Patienten vorliegt.
Die wöchentlichen Sitzungen im Wintersemester finden wie folgt statt:
Hierbei können jederzeit Teilgruppen eigene Sitzungen veranstalten.