Überraschenderweise sind über 90% der Zellen, die einen Menschen ausmachen, nicht menschlich, sondern Bakterienzellen (mit denen wir aber gut klarkommen). Moderne DNA-Sequenziertechnologien erlauben es nun erstmals, die vollständige Genomsequenz aller dieser Bakterienarten bei vertretbaren Kosten vollständig zu bestimmen; es handelt sich bei jeder Art um einige Millionen Basenpaare, in denen jeweils die Sequenzen von mehreren Tausend Genen codiert sind. Eine ebenso klassische wie reizvolle Aufgabe der Bioinformatik ist, die Position der Gene in einem Genom automatisch zu finden. Die genomische DNA-Sequenz wird hierbei als Zeichenkette über dem Alphabet {A,C,G,T} modelliert. Zum Erkennen von Genen gibt es notwendige formale Bedingungen (Beginn mit Startcodon, Ende mit Stoppcodon, kein Stoppcodon dazwischen) und statistische Signale (z.B. Länge der Gene, welche Codons werden wie oft benutzt). Ziel des Projekts ist es, in wenigen Stunden ein System zu erstellen, das möglichst viele der Bedingungen und Signale nutzt und eine gute Vorhersagequalität liefert.
Wer an diesem Projekt teilnehmen möchte, sollte nach Möglichkeit über grundlegende Kenntnisse in Molekularbiologie (DNA-Struktur, zentrales Dogma, genetischer Code) sowie über hinreichende Programmiererfahrung verfügen. Wir wollen in diesem Projekt die Sprache Python (genauer: Python 3.2) verwenden. Kenntnis von Python ist nicht notwendig, aber hilfreich.
[DNA-Bild von National Human Genome Research Institute [Public domain], durch Wikimedia Commons]