Subscribe to Newsfeeds

Statistisches Lernen in der Bioinformatik

In vielen Bereichen des Lebens ist es in den letzten Jahren zu einem exponentiellen Wachstum von Daten gekommen. Dies liegt zum einen an immer leistungsfähigeren Computern, die in der Lage sind, große Datenmengen zu verarbeiten und zu speichern, zum anderen aber auch an neuen Messmetho-den in vielen Bereichen der Wissenschaft, den sogenannten Hochdurchsatzverfahren. Dies sieht man zum Beispiel in der Physik an Messungen, die am CERN durchgeführt werden, aber auch in der Biologie gibt es immer rasanter ansteigende Datenmengen (z. B. Genom-, Proteom- und Epigenomdaten). Diese Datenflut macht es unmöglich, grundlegende Zusammenhänge in den Daten durch eine reine Betrachtung zu erschließen. So möchten wir bei Genomsequenzen zum Beispiel wissen, an welcher Stelle sich die Gene befinden. Kann man durch zusätzliche Experimente herausfinden, wo sich Gene befinden, so kann man mit Hilfe von statistischen Lernverfahren generelle Sequenzeigenschaften von Genen lernen, die dann in einem Vorhersagemodell verwendet werden können. Dies macht es möglich, für weitere Genomsequenzen die Positionen der Gene vorherzusagen. Diese Vorgehensweise ist insbesondere dann interessant, wenn die zusätzlichen Experimente zeitaufwendig und teuer sind, was für viele Bereiche der Biologie zutrifft.

Die Methoden, die in diesem Szenario eingesetzt werden, gehören zu der Gruppe der statistischen Lernverfahren. Sie werden aber auch in anderen Bereichen angewendet und weiterentwickelt, wie zum Beispiel zum Herausfiltern von Spam Emails, zum Vorhersagen der passendsten Werbung oder zur Vorhersage von Aktientrends. In der Bioinformatik ist das statistische Lernen in allen wichtigen Bereichen vertreten.

 

 

Auch am Zentrum für Bioinformatik nimmt das statistische Lernen einen wichtigen Platz ein. So werden zum Beispiel in der Abteilung von Prof. Lengauer schon seit mehr als einem Jahrzehnt neue Verfahren entwickelt, um die Resistenz des HI-Virus gegen bestimmte antivirale Medikamente vorherzusagen. Die Server, die diese Methoden frei zur Verfügung stellen, werden weltweit eingesetzt.

Ein weiterer wichtiger Bereich der Biologie ist die Untersuchung von evolutionären Beziehungen zwischen verschiedenen Spezies. Hierbei werden Stammbäume, die auch phylogenetische Bäume genannt werden, bestimmt. Dort gibt die Entfernung im Baum an, wie weit Organismen evolutionär voneinander entfernt sind. Am ZBI wurden Methoden entwickelt, die das Lernen dieser phylogenetischen Bäume signifikant verbessern.

Ebenfalls von hoher Bedeutung ist der Bereich der Krebsdatenanalyse. Hier ist es interessant, bestimmte Untergruppen von Patienten mit Methoden des unüberwachten Lernens zu finden, aber auch herauszufinden, welche Veränderungen in der Regulation der Proteine einen Einfluss auf den Schweregrad der Krebserkrankung haben. In diesem Bereich hat das ZBI neue Methoden entwickelt, die es zum Beispiel ermöglichen, Messungen verschiedener biologischer Eigenschaften zu vereinen, um eine einfach verständliche Repräsentation der Daten zu erzeugen und darauf basierende Gruppierungen zu finden. Zudem haben wir uns auch mit Fällen beschäftigt, in denen die Messungen für verschiedene Patienten nicht ganz vergleichbar sind und Lernverfahren entwickelt, die diesen Effekt ausgleichen können.