Projektgruppen

Entwicklung, Implementierung und Dokumentation von Data Processing Workflows

Tätigkeiten der Projektgruppe

Ziele der Projektgruppe:

Die Anwendungen der Informatik in den Biowissenschaften spielen eine immer größere Rolle. Eine zentrale Herausforderung besteht darin, die am besten geeignete Software und zugrundeliegenden Algorithmen zu kombinieren, vergleichen und in spezifische Datenanalyseworkflows zu integrieren. Ziel der aktuellen Forschung sowie der Arbeitsgruppe ist es auf die Bedürfnisse von für Nicht-Computerexperten einzugehen und ihnen eine eigenständige Analyse mit Hilfe von Workflows zu ermöglichen. Dazu können aktuelle Tools innerhalb von Managementplattformen wie Bioconductor, Galaxy, Knime und Snakemake sowie weitere Ansätze wie BioConda, Common Workflow Language oder Docker kombiniert werden.
Die Verwendung von Workflows beugt zum einen vor, dass (i) Tools, die nicht mehr auf dem aktuellsten Stand gehalten werden oder nie für ein spezielles Problem entwickelt wurden, Kontext spezifisch genutzt werden und (ii) Tools, die kontinuierlich gepflegt werden und dementsprechend ihr Verhalten und ihre Parameter mit der Zeit ändern können, konserviert werden können. Eine weitere Herausforderung ist der Vergleich, das Benchmarking, die Auswahl und die Integration der am besten geeigneten Tools, was zeitaufwendig ist und Fachkenntnisse in Bezug auf die Rechenleistung erfordert. Abhängig von der Anzahl der Samples, der Skala der Zeitreihen und der Sequenzierungstiefe können Berechnungen mit hohen Rechenressourcen wie Cluster-, Grid- und Cloud-Computing-Lösungen verbunden sein. Eine adaptive Verwaltung verfügbarer Datenverarbeitungsressourcen durch Lastverteiler und Warteschlangensysteme ist bei der Erstellung von Analyseworkflows häufig unvermeidbar.
Ein aktueller Lösungsansatz zur Bereitstellung von Workflows, einschließlich aller notwendigen Tools und Abhängigkeiten, sind Softwarekanäle und Container wie Bioconda, Docker oder rkt. Diese Container stellen sich als mögliche Lösung für viele der früheren Probleme heraus, da sie die Paketierung von Workflows in einem isolierten und in sich abgeschlossenen System erlauben, was die Verteilung und Ausführung von Tools auf eine leicht übertragbare Weise auf ein breites Spektrum von rechnerischen Verfahren vereinfacht.
Zusammenfassend lässt sich sagen, dass Workflows, Management Frameworks und Cloud-Computing-Services die Lücke zwischen Tool-Entwicklern und Endbenutzern schließen und eine einfach anwendbare und skalierbare Datenanalyse fördern. Dies wiederum ermöglicht eine verbesserte Datenreproduzierbarkeit, Prozessdokumentation und Überwachung von Datenanalysen.

Tätigkeiten der Projektgruppe

Es werden einführende Workshops zur Unix Commandozeilen Nutzung von bioinformatischen Tools, BioConda, Docker sowie Trainings für Galaxy angeboten. Die Elemente beinhalten gleichermaßen Workflowentwicklung und -anwendung.

             

Vorgesehene Aktivitäten 2018

5-7 März 2017 – de.NBI Workshop in Kiel zu GWAS, genome assembly und RNA-Seq data analysis with Galaxy

 

Veröffentlichungen im Kontext der AG Workflows

Lott SC, Wolfien M, Riege K, Bagnacani A, Wolkenhauer O, Hoffmann S, Hess WR
Customized workflow development and data modularization concepts for RNA-Sequencing and metatranscriptome experiments
Journal of Biotechnology
doi.org/10.1016/j.jbiotec.2017.06.1203