Die Gruppe Software und Scientific Computing entwickelt Algorithmen und Software-Werkzeuge, mit denen sich Wissen in strukturierten und unstrukturierten frei verfügbaren Quellen schnell finden und explorieren lässt.
Beim Stöbern in wissenschaftlicher Literatur, bei der Recherche in Datenbanken oder beim Browsen von Online-Medien fragt man sich häufig »Kann das sein?« oder »Was ist eigentlich der aktuelle Stand des Wissens?«. Nutzt man Portale, um das Web zu durchsuchen, muss man sich durch lange Ergebnislisten wühlen. Wir forschen an verteilten Informationssystemen, die solche Fragen ad hoc beantworten sollen. Das geht weit über stichwortbasierte Suchen hinaus.
In unserem Data Center sind sowohl strukturierte Datenbanken (etwa zu Proteinen, Chemikalien, Wirkstoffen, klinischen Studien) als auch riesige unstrukturierte Dokumentensammlungen (beispielsweise Forschungsartikel, Patente, Beipackzettel) integriert. Das Ziel ist, unterschiedliche Quellen zu hochkomplexen Wissensgraphen zu vernetzen, indem Konzepte und deren Beziehungen automatisch erkannt und normalisiert werden.
Wir nutzen dazu moderne Verfahren der Informationsextraktion, um mit Hilfe von Terminologien und Ontologien automatisch Nennungen von Konzepten (inklusive Synonymen und Abkürzungen) zu finden und diese in Beziehung zu setzen (Relation Mining). Das so gesammelte Wissen wird in föderierten Graphdatenbanken oder Triple Stores abgelegt und lässt sich so von Experten aus den Anwendungsfeldern (zum Beispiel Biomedizin, Pharmazie, Chemie, Biotechnologie) abfragen. Wir setzen dabei auf moderne Big-Data-Architekturen, Semantik-Web-Technologie und aktuelle Verfahren der künstlichen Intelligenz (wie Large Language Models LLM). Wir entwickeln und setzen hauptsächlich Open-Source-Software-Lösungen (etwa Kubernetes, Apache Spark, Apache Spring, REACT) ein und nutzen standardisierte Schnittstellen (etwa OpenAPI, OAuth), die wir anpassen und erweitern (vgl. https://github.com/SCAI-BIO).