Integrative Text and Data Analytics

Unstrukturierte Informationsquellen wie wissenschafltiche Publikationen, elektronische Patientenakten, aber auch Patente, liegen in sehr großer Zahl vor. Die automatisierte Analyse dieser unstrukturierten Wissensquellen erfordert substanzielle Compute-Ressourcen; skalierende Systeme für die Informationsextraktion müssen jedoch für HPC-Umgebungen optimiert werden und beispielsweise mit den existierenden Middlewares für die Verteilung rechenintensiver Aufgaben harmonisieren. Fraunhofer SCAI macht komplexe Text-Mining-Workflows auf HPC-Umgebungen lauffähig und demonstriert den wissenschaftlichen Einsatz von Hochleistungsrechnern für die Informationsextraktion. Die angebotenen Leistungen konzentrieren sich hierbei auf die kostengünstige Indexierung von Firmenarchiven mit dem Schwerpunkt Chemie sowie auf die Erschließung klinischer Routinedaten für Zwecke der Forschung und für Studien in der Gesundheitsökonomie.

Lösungsansatz

Die Grundidee ist es komplexe Workflows und Data Center in kleine unabhängige und verteilte Dienste (sog. Microservices) aufzubrechen. Wir haben eine Vielzahl solcher Dienste entwickelt und zudem etablierte Analysewerkzeuge dort eingebettet. Alle Dienste können untereinander Nachrichten austauschen. Im Gegensatz zu fest definierten Workflows lassen sich über Nachrichten-Kommunikation die Aufgaben flexibel den einzelnen Diensten zuordnen und werden effizient abgearbeitet. Microservices können auf einzelnen Arbeitsplatzrechnern, dedizierten Servern oder auf unserem großen Cluster gestartet werden. Wir haben den Ansatz auf verschiedene Anwendungsszenarien erfolgreich angewendet.

Anwendungsszenarien

Pharmazeutische Forschung

Versorgungsforschung