Forschungsschwerpunkte
Data Quality
Aufgrund schnell wachsender Mengen an strukturierten aber vor allem auch unstrukturierten Daten (Big Data) ist Datenqualität heute ein hoch relevantes Thema. So werden bspw. große Mengen an unstrukturierten Daten aus unterschiedlichen, verteilten Quellen in diversen Formaten gesammelt und analysiert (oft in Echtzeit), um relevante Erkenntnisse abzuleiten und unternehmerische Entscheidungen zu unterstützen. Damit die abgeleiteten Ergebnisse valide und wertstiftend sind, ist die Sicherstellung der Qualität der zugrundeliegenden Daten unabdingbar.
Konkret werden im Rahmen der Forschungsarbeiten quantitative Methoden und Modelle zur Messung, Steuerung und Verbesserung der Datenqualität entwickelt und evaluiert. Dabei werden folgende Ziele verfolgt:
- Entwicklung von Ansätzen zur Messung der Datenqualität strukturierter und unstrukturierter Daten: Es werden effiziente quantitative Ansätze zur Messung der Datenqualität für datenwertorientierte Qualitätsdimensionen (bspw. Korrektheit, Konsistenz, Aktualität, Vollständigkeit, Eindeutigkeit) entwickelt. Diese sollen aufgrund der z. T. enormen Datenmengen automatisiert anwendbar und für unterschiedliche Datenformate (z. B. strukturierte und unstrukturierte Daten) sowie verteilte Daten (z. B. unternehmensinterne und -externe Daten) geeignet sein.
- Entwicklung maschineller Lernverfahren zur Berücksichtigung der Datenqualität: Zur Analyse strukturierter und unstrukturierter Daten werden maschinelle Lernverfahren (weiter)entwickelt, um das gemessene Datenqualitätsniveau (vgl. 1.) methodeninhärent zu berücksichtigen. Diese Einbeziehung der Datenqualität führt nicht nur dazu, dass sich die ermittelten Ergebnisse (z. B. Klassen- oder Clusterzuordnung) sehr stark ändern können. Vielmehr wird auch die Güte der Ergebnisse abhängig von der Qualität der Inputdaten ermittelt und ausgewiesen, um Entscheidungen wesentlich besser und transparenter als bisher unterstützen zu können.
- Entscheidungskalküle zur Bewertung der Datenqualität und zur Planung von Maßnahmen: Es wird an Entscheidungskalkülen gearbeitet, die eine ökonomische Bewertung von Datenqualitätsmaßnahmen gerade auch im Kontext von Big Data erlauben. Dabei gilt es sowohl die Kosten als auch den Nutzen unter Berücksichtigung der Charakteristika von Big Data möglichst automatisiert zu ermitteln. Der Nutzen von Datenqualitätsmaßnahmen resultiert primär aus der besseren Entscheidungsqualität, die mit höherer Datenqualität einhergeht, wobei insbesondere der konkrete Anwendungsfall sowie die verwendeten maschinellen Lernverfahren zu berücksichtigen sind.
- Datenqualität in der Informationssicherheit: Die Bewertung und Verbesserung der Datenqualität ist im Kontext der Informationssicherheit besonders herausfordernd. Erstens sind die Auswirkungen einer guten versus schlechten Datenqualität speziell in der Informationssicherheit mit einer ungleich höheren Entscheidungsunsicherheit behaftet. Zweitens kommt hinzu, dass die Qualität der Datenbasis für die Analysen und Entscheidungen auch gewährleistet sein muss, selbst oder gerade wenn diese Datenbasis mehrere Unternehmen mit (anonymisierten) Sicherheitsvorfällen umfasst.
Einen Überblick über die Fragestellungen gibt folgende Abbildung:

OSN & SoME
Online-Plattformen und Online-Reviews
Mit der steigenden Popularität von Online-Plattformen wie Yelp, Amazon oder Google ergeben sich neue Herausforderungen für Kunden, Unternehmen und die Plattformen selbst. Eine der größten Herausforderungen dabei ist die riesige Menge an Daten, die Kunden zur Verfügung stehen, wie z.B. die angebotenen Artikel und Online-Reviews. So wurde beispielsweise geschätzt, dass Amazon im Jahr 2018 bereits rund 250 Millionen Reviews auf seiner Plattform gehostet hatte. Darüber hinaus fügen Nutzer von Google Maps täglich mehr als 20 Millionen Informationen zur Plattform hinzu.
Um diese enorme Datenmenge für Kunden, Unternehmen und Plattformen zu analysieren und für Entscheidungen zu nutzen, spielen Recommender Systeme eine zentrale Rolle. Zudem helfen Text Analytics-Verfahren, um mit großen Mengen unstrukturierter Textdaten hoher Vielfalt umzugehen, beispielsweise um die Bewertungen in Millionen von Online-Reviews nutzbar zu machen. Hier ist die Feature-basierte Sentimentanalyse zu nennen, die eine automatisierte Analyse individueller Bewertungen in Texten zu bestimmten Aspekten eines Artikels anstrebt.

SEMPA
Unternehmen müssen ihre Prozesse heutzutage schnell restrukturieren bzw. neu entwickeln können. Dies betrifft sowohl die inner- als auch die zwischenbetrieblichen Prozesse (Lieferketten), um beispielsweise auf geänderte Kundenanforderungen, Lieferprobleme und Konkurrenzangebote mit eigenen Leistungen reagieren zu können. In vielen Fällen ist hier jedoch die flexible Erstellung, Anpassung und Realisierung der Prozessmodelle der Engpass. Dieser Engpass wird sich mit Zunahme mobiler und ubiquitärer Prozesse, die stark von endogenen (wie bspw. Nutzerpräferenzen) und exogenen (wie bspw. Umweltfaktoren) Einflüssen und damit Kontextinformationen beeinflusst werden, noch verstärken.
Im Rahmen des Prozessmanagements wird hier unter anderem die Erhöhung des Automatisierungsgrads diskutiert, d. h. Prozessmodelle sollen (teil-)automatisiert erstellt bzw. angepasst werden. Die Aufgabe einer automatisierten Modellkonstruktion ist dabei als Planungsproblem zu verstehen. Deshalb wird von der Planung von Prozessmodellen gesprochen, die ihrerseits aus Aktionen (PA) erstellt werden. Im Rahmen der Arbeiten – gefördert z. B. in den DFG-Projekten SEMPRO und SEMPRO2 sowie dem FWF-Projekt „Automated Planning of Process Models“ - wurde und wird für diese Planung von Prozessmodellen ein Ansatz - genannt SEMPA (SEMantic-based Planning Approach) - entwickelt. Bild 1 verdeutlicht die Idee: Basierend auf einer semantischen Beschreibung der Anwendungsdomäne (Ontologie) und einer Bibliothek, in der Aktionen (PA) spezifiziert werden, erstellt der Planer zulässige Prozessmodelle (d. h. Abfolgen von Aktionen inklusive notwendiger Kontrollflussstrukturen wie ein Exclusive choice), die eine gegebene Problemstellung (bestehend aus einem Initial- und ein oder mehreren Zielzuständen) erfüllen. Von teilautomatisiert wird deshalb gesprochen, da die erstellten Modelle als Vorschläge zu verstehen sind, die anschließend mit den Prozessbeteiligten abzustimmen und unter ökonomischen Aspekten zu bewerten sind. Als Modellierungssprache werden derzeit UML und BPMN genutzt, wobei geplant ist, zukünftig auch andere Sprachen (bspw. Petri-Netze) zu unterstützen.
Neben der automatisierten Planung und Anpassung von Prozessmodellen steht auch deren flexible Realisierung im Mittelpunkt der Forschung. Hier setzen die Konzepte und Technologien der Serviceorientierung (Web Services, Cloud Services oder mobile Services) an. Um hierbei ein hohes Maß an Flexibilität erzielen zu können, ist die Selektion von Services auf Basis nicht-funktionaler Eigenschaften (Preis, Ausführungsdauer, etc.) für die spätere Prozessausführung von zentraler Bedeutung. Hier kann bspw. ein Austausch einzelner Services - insbesondere bei unerwarteten Ereignissen wie einem Serviceausfall - unweigerlich zu Reallokationszeiten und entsprechendem Aufwand führen. Dies steht wiederum der angestrebten Flexibilität bei der Umsetzung und Ausführung von Prozessen entgegen.
