You are currently viewing Wiederverwendbare Use-Case Module – DaPro Toolbox

Wiederverwendbare Use-Case Module – DaPro Toolbox

In diesem Blogpost wird die in DaPro entwickelte Methodik zur vereinfachten Wiederverwendung von Datenanalysen beschrieben. Die entwickelte Methodik zielt darauf ab Analysen, die ein Mal durchgeführt wurden, mit geringerem Konfigurationsaufwand auf ähnliche Kontexte anpassen zu können.

Kern der Methode sind sogenannte Problemlösungsmodule. Ein Problemlösungsmodul umfasst dabei Daten- und Analysemodule, die über den Problemkontext angepasst und verknüpft werden, um einen Datenanalyse-Use-Case umzusetzen.

Schematische Darstellung eines Problemlösungsmodules. Dargestellt ist ein Bereich genannt Problemmodul hier für das Beispiel "Filtration" genauer Vorhersage der Filtrierbarkeit von Bier. Der gezeigte Bereich beinhaltet drei weitere Bereiche. Zwei mit dem Titel "Datenmodul" und den Untertiteln "Prozessdaten" und "Malzlabordaten" und ein weiteres mit dem Titel "Analysemodul" und dem Untertitel "Zeitreihenanalyse".
Beispielhaftes Problemlösungsmodul für die Vorhersage der Filtrierbarkeit von Bier. Hier werden zwei Datensätze mit Informationen zur Prozesssteuerung und zu Malzlabordaten benötigt und anschließend über ein Zeitreihenanalysemodul verarbeitet.

Ziel ist es bei einer initialen Bearbeitung einer Analyse versch. Analysemodule zu kombinieren bzw. neu zu erstellen und mit Datenanforderungen zu verknüpfen. Anschließend werden die Einstellungsmöglichkeiten der Umsetzung im Expert:innenaustausch auf relevante Charakteristika reduziert.

Schematische Darstellung eines Datenanalyseflusses. Dargestellte Schritte von links nach rechts: initial data, custom data preprocessing, processed data, custom model creation, apply model, evaluate, setup, deploy.
Über den Schritten 2 bis 4 steht "Data Science Expertise" und "Domain Expertise" mit wechselseitigen Pfeilen dazwischen.
Typische Schritte einer Datenanalyse bei erstmaliger Durchführung.

Die so entstandenen Problemlösungsmodule können dann für andere Abteilungen oder auch Unternehmen bereitgestellt werden. Diese können anhand der Datenanforderungen sehen, welche Daten ihrerseits bereitgestellt werden müssen.

Dargestellt ist eine Tabelle mit zwei Hauptspalten und weiteren Unterspalten. Über der Tabelle ist eine Überschrift mit einem Titel für einen benötigten Datensatz zu sehen. Daneben eine teilweise aufgefüllte Statusleisten. Unter der Überschreibt ist eine Kurzbeschreibung mit allgemeinen Informationen zum benötigten Datensatz. 
Die linke Hauptspalte der Tabelle listet verschiedene Attributsnamen auf, die für eine Analyse benötigt werden. Zu jedem Attribut sind textuelle Beschreibungen vorhanden, sowie bunte Visualisierungen anderer Eigenschaften (bswp. dem Datentyp). In der rechten Hauptspalte sind Auswahlmöglichkeiten für eigene Attribute vorhanden. Es gibt leere und ausgefüllte Zeilen. Ausgefüllte Zeilen stellen weitere Informationen zu gewählten Attributen bereit. Eine Statusspalte informiert über die Notwendigkeit einer Zeile.
Assistent zur Datenanpassung im Rahmen eines Datenmodules. Hier beispielhaft mit einem Wetterdatensatz. Im oberen Bereich wird eine allgemeine Beschreibung der benötigten Daten angezeigt und der aktuelle Erfüllungsgrad. Auf der linken Seite werden für eine Analyse benötigte Spalten beschrieben. Zu der Charakterisierung gehört jeweils eine textuelle Beschreibung, sowie die Darstellung verschiedener Eigenschaften der Daten. Auf der rechten Seite können dann vorhandene Unternehmensdaten zugeordnet werden. Zu ausgewählten Spalten werden Informationen, wie der Datentyp angezeigt. Eine Statusspalte informiert darüber, ob eine Spalte optional oder notwendig ist, und über etwaige erwartete Anpassungen, beispielsweise des Datentypes.

Anschließend werden automatische Datenanpassungen durchgeführt und Anwendende müssen lediglich die zuvor definierten relevanten Charakteristika konfigurieren. Diese fokussieren sich auf den jeweiligen Kontext z.B. das Brauwesen und erfordern kein Wissen über Analysemethoden.

Katalog an Problemlösungsmodulen. Dargestellt sind aufgefecherte Karten mit Prozessfluss Schemata und je einem Icon als Repräsentation für einen gelösten Use-Case.
Schematische Darstellung eines Katalogs an Problemlösungsmodulen mit verschiedenen vorgefertigen Analysen beispielsweise zur Malzextraktvorhersage, Bedarfsprognose von Lieferanten oder dem Alpha-Säuregehalte von Hopfen.

Entwickelte Problem-Lösungsmodule können dann beispielsweise über einen Katalog bereitgestellt werden. Dieser beinhaltet dann Problembeschreibungen und Beschreibung der Eigenschaften benötigter Daten zur Lösung. Neuer Anwender:innen können somit mit einem Katalog an fertigen Lösungen starten, und sich potentielle Analysen heraussuchen und anpassen.

Schematische Darstellung eines durch Nutzung von Problemlösungsmodulen vereinfachten Datenanalyseflusses. Dargestellte Schritte von links nach rechts: initial data, ein Problemlösungsmodul, apply model, evaluate, setup, deploy.
Vereinfachte Schritte einer Datenanalyse unter Nutzung von Problemlösungsmodulen.