Das ansteigende Datenvolumen und die Komplexität der zu verarbeiteten Datenstrukturen in großen Unternehmen erfordert nicht nur häufig den Einsatz neuer Tools aus dem Big Data Bereich, sondern auch ein Umdenken im Datenmanagement (Data Governance). Dies umfasst beispielsweise die Sicherung der Konsistenz der Daten, die Erhaltung der Datenqualität, Pflege der Stammdaten und die Einhaltung gesetzlicher Vorgaben und sicherheitsrelevanter Standards. Der Schlüssel dazu ist die konsistente Haltung von Metadaten, die durch Metadatenkatalogen wie Alation oder dem Informatica Enterprise Data Catalog erleichtert wird. Neben dem klassischen analytischen Anwendungsgebiet zum Auffinden relevanter Daten für BI-Reports und Machine Learning Modelle nimmt der Datenkatalog im Zusammenhang mit dem Thema Data Governance also auch eine zentrale strategische Rolle in vielen Unternehmen ein.
In diesem Blogbeitrag wird ein von saracus entwickeltes Metadatentool mit dem Namen SVML (saracus Visual Metadata Layer) vorgestellt, das typische Datenkataloge durch neue Features im Bereich Analyse und Visualisierung ergänzt und so Unternehmen hilft, die neuen Anforderungen in Bezug auf die Nutzung von Metadaten für verschiedene Nutzergruppen abzudecken.
Zu den wesentlichen Features dieses Tools gehört die Visualisierung einer Datenlandkarte, die es Business-Nutzern einfach erlaubt einen Zusammenhang zwischen fachlichen Begriffen (Business-Glossar, Taxonomie, Business Terms) und den technischen Datenobjekten zu erschließen. Dies erleichtert den Einblick in die Struktur der Metadaten ohne tiefergehendes Verständnis der zugrundeliegenden technischen Details der Datenhaltung. Es lassen sich Fragen beantworten wie: Welche Daten im Zusammenhang mit einem bestimmten Produkt oder einer bestimmten Sparte weisen eine geringe Datenqualität auf oder erfordern Eingriffe in Bezug auf GDPR Compliance? Weiterhin erlaubt das vorgestellte Tool eine tiefgehende Analyse der Metadaten mit der Berechnung von Metadaten-Aggregationen und der Berechnung von Statistiken.
Backend

Im Folgenden wird ein technischer Überblick über die Grundzüge der Architektur des Tools gegeben. Abbildung 1 zeigt den Aufbau des Tools. Zunächst wird eine Business-Taxonomie in der Neo4J Graphdatenbank hinterlegt. Zusätzlich werden die Verknüpfungen zu den technischen Datenobjekten im Datenkatalog hergestellt. In diesem Beispiel kommt der Datenkatalog Alation zum Einsatz. Weitere Metadatenkataloge können durch Implementierung entsprechender Schnittstellen bei Bedarf angebunden werden.
Über einen RESTful Webservice kann der Nutzer auf das von saracus mit dem Spring Boot Framework entwickelte Backend zugreifen. Dieses ermöglicht mit dem Taxonomy Manager das programmatische Einlesen einer Business-Taxonomie in die Graphdatenbank. Die API ist mit dem Open-Source-Software-Framework OpenAPI dokumentiert, welches die programmatische Einbindung der API vereinfacht. Mit Swagger Codegen kann beispielsweise Client Code zur Einbindung der API automatisch erzeugt werden. Auf diese Weise kann eine Vielzahl an Quellen angebunden werden.
Der Datenkatalog dient als zentrales Verzeichnis für Daten, die von einem Unternehmen gespeichert werden. Metadaten, welche im Katalog hinterlegt sind, können als Datentransferobjekte über die spezifische API des Katalogs abgefragt werden. Im Backend werden diese Daten weiterverarbeitet und beispielsweise in aggregierter Form über die REST API für das Frontend verfügbar gemacht. Ein Scheduler und Cache kommen zum Einsatz um dabei die Belastung für den Datenkatalog zu minimieren.

Wie in Abbildung 2 dargestellt, existiert nun eine Business Taxonomie in der Graphdatenbank. Um diese mit den Metadaten-Objekten im Datenkatalog zu verbinden, kommen Tags zum Einsatz. Im Datenkatalog können diese Tags direkt über das Userinterface eingetragen werden. Der Tag Scanner des Spring Backends durchsucht den Datenkatalog nach den Tags aus der Business Taxonomie und ordnet den Taxonomie-Elementen daraufhin konkrete Metadaten-Objekte aus dem Datenkatalog zu. Eine Veranschaulichung dazu findet sich in Abbildung 3.

Nun können alle weiteren Kenngrößen der Metadatenobjekte aus dem Metadatenkatalog abgerufen werden, dies umfasst beispielsweise technische Metadaten, fachliche Metadaten, Bewertungen, Nutzungsstatistiken oder Queries. Alle diese Informationen können für die Analyse und Visualisierung im Frontend vorbereitet werden. Ein Beispiel für die Berechnung einer Aggregation ist in Abbildung 4 dargestellt.

Frontend
Im Frontend wird dem Endnutzer eine interaktive Visualisierung angezeigt, welche die Business Taxonomie strukturiert darstellt und eine Verlinkung zu den konkreten Datenelementen im Datenkatalog zur Verfügung stellt.
Technisch basiert das Frontend auf der JavaScript-Softwarebibliothek React, welche für die Visualisierungskomponenten durch Bibliotheken wie Pixi.js und D3.js ergänzt wird. Dies stellt eine gute Performance und auch eine Skalierbarkeit auf große Business-Taxonomien sicher.
Zur Visualisierung kann eine sogenannte hierarchische Voronoi-Map gewählt. Dabei handelt es sich um eine Art der Darstellung, die optimal den zur Verfügung stehenden Platz ausnutzt und optimal zur Navigation geeignet ist.

Die numerischen Werte der Metadaten können über die Größe der Elemente und die Farbe kodiert werden (Abbildungen 6–7). Neben der Voronoi-Map können auch weitere Graphiktypen wie Chord-Diagramme verwendet werden.
Weitere Analysemöglichkeiten wie die Berechnung von Statistiken und Aggregationen können leicht in die Visualisierungen integriert werden. In den Abbildungen 6 und 7 erfolgt dies beispielsweise über eine farbkodierte Darstellung der aggregierten Datenqualität. Dieses Konzept kann auf beliebige numerische fachliche und technische Metadaten erweitert werden und ist über das Frontend konfigurierbar. Auf diese Weise können Bereiche der Taxonomie identifiziert werden, welche bestimmten Bedingungen genügen wie z.B. häufige Nutzung der Daten, fehlende Aktualität der Daten oder schlechte Datenqualität.


Zusammenfassend soll die Visualisierungskomponente es ermöglichen, einen Zusammenhang zwischen der fachlichen Ebene (Businesstaxonomie, Glossar) und den Metadaten zu erschließen und konkrete metadatenbezogenen Fragestellungen zu beantworten. Die Visualisierung wird durch komplexe Analysemöglichkeiten erweitert, die einen zusammenfassenden Einblick in die gesamte Struktur der Metadaten eines Unternehmens ermöglichen und damit auch den Weg zu einem Information Value Management (Infonomics) ebnen.