Data Warehouse

vom gridscale Team

Bei den Datenbankanwendungen sind zwei Arten zu benennen: Online Transaction Processing (OLTP) und Online Analytical Processing (OLAP). Bei der OLTP handelt es sich um die Realisierung der Tagesgeschäfte und der Routineaufgaben. Womit wir uns aber in diesem Artikel beschäftigen wollen, ist die OLAP. Sie helfen bei der Bildung der strategischen Unternehmensplanung. Bei Data Warehouse (DW) handelt es sich um ein Datenbanksystem, indem alle Daten für OLAP-Anwendungen, eine multidimensionale Datenhaltung, gesammelt werden. Data Warehouse bildet die Basis für Business Intelligence (BI) Systeme.

Definition

Data Warehouse beschreibt ein Konzept der dispositiven Datensammlung, das logische, konsistente und historische Daten zusammenstellt. Diese wird für die Entscheidungsunterstützung des Managements innerhalb eines Unternehmens verwendet. Sie beinhaltet historische Daten in einer oft aggregierte Form, die periodisch upgedatet werden. Die Data Warehouse hat eine Analyse der Geschäftsdaten zum Ziel. Die Datenbankgröße geht bis zu 1TB, das heißt im Umkehrschluss, dass aufgrund dieser Datenverdichtung die Antwortzeiten im Vergleich zu OLTP-Anwendungen lang sind. Es herrscht ein dynamischer Datenzugriff bei wechselnden Fragestellungen für das Management.

Idealtypische Merkmale eines Data Warehouses

Es gibt vier wichtige Merkmale der Data Warehouse Datenbank, die im folgenden erläutert werden:

  • subject-oriented

    Fachorientierung bedeutet, dass das System nur für das Anwendungsziel relevante Daten erhält.

  • integrated

    Hier handelt es sich um Integrierte Datenbasis, die von unterschiedlichen Datenquellen verarbeitet werden können.

  • non-volatile

    Bei Data Warehouse werden Daten nicht mehr entfernt oder geändert, es ist also eine nicht-flüchtige Datenbasis.

  • time variant

    Historische Daten werden über einen längeren Zeitraum gespeichert, welches einen Vergleich der Daten ermöglicht.

Architektur der Data Warehouse

Die Architektur der Data Warehouse hängt mit dem Aufbau der Anwenderorganisation zusammen. Somit kann sie als zentrale oder verteilte Datenbasis oder sogar als eine Mischform aus beiden implementiert werden. Mittlerweile hat sich das Sternschema für die Data Warehouse Anwendung durchgesetzt. Das Star Schema besteht aus einer Faktentabelle und mehrere Dimensionstabellen. In der Faktentabelle sind betriebswirtschaftliche Kennzahlen enthalten und bei Dimensionstabellen werden diesen Kennzahlen von verschiedene Perspektiven beobachtet. Die Dimensionstabellen sind mit Hilfs-IDs, oder auch Primärschlüssel genannt, mit Faktentabelle verknüpft.

Architektur von Data Warehouse

Komponente und Datenflüsse in Data Warehouse

Welche Schritte Data Warehouse durchläuft bzw. welche Komponenten es gibt, verdeutlicht sich in der folgenden Abbildung:

Datenfluss von Data Warehouse

Operative Vorsysteme: diesie stellen durch Erstellung und Verwaltung von Daten die Basisdaten bereit und bilden damit Grundlage des BI-Umfeld. Hierdurch leisten sie Hilfestellungen bei alltäglichen Aufgaben der Mitarbeiter.

ETL (Extraktion, Transformation, Laden): ein Prozess, den die Daten durchlaufen, um in Data Warehouse abgelegt werden zu können: Extraktion der Daten, Transformieren durch Filterung, Harmonisierung, Aggregation und Anreicherung: Die Daten werden für die Speicherung vereinheitlicht. Anschließend werden die gefilterte und vorbereitete Daten in DW gespeichert.

Data Warehouses: Intergrieren die Daten aus verschiedene Datenquellen und stellen diese miteinander in Bezug.

Data Mart: sie sind eine Kopie von isolierte Teilsegmente der DW, durch Auswahl kleinerer Mengen ist die Data Mart Leistungsfähiger als die komplette DW.

ODS (Operational Data Store): operative Daten zu Analysezwecken, welche detaillierter und aktueller sind. Es ist kein Bestandteil der DW aber stark mit ihr verzahnt.

Metadatenverwaltung: Metadaten haben technische Informationen zur Daten und können deren Aufbau beschreiben. Dadurch werden Suchen und eine Auswertung durch Kategorisierung vereinfacht.

Fazit

Abschließend lässt sich feststellen, dass mithilfe von zwei Datenbanksysteme OLTP und OLAP die benötigten Daten per ETL in DW gespeichert werden. Das beliebte Schema ist das Sternschema, da Datenduplikationen im Gegenteil zum Schneeflockenschema vermieden werden. In Data Mart werden einen Teilabschnitt aus DW kopiert und bearbeitet. Aufgrund der niedrigen Datenvolumen ist Data Mart performanter als DW. Anschließend kann die DW durch Metadaten oder auch Endbenutzerwerkzeuge benutzt werden.