Data Warehouse
Bei den Datenbankanwendungen sind zwei Arten zu benennen: Online Transaction Processing (OLTP) und Online Analytical Processing (OLAP). Bei der OLTP handelt es sich um die Realisierung der Tagesgeschäfte und der Routineaufgaben. Womit wir uns aber in diesem Artikel beschäftigen wollen, ist die OLAP. Sie helfen bei der Bildung der strategischen Unternehmensplanung. Bei Data Warehouse (DW) handelt es sich um ein Datenbanksystem, indem alle Daten für OLAP-Anwendungen, eine multidimensionale Datenhaltung, gesammelt werden. Data Warehouse bildet die Basis für Business Intelligence (BI) Systeme.
Definition
Data Warehouse beschreibt ein Konzept der dispositiven Datensammlung, das logische, konsistente und historische Daten zusammenstellt. Diese wird für die Entscheidungsunterstützung des Managements innerhalb eines Unternehmens verwendet. Sie beinhaltet historische Daten in einer oft aggregierte Form, die periodisch upgedatet werden. Die Data Warehouse hat eine Analyse der Geschäftsdaten zum Ziel. Die Datenbankgröße geht bis zu 1TB, das heißt im Umkehrschluss, dass aufgrund dieser Datenverdichtung die Antwortzeiten im Vergleich zu OLTP-Anwendungen lang sind. Es herrscht ein dynamischer Datenzugriff bei wechselnden Fragestellungen für das Management.
Idealtypische Merkmale eines Data Warehouses
Es gibt vier wichtige Merkmale der Data Warehouse Datenbank, die im folgenden erläutert werden:
- subject-oriented
Fachorientierung bedeutet, dass das System nur für das Anwendungsziel relevante Daten erhält.
- integrated
Hier handelt es sich um Integrierte Datenbasis, die von unterschiedlichen Datenquellen verarbeitet werden können.
- non-volatile
Bei Data Warehouse werden Daten nicht mehr entfernt oder geändert, es ist also eine nicht-flüchtige Datenbasis.
- time variant
Historische Daten werden über einen längeren Zeitraum gespeichert, welches einen Vergleich der Daten ermöglicht.
Architektur der Data Warehouse
Die Architektur der Data Warehouse hängt mit dem Aufbau der Anwenderorganisation zusammen. Somit kann sie als zentrale oder verteilte Datenbasis oder sogar als eine Mischform aus beiden implementiert werden. Mittlerweile hat sich das Sternschema für die Data Warehouse Anwendung durchgesetzt. Das Star Schema besteht aus einer Faktentabelle und mehrere Dimensionstabellen. In der Faktentabelle sind betriebswirtschaftliche Kennzahlen enthalten und bei Dimensionstabellen werden diesen Kennzahlen von verschiedene Perspektiven beobachtet. Die Dimensionstabellen sind mit Hilfs-IDs, oder auch Primärschlüssel genannt, mit Faktentabelle verknüpft.
Komponente und Datenflüsse in Data Warehouse
Welche Schritte Data Warehouse durchläuft bzw. welche Komponenten es gibt, verdeutlicht sich in der folgenden Abbildung:
Operative Vorsysteme: diesie stellen durch Erstellung und Verwaltung von Daten die Basisdaten bereit und bilden damit Grundlage des BI-Umfeld. Hierdurch leisten sie Hilfestellungen bei alltäglichen Aufgaben der Mitarbeiter.
ETL (Extraktion, Transformation, Laden): ein Prozess, den die Daten durchlaufen, um in Data Warehouse abgelegt werden zu können: Extraktion der Daten, Transformieren durch Filterung, Harmonisierung, Aggregation und Anreicherung: Die Daten werden für die Speicherung vereinheitlicht. Anschließend werden die gefilterte und vorbereitete Daten in DW gespeichert.
Data Warehouses: Intergrieren die Daten aus verschiedene Datenquellen und stellen diese miteinander in Bezug.
Data Mart: sie sind eine Kopie von isolierte Teilsegmente der DW, durch Auswahl kleinerer Mengen ist die Data Mart Leistungsfähiger als die komplette DW.
ODS (Operational Data Store): operative Daten zu Analysezwecken, welche detaillierter und aktueller sind. Es ist kein Bestandteil der DW aber stark mit ihr verzahnt.
Metadatenverwaltung: Metadaten haben technische Informationen zur Daten und können deren Aufbau beschreiben. Dadurch werden Suchen und eine Auswertung durch Kategorisierung vereinfacht.
Fazit
Abschließend lässt sich feststellen, dass mithilfe von zwei Datenbanksysteme OLTP und OLAP die benötigten Daten per ETL in DW gespeichert werden. Das beliebte Schema ist das Sternschema, da Datenduplikationen im Gegenteil zum Schneeflockenschema vermieden werden. In Data Mart werden einen Teilabschnitt aus DW kopiert und bearbeitet. Aufgrund der niedrigen Datenvolumen ist Data Mart performanter als DW. Anschließend kann die DW durch Metadaten oder auch Endbenutzerwerkzeuge benutzt werden.