Datawarehouse - Globale und historisierte Datenhaltung

Erweiterbares Lagerhaus für Unternehmensdaten

Als Basis für unterschiedliche Anwendungen im Bereich MIS und Controlling stellt ein Datawarehouse die Daten aus unterschiedlichsten Systemen als nutzbare Informationen bereit.

In einem Unternehmen entstehen naturgemäss Unmengen von (elektronischen) Daten während der Abwicklung der Geschäftsprozesse. Die Entwicklung der Daten über Informationen zu Wissen ist Teil des Knowledge Managements.

Dieses Knowledge Management als Service für die Entscheidungsträger stellt auch das Kernproblem jedes Datawarehouses dar: Die performante Bereitstellung der relevanten Daten in einer integrierten, dauerhaften Art und Weise.

In einer klassischen Datenbankanwendung (RDBMS) werden die Daten in einer normalisierten, das bedeutet redundanzfreien Datenstruktur gehalten. Aus dieser Struktur können alle gewünschten Informationen herausgesucht bzw. durch Verknüpfung von mehreren Tabellen (so genannte «Joins») benutzergerecht zusammengestellt werden. Das Verknüpfen der Informationen ist jedoch eine rechen- und zeitintensive Aktion, insbesondere da typische Abfragen in einem Datawarehouse Daten von vielen verschiedenen, und eventuell recht grossen Tabellen benötigen.

Dieses Problem wird gelöst durch die Speicherung bereits vorausberechneter Verknüpfungen der relevanten Daten in typischerweise sehr grossen Tabellen, den sogenannten Fact-Tabellen (Fakten). Diese Fact-Tabellen sind nicht normalisiert, das heisst sie weisen bewusst Redundanzen auf. Auf die Fact-Tabellen können erweiternde Kriterien, die so genannten Dimensionen, angewendet werden. Diese Datenstruktur wird auch «Star-Schema» genannt.

Beispielsweise können in einem Datawarehouse eines Versandhauses folgende Tabellen vorhanden sein:

  • Vornamen, Namen, Postadresse, letzte Bestellung mit Datum und Umsatz in CHF aller Kunden per 31.12.2004
  • Übersicht aller Bestellungen des Jahres 2005 mit Bestelldatum, Umsatz in CHF, Anzahl der Artikel
  • Lagerbestand aller Sportartikel pro Quartal 2004
  • Lagerbestand aller Haushaltartikel pro Quartal 2004
  • Einzelbilder aller Produkte im Sortiment per 2004
  • Personaldaten mit Lohnzahlen per 31.12.2004
Diese vordefinierten Tabellen weisen grosse Redundanzen auf und stellen aber so genannte «Snapshots» der produktiven Daten zu einem bestimmten Zeitpunkt dar. Die Daten werden vom Management oder dem Controlling für verschiedene Analysen aufbereitet und ermöglichen so beispielsweise entsprechende Marketing-Kampagnen oder die effektivere Lagerhaltung von oft bestellten Artikeln.

Eine weitere intensive Nutzungsmöglichkeit des Datawarehouses im Sinne eines MIS stellt die IT-Umsetzung einer Balanced Scorecard dar.

Datawarehouse-Modell
Ein Datawarehouse wird mittels aufwändiger Datenbeschaffungs-Prozessen erstellt und regelmässig aktualisiert. Die Datenbeschaffung wird dabei unterstützt durch eine sogenannte «ETL-Schicht», diese ETL-Schicht beschafft die Daten von verschiedenen Systemen, transformiert diese in das für das DWH gebräuchliche Format und lädt die Daten in die DWH-Tabellen (ETL = Extract, Transform, Load).

Die Transformation wird häufig durch die EAI-Plattform übernommen, die Enterprise Application Integration-Plattform kann Daten zwischen beliebigen Formaten konvertieren. Datenquellen welche bei einem DWH häufig im Spiel sind:
  • ERP-System, das unternehmensweite System für die Ressourcenverwaltung (Finanzen, Personal, Material). ERP-Systeme werden auch als OLTP-Systeme (Online Transaction Processing) bezeichnet.
  • CRM-System, das unternehmensweite System für die Verwaltung der Kundendaten und zur Abbildung der Kundenbeziehungen
  • externe Daten, Datenfeeds von externen Anbietern, beispielsweise Bundesamt für Statistik, REUTERS, Telekurs usw. Diese Daten werden häufig für Benchmark-Reports verwendet

Die folgende Grafik veranschaulicht als Modell-Darstellung den Aufbau sowie die Aktualisierung eines Datawarehouses:

Datawarehouse mit ETL-Schicht

Die «OLAP-Würfel» in dieser Grafik stellen die verschiedenen OLAP-Engines dar, welche Teil des Management Information Systems eines Unternehmens sein können