3 1 3 Data Warehouse

Cards (65)

  • Data Warehouse
    zentrale Datenquelle für BI-Analysen und Berichterstattung.
    • Ein Data Warehouse ist eine spezialisierte Datenbank, die darauf ausgelegt ist, große Mengen an Daten aus verschiedenen Quellen zu sammeln, zu integrieren und zu speichern, um umfassende und konsistente Analysen zu ermöglichen.
  • Data Warehouse
    alle entscheidungsrelevante Daten werden zusammengeführt
    • unternehmensinterne und externe Daten
  • Data Warehouse Herausforderung
    heterogene Datenbestände einheitlich d.h. homogen zur Verfügung zu stellen
    • erfordert ETL Prozesseb, welche aufwändig sind zu pflegen und zu implementieren
  • Data Warehouse nach Immon vier Dimensionen
    Subjektorientierung,
    Integration,
    • Zeitraumbezug sowie
    Nicht-Volatilität.
  • Subjektorientierung
    Ausrichtung an den Informationsbedürfnissen der Entscheidungsträger in Bezug auf Analysen, Berichte
    • Durch
    • dieses Konzept sollen Entscheidungsträger in der Lage sein, Informationen für ihre relevanten Kerngebiete recherchieren zu können
  • Subjektorientierung Kerngebiete
    Unternehmensstruktur (Geschäftsbereiche, Organisationsbereiche,
    rechtliche Einheiten usw.),
    • Produktstruktur (Produktgruppen, Produkte usw.),
    Regionalstruktur (Länder, Gebiete, Bezirke, Filialen usw.),
    Kundenstruktur (Kundensegmente, Kunden usw.),
    • Zeitstruktur (Quartale, Monate, zu denen meist Informationen wie be￾triebswirtschaftliche Kennzahlen, z. B. Umsätze, Deckungsbeiträge,
    Gewinn und deren Ausprägungen, Plan-, Ist-Werte, Abweichungen,
    zugeordnet werden)
  • Gewöhnlich orientiert sich die Datenhaltung operativer Systeme in Unternehmen an der unmittelbaren Durchführung des Wertschöpfungsprozesses.
  • Integration
    Zusammenführen entscheidungsrelevanter Daten
    • werden unterschiedliche operative und externe Quellen zu einer inhaltlich widerspruchsfreien Datensammlung zusammengefügt.
    • In der Realität ist diese Aufgabe zumeist sehr komplex, da die historisch gewachsenen operativen Systeme mit den ihnen zugrundeliegenden Datenhaltungssystemen häufig Datenredundanzen, Inkonsistenzen und semantische Widersprüche aufweisen.
  • Zeitraumbezug
    Speicherung in Bezug auf Zeit statt transaktionierte Speicherung
    • Zeitraum ein Tag, Monat Woche
    • verliert an Bedeutung, da es heute aufgrund von Verbesserungen im Preis-/Leistungsverhältnis bei Verarbeitungs- und Speicherkapazitäten gängig ist, die Daten im Data-Warehouse ebenfalls auf der Ebene der Transaktionen abzulegen.
  • Nicht Volatilität
    die integrierten Daten dauerhaft gespeichert
    und stehen damit auch für künftige betriebswirtschaftliche Analysen zur Verfügung.
  • Daten in operativen Systemen zeichnen sich durch kontinuierliche Veränderungen aus.
    • Sie repräsentieren jeweils den aktuellen Zustand innerhalb
    eines Geschäftsprozesses.
    • Eine Historie der Daten wird normalerwiese nicht gespeichert. Nur aus Recovery-Gründen (z. B. für das Wiederaufsetzen der Datenbank nach technischen Defekten) erfolgt meist eine Datensi￾cherung und -speicherung über einen begrenzten Zeitraum.
  • ETL
    Extract Transform Load
  • ETL
    Das Data-Warehouse-Konzept beinhaltet einen sogenannten ETL-Prozess(Extract Transform Load), innerhalb dessen die komplexe semantische Integration der Quelldaten zu einer inhaltlich widerspruchsfreien Datensammlung mit Hilfe von Transformationsregeln sichergestellt wird.
  • ETL Prozess
    Grundsätzlich umfasst der Transformationsprozess alle Aktivitäten zur Umwandlung der operativen Daten in betriebswirtschaftlich interpretierbare Daten und besteht aus den Teilprozessen Filterung, Harmonisierung, Aggregation und Anreicherung
  • Filterung ETL Prozess
    Der erste Schritt der Transformation ist die Filterung. Durch die Filterung
    werden die für das Data-Warehouse benötigten Daten, deren Ursprung heterogene unternehmensinterne und -externe Quellen sind, selektiert, zwischengespeichert und von Mängeln befreit. Insofern unterteilt sich die Filterung in die beiden Phasen Extraktion und Bereinigung.
  • Extraktion Filterung
    werden die unternehmensexternen und insbesondere die
    operativen unternehmensinternen Daten in speziell hierfür vorgesehene Extraktionsbereiche (Staging areas) des Data-Warehouse eingestellt.
  • Bereinigung
    werden die extrahierten Daten von syntaktischen und semantischen Fehlern befreit
  • synatktische Fehler
    formelle Mängel der code-technischen Darstellung.
  • semantische Fehler
    sind Fehler in den betriebswirtschaftlichen Inhalten der Daten.
  • Harmonisierung
    liefert die Harmonisierung bereits dispositiv ver￾wendbare Daten, die sich auf der detailliertesten Stufe betriebswirtschaftlich
    sinnvoller Interpretation befinden
  • Harmonisierung Hauptaufgabe
    Die Zusammenführung der gefilterten Daten
  • Harmonisierung Kernherausforderung
    Vielmehr ist die syntaktische und betriebswirtschaftliche Abgleichung der gefilterten Datenbestände zur Vorbereitung der physischen Integration
  • Transformationsregeln
    Die operativen und externen Datenbestände sind häufig durch eine hohe Heterogenität geprägt
    üssen die operativen Daten vereinheitlicht, also syntaktisch angeglichen
    werden. Durch Transformationsregeln erfolgt eine Bereinigung von Schlüsseldisharmonien in den Extrakten, die Behebung von Problemen mit unterschiedlich kodierten Daten sowie von Schwierigkeiten bei der Verwendung von Synonymen und Homonymen
  • Schlüsseldisharmonien
    basieren auf Unverträglichkeiten der Primärschlüssel in den extrahierten und bereinigten Daten und entstehen
    durch die Verwendung unterschiedlicher Zugriffsschlüssel in der
    operativen Datenhaltung
    • müssen eleminiert werden um die gewünschten
    • Auswertungen durchführen zu können
  • Bei der Harmonisierung wird
    eine Zuordnungstabelle (mapping table) erstellt, die bspw. für jeden
    Kunden einen neuen Primärschlüssel generiert. Die Primärschlüssel
    der operativen Systeme werden als Fremdschlüssel mitgeführt, so
    dass übergreifende Auswertungen möglich sind
  • bei unterschiedliche kodierte Daten
    liegen identische Attributnamen
    mit einer identischen Bedeutung vor, die jedoch unterschiedliche Domänen bzw. Wertebereiche aufweisen
    Die Problemlösung erfolgt durch eine eindeutige Wahl einer Domäne
    und der Verwendung entsprechender Zuordnungs- bzw. Mapping Tabellen
  • Synonym
    haben die Attribute zwar unterschiedliche Namen,
    weisen jedoch dieselbe Bedeutung und dieselbe Domäne auf. Die
    Differenzbehebung erfolgt durch eine Neufestlegung der Attributbezeichnung und eine Überführung der anderen Attributbezeichnungen entsprechend der Neufestlegung
  • Hononym
    weisen hingegen denselben Attributnamen auf, besitzen
    jedoch unterschiedliche Bedeutungen. Vor diesem Hintergrund muss
    über neu zu vergebende Attributnamen eine Unterscheidung herbeigeführt werden
  • betriebswirtschaftliche Harmonisierung
    operative Daten in managementorientierte Daten zu überführen. erfolgen eine Abgleichung der betriebswirtschaftlichen Kennziffern und eine Festlegung der gewünschten Granularität
    der dispositiven Daten
  • Nach Durchführung von Transformation, Filterung und Harmonisierung liegen im Data-Warehouse bereinigte und konsistente Daten auf der gewünschten Granularitätsebene vor. Diese Daten können alsdann für Informationssysteme direkt nutzbar gemacht werden.
  • Aggregation
    werden die gefilterten und harmonisierten Daten um Verdichtungsstrukturen erweitert.
    werden diverse Dimensionshierarchietabellen entwickelt, die antizipierbare Auswertungsvarianten ermöglichen
    Parallele Hierarchien entstehen, wenn die Granularwerte einer Dimension nach verschiedenen Kriterien hierarchisiert werde
  • Grundsätzlich können Dimensionshierarchien im Zeitverlauf modifiziert, gelöscht oder neu angelegt werden. Die Anpassungen werden notwendig,
    wenn es bspw. Veränderungen der personellen Zuständigkeiten, Zusammenfassungen bzw. Entflechtungen von Teilmärkten oder Sortimentsumstrukturierungen in Unternehmen gib
  • Anreichung
    betriebswirtschaftliche Kennzahlen berechnet
    und in die Datenbasis integriert. Dabei werden Werte auf Basis der zweiten Schicht (harmonisierte Daten der gewünschten Granularität) als auch auf Grundlage der dritten Schicht (bereits aggregierte Zusammenfassungstabellen) berechnet und selbst als Attribute gespeichert
  • Anreichung Beispiel
    Beispiele sind die Berechnung wöchentlicher Deckungsbeiträge auf Produktebene (zweite Schicht) und jährlicher Deckungsbeiträge auf Filialebene (dritte Schicht).
  • Anreicherung praktische Vorteile
    ein kalkulierbares Antwortzeitverhalten bei späteren Abfragen aufgrund der Vorausberechnung, eine Konsistenz der kalkulierten Werte durch einmalige Berechnung und die Etablierung eines abgestimmten betriebswirtschaftlichen Instrumentariums
  • ODS Operational Data Store

    ist eine Art von Datenbank oder Datenspeicher, der dazu dient, operativ relevante Daten aus verschiedenen Quellen zu sammeln, zu integrieren und vorübergehend zu speichern, bevor sie in ein Data Warehouse oder andere analytische Systeme übertragen werden. Der ODS fungiert als Zwischenspeicher für Daten, die für laufende Geschäftsprozesse und tägliche Transaktionen von Bedeutung sind
  • ODS
    um einen harmonisierten Datenpool
  • ODS Detailgrad

    entspricht dem der transaktionsorientierten Systeme, hat gegenüber diesen jedoch den Vorteil, dass die Daten in der Analyseumgebung zur Verfügung stehen.
    So verbindet ein Operational Data Store den Bereich der operativen Transaktionssysteme mit der entscheidungsorientierten Systemlandschaft, um im Tagesgeschäft operative und
    taktische Entscheidungen zu unterstützen bzw. neue, transaktionsorientierte Analysedienste anbieten zu können.
  • Ein ODS kann als eigenständige
    Komponente betrachtet werden und gehört zu den essenziellen Komponenten moderner Datenhaltungskonzepte
  • Aufgrund der hohen Detaillierung der im ODS abgelegten Daten ermöglicht ein ODS eine konsistente Datendarstellung der betrieblichen Wertschöpfungsprozesse. Die Datenbereitstellung ist nicht nur für die Entscheidungsunterstützung des Managements, sondern auch für die Durchführung von Aktivitäten der Geschäftsprozessabwicklung relevant. ODS ermöglichen dem Management einen ganzheitlichen Blick auf die Geschäftsprozesse auf detaillierter Datenebene