Data architecture is a subset of enterprise architecture.
Enterprise architecture is the design of systems to support change in the enterprise, achieved by flexible and reversible decisions reached through careful evaluation of trade-offs.
Data architecture is the design of systems to support the evolving data needs of an enterprise, achieved by flexible and reversible decisions reached through a careful evaluation of trade-offs.
Jeff Bezos is credited with the idea of Einweg- und Zweiwegtüren.
Einwegtür: Beschreibt eine Entscheidung, die fast unmöglich rückgängig zu machen ist, wie Amazon die Verwendung von DynamoDB für eine neue Microservices-Datenbank vorschreiben könnte.
Zweiwegtür: Beschreibt eine Entscheidung, die in beide Richtungen geht und leichter umkehrbar ist, wie Amazon die Verwendung von DynamoDB für eine neue Microservices-Datenbank vorschreiben könnte, falls die Politik nicht funktioniert.
Der Workflow in einer event-driven architecture lässt sich in drei Hauptbereiche unterteilen: Erzeugung, Weiterleitung und Verbrauch von Ereignissen.
Mehrere Benutzer können auf dieselben Ereignisse zugreifen, was ein Vorteil von Ereignisgesteuerten Architekturen ist.
Ereignisgesteuerte Architektur umfasst den ereignisgesteuerten Arbeitsablauf und nutzt diesen zur Kommunikation zwischen verschiedenen Diensten.
Die Verträge zwischen den Komponenten in einem event-driven workflow sind peer-to-peer und nicht zentralisiert.
Geringeres Ausfallrisiko durch Verteilung ist ein Vorteil von Ereignisgesteuerten Architekturen.
In einer event-driven architecture, werden Ereignisse zwischen loosely coupled services über verschiedene Teile des Data-Engineering-Lebenszyklus verschoben.
Die Fähigkeit, die Entwicklung zu unterstützen und Workloads effektiv zu betreiben, Einblicke in ihre Abläufe zu gewinnen und unterstützende Prozesse und Verfahren kontinuierlich zu verbessern, um einen geschäftlichen Nutzen zu erzielen, ist die Säule Operational Excellence.
Das Datenfluss-Modell und Unified Batch und Streaming
Oracle − Structured Query Language (SQL) − Data Stream Management System (DSMS) − Zugang zu Datenströmen wie Sensordaten usw
Apache Kafka − Continuous Query Language (CQL) Management SystemeLambda Architektur
DSMS − Database Management System (DBMS) − Zugang zu Datenbanken − Persistente Daten (Beziehungen) − Zufälliger Zugriff − Eindeutige Anfragen − Unbegrenzter Sekundärspeicher (theoretisch) − Nur der aktuelle Stand ist relevant − Relativ niedrige Aktualisierungsraten − Keine oder geringe Zeitanforderungen − Genaue Daten werden akzeptiert − Planung von Anfragen möglich
Kappa architecture (Jia, 2020)
Lambda architecture (Reis & Housley, 2022)
Kappa architecture (Reis & Housley, 2022)
Die Säule "Sicherheit" beschreibt, wie Sie die Vorteile von Cloud-Technologien nutzen können, um Daten, Systeme und Anlagen so zu schützen, dass Ihre Sicherheitslage verbessert wird.
Google BigQuery, Snowflake und andere Konkurrenten haben die Idee der Trennung von Datenverarbeitung und -speicherung populär gemacht und bieten die Möglichkeit, die Rechenleistung nach Bedarf hochzufahren und so Ad-hoc-Big-Data-Funktionen ohne die langfristigen Kosten für Tausende von Knoten bereitzustellen.
Ziele von Data Stacks sind die Reduktion von Komplexität, die Erhöhung von Modularität, die Verwendung von Cloud-basierten, einfach zu verwendenden Plug-and-Play-Komponenten und die Kombinierbarkeit mit DWHs oder Data Lakes.
Amazon Redshift gab den Startschuss für die Cloud-Data-Warehouse-Revolution und ermöglichte es Unternehmen, einen Redshift-Cluster nach Bedarf aufzusetzen und ihn im Laufe der Zeit zu skalieren, wenn der Daten- und Analysebedarf stieg.
Ein Data Stack erlaubt die Verwendung von Cloud-basierten, einfach zu verwendenden Plug-and-Play-Komponenten „von der Stange“, um eine modulare und kostengünstige Datenarchitektur zu schaffen (dazu gehören Datenpipelines, Speicherung, Umwandlung, Datenverwaltung/Governance, Überwachung, Visualisierung und Exploration).
Basic components of the modern data stack sind die Datenbank, der Datenbank Management System (DBMS) / Data Stream Management System (DSMS), der Datenspeicherung und der Data Stack.
Datalake ist eine Art Data Lakehouse, der Cloud Data Warehouse ist eine Weiterentwicklung der On-Premises Data Warehouse-Architektur und ermöglicht Massive Parallel Processing (MPP) für Big-Data-Anwendungsfälle, für die früher Hadoop-Cluster erforderlich waren.
Die Säule Zuverlässigkeit umfasst die Fähigkeit eines Workloads, seine beabsichtigte Funktion korrekt und konsistent auszuführen, wenn dies erwartet wird.
Eignen sich für Prototypen und Entwicklung, aber nicht für Produktionsumgebungen.
Eine Domäne kann mehrere Dienste (Services) enthalten.