Daten & Technologie

Data Warehouse: Definition, Architektur und Anwendungsfälle

Guillaume Sallé

Leiter Analytics-Content & Glossar

Aktualisiert am February 22, 2026

Kurzdefinition

Das Data Warehouse ist ein Speicher- und Analysesystem für strukturierte Daten, das für komplexe analytische Abfragen auf grossen Mengen historischer Daten aus mehreren Quellen optimiert ist. Das Data Warehouse zentralisiert die Daten der gesamten Organisation – Webanalytik, CRM, Finanzen, Produkt – und ermöglicht konsolidiertes Reporting, fortgeschrittene Analysen und Entscheidungen auf Basis einer einheitlichen Wahrheitsquelle.

Wie es funktioniert

Ein Data Warehouse unterscheidet sich grundlegend von einer transaktionalen Datenbank (OLTP): Während eine transaktionale Datenbank für schnelle Lese-/Schreiboperationen auf einzelnen Datensätzen optimiert ist, ist ein Data Warehouse für Aggregationen und Joins über Milliarden von Zeilen optimiert. Diese Leistung wird durch spaltenorientierte Speicherung (Columnar Storage) ermöglicht: Anstatt jede Zeile vollständig zusammen zu speichern, werden die Daten nach Spalten organisiert, sodass nur die für eine Abfrage benötigten Spalten gelesen und eine sehr effiziente Komprimierung angewendet werden kann. Die klassische Architektur eines Data Warehouses folgt dem Stern- oder Schneeflocken-Schema: eine zentrale Faktentabelle (z. B. Analytics-Ereignisse, Transaktionen) umgeben von Dimensionstabellen (Nutzer, Produkte, Daten, Kanäle). Moderne Cloud-Data-Warehouses umfassen Google BigQuery, Amazon Redshift, Snowflake, Databricks SQL und ClickHouse (Open Source, sehr leistungsfähig für Echtzeit-Analytics-Daten). In einem SaaS-Datenökosystem zentralisiert das Data Warehouse die Daten aus dem Analytics-Tool (Sublim), dem CRM (Salesforce), den Marketing-Tools (HubSpot, Klaviyo), den Finanzdaten (Stripe) und den Produktereignissen und ermöglicht so Kohorten-, Kanal-LTV-, Multi-Touch-Funnel- und Retentionsanalysen, die mit in jedem Tool isolierten Daten unmöglich wären. Datentransformationen im Warehouse werden in der Regel mit dbt (data build tool) orchestriert, das es ermöglicht, versionierte, getestete und dokumentierte SQL-Transformationen zu schreiben.

Warum es wichtig ist

Das Data Warehouse ist das Herzstück einer reifen, datengetriebenen Organisation. Es ermöglicht es, Silos zwischen Teams aufzubrechen, eine einheitliche Wahrheitsquelle zu schaffen und komplexe analytische Fragen zu beantworten, die mehrere Systeme umfassen. Ohne Data Warehouse arbeitet jedes Team mit seinen eigenen Teildaten, was zu Inkonsistenzen und schlecht informierten Entscheidungen führt. Mit einem gut konzipierten Warehouse verfügt die gesamte Organisation über eine einheitliche und zuverlässige Sicht auf ihre Kennzahlen.

Wie verbessern oder nutzen

Um das Beste aus Ihrem Data Warehouse herauszuholen, definieren Sie zunächst ein klares Datenmodell (Stern- oder Schneeflocken-Modellierung), bevor Sie Rohdaten importieren. Verwenden Sie dbt, um Ihre Transformationen zu strukturieren, zu testen und zu dokumentieren. Implementieren Sie einen Datenkatalog (DataHub, Atlan), damit Teams die verfügbaren Tabellen entdecken und verstehen können. Konfigurieren Sie Datenqualitäts-Alerts (Great Expectations, Monte Carlo), um Anomalien automatisch zu erkennen. Verwalten Sie Zugriffe nach Rollen, um sensible Daten zu schützen.

Mit Sublim

Sublim ermöglicht den Export Ihrer Analytics-Rohdaten in Ihr Data Warehouse über die REST-API und native Integrationen. Sobald Ihre Sublim-Daten in BigQuery oder Snowflake liegen, können sie mit Ihren CRM- und Finanzdaten verknüpft werden, um fortgeschrittene Kennzahlen wie LTV pro Akquisitionskanal, Conversion-Rate pro Kohorte oder den Einfluss jedes Inhalts auf den Umsatz zu berechnen – mit einer Granularität und Zuverlässigkeit, die kein eigenständiges Analytics-Tool bieten kann.

Häufig gestellte Fragen

Was ist der Unterschied zwischen einem Data Warehouse und einem Data Lake?

Ein Data Warehouse speichert strukturierte und nach einem definierten Schema transformierte Daten, optimiert für analytische SQL-Abfragen. Ein Data Lake speichert Rohdaten in ihrem ursprünglichen Format (JSON, CSV, Parquet, Bilder), strukturiert oder unstrukturiert, vor der Transformation. Data Lakehouses (Databricks, Delta Lake) kombinieren beide Ansätze, indem sie Data Lakes Struktur und ACID-Transaktionen hinzufügen.

BigQuery, Snowflake oder Redshift: Wie wählt man aus?

BigQuery (Google) ist ideal, wenn Sie bereits im Google-Cloud-Ökosystem tätig sind und für Ad-hoc-Abfragen auf sehr grossen Datenmengen (Abrechnung pro Abfrage). Snowflake ist bekannt für seine Multi-Cloud-Flexibilität, den Datenaustausch zwischen Organisationen und die Trennung von Compute und Storage. Redshift (AWS) ist optimal für ein konstantes Volumen vorhersehbarer Abfragen in einem AWS-Ökosystem. ClickHouse wird für Echtzeit-Analytics mit sehr hoher Frequenz bevorzugt.

Ist ein Data Warehouse für ein Startup notwendig?

Für ein Early-Stage-Startup reichen eigenständige Analytics-Tools aus. Sobald das Team mehr als 10 Personen umfasst und der Bedarf an Cross-Tool-Analysen wächst, wird ein Data Warehouse relevant. Beginnen Sie mit BigQuery (kostenlos bis 1 TB Abfragen/Monat) und dbt Cloud, die ein hervorragendes Kosten-Nutzen-Verhältnis für wachsende Teams bieten.