Was Daten-Sampling wirklich bedeutet
Wenn GA4 alle Daten nicht innerhalb seiner Leistungsgrenzen verarbeiten kann, nimmt es eine Teilmenge von Ereignissen und extrapoliert. Wenn Ihr Explorations-Bericht auf 30 % Ihrer Daten basiert, multipliziert GA4 die Ergebnisse mit etwa 3,3, um die angezeigten Zahlen zu erzeugen. Der Bericht wirkt vollständig. Nichts deutet darauf hin, dass es sich um eine Schätzung handelt, es sei denn, Sie wissen, wo Sie nachschauen müssen.
Das ist kein Bug. Es ist ein bewusster Engineering-Kompromiss. Die Verarbeitung von 100 % der Ereignisse für jede benutzerdefinierte Abfrage auf jeder Google Analytics-Property gleichzeitig wäre bei Googles Maßstab unverhältnismäßig teuer. Sampling ist der Grund, warum Google Analytics kostenlos bleibt.
Sampling ist einer der Hauptmechanismen, die Daten verzerren, bevor sie Ihr Dashboard erreichen. Weitere sind Schwellenwerte, Verhaltensmodellierung und einwilligungsbedingte Datenverluste.
Wann Sampling in Google Analytics ausgelöst wird
Sampling betrifft nicht alle Berichte gleich. Standard-Berichte (Akquisition, Engagement, Monetarisierung) sind standardmäßig nicht gesampelt. Das Problem konzentriert sich auf Explorations-Berichte, die benutzerdefinierten Analysen, die die meisten Teams für ernsthafte Entscheidungen nutzen.
Google Analytics beginnt mit dem Sampling von Explorations-Berichten, wenn eine Abfrage 10 Millionen Ereignisse im gewählten Datumsbereich überschreitet. Dieser Schwellenwert ist leichter zu erreichen als er klingt:
- Eine Website mit 5.000 täglichen Besuchern, die 10 Ereignisse pro Sitzung erzeugt, erreicht 50.000 Ereignisse pro Tag. Eine 6-Monats-Analyse überschreitet 9 Millionen Ereignisse.
- Das Hinzufügen einer zweiten Dimension (wie Gerät + Land) vervielfacht die Kardinalität und kann Sampling auch unterhalb des Rohdaten-Schwellenwerts auslösen.
- Die Anwendung von Segmenten oder Filtern auf bereits große Datensätze garantiert fast immer Sampling.
Der Indikator ist ein gelbes Schild-Symbol in der oberen rechten Ecke der Explorations-Oberfläche. Es zeigt den tatsächlich verwendeten Datenprozentsatz. Ein Bericht mit „60 % Daten" bedeutet, dass 40 % Ihrer Ereignisse nicht in die Berechnung eingeflossen sind.
Das Schwellenwert-Problem: Daten, die einfach verschwinden
Sampling erzeugt Schätzungen. Schwellenwerte erzeugen Stille.
Google Analytics wendet einen Datenschutz-Schwellenwert an, der Zeilen aus Berichten entfernt, wenn ein Segment weniger als eine bestimmte Anzahl von Nutzern enthält (typischerweise etwa 50, obwohl Google die genaue Zahl nicht veröffentlicht). Das schützt die Privatsphäre des Einzelnen, erzeugt aber Datenlücken, die leicht zu übersehen sind.
Praktische Beispiele, was verschwindet:
- Conversions aus einer bestimmten Stadt in einem Traffic-schwachen Land
- Verhalten von Nutzern auf einem Nischen-Gerätetyp
- Traffic aus einer Kampagne, die unterdurchschnittlich abschnitt und nur 30 Besucher sendete
- Jede Segmentaufschlüsselung auf einer kleinen Website (unter ~10.000 monatlichen Sitzungen)
Die Zeile wird nicht als null angezeigt. Sie ist schlicht nicht vorhanden. Wenn Sie nicht wissen, danach zu suchen, werden Sie die Lücke nicht bemerken.
Verhaltensmodellierung: Wenn Google Analytics fehlende Daten mit KI-Vorhersagen auffüllt
Seit iOS 14 und dem Rückgang von Drittanbieter-Cookies die beobachtbaren Daten reduziert haben, führte Google die Verhaltensmodellierung in GA4 ein. Wenn echte Daten fehlen (weil ein Nutzer das Tracking abgelehnt hat, einen Einwilligungsbanner abgewiesen hat oder einen datenschutzorientierten Browser verwendet), nutzt GA4 maschinelles Lernen, um zu schätzen, was dieser Nutzer wahrscheinlich getan hat.
Das betrifft Conversion-Zählungen, Sitzungszuordnung und Zielgruppengrößen. Google beschreibt das als Verbesserung der Genauigkeit, aber die Konsequenz ist, dass ein Teil dessen, was Sie in GA4-Berichten sehen, nie tatsächlich beobachtet wurde. Es wurde vorhergesagt.
Google legt nicht offen, welche Zeilen in einem Bericht modelliert versus gemessen wurden. Es gibt keine Möglichkeit, von der GA4-Oberfläche aus zu erkennen, wie viel einer bestimmten Metrik echte Daten und wie viel ML-Schätzungen sind.
Rückwirkende Datenänderungen: Warum die Zahlen des letzten Monats nicht feststehen
Google Analytics kann historische Daten nachträglich aktualisieren. Attributionsmodelle werden neu berechnet, wenn neue Sitzungen eingehen. Spam-Filter-Updates entfernen Ereignisse rückwirkend. Modell-Updates gewichten historische Vorhersagen neu.
Das Ergebnis ist, dass ein Bericht, den Sie im Januar ausgeführt haben, und derselbe Bericht, den Sie im März ausführen, unterschiedliche Zahlen für denselben Zeitraum zeigen können. Teams, die Daten für monatliche Berichte exportieren und Monat-über-Monat vergleichen, entdecken manchmal, dass die Basislinie verschoben wurde.
Das ist nicht einzigartig für GA4, aber wegen der Modellierungsschicht ausgeprägter. Ein Tool, das Rohereignisse speichert, hat dieses Problem nicht: Das Ereignis ist entweder passiert oder nicht.
Was das für auf Google Analytics-Daten basierende Entscheidungen bedeutet
Wie Sie prüfen, ob ein GA4-Bericht gesampelt ist
In Explorations-Berichten suchen Sie nach dem Schild-Symbol in der oberen rechten Ecke. Grün bedeutet nicht gesampelt. Gelb oder rot bedeutet, der Bericht basiert auf Teildaten, mit dem Prozentsatz beim Hovern.
Für Standard-Berichte ist Sampling weniger häufig, aber Schwellenwerte gelten weiterhin. Wenn Sie eine Zeile mit „(other)" sehen, die viele Werte aggregiert, kollabiert Google Analytics Traffic-schwache Zeilen, um innerhalb der Reporting-Grenzen zu bleiben.
Es gibt keinen entsprechenden Indikator für Verhaltensmodellierung. Sie können von der Oberfläche nicht erkennen, ob eine Metrik ML-geschätzte Werte enthält.
GA4 360 und BigQuery: Die Workarounds
GA4 360 hebt den Sampling-Schwellenwert erheblich an und bietet ungesampelte Bericht-Exporte. Es kostet etwa 150.000 Euro pro Jahr und richtet sich an Enterprise-Accounts.
BigQuery-Export (kostenlos für alle GA4-Properties) bietet Zugang zu rohen, ungesampelten Ereignisdaten, die Sie mit SQL abfragen können. Das löst das Sampling-Problem, erfordert aber ein Data-Engineering-Setup, und Schwellenwerte gelten weiterhin, wenn Sie Ergebnisse in der GA4-Oberfläche anzeigen.
Keine Option ist für das typische Marketing- oder Produktteam zugänglich, das Analysen direkt in GA4 durchführt.
Ein anderer Ansatz: Analytics auf Rohdaten aufgebaut
Einige Analytics-Tools sind so aufgebaut, dass sie dieses Problem vollständig vermeiden. Sublim zum Beispiel speichert jedes Ereignis als Rohdatensatz in ClickHouse, einer spaltenorientierten Datenbank für analytische Abfragen bei hohem Volumen. Jeder Bericht läuft gegen 100 % der Daten: Standard-Traffic-Übersichten und benutzerdefinierte Trichter nach Gerät und Land gleichermaßen. Es gibt keine ML-Schicht, die Lücken füllt, kein Schwellenwert, der kleine Segmente entfernt, und keine rückwirkenden Modell-Updates, die historische Zahlen ändern. Was Sie sehen, wurde tatsächlich gemessen.
| Google Analytics 4 Vergleich ansehen → |
Sublim Analytics Kostenlos testen → |
|
|---|---|---|
| Daten-Sampling | Ja (Explorations-Berichte) | Nein |
| Datenschutz-Schwellenwerte | Ja | Nein |
| Verhaltensmodellierung | Ja (undurchsichtig) | Nein |
| Stabile historische Daten | Nein | Ja |
| Zugang zu Rohereignissen | Nur BigQuery | Alle Pläne |
Fazit
GA4 lügt Sie nicht absichtlich an. Es macht Engineering-Kompromisse, die bei Googles Maßstab vernünftig sind, aber reale Konsequenzen für die Genauigkeit dessen haben, was Sie sehen. Sampling führt zu Schätzungsfehlern. Schwellenwerte entfernen kleine, aber reale Segmente. Verhaltensmodellierung füllt Lücken mit Vorhersagen. Rückwirkende Änderungen bedeuten, dass Ihre historischen Daten nicht eingefroren sind.
Nichts davon macht GA4 nutzlos. Standard-Berichte auf Traffic-starken Properties sind weitgehend zuverlässig. Das Problem ist, dass die Analysen, die am meisten zählen – die, bei denen Sie nach Segment, Kanal, Gerät und Zeit aufschlüsseln –, genau die Analysen sind, die am ehesten betroffen sind.
Wenn Sie Entscheidungen auf Basis von GA4-Explorations-Berichten treffen, ohne den Sampling-Indikator zu prüfen, optimieren Sie möglicherweise auf Basis von Schätzungen statt Messungen. Der erste Schritt ist zu wissen, wann Sie nachschauen müssen.
Wenn Sie erwägen, zu einem Tool zu wechseln, das diese Probleme konstruktionsbedingt vermeidet, lesen Sie unsere Übersicht der besten Google Analytics Alternativen 2026.

