GA4 Daten-Sampling: Sind Ihre Berichte korrekt?

Was Daten-Sampling wirklich bedeutet

Wenn GA4 alle Daten nicht innerhalb seiner Leistungsgrenzen verarbeiten kann, nimmt es eine Teilmenge von Ereignissen und extrapoliert. Wenn Ihr Explorations-Bericht auf 30 % Ihrer Daten basiert, multipliziert GA4 die Ergebnisse mit etwa 3,3, um die angezeigten Zahlen zu erzeugen. Der Bericht wirkt vollständig. Nichts deutet darauf hin, dass es sich um eine Schätzung handelt, es sei denn, Sie wissen, wo Sie nachschauen müssen.

Das ist kein Bug. Es ist ein bewusster Engineering-Kompromiss. Die Verarbeitung von 100 % der Ereignisse für jede benutzerdefinierte Abfrage auf jeder Google Analytics-Property gleichzeitig wäre bei Googles Maßstab unverhältnismäßig teuer. Sampling ist der Grund, warum Google Analytics kostenlos bleibt.

Sampling ist einer der Hauptmechanismen, die Daten verzerren, bevor sie Ihr Dashboard erreichen. Weitere sind Schwellenwerte, Verhaltensmodellierung und einwilligungsbedingte Datenverluste.

Die wichtigsten Datenverzerrungen in Google Analytics 4

Daten-Sampling

Explorations-Berichte verwenden eine Teilmenge von Ereignissen und extrapolieren. Zahlen sind Schätzungen.

Geschätzt

Datenschutz-Schwellenwerte

Segmente mit weniger als ~50 Nutzern werden stillschweigend aus Berichten entfernt.

Stille Lücken

Verhaltensmodellierung

Fehlende Daten werden mit ML-Vorhersagen aufgefüllt, ohne sichtbaren Hinweis.

KI-vorhergesagt

Rückwirkende Änderungen

Google Analytics kann historische Daten nach Modell-Updates überschreiben. Derselbe Zeitraum kann Monate später andere Zahlen anzeigen.

Instabile Historie

↗

Einwilligungs-Ablehnungen

Artikel lesen →

Wann Sampling in Google Analytics ausgelöst wird

Sampling betrifft nicht alle Berichte gleich. Standard-Berichte (Akquisition, Engagement, Monetarisierung) sind standardmäßig nicht gesampelt. Das Problem konzentriert sich auf Explorations-Berichte, die benutzerdefinierten Analysen, die die meisten Teams für ernsthafte Entscheidungen nutzen.

Google Analytics beginnt mit dem Sampling von Explorations-Berichten, wenn eine Abfrage 10 Millionen Ereignisse im gewählten Datumsbereich überschreitet. Dieser Schwellenwert ist leichter zu erreichen als er klingt:

Eine Website mit 5.000 täglichen Besuchern, die 10 Ereignisse pro Sitzung erzeugt, erreicht 50.000 Ereignisse pro Tag. Eine 6-Monats-Analyse überschreitet 9 Millionen Ereignisse.
Das Hinzufügen einer zweiten Dimension (wie Gerät + Land) vervielfacht die Kardinalität und kann Sampling auch unterhalb des Rohdaten-Schwellenwerts auslösen.
Die Anwendung von Segmenten oder Filtern auf bereits große Datensätze garantiert fast immer Sampling.

Der Indikator ist ein gelbes Schild-Symbol in der oberen rechten Ecke der Explorations-Oberfläche. Es zeigt den tatsächlich verwendeten Datenprozentsatz. Ein Bericht mit „60 % Daten" bedeutet, dass 40 % Ihrer Ereignisse nicht in die Berechnung eingeflossen sind.

Standard-Berichte

✓ Immer ohne Sampling

Akquisitionsübersicht

Engagement-Übersicht

Monetarisierung

Bindung

Echtzeit

Explorations-Berichte

⚠ Gesampelt ab 10 Mio. Ereignissen

Trichter-Exploration

Pfad-Exploration

Segment-Überschneidung

Freiform-Bericht

Nutzer-Explorer

Das Schwellenwert-Problem: Daten, die einfach verschwinden

Sampling erzeugt Schätzungen. Schwellenwerte erzeugen Stille.

Google Analytics wendet einen Datenschutz-Schwellenwert an, der Zeilen aus Berichten entfernt, wenn ein Segment weniger als eine bestimmte Anzahl von Nutzern enthält (typischerweise etwa 50, obwohl Google die genaue Zahl nicht veröffentlicht). Das schützt die Privatsphäre des Einzelnen, erzeugt aber Datenlücken, die leicht zu übersehen sind.

Praktische Beispiele, was verschwindet:

Conversions aus einer bestimmten Stadt in einem Traffic-schwachen Land
Verhalten von Nutzern auf einem Nischen-Gerätetyp
Traffic aus einer Kampagne, die unterdurchschnittlich abschnitt und nur 30 Besucher sendete
Jede Segmentaufschlüsselung auf einer kleinen Website (unter ~10.000 monatlichen Sitzungen)

Die Zeile wird nicht als null angezeigt. Sie ist schlicht nicht vorhanden. Wenn Sie nicht wissen, danach zu suchen, werden Sie die Lücke nicht bemerken.

Verhaltensmodellierung: Wenn Google Analytics fehlende Daten mit KI-Vorhersagen auffüllt

Seit iOS 14 und dem Rückgang von Drittanbieter-Cookies die beobachtbaren Daten reduziert haben, führte Google die Verhaltensmodellierung in GA4 ein. Wenn echte Daten fehlen (weil ein Nutzer das Tracking abgelehnt hat, einen Einwilligungsbanner abgewiesen hat oder einen datenschutzorientierten Browser verwendet), nutzt GA4 maschinelles Lernen, um zu schätzen, was dieser Nutzer wahrscheinlich getan hat.

Das betrifft Conversion-Zählungen, Sitzungszuordnung und Zielgruppengrößen. Google beschreibt das als Verbesserung der Genauigkeit, aber die Konsequenz ist, dass ein Teil dessen, was Sie in GA4-Berichten sehen, nie tatsächlich beobachtet wurde. Es wurde vorhergesagt.

Google legt nicht offen, welche Zeilen in einem Bericht modelliert versus gemessen wurden. Es gibt keine Möglichkeit, von der GA4-Oberfläche aus zu erkennen, wie viel einer bestimmten Metrik echte Daten und wie viel ML-Schätzungen sind.

Rückwirkende Datenänderungen: Warum die Zahlen des letzten Monats nicht feststehen

Google Analytics kann historische Daten nachträglich aktualisieren. Attributionsmodelle werden neu berechnet, wenn neue Sitzungen eingehen. Spam-Filter-Updates entfernen Ereignisse rückwirkend. Modell-Updates gewichten historische Vorhersagen neu.

Das Ergebnis ist, dass ein Bericht, den Sie im Januar ausgeführt haben, und derselbe Bericht, den Sie im März ausführen, unterschiedliche Zahlen für denselben Zeitraum zeigen können. Teams, die Daten für monatliche Berichte exportieren und Monat-über-Monat vergleichen, entdecken manchmal, dass die Basislinie verschoben wurde.

Das ist nicht einzigartig für GA4, aber wegen der Modellierungsschicht ausgeprägter. Ein Tool, das Rohereignisse speichert, hat dieses Problem nicht: Das Ereignis ist entweder passiert oder nicht.

Was das für auf Google Analytics-Daten basierende Entscheidungen bedeutet

1A/B-Tests: Wenn Ihre Conversion-Daten gesampelt sind, könnten Sie einen Gewinner auf Basis einer Schätzung erklären. Der Fehlerbereich durch Sampling verstärkt die statistische Unsicherheit, die Sie bereits durch kleine Stichprobengrößen haben.

2Budget-Allokation: Kanal-Attribution in einem gesampelten Bericht kann die relative Performance zwischen Quellen verschieben. Ein Kanal, der 20 % stärker als ein anderer aussieht, könnte tatsächlich im Rauschen des Sampling-Fehlers liegen.

3Trichter-Analyse: Schwellenwerte können ganze Segmente aus Trichter-Schritten entfernen und einen Absprung unsichtbar machen, der tatsächlich bei einer kleinen, aber bedeutsamen Zielgruppe stattfindet.

4Trend-Analyse: Rückwirkende Änderungen bedeuten, dass Trendlinien sich verschieben können, wenn Sie dieselben Daten später neu exportieren. Ein Monat, der wie ein Höhepunkt aussah, kann nach einem Modell-Update gewöhnlich werden.

Wie Sie prüfen, ob ein GA4-Bericht gesampelt ist

In Explorations-Berichten suchen Sie nach dem Schild-Symbol in der oberen rechten Ecke. Grün bedeutet nicht gesampelt. Gelb oder rot bedeutet, der Bericht basiert auf Teildaten, mit dem Prozentsatz beim Hovern.

Für Standard-Berichte ist Sampling weniger häufig, aber Schwellenwerte gelten weiterhin. Wenn Sie eine Zeile mit „(other)" sehen, die viele Werte aggregiert, kollabiert Google Analytics Traffic-schwache Zeilen, um innerhalb der Reporting-Grenzen zu bleiben.

Es gibt keinen entsprechenden Indikator für Verhaltensmodellierung. Sie können von der Oberfläche nicht erkennen, ob eine Metrik ML-geschätzte Werte enthält.

GA4 360 und BigQuery: Die Workarounds

GA4 360 hebt den Sampling-Schwellenwert erheblich an und bietet ungesampelte Bericht-Exporte. Es kostet etwa 150.000 Euro pro Jahr und richtet sich an Enterprise-Accounts.

BigQuery-Export (kostenlos für alle GA4-Properties) bietet Zugang zu rohen, ungesampelten Ereignisdaten, die Sie mit SQL abfragen können. Das löst das Sampling-Problem, erfordert aber ein Data-Engineering-Setup, und Schwellenwerte gelten weiterhin, wenn Sie Ergebnisse in der GA4-Oberfläche anzeigen.

Keine Option ist für das typische Marketing- oder Produktteam zugänglich, das Analysen direkt in GA4 durchführt.

Ein anderer Ansatz: Analytics auf Rohdaten aufgebaut

Einige Analytics-Tools sind so aufgebaut, dass sie dieses Problem vollständig vermeiden. Sublim zum Beispiel speichert jedes Ereignis als Rohdatensatz in ClickHouse, einer spaltenorientierten Datenbank für analytische Abfragen bei hohem Volumen. Jeder Bericht läuft gegen 100 % der Daten: Standard-Traffic-Übersichten und benutzerdefinierte Trichter nach Gerät und Land gleichermaßen. Es gibt keine ML-Schicht, die Lücken füllt, kein Schwellenwert, der kleine Segmente entfernt, und keine rückwirkenden Modell-Updates, die historische Zahlen ändern. Was Sie sehen, wurde tatsächlich gemessen.

	Google Analytics 4 Vergleich ansehen →	Sublim Analytics Kostenlos testen →
Daten-Sampling	Ja (Explorations-Berichte)	Nein
Datenschutz-Schwellenwerte	Ja	Nein
Verhaltensmodellierung	Ja (undurchsichtig)	Nein
Stabile historische Daten	Nein	Ja
Zugang zu Rohereignissen	Nur BigQuery	Alle Pläne

Fazit

GA4 lügt Sie nicht absichtlich an. Es macht Engineering-Kompromisse, die bei Googles Maßstab vernünftig sind, aber reale Konsequenzen für die Genauigkeit dessen haben, was Sie sehen. Sampling führt zu Schätzungsfehlern. Schwellenwerte entfernen kleine, aber reale Segmente. Verhaltensmodellierung füllt Lücken mit Vorhersagen. Rückwirkende Änderungen bedeuten, dass Ihre historischen Daten nicht eingefroren sind.

Nichts davon macht GA4 nutzlos. Standard-Berichte auf Traffic-starken Properties sind weitgehend zuverlässig. Das Problem ist, dass die Analysen, die am meisten zählen – die, bei denen Sie nach Segment, Kanal, Gerät und Zeit aufschlüsseln –, genau die Analysen sind, die am ehesten betroffen sind.

Wenn Sie Entscheidungen auf Basis von GA4-Explorations-Berichten treffen, ohne den Sampling-Indikator zu prüfen, optimieren Sie möglicherweise auf Basis von Schätzungen statt Messungen. Der erste Schritt ist zu wissen, wann Sie nachschauen müssen.

Wenn Sie erwägen, zu einem Tool zu wechseln, das diese Probleme konstruktionsbedingt vermeidet, lesen Sie unsere Übersicht der besten Google Analytics Alternativen 2026.

GA4-Daten-Sampling: Warum Berichte Schätzungen sind