Campionamento dati GA4: i numeri sono accurati?

Cosa significa davvero il campionamento dei dati

Quando GA4 non riesce a elaborare tutti i tuoi dati entro i suoi limiti di performance, preleva un sottoinsieme di eventi ed estrapolola. Se il tuo report Esplora è basato sul 30% dei tuoi dati, GA4 moltiplica i risultati per circa 3,3 per produrre i numeri che vedi. Il report sembra completo. Nulla ti dice che è una stima a meno che tu non sappia dove guardare.

Questo non è un bug. È un compromesso ingegneristico deliberato. Elaborare il 100% degli eventi per ogni query personalizzata su ogni proprietà Google Analytics contemporaneamente sarebbe proibitivamente costoso alla scala di Google. Il campionamento è il motivo per cui Google Analytics rimane gratuito.

Il campionamento è uno dei principali meccanismi che distorcono i dati prima che raggiungano la tua dashboard. Altri includono le soglie, la modellazione comportamentale e la perdita di dati dovuta al consenso.

Le principali distorsioni dei dati in Google Analytics 4

Campionamento dei dati

I report Esplora usano un sottoinsieme di eventi ed estrapolano. I numeri sono stime.

Stimato

Soglie di privacy

I segmenti con meno di ~50 utenti vengono rimossi silenziosamente dai report.

Lacune silenziose

Modellazione comportamentale

I dati mancanti vengono riempiti con previsioni ML, senza indicatore visibile.

Previsto dall'IA

Modifiche retroattive

Google Analytics può riscrivere i dati storici dopo aggiornamenti del modello. Lo stesso periodo può mostrare numeri diversi mesi dopo.

Storia instabile

↗

Rifiuti di consenso

Un problema correlato ma distinto: i visitatori che rifiutano il banner sono invisibili prima ancora che si applichi uno qualsiasi dei fattori sopra.

Leggi l'articolo →

Quando scatta il campionamento in Google Analytics

Il campionamento non riguarda tutti i report allo stesso modo. I report standard (schede Acquisizione, Coinvolgimento, Monetizzazione) non sono campionati per impostazione predefinita. Il problema è concentrato nei report Esplora, che sono le analisi personalizzate che la maggior parte dei team usa per prendere decisioni importanti.

Google Analytics inizia a campionare i report Esplora quando una query supera i 10 milioni di eventi nell'intervallo di date selezionato. Quella soglia è più facile da raggiungere di quanto sembri:

Un sito con 5.000 visitatori giornalieri che generano 10 eventi per sessione raggiunge 50.000 eventi al giorno. Un'analisi di 6 mesi supera i 9 milioni di eventi.
Aggiungere una seconda dimensione (come dispositivo + paese) moltiplica la cardinalità e può attivare il campionamento anche al di sotto della soglia grezza.
Applicare segmenti o filtri su un dataset già grande garantisce quasi sempre il campionamento.

L'indicatore è un'icona a scudo gialla nell'angolo in alto a destra dell'interfaccia Esplora. Mostra la percentuale di dati effettivamente utilizzati. Un report contrassegnato come "60% dei dati" significa che il 40% dei tuoi eventi non è stato incluso nel calcolo.

Report standard

✓ Sempre non campionati

Panoramica acquisizione

Panoramica coinvolgimento

Monetizzazione

Fidelizzazione

In tempo reale

Report Esplora

⚠ Campionati oltre 10M di eventi

Esplorazione funnel

Esplorazione percorso

Sovrapposizione segmenti

Report a forma libera

Esplora utenti

Il problema delle soglie: dati che semplicemente scompaiono

Il campionamento produce stime. La sogliatura produce silenzio.

Google Analytics applica una soglia di privacy che rimuove le righe dai report quando un segmento contiene meno di un certo numero di utenti (in genere circa 50, anche se Google non pubblica la cifra esatta). Questo protegge la privacy individuale ma crea lacune nei dati che è facile non notare.

Esempi pratici di cosa scompare:

Conversioni da una città specifica in un paese a basso traffico
Comportamento degli utenti su un tipo di dispositivo di nicchia
Traffico da una campagna che ha sottoperformato e ha inviato solo 30 visitatori
Qualsiasi analisi per segmento su un sito piccolo (meno di ~10.000 sessioni mensili)

La riga non viene mostrata come zero. È semplicemente assente. Se non sai cosa cercare, non noterai la lacuna.

Modellazione comportamentale: quando Google Analytics riempie i dati mancanti con previsioni IA

Da quando iOS 14 e il declino dei cookie di terze parti hanno ridotto i dati osservabili, Google ha introdotto la modellazione comportamentale in GA4. Quando mancano dati reali (perché un utente ha rifiutato il tracciamento, ha rifiutato un banner di consenso o usa un browser orientato alla privacy), GA4 usa l'apprendimento automatico per stimare cosa ha probabilmente fatto quell'utente.

Questo influenza i conteggi delle conversioni, l'attribuzione delle sessioni e le dimensioni del pubblico. Google lo descrive come un miglioramento dell'accuratezza, ma la conseguenza è che una parte di ciò che vedi nei report GA4 non è mai stata osservata. È stata prevista.

Google non espone quali righe in un report sono modellate rispetto a misurate. Non esiste modo di sapere, dall'interno dell'interfaccia GA4, quanta parte di una metrica è dati reali e quanta è una stima ML.

Modifiche retroattive ai dati: perché i numeri del mese scorso non sono fissi

Google Analytics può aggiornare i dati storici a posteriori. I modelli di attribuzione vengono ricalcolati man mano che arrivano nuove sessioni. Gli aggiornamenti dei filtri anti-spam rimuovono eventi retroattivamente. Gli aggiornamenti del modello riponderano le previsioni storiche.

Il risultato è che un report eseguito a gennaio e lo stesso report eseguito a marzo possono mostrare numeri diversi per lo stesso periodo. I team che esportano i dati per il reporting mensile e confrontano mese per mese a volte scoprono che la baseline è cambiata.

Questo non è esclusivo di GA4, ma è più pronunciato a causa del livello di modellazione. Uno strumento che archivia eventi grezzi non ha questo problema: l'evento è avvenuto o non è avvenuto.

Cosa significa per le decisioni basate sui dati Google Analytics

Le conseguenze pratiche dipendono da come usi l'analytics:

1Test A/B: Se i dati di conversione sono campionati, potresti dichiarare un vincitore basandoti su una stima. Il margine di errore del campionamento si somma all'incertezza statistica che hai già dalle dimensioni ridotte del campione.

2Allocazione del budget: L'attribuzione dei canali in un report campionato può modificare le performance relative tra le fonti. Un canale che sembra il 20% più forte di un altro potrebbe essere effettivamente nel margine di errore del campionamento.

3Analisi del funnel: La sogliatura può rimuovere interi segmenti dai passaggi del funnel, rendendo invisibile un calo quando si verifica in un pubblico piccolo ma significativo.

4Analisi delle tendenze: Le modifiche retroattive significano che le linee di tendenza possono cambiare quando riesporti gli stessi dati in seguito. Un mese che sembrava un picco può diventare ordinario dopo un aggiornamento del modello.

Come verificare se un report GA4 è campionato

Nei report Esplora, cerca l'icona dello scudo nell'angolo in alto a destra. Verde significa non campionato. Giallo o rosso significa che il report è basato su dati parziali, con la percentuale mostrata al passaggio del mouse.

Per i report standard, il campionamento è meno comune ma la sogliatura si applica comunque. Se vedi una riga denominata "(altro)" che aggrega un gran numero di valori, Google Analytics sta collassando le righe a basso traffico per restare entro i limiti di reporting.

Non esiste un indicatore equivalente per la modellazione comportamentale. Non puoi capire dall'interfaccia se una metrica include valori stimati da ML.

GA4 360 e BigQuery: le soluzioni alternative

Google offre due soluzioni parziali:

GA4 360 aumenta significativamente la soglia di campionamento e fornisce esportazioni di report non campionati. Costa circa 150.000 euro all'anno ed è destinato ai grandi account enterprise.

L'esportazione BigQuery (gratuita per tutte le proprietà GA4) dà accesso a dati di eventi grezzi e non campionati che puoi interrogare con SQL. Questo risolve il problema del campionamento ma richiede una configurazione di data engineering, e la sogliatura si applica ancora quando visualizzi i risultati nell'interfaccia GA4.

Nessuna delle due opzioni è accessibile al tipico team di marketing o prodotto che esegue analisi direttamente in GA4.

Un approccio diverso: analisi costruita su dati grezzi

Alcuni strumenti di analytics sono progettati per evitare completamente questo problema. Sublim, ad esempio, archivia ogni evento come un record grezzo in ClickHouse, un database orientato alle colonne progettato per query analitiche ad alto volume. Ogni report viene eseguito sul 100% dei dati, non su un campione: sia le panoramiche di traffico standard che i funnel personalizzati per dispositivo e paese. Non c'è uno strato ML che riempie le lacune, nessuna soglia che rimuove piccoli segmenti e nessun aggiornamento retroattivo del modello che modifica i numeri storici. Quello che vedi è ciò che è stato misurato.

Questo è più importante per le analisi in cui il campionamento GA4 è più probabile che scatti: intervalli di date lunghi, analisi multi-dimensione e piccoli segmenti di pubblico. Sono esattamente le query in cui i dati accurati fanno la differenza tra una decisione sicura e un'ipotesi.

	Google Analytics 4 Vedi confronto →	Sublim Analytics Prova gratis →
Campionamento dei dati	Sì (report Esplora)	No
Soglie di privacy	Sì	No
Modellazione comportamentale	Sì (opaca)	No
Dati storici stabili	No	Sì
Accesso agli eventi grezzi	Solo BigQuery	Tutti i piani

Conclusione

GA4 non ti sta mentendo deliberatamente. Sta facendo compromessi ingegneristici ragionevoli alla scala di Google ma con conseguenze reali per la precisione di ciò che vedi. Il campionamento introduce errori di stima. La sogliatura rimuove segmenti piccoli ma reali. La modellazione comportamentale riempie le lacune con previsioni. Le modifiche retroattive significano che i tuoi dati storici non sono fissi.

Niente di tutto questo rende GA4 inutile. I report standard su proprietà ad alto traffico sono in gran parte affidabili. Il problema è che le analisi più importanti, quelle in cui si suddivide per segmento, canale, dispositivo e tempo, sono esattamente le analisi più probabilmente interessate.

Se stai prendendo decisioni su report Esplora di GA4 senza controllare l'indicatore di campionamento, potresti ottimizzare basandoti su stime piuttosto che su misurazioni. Il primo passo è sapere quando controllare.

Se stai valutando di passare a uno strumento che evita questi problemi per progettazione, consulta la nostra panoramica delle migliori alternative a Google Analytics nel 2026.

Campionamento dati GA4: perché i report sono stime