Cosa significa davvero il campionamento dei dati
Quando GA4 non riesce a elaborare tutti i tuoi dati entro i suoi limiti di performance, preleva un sottoinsieme di eventi ed estrapolola. Se il tuo report Esplora è basato sul 30% dei tuoi dati, GA4 moltiplica i risultati per circa 3,3 per produrre i numeri che vedi. Il report sembra completo. Nulla ti dice che è una stima a meno che tu non sappia dove guardare.
Questo non è un bug. È un compromesso ingegneristico deliberato. Elaborare il 100% degli eventi per ogni query personalizzata su ogni proprietà Google Analytics contemporaneamente sarebbe proibitivamente costoso alla scala di Google. Il campionamento è il motivo per cui Google Analytics rimane gratuito.
Il campionamento è uno dei principali meccanismi che distorcono i dati prima che raggiungano la tua dashboard. Altri includono le soglie, la modellazione comportamentale e la perdita di dati dovuta al consenso.
Quando scatta il campionamento in Google Analytics
Il campionamento non riguarda tutti i report allo stesso modo. I report standard (schede Acquisizione, Coinvolgimento, Monetizzazione) non sono campionati per impostazione predefinita. Il problema è concentrato nei report Esplora, che sono le analisi personalizzate che la maggior parte dei team usa per prendere decisioni importanti.
Google Analytics inizia a campionare i report Esplora quando una query supera i 10 milioni di eventi nell'intervallo di date selezionato. Quella soglia è più facile da raggiungere di quanto sembri:
- Un sito con 5.000 visitatori giornalieri che generano 10 eventi per sessione raggiunge 50.000 eventi al giorno. Un'analisi di 6 mesi supera i 9 milioni di eventi.
- Aggiungere una seconda dimensione (come dispositivo + paese) moltiplica la cardinalità e può attivare il campionamento anche al di sotto della soglia grezza.
- Applicare segmenti o filtri su un dataset già grande garantisce quasi sempre il campionamento.
L'indicatore è un'icona a scudo gialla nell'angolo in alto a destra dell'interfaccia Esplora. Mostra la percentuale di dati effettivamente utilizzati. Un report contrassegnato come "60% dei dati" significa che il 40% dei tuoi eventi non è stato incluso nel calcolo.
Il problema delle soglie: dati che semplicemente scompaiono
Il campionamento produce stime. La sogliatura produce silenzio.
Google Analytics applica una soglia di privacy che rimuove le righe dai report quando un segmento contiene meno di un certo numero di utenti (in genere circa 50, anche se Google non pubblica la cifra esatta). Questo protegge la privacy individuale ma crea lacune nei dati che è facile non notare.
Esempi pratici di cosa scompare:
- Conversioni da una città specifica in un paese a basso traffico
- Comportamento degli utenti su un tipo di dispositivo di nicchia
- Traffico da una campagna che ha sottoperformato e ha inviato solo 30 visitatori
- Qualsiasi analisi per segmento su un sito piccolo (meno di ~10.000 sessioni mensili)
La riga non viene mostrata come zero. È semplicemente assente. Se non sai cosa cercare, non noterai la lacuna.
Modellazione comportamentale: quando Google Analytics riempie i dati mancanti con previsioni IA
Da quando iOS 14 e il declino dei cookie di terze parti hanno ridotto i dati osservabili, Google ha introdotto la modellazione comportamentale in GA4. Quando mancano dati reali (perché un utente ha rifiutato il tracciamento, ha rifiutato un banner di consenso o usa un browser orientato alla privacy), GA4 usa l'apprendimento automatico per stimare cosa ha probabilmente fatto quell'utente.
Questo influenza i conteggi delle conversioni, l'attribuzione delle sessioni e le dimensioni del pubblico. Google lo descrive come un miglioramento dell'accuratezza, ma la conseguenza è che una parte di ciò che vedi nei report GA4 non è mai stata osservata. È stata prevista.
Google non espone quali righe in un report sono modellate rispetto a misurate. Non esiste modo di sapere, dall'interno dell'interfaccia GA4, quanta parte di una metrica è dati reali e quanta è una stima ML.
Modifiche retroattive ai dati: perché i numeri del mese scorso non sono fissi
Google Analytics può aggiornare i dati storici a posteriori. I modelli di attribuzione vengono ricalcolati man mano che arrivano nuove sessioni. Gli aggiornamenti dei filtri anti-spam rimuovono eventi retroattivamente. Gli aggiornamenti del modello riponderano le previsioni storiche.
Il risultato è che un report eseguito a gennaio e lo stesso report eseguito a marzo possono mostrare numeri diversi per lo stesso periodo. I team che esportano i dati per il reporting mensile e confrontano mese per mese a volte scoprono che la baseline è cambiata.
Questo non è esclusivo di GA4, ma è più pronunciato a causa del livello di modellazione. Uno strumento che archivia eventi grezzi non ha questo problema: l'evento è avvenuto o non è avvenuto.
Cosa significa per le decisioni basate sui dati Google Analytics
Le conseguenze pratiche dipendono da come usi l'analytics:
Come verificare se un report GA4 è campionato
Nei report Esplora, cerca l'icona dello scudo nell'angolo in alto a destra. Verde significa non campionato. Giallo o rosso significa che il report è basato su dati parziali, con la percentuale mostrata al passaggio del mouse.
Per i report standard, il campionamento è meno comune ma la sogliatura si applica comunque. Se vedi una riga denominata "(altro)" che aggrega un gran numero di valori, Google Analytics sta collassando le righe a basso traffico per restare entro i limiti di reporting.
Non esiste un indicatore equivalente per la modellazione comportamentale. Non puoi capire dall'interfaccia se una metrica include valori stimati da ML.
GA4 360 e BigQuery: le soluzioni alternative
Google offre due soluzioni parziali:
GA4 360 aumenta significativamente la soglia di campionamento e fornisce esportazioni di report non campionati. Costa circa 150.000 euro all'anno ed è destinato ai grandi account enterprise.
L'esportazione BigQuery (gratuita per tutte le proprietà GA4) dà accesso a dati di eventi grezzi e non campionati che puoi interrogare con SQL. Questo risolve il problema del campionamento ma richiede una configurazione di data engineering, e la sogliatura si applica ancora quando visualizzi i risultati nell'interfaccia GA4.
Nessuna delle due opzioni è accessibile al tipico team di marketing o prodotto che esegue analisi direttamente in GA4.
Un approccio diverso: analisi costruita su dati grezzi
Alcuni strumenti di analytics sono progettati per evitare completamente questo problema. Sublim, ad esempio, archivia ogni evento come un record grezzo in ClickHouse, un database orientato alle colonne progettato per query analitiche ad alto volume. Ogni report viene eseguito sul 100% dei dati, non su un campione: sia le panoramiche di traffico standard che i funnel personalizzati per dispositivo e paese. Non c'è uno strato ML che riempie le lacune, nessuna soglia che rimuove piccoli segmenti e nessun aggiornamento retroattivo del modello che modifica i numeri storici. Quello che vedi è ciò che è stato misurato.
Questo è più importante per le analisi in cui il campionamento GA4 è più probabile che scatti: intervalli di date lunghi, analisi multi-dimensione e piccoli segmenti di pubblico. Sono esattamente le query in cui i dati accurati fanno la differenza tra una decisione sicura e un'ipotesi.
| Google Analytics 4 Vedi confronto → |
Sublim Analytics Prova gratis → |
|
|---|---|---|
| Campionamento dei dati | Sì (report Esplora) | No |
| Soglie di privacy | Sì | No |
| Modellazione comportamentale | Sì (opaca) | No |
| Dati storici stabili | No | Sì |
| Accesso agli eventi grezzi | Solo BigQuery | Tutti i piani |
Conclusione
GA4 non ti sta mentendo deliberatamente. Sta facendo compromessi ingegneristici ragionevoli alla scala di Google ma con conseguenze reali per la precisione di ciò che vedi. Il campionamento introduce errori di stima. La sogliatura rimuove segmenti piccoli ma reali. La modellazione comportamentale riempie le lacune con previsioni. Le modifiche retroattive significano che i tuoi dati storici non sono fissi.
Niente di tutto questo rende GA4 inutile. I report standard su proprietà ad alto traffico sono in gran parte affidabili. Il problema è che le analisi più importanti — quelle in cui si suddivide per segmento, canale, dispositivo e tempo — sono esattamente le analisi più probabilmente interessate.
Se stai prendendo decisioni su report Esplora di GA4 senza controllare l'indicatore di campionamento, potresti ottimizzare basandoti su stime piuttosto che su misurazioni. Il primo passo è sapere quando controllare.
Se stai valutando di passare a uno strumento che evita questi problemi per progettazione, consulta la nostra panoramica delle migliori alternative a Google Analytics nel 2026.

