Amostragem de dados no GA4: números precisos?

O que realmente significa amostragem de dados

Quando o GA4 não consegue processar todos os seus dados dentro dos seus limites de desempenho, toma um subconjunto de eventos e extrapola. Se o seu relatório de Exploração se baseia em 30 % dos seus dados, o GA4 multiplica os resultados por aproximadamente 3,3 para produzir os números que vê. O relatório parece completo. Nada lhe diz que é uma estimativa a não ser que saiba onde procurar.

Isto não é um erro. É um compromisso de engenharia deliberado. Processar 100 % dos eventos para cada consulta personalizada em cada propriedade Google Analytics simultaneamente seria proibitivamente caro à escala da Google. A amostragem é a forma como o Google Analytics permanece gratuito.

A amostragem é um dos principais mecanismos que distorcem os dados antes de chegarem ao seu painel. Outros incluem limiares, modelação comportamental e perda de dados por consentimento.

As principais distorções de dados no Google Analytics 4

Amostragem de dados

Os relatórios de Exploração usam um subconjunto de eventos e extrapolam. Os números são estimativas.

Estimado

Limiares de privacidade

Os segmentos com menos de ~50 utilizadores são silenciosamente removidos dos relatórios.

Lacunas silenciosas

Modelação comportamental

Os dados em falta são preenchidos com previsões de ML, sem indicador visível.

Previsto por IA

Alterações retroativas

O Google Analytics pode reescrever dados históricos após atualizações do modelo. O mesmo período pode mostrar números diferentes meses depois.

História instável

↗

Recusas de consentimento

Um problema relacionado mas distinto: os visitantes que recusam o banner são invisíveis antes de qualquer um dos anteriores se aplicar.

Ler o artigo →

Quando a amostragem é ativada no Google Analytics

A amostragem não afeta todos os relatórios da mesma forma. Os relatórios padrão (separadores de Aquisição, Envolvimento, Monetização) não são amostrados por predefinição. O problema concentra-se nos relatórios de Exploração, que são as análises personalizadas que a maioria das equipas usa para tomar decisões importantes.

O Google Analytics começa a amostrar os relatórios de Exploração quando uma consulta excede 10 milhões de eventos no intervalo de datas selecionado. Esse limiar é mais fácil de atingir do que parece:

Um site com 5.000 visitantes diários que geram 10 eventos por sessão atinge 50.000 eventos por dia. Uma análise de 6 meses cruza os 9 milhões de eventos.
Adicionar uma segunda dimensão (como dispositivo + país) multiplica a cardinalidade e pode acionar a amostragem mesmo abaixo do limiar bruto.
Aplicar segmentos ou filtros sobre um conjunto de dados já grande praticamente garante a amostragem.

O indicador é um ícone de escudo amarelo no canto superior direito da interface de Exploração. Mostra a percentagem de dados efetivamente utilizada. Um relatório com a etiqueta "60 % dos dados" significa que 40 % dos seus eventos não foram incluídos no cálculo.

Relatórios padrão

✓ Nunca amostrados

Visão geral de Aquisição

Visão geral de Envolvimento

Monetização

Retenção

Tempo real

Relatórios de Exploração

⚠ Amostrados acima de 10 M de eventos

Exploração de funil

Exploração de caminho

Sobreposição de segmentos

Relatório de forma livre

Explorador de utilizadores

O problema dos limiares: dados que simplesmente desaparecem

A amostragem produz estimativas. Os limiares produzem silêncio.

O Google Analytics aplica um limiar de privacidade que remove linhas dos relatórios quando um segmento contém menos de um certo número de utilizadores (tipicamente cerca de 50, embora a Google não publique o número exato). Isto protege a privacidade individual mas cria lacunas nos seus dados que são fáceis de não notar.

Exemplos práticos do que desaparece:

Conversões de uma cidade específica num país com pouco tráfego
Comportamento de utilizadores num tipo de dispositivo de nicho
Tráfego de uma campanha que teve fraco desempenho e enviou apenas 30 visitantes
Qualquer detalhe por segmento num site pequeno (menos de ~10.000 sessões mensais)

A linha não é mostrada como zero. Está simplesmente ausente. Se não souber que deve procurá-la, não vai reparar na lacuna.

Modelação comportamental: quando o Google Analytics preenche dados em falta com previsões de IA

Desde o iOS 14 e o declínio dos cookies de terceiros, que reduziram os dados observáveis, a Google introduziu modelação comportamental no GA4. Quando dados reais estão em falta (porque um utilizador optou por não ser rastreado, recusou um banner de consentimento, ou usa um browser orientado para a privacidade), o GA4 usa machine learning para estimar o que esse utilizador provavelmente fez.

Isto afeta as contagens de conversões, a atribuição de sessões e as dimensões das audiências. A Google descreve isto como uma melhoria da precisão, mas a consequência é que uma parte do que vê nos relatórios do GA4 nunca foi realmente observada. Foi prevista.

A Google não expõe quais linhas de um relatório são modeladas versus medidas. Não há forma de saber, a partir da interface do GA4, quanto de uma dada métrica são dados reais e quanto é uma estimativa de ML.

Alterações retroativas dos dados: por que os números do mês passado não são definitivos

O Google Analytics pode atualizar dados históricos a posteriori. Os modelos de atribuição são recalculados à medida que novas sessões chegam. As atualizações dos filtros de spam removem eventos retroativamente. As atualizações dos modelos reponderam as previsões históricas.

O resultado é que um relatório que executou em janeiro e o mesmo relatório que executa em março podem mostrar números diferentes para o mesmo período. As equipas que exportam dados para relatórios mensais e comparam mês a mês descobrem por vezes que a base de referência mudou.

Isto não é exclusivo do GA4, mas é mais pronunciado por causa da camada de modelação. Uma ferramenta que armazena eventos brutos não tem este problema: o evento aconteceu ou não aconteceu.

O que isto significa para decisões baseadas em dados do Google Analytics

As consequências práticas dependem de como usa a análise:

1Testes A/B: Se os seus dados de conversão forem amostrados, pode declarar um vencedor com base numa estimativa. A margem de erro da amostragem agrava a incerteza estatística que já tem por causa de amostras pequenas.

2Alocação de orçamento: A atribuição de canais num relatório amostrado pode alterar o desempenho relativo entre fontes. Um canal que parece 20 % mais forte do que outro pode na verdade estar dentro do ruído do erro de amostragem.

3Análise de funil: Os limiares podem remover segmentos inteiros de etapas do funil, tornando invisível um abandono que está de facto a acontecer numa audiência pequena mas significativa.

4Análise de tendências: As alterações retroativas significam que as linhas de tendência podem mudar quando reexporta os mesmos dados mais tarde. Um mês que parecia um pico pode tornar-se comum após uma atualização do modelo.

Como verificar se um relatório do GA4 está amostrado

Nos relatórios de Exploração, procure o ícone de escudo no canto superior direito. Verde significa não amostrado. Amarelo ou vermelho significa que o relatório se baseia em dados parciais, com a percentagem mostrada ao passar o cursor.

Nos relatórios padrão, a amostragem é menos comum mas os limiares continuam a aplicar-se. Se vir uma linha com a etiqueta "(outros)" a agregar um grande número de valores, é o Google Analytics a agrupar linhas de baixo tráfego para se manter dentro dos limites de relatório.

Não há indicador equivalente para a modelação comportamental. Não consegue saber, a partir da interface, se uma métrica inclui valores estimados por ML.

GA4 360 e BigQuery: as soluções alternativas

A Google oferece duas soluções parciais:

GA4 360 aumenta significativamente o limiar de amostragem e disponibiliza exportações de relatórios não amostrados. Custa aproximadamente 150.000 euros por ano e destina-se a contas empresariais.

A exportação para o BigQuery (gratuita para todas as propriedades GA4) dá acesso a dados de eventos brutos e não amostrados que pode consultar com SQL. Isto resolve o problema da amostragem mas exige uma configuração de engenharia de dados, e os limiares continuam a aplicar-se quando visualiza os resultados de volta na interface do GA4.

Nenhuma das opções é acessível à típica equipa de marketing ou de produto que faz análises diretamente no GA4.

Uma abordagem diferente: análise construída sobre dados brutos

Algumas ferramentas de análise foram concebidas para evitar este problema por completo. O Sublim, por exemplo, armazena cada evento como um registo bruto no ClickHouse, uma base de dados orientada a colunas concebida para consultas analíticas em alto volume. Cada relatório corre contra 100 % dos dados, não contra uma amostra: tanto as visões gerais de tráfego padrão como os funis personalizados por dispositivo e país. Não há camada de ML a preencher lacunas, não há limiares a remover pequenos segmentos e não há atualizações retroativas do modelo a alterar números históricos. O que vê é o que foi medido.

Isto importa sobretudo para as análises onde a amostragem do GA4 tem maior probabilidade de entrar em ação: intervalos de datas longos, detalhes multidimensionais e segmentos de audiência pequenos. São exatamente as consultas onde dados precisos fazem a diferença entre uma decisão confiante e um palpite.

	Google Analytics 4 Ver comparação →	Sublim Analytics Experimentar grátis →
Amostragem de dados	Sim (relatórios de Exploração)	Não
Limiares de privacidade	Sim	Não
Modelação comportamental	Sim (opaca)	Não
Dados históricos estáveis	Não	Sim
Acesso a eventos brutos	Apenas BigQuery	Todos os planos

Conclusão

O Google Analytics não lhe está a mentir deliberadamente. Está a fazer compromissos de engenharia razoáveis à escala da Google mas com consequências reais para a precisão do que vê. A amostragem introduz erro de estimação. Os limiares removem segmentos pequenos mas reais. A modelação comportamental preenche lacunas com previsões. As alterações retroativas significam que os seus dados históricos não estão congelados.

Nada disto torna o Google Analytics inútil. Os relatórios padrão em propriedades de alto tráfego são em grande parte fiáveis. O problema é que as análises que mais importam, aquelas em que segmenta por segmento, canal, dispositivo e tempo, são exatamente as análises com maior probabilidade de serem afetadas.

Se está a tomar decisões sobre relatórios de Exploração do GA4 sem verificar o indicador de amostragem, pode estar a otimizar com base em estimativas em vez de medições. O primeiro passo é saber quando verificar.

Se está a considerar mudar para uma ferramenta que evita estes problemas por design, consulte a nossa visão geral das melhores alternativas ao Google Analytics em 2026.

Amostragem de dados GA4: por que são estimativas