O que realmente significa amostragem de dados
Quando o GA4 não consegue processar todos os seus dados dentro dos seus limites de desempenho, toma um subconjunto de eventos e extrapola. Se o seu relatório de Exploração se baseia em 30 % dos seus dados, o GA4 multiplica os resultados por aproximadamente 3,3 para produzir os números que vê. O relatório parece completo. Nada lhe diz que é uma estimativa a não ser que saiba onde procurar.
Isto não é um erro. É um compromisso de engenharia deliberado. Processar 100 % dos eventos para cada consulta personalizada em cada propriedade Google Analytics simultaneamente seria proibitivamente caro à escala da Google. A amostragem é a forma como o Google Analytics permanece gratuito.
A amostragem é um dos principais mecanismos que distorcem os dados antes de chegarem ao seu painel. Outros incluem limiares, modelação comportamental e perda de dados por consentimento.
Quando a amostragem é ativada no Google Analytics
O Google Analytics começa a amostrar os relatórios de Exploração quando uma consulta excede 10 milhões de eventos no intervalo de datas selecionado. Esse limiar é mais fácil de atingir do que parece:
- Um site com 5.000 visitantes diários que geram 10 eventos por sessão atinge 50.000 eventos por dia. Uma análise de 6 meses cruza os 9 milhões de eventos.
- Adicionar uma segunda dimensão (como dispositivo + país) multiplica a cardinalidade e pode acionar a amostragem mesmo abaixo do limiar bruto.
O problema dos limiares: dados que simplesmente desaparecem
O Google Analytics aplica um limiar de privacidade que remove linhas dos relatórios quando um segmento contém menos de um certo número de utilizadores (tipicamente cerca de 50, embora a Google não publique o número exato). A linha não é mostrada como zero. Está simplesmente ausente.
Modelação comportamental: quando o Google Analytics preenche dados em falta com previsões de IA
Desde o iOS 14 e o declínio dos cookies de terceiros, a Google introduziu modelação comportamental no GA4. Quando dados reais estão em falta (porque um utilizador optou por não ser rastreado, recusou um banner de consentimento, ou usa um browser orientado para a privacidade), o GA4 usa machine learning para estimar o que esse utilizador provavelmente fez. A Google não expõe quais linhas de um relatório são modeladas versus medidas.
Uma abordagem diferente: análise construída sobre dados brutos
O Sublim armazena cada evento como um registo bruto no ClickHouse, uma base de dados orientada a colunas concebida para consultas analíticas em alto volume. Cada relatório corre contra 100 % dos dados, não contra uma amostra. Não há camada de ML a preencher lacunas, não há limiares a remover pequenos segmentos e não há atualizações retroativas do modelo a alterar números históricos. O que vê é o que foi medido.
| Google Analytics 4 Ver comparação → |
Sublim Analytics Experimentar grátis → |
|
|---|---|---|
| Amostragem de dados | Sim (relatórios de Exploração) | Não |
| Limiares de privacidade | Sim | Não |
| Modelação comportamental | Sim (opaca) | Não |
| Dados históricos estáveis | Não | Sim |
| Acesso a eventos brutos | Apenas BigQuery | Todos os planos |
Conclusão
O Google Analytics não lhe está a mentir deliberadamente. Está a fazer compromissos de engenharia razoáveis à escala da Google mas com consequências reais para a precisão do que vê. A amostragem introduz erro de estimação. Os limiares removem segmentos pequenos mas reais. A modelação comportamental preenche lacunas com previsões. As alterações retroativas significam que os seus dados históricos não estão congelados.
Se está a tomar decisões sobre relatórios de Exploração do GA4 sem verificar o indicador de amostragem, pode estar a otimizar com base em estimativas em vez de medições. O primeiro passo é saber quando verificar.
Se está a considerar mudar para uma ferramenta que evita estes problemas por design, consulte a nossa visão geral das melhores alternativas ao Google Analytics em 2026.

