Qué significa realmente el muestreo de datos
Cuando GA4 no puede procesar todos tus datos dentro de sus límites de rendimiento, toma un subconjunto de eventos y extrapola. Si tu informe de Exploración se basa en el 30 % de tus datos, GA4 multiplica los resultados por aproximadamente 3,3 para producir los números que ves. El informe parece completo. Nada te dice que es una estimación a menos que sepas dónde mirar.
Esto no es un error. Es un compromiso de ingeniería deliberado. Procesar el 100 % de los eventos para cada consulta personalizada en cada propiedad de GA4 simultáneamente sería prohibitivamente costoso a escala de Google. El muestreo es la razón por la que GA4 sigue siendo gratuito.
El muestreo es uno de los principales mecanismos que distorsionan los datos antes de que lleguen a tu panel. Otros incluyen los umbrales, el modelado de comportamiento y la pérdida de datos por consentimiento.
Cuándo se activa el muestreo en GA4
GA4 comienza a muestrear los informes de Exploración cuando una consulta supera los 10 millones de eventos en el rango de fechas seleccionado. Ese umbral es más fácil de alcanzar de lo que parece:
- Un sitio con 5.000 visitantes diarios que generan 10 eventos por sesión alcanza 50.000 eventos al día. Un análisis de 6 meses supera los 9 millones de eventos.
- Añadir una segunda dimensión (como dispositivo + país) multiplica la cardinalidad y puede activar el muestreo incluso por debajo del umbral bruto.
El problema de los umbrales: datos que simplemente desaparecen
GA4 aplica un umbral de privacidad que elimina filas de los informes cuando un segmento contiene menos de un cierto número de usuarios (normalmente alrededor de 50, aunque Google no publica la cifra exacta). La fila no se muestra como cero. Simplemente está ausente.
Modelado de comportamiento: cuando GA4 rellena datos faltantes con predicciones de IA
Desde iOS 14 y el declive de las cookies de terceros, Google introdujo el modelado de comportamiento en GA4. Cuando faltan datos reales (porque un usuario optó por no ser rastreado, rechazó un banner de consentimiento o usa un navegador orientado a la privacidad), GA4 usa aprendizaje automático para estimar lo que ese usuario probablemente hizo. Google no expone qué filas de un informe están modeladas frente a medidas.
Un enfoque diferente: analítica construida sobre datos brutos
Sublim almacena cada evento como un registro bruto en ClickHouse, una base de datos orientada a columnas diseñada para consultas analíticas a alto volumen. Cada informe se ejecuta contra el 100 % de los datos, no contra una muestra. No hay capa de ML rellenando lagunas, no hay umbrales eliminando pequeños segmentos y no hay actualizaciones retroactivas del modelo cambiando números históricos. Lo que ves es lo que se midió.
| Google Analytics 4 Ver comparación → |
Sublim Analytics Probar gratis → |
|
|---|---|---|
| Muestreo de datos | Sí (informes de Exploración) | No |
| Umbrales de privacidad | Sí | No |
| Modelado de comportamiento | Sí (opaco) | No |
| Datos históricos estables | No | Sí |
| Acceso a eventos brutos | Solo BigQuery | Todos los planes |
Conclusión
GA4 no te está mintiendo deliberadamente. Está haciendo compromisos de ingeniería razonables a la escala de Google pero con consecuencias reales para la precisión de lo que ves. El muestreo introduce error de estimación. Los umbrales eliminan segmentos pequeños pero reales. El modelado de comportamiento rellena lagunas con predicciones. Los cambios retroactivos significan que tus datos históricos no están congelados.
Si estás tomando decisiones sobre informes de Exploración de GA4 sin comprobar el indicador de muestreo, puede que estés optimizando basándote en estimaciones en lugar de mediciones. El primer paso es saber cuándo comprobarlo.
Si estás considerando cambiar a una herramienta que evita estos problemas por diseño, consulta nuestra visión general de las mejores alternativas a Google Analytics en 2026.

