Próbkowanie danych w GA4: czy liczby są dokładne?

Co naprawdę oznacza próbkowanie danych

Gdy GA4 nie może przetworzyć wszystkich danych w swoich limitach wydajności, pobiera podzbiór zdarzeń i ekstrapoluje. Jeśli raport Eksploracji jest oparty na 30% Twoich danych, GA4 mnoży wyniki przez około 3,3, aby wyprodukować liczby, które widzisz. Raport wygląda kompletnie. Nic nie mówi Ci, że to szacunek, chyba że wiesz, gdzie szukać.

To nie jest błąd. To celowy kompromis inżynieryjny. Przetwarzanie 100% zdarzeń dla każdego niestandardowego zapytania na każdej właściwości Google Analytics jednocześnie byłoby zaporowo kosztowne w skali Google. Próbkowanie jest tym, co pozwala Google Analytics pozostać bezpłatnym.

Próbkowanie jest jednym z głównych mechanizmów zniekształcających dane zanim dotrą do Twojego panelu. Inne obejmują progi, modelowanie behawioralne i utratę danych spowodowaną przez zgodę.

Główne zniekształcenia danych w Google Analytics 4

Próbkowanie danych

Raporty Eksploracji używają podzbioru zdarzeń i ekstrapolują. Liczby są szacunkami.

Szacunki

Progi prywatności

Segmenty z mniej niż ~50 użytkownikami są cicho usuwane z raportów.

Ciche luki

Modelowanie behawioralne

Brakujące dane są wypełniane prognozami ML bez widocznego wskaźnika.

Przewidywane przez AI

Wsteczne zmiany

Google Analytics może przepisywać historyczne dane po aktualizacjach modeli. Ten sam okres może pokazywać różne liczby miesiące później.

Niestabilna historia

↗

Odmowy zgody

Powiązany, ale odrębny problem: odwiedzający, którzy odrzucają baner, są niewidoczni jeszcze zanim zadziała którykolwiek z powyższych mechanizmów.

Przeczytaj artykuł →

Kiedy próbkowanie jest wyzwalane w Google Analytics

Próbkowanie nie wpływa na wszystkie raporty w równym stopniu. Raporty standardowe (karty Pozyskiwanie, Zaangażowanie, Zarabianie) są domyślnie nieprópbkowane. Problem koncentruje się w raportach Eksploracji, które są niestandardowymi analizami wykorzystywanymi przez większość zespołów do poważnych decyzji.

Google Analytics zaczyna próbkować raporty Eksploracji, gdy zapytanie przekracza 10 milionów zdarzeń w wybranym zakresie dat. Ten próg jest łatwiejszy do osiągnięcia niż się wydaje:

Strona z 5000 dziennymi odwiedzającymi generującymi 10 zdarzeń na sesję osiąga 50 000 zdarzeń dziennie. Analiza 6-miesięczna przekracza 9 milionów zdarzeń.
Dodanie drugiego wymiaru (jak urządzenie + kraj) mnoży kardynalność i może wyzwolić próbkowanie nawet poniżej surowego progu.
Zastosowanie segmentów lub filtrów na już dużym zbiorze danych niemal gwarantuje próbkowanie.

Wskaźnikiem jest żółta ikona tarczy w prawym górnym rogu interfejsu Eksploracji. Pokazuje ona procent faktycznie użytych danych. Raport oznaczony "60% danych" oznacza, że 40% Twoich zdarzeń nie zostało uwzględnionych w obliczeniach.

Raporty standardowe

✓ Zawsze nieprópbkowane

Przegląd pozyskiwania

Przegląd zaangażowania

Zarabianie

Utrzymanie

Czas rzeczywisty

Raporty Eksploracji

⚠ Próbkowane powyżej 10 mln zdarzeń

Eksploracja ścieżek konwersji

Eksploracja ścieżek

Nakładanie się segmentów

Raport w formie dowolnej

Eksplorator użytkowników

Problem progów: dane, które po prostu znikają

Próbkowanie tworzy szacunki. Progi tworzą ciszę.

Google Analytics stosuje próg prywatności, który usuwa wiersze z raportów, gdy segment zawiera mniej niż określoną liczbę użytkowników (zazwyczaj około 50, chociaż Google nie publikuje dokładnej liczby). Chroni to prywatność jednostek, ale tworzy luki w danych, które łatwo przeoczyć.

Praktyczne przykłady tego, co znika:

Konwersje z konkretnego miasta w kraju o niskim ruchu
Zachowanie użytkowników na niszowym typie urządzenia
Ruch z kampanii, która osiągnęła słabe wyniki i przyniosła tylko 30 odwiedzających
Dowolny podział segmentów na małej stronie (poniżej ~10 000 sesji miesięcznie)

Wiersz nie jest wyświetlany jako zero. Jest po prostu nieobecny. Jeśli nie wiesz, że masz go szukać, nie zauważysz tej luki.

Modelowanie behawioralne: gdy Google Analytics wypełnia brakujące dane prognozami AI

Od czasu, gdy iOS 14 i schyłek plików cookie stron trzecich ograniczyły obserwowalne dane, Google wprowadził modelowanie behawioralne w GA4. Gdy brakuje rzeczywistych danych (ponieważ użytkownik zrezygnował ze śledzenia, odrzucił baner zgody lub używa przeglądarki zorientowanej na prywatność), GA4 używa uczenia maszynowego, aby oszacować, co ten użytkownik prawdopodobnie zrobił.

Wpływa to na liczbę konwersji, atrybucję sesji i rozmiary odbiorców. Google opisuje to jako poprawę dokładności, ale konsekwencją jest to, że część tego, co widzisz w raportach GA4, nigdy nie została faktycznie zaobserwowana. Została przewidziana.

Google nie ujawnia, które wiersze w raporcie są modelowane, a które zmierzone. Nie ma sposobu, aby z poziomu interfejsu GA4 ustalić, jaka część danej metryki to rzeczywiste dane, a jaka to szacunek ML.

Wsteczne zmiany danych: dlaczego liczby z zeszłego miesiąca nie są niezmienne

Google Analytics może aktualizować dane historyczne po fakcie. Modele atrybucji są przeliczane w miarę napływu nowych sesji. Aktualizacje filtrów spamu retroaktywnie usuwają zdarzenia. Aktualizacje modeli zmieniają wagi historycznych prognoz.

W rezultacie raport, który uruchomiłeś w styczniu, i ten sam raport, który uruchomisz w marcu, mogą pokazywać różne liczby dla tego samego okresu. Zespoły, które eksportują dane do miesięcznego raportowania i porównują wyniki miesiąc do miesiąca, czasami odkrywają, że punkt odniesienia się przesunął.

To nie jest unikalne dla GA4, ale jest bardziej wyraźne z powodu warstwy modelowania. Narzędzie, które przechowuje surowe zdarzenia, nie ma tego problemu: zdarzenie albo miało miejsce, albo nie.

Co to oznacza dla decyzji podejmowanych na podstawie danych Google Analytics

Praktyczne konsekwencje zależą od tego, jak używasz analityki:

1Testy A/B: Jeśli Twoje dane o konwersjach są próbkowane, możesz ogłosić zwycięzcę na podstawie szacunku. Margines błędu wynikający z próbkowania nakłada się na niepewność statystyczną, którą już masz przy małych próbach.

2Alokacja budżetu: Atrybucja kanałów w próbkowanym raporcie może zmieniać względną wydajność między źródłami. Kanał, który wygląda na 20% silniejszy od innego, może w rzeczywistości mieścić się w zakresie szumu błędu próbkowania.

3Analiza ścieżek konwersji: Progi mogą usuwać całe segmenty z kroków ścieżki, sprawiając, że spadek staje się niewidoczny, gdy faktycznie dzieje się w małej, ale znaczącej grupie odbiorców.

4Analiza trendów: Wsteczne zmiany oznaczają, że linie trendu mogą się przesuwać, gdy ponownie wyeksportujesz te same dane później. Miesiąc, który wyglądał na szczyt, może stać się przeciętny po aktualizacji modelu.

Jak sprawdzić, czy raport GA4 jest próbkowany

W raportach Eksploracji poszukaj ikony tarczy w prawym górnym rogu. Zielona oznacza brak próbkowania. Żółta lub czerwona oznacza, że raport opiera się na częściowych danych, a procent jest pokazywany po najechaniu kursorem.

W przypadku raportów standardowych próbkowanie jest mniej powszechne, ale progi nadal obowiązują. Jeśli widzisz wiersz oznaczony "(inne)" agregujący dużą liczbę wartości, jest to Google Analytics zwijający wiersze o niskim ruchu, aby pozostać w limitach raportowania.

Nie ma odpowiednika tego wskaźnika dla modelowania behawioralnego. Z interfejsu nie da się stwierdzić, czy metryka zawiera wartości oszacowane przez ML.

GA4 360 i BigQuery: obejścia

Google oferuje dwa częściowe rozwiązania:

GA4 360 znacząco podnosi próg próbkowania i zapewnia eksporty raportów bez próbkowania. Kosztuje około 150 000 euro rocznie i jest skierowany do kont korporacyjnych.

Eksport do BigQuery (bezpłatny dla wszystkich właściwości GA4) daje dostęp do surowych, nieprópbkowanych danych o zdarzeniach, które możesz przeszukiwać za pomocą SQL. Rozwiązuje to problem próbkowania, ale wymaga konfiguracji inżynierii danych, a progi nadal obowiązują, gdy przeglądasz wyniki z powrotem w interfejsie GA4.

Żadna z tych opcji nie jest dostępna dla typowego zespołu marketingowego lub produktowego prowadzącego analizy bezpośrednio w GA4.

Inne podejście: analityka zbudowana na surowych danych

Niektóre narzędzia analityczne są zaprojektowane tak, aby całkowicie uniknąć tego problemu. Sublim, na przykład, przechowuje każde zdarzenie jako surowy rekord w ClickHouse, kolumnowej bazie danych zaprojektowanej do analitycznych zapytań przy dużym wolumenie. Każdy raport działa na 100% danych, nie na próbce: zarówno standardowe przeglądy ruchu, jak i niestandardowe ścieżki konwersji według urządzenia i kraju. Nie ma warstwy ML wypełniającej luki, nie ma progów usuwających małe segmenty i nie ma wstecznych aktualizacji modeli zmieniających historyczne liczby. To, co widzisz, to to, co zostało zmierzone.

Ma to największe znaczenie dla analiz, w których próbkowanie GA4 najprawdopodobniej się uruchomi: długie zakresy dat, podziały wielowymiarowe i małe segmenty odbiorców. To dokładnie te zapytania, w których dokładne dane stanowią różnicę między pewną decyzją a zgadywaniem.

	Google Analytics 4 Zobacz porównanie →	Sublim Analytics Wypróbuj za darmo →
Próbkowanie danych	Tak (raporty Eksploracji)	Nie
Progi prywatności	Tak	Nie
Modelowanie behawioralne	Tak (nieprzejrzyste)	Nie
Stabilne dane historyczne	Nie	Tak
Dostęp do surowych zdarzeń	Tylko BigQuery	Wszystkie plany

Podsumowanie

Google Analytics nie kłamie Ci celowo. Robi kompromisy inżynieryjne rozsądne w skali Google, ale mające rzeczywiste konsekwencje dla dokładności tego, co widzisz. Próbkowanie wprowadza błąd szacowania. Progi usuwają małe, ale rzeczywiste segmenty. Modelowanie behawioralne wypełnia luki prognozami. Wsteczne zmiany oznaczają, że Twoje dane historyczne nie są zamrożone.

Nic z tego nie czyni Google Analytics bezużytecznym. Raporty standardowe na właściwościach o wysokim ruchu są w dużej mierze wiarygodne. Problem polega na tym, że analizy, które mają największe znaczenie, te, w których dzielisz dane według segmentu, kanału, urządzenia i czasu, to dokładnie te analizy, na które próbkowanie najprawdopodobniej wpłynie.

Jeśli podejmujesz decyzje na podstawie raportów Eksploracji GA4 bez sprawdzania wskaźnika próbkowania, możesz optymalizować na podstawie szacunków, a nie pomiarów. Pierwszym krokiem jest wiedza, kiedy sprawdzać.

Jeśli rozważasz przejście na narzędzie, które z założenia unika tych problemów, sprawdź nasz przegląd najlepszych alternatyw dla Google Analytics w 2026 roku.

Próbkowanie danych GA4: dlaczego raporty to szacunki