Rejoignez la liste d'attente et recevez Sublim Business offert 3 mois  En profiter

Data & Technique

ETL : définition, fonctionnement et rôle en data analytics

Guillaume Sallé
Guillaume Sallé
Responsable contenu & glossaire analytics

Mis à jour le 22 février 2026

Définition rapide

L'ETL (Extract, Transform, Load) est un processus d'intégration de données qui consiste à extraire des données depuis des sources hétérogènes, les transformer pour les normaliser et les enrichir selon un schéma cible, puis les charger dans un système de destination comme un data warehouse pour l'analyse et le reporting. L'ETL est le pipeline qui alimente les tableaux de bord analytics d'une organisation en données consolidées et fiables.

Comment ça fonctionne

L'ETL est composé de trois phases interdépendantes.

L'Extract (extraction) consiste à récupérer les données brutes depuis différentes sources :

  • Bases de données relationnelles (MySQL, PostgreSQL)
  • APIs REST (CRM Salesforce, analytics Sublim, ERP)
  • Fichiers CSV/Excel
  • Flux de streaming (Kafka)

La Transform (transformation) est la phase la plus complexe. Elle inclut le nettoyage (suppression des doublons, gestion des valeurs nulles), la normalisation (formats de date, devise, code pays), l'enrichissement (dimensions calculées comme le trimestre, le segment client) et la réconciliation d'identités (fusionner un enregistrement CRM avec un événement analytics).

Le Load (chargement) insère les données transformées dans le système de destination : data warehouse (BigQuery, Snowflake, Redshift) ou base analytique (ClickHouse pour les métriques temps réel).

On distingue ETL (transformation avant chargement) et ELT (chargement d'abord, transformation dans le warehouse) — ce dernier étant préféré avec les data warehouses cloud modernes.

Pourquoi c'est important

L'ETL est la fondation invisible qui rend possible tout reporting analytics consolidé dans une organisation. Sans pipeline ETL fiable, les données restent fragmentées dans des silos disparates, rendant impossible toute analyse cross-canal ou cross-système.

Pour un SaaS, un ETL bien conçu permet de consolider :

  • Les données analytics web
  • Les événements produit
  • Les données CRM
  • Les transactions financières

...dans un data warehouse unique, source de vérité pour tous les tableaux de bord décisionnels.

Comment l'améliorer ou l'utiliser

  1. 1Documentez toutes vos sources de données et leur schéma.
  2. 2Adoptez des conventions de nommage cohérentes et un glossaire de données partagé.
  3. 3Implémentez des tests de qualité à chaque étape : comptage de lignes, validation des valeurs, détection des anomalies.
  4. 4Utilisez un outil d'orchestration comme Apache Airflow pour monitorer les runs et alerter en cas d'échec.
  5. 5Préférez l'approche ELT avec dbt pour des transformations SQL versionnées et testables.

Avec Sublim

Sublim propose une API REST qui permet d'extraire vos données analytics vers votre data warehouse via des processus ETL/ELT automatisés. Vous pouvez récupérer les métriques de sessions, les événements personnalisés et les données de conversion à la granularité souhaitée (horaire, quotidien) pour les intégrer dans BigQuery, Snowflake ou ClickHouse.

Questions fréquentes

Quelle est la différence entre ETL et ELT ?

Dans un ETL, les données sont transformées avant d'être chargées dans le warehouse (transformation dans un moteur dédié). Dans un ELT, les données brutes sont d'abord chargées dans le warehouse, puis transformées en SQL directement dans le warehouse (grâce à sa puissance de calcul). L'ELT est préféré avec les warehouses cloud modernes (BigQuery, Snowflake) car il est plus flexible et scalable.

Fivetran et Airbyte sont-ils des ETL ou des ELT ?

Fivetran et Airbyte sont des outils EL (Extract and Load) : ils extraient les données des sources et les chargent brutes dans votre warehouse, sans transformation métier. La transformation est ensuite réalisée dans le warehouse, souvent avec dbt. On les qualifie parfois d'ELT tools. Ils proposent des centaines de connecteurs prêts à l'emploi qui simplifient l'ingestion de données depuis des SaaS.

À quelle fréquence doit-on exécuter un pipeline ETL analytics ?

La fréquence dépend de votre besoin de fraîcheur des données. Pour des tableaux de bord de pilotage quotidien, une extraction nocturne suffit. Pour des alertes opérationnelles ou des dashboards temps réel, une extraction horaire ou streaming est nécessaire. Pour les données financières en clôture mensuelle, une extraction mensuelle peut suffire.

Termes associés

ETL : définition, fonctionnement et rôle en data analytics, Sublim | Sublim Analytics