ETL è un processo di estrazione, trasformazione e caricamento dei dati in un sistema di sintesi di dati come il data warehouse.

ETL e data warehouse

Come abbiamo già visto anche in altri precedenti articoli sui Big Data, la produzione e la crescita continua di dati in questi ultimi anni ha reso fondamentale per le aziende l’attivazione di strumenti e tecniche per la gestione dei dati. Sono sempre numerose infatti le realtà che impostano le proprie strategie e politiche di business anche sulla base di analisi dei big data.

Il termine ETL (acronimo di Extract, Transform, Load) si riferisce al processo di estrazione, trasformazione e caricamento dei dati in un sistema di sintesi (data warehouse, data mart, big data, ecc…).

Questo processo quindi rende i dati disponibili estraendoli da più sorgenti. Una volta estratti, vengono ripuliti, trasformati e quindi utilizzati per finalità di business.
Il data warehouse ( o magazzino di dati ) è la collezione o aggregazione di dati strutturati che vengono poi estratti con il processo ETL.

Come funziona il processo ETL

Durante il processo ETL i dati vengono estratti da sistemi sorgenti quali database transazionali (OLTP), comuni file di testo o da altri sistemi informatici (ad esempio, sistemi ERP o CRM).

I dati estratti quindi subiscono alcuni dei seguenti processi: 

  • Selezione di parti specifiche di dati (solo quelli di interesse per il sistema)
  • Normalizzazione di dati (per esempio eliminando i duplicati)
  • Traduzione di dati codificati
  • Derivazione di nuovi dati calcolati
  • Esecuzione di accoppiamenti (join) tra dati recuperati da differenti tabelle
  • Raggruppamento di dati

Queste azioni svolte durante il processo di ETl hanno lo scopo di rendere omogenei i dati provenienti da sorgenti diverse e renderli così fruibili per le esigenze di analisi della business intelligence.
I dati vengono sono memorizzati nelle tabelle del sistema di sintesi (load).

Il rapporto tra ETL e data warehouse

Il ruolo di un processo ETL è dunque quello di alimentare un data warehouse. Il lavoro tra ETL e data warehouse è noto anche come percorso di riconciliazione.
Queste le fasi della riconciliazione dei dati:

  • estrazione dei dati rilevanti dalle sorgenti;
  • conversione dei dati dal formato sorgente a quello del data warehouse;
  • caricamento dei dati nel data warehouse.

Ci sono due modalità di caricamento dati nel data warehose:

  1. Refresh: i dati già presenti nel data warehouse vengono riscritti totalmente, sostituendo quindi quelli precedenti.
  2. Update: eventuali aggiornamenti nei dati sorgente vengono aggiunti al data warehouse, senza cancellare i dati esistenti.

Il processo ETL è quindi molto importante per un’azienda perché permette di sfruttare totalmente il valore dei dati aziendali e ricavarne informazioni fondamentali per le strategie di Business.

Se questo questo contenuto ti è piaciuto faccelo sapere scrivendo a [email protected] e continua a seguirci su www.businessintelligencegroup.it