ETL è un processo di estrazione, trasformazione e caricamento dei dati in un sistema di sintesi di dati come il data warehouse.
ETL e data warehouse
Come abbiamo già visto anche in altri precedenti articoli sui Big Data, la produzione e la crescita continua di dati in questi ultimi anni ha reso fondamentale per le aziende l’attivazione di strumenti e tecniche per la gestione dei dati. Sono sempre numerose infatti le realtà che impostano le proprie strategie e politiche di business anche sulla base di analisi dei big data.
Il termine ETL (acronimo di Extract, Transform, Load) si riferisce al processo di estrazione, trasformazione e caricamento dei dati in un sistema di sintesi (data warehouse, data mart, big data, ecc…).
Questo processo quindi rende i dati disponibili estraendoli da più sorgenti. Una volta estratti, vengono ripuliti, trasformati e quindi utilizzati per finalità di business.
Il data warehouse ( o magazzino di dati ) è la collezione o aggregazione di dati strutturati che vengono poi estratti con il processo ETL.
Come funziona il processo ETL
Durante il processo ETL i dati vengono estratti da sistemi sorgenti quali database transazionali (OLTP), comuni file di testo o da altri sistemi informatici (ad esempio, sistemi ERP o CRM).
I dati estratti quindi subiscono alcuni dei seguenti processi:
- Selezione di parti specifiche di dati (solo quelli di interesse per il sistema)
- Normalizzazione di dati (per esempio eliminando i duplicati)
- Traduzione di dati codificati
- Derivazione di nuovi dati calcolati
- Esecuzione di accoppiamenti (join) tra dati recuperati da differenti tabelle
- Raggruppamento di dati
Queste azioni svolte durante il processo di ETl hanno lo scopo di rendere omogenei i dati provenienti da sorgenti diverse e renderli così fruibili per le esigenze di analisi della business intelligence.
I dati vengono sono memorizzati nelle tabelle del sistema di sintesi (load).
Il rapporto tra ETL e data warehouse
Il ruolo di un processo ETL è dunque quello di alimentare un data warehouse. Il lavoro tra ETL e data warehouse è noto anche come percorso di riconciliazione.
Queste le fasi della riconciliazione dei dati:
- estrazione dei dati rilevanti dalle sorgenti;
- conversione dei dati dal formato sorgente a quello del data warehouse;
- caricamento dei dati nel data warehouse.
Ci sono due modalità di caricamento dati nel data warehose:
- Refresh: i dati già presenti nel data warehouse vengono riscritti totalmente, sostituendo quindi quelli precedenti.
- Update: eventuali aggiornamenti nei dati sorgente vengono aggiunti al data warehouse, senza cancellare i dati esistenti.
Il processo ETL è quindi molto importante per un’azienda perché permette di sfruttare totalmente il valore dei dati aziendali e ricavarne informazioni fondamentali per le strategie di Business.
Se questo questo contenuto ti è piaciuto faccelo sapere scrivendo a [email protected] e continua a seguirci su www.businessintelligencegroup.it