Data Engineer
Un DWH et un pipeline ELT / ETL
Obtenez des données centralisées, fiables, accessibles et protégées.
Cadrage
Le volume de données, les contraintes métiers et budgétaires, les besoins d’analyses et de visualisations dépendent de votre organisation et conditionnent comment vos données doivent être gérées. Il s’agit ici de déterminer ensemble ce cadre qui vous est propre, pour obtenir in fine des données centralisées, de qualité, disponibles et sécurisées.
Collecte et définition de vos besoins pour vous permettre d’analyser et visualiser vos données et ainsi répondre à vos exigences Business.
Cadrage des attentes quant à la qualité, la disponibilité et la sécurité attendue pour les données.
Conception d’un Data Warehouse et d’un processus ETL qui répond à votre budget.
Choix d’un modèle de données qui répond à vos besoins métiers.
Extraction
Les données sont éparpillées au sein de vos outils et services. Il s’agit ici de se connecter à toutes ces sources et d’extraire vos données selon vos besoins, partiellement ou intégralement, à la bonne fréquence.
- Bases de données relationnelles
- API / Web Service
- Données issues de logiciels / applications
- XML
- JSON
- CSV, Excel, Google Sheets
- Logs
- …
- Fichiers textes
- Questionnaires
- Présentations (Powerpoint, Google Slides)
- …
Chargement
Chargez les données extraites dans votre Data Warehouse pour les transformer.
Cette étape intervient avant la transformation pour les données structurées. Pour les autres données (semi-structurées et non structurées) elle intervient après la transformation car les données ont besoin d’être dans un format de type « table » pour être stockées dans votre Data Warehouse.
Transformation
Ici réside le coeur du processus ETL. Des données brutes non retraitées sont sources d’erreurs et de complexité. En transformant vos données selon vos besoins, vous tirerez parti de données de qualité enrichies avec des informations cruciales pour l’entreprise.
- Déduplication
- Suppression des données inutiles
- Correction des données incorrectes ou incohérentes
- Le bon format
- Le bon type
- La bonne plage
- La bonne structure
- Changement de format
- Renommage de colonnes
- Conversion de devises ou autres unités de mesure
- Modification de chaînes de texte
- Identification des données manquantes et auto-complétion
- Ajout de champs calculés (segmentation, scores…)
- Trouver l’id d’un prospect / utilisateur / client inconnu
- Données prêtes pour les dashboards
- Données utilisables par n’importe qui
Structure des données
Le Data Warehouse ne doit pas être une zone obscure réservée aux Data Engineer / Scientist / Analyst. Il doit correspondre aux usages de votre entreprise, et donc la structure et les noms employés doivent être compréhensibles par tous, que ce soit la Direction, le Marketing…
Il est important de conserver les données brutes en l’état dans votre Data Warehouse. Cela fait du Data Warehouse non seulement la source pour les données de qualité, mais également des données initiales. Vous vous assurez ainsi que tout le monde prend les données d’un endroit commun.
Structurez votre Data Warehouse en 3 ensembles de données :
- les données brutes – raw
- les données intermédiaires (données techniques avant d’aboutir aux données propres) – temp
- les données propres – clean
Puis utilisez un nommage qui parle à tous pour chaque élément retraité. Par exemple, la base nettoyée de vos contacts pourrait s’appeler “marketing_contacts”. Cette étape de nommage est cruciale pour que chacun s’approprie ces données et se sente légitime de les utiliser.
Documentation
Une documentation de votre pipeline ELT / ETL est essentielle. Cela permet de vulgariser comment les données sont extraites, comment elles sont liées entre elles, comment elles sont transformées et chargées dans le Data Warehouse. C’est une sorte de mode d’emploi pour quiconque découvrirait ce processus, un nouveau Data Analyst qui vient de rejoindre vos équipes par exemple.
Sécurisation des données
Chacun a besoin de différentes données, et à un niveau de détail différent.
Sécurisez vos données pour, par exemple, offrir :
- un accès à toutes les données (brutes, intermédiaires et nettoyées) à votre équipe Data
- un accès aux données Marketing à l’équipe Marketing
- un accès aux logs pour l’équipe Informatique
- un accès aux KPIs macros pour l’ensemble de l’entreprise, afin d’avoir une vision partagée par tous au sein de l’entreprise