Intégration de données – la pièce qui résout les puzzles

Intégration de données – la pièce qui résout les puzzles

juin 4, 2021

Este Website usa cookies

Mónica de Oliveira est consultante en intégration de données chez PrimeIT il y a un peu plus d’un an et demi. Quoique diplômée en génie civil, elle est tombée amoureuse du monde des données et elle fréquente actuellement un master en Gestion de l’information avec une spécialisation en Gestion des connaissances et Business Intelligence à l’Université nouvelle de Lisbonne (Universidade Nova). Aujourd’hui, elle nous explique l’importance d’une bonne intégration des données :

 

« Vous êtes-vous déjà demandé comment les grandes entreprises sont capables de traiter de grandes quantités de données et de les associer afin de générer des analyses de haut niveau pour le développement et la croissance des entreprises ?

L’intégration de données est une pièce majeure pour compléter ce puzzle. Ce processus permet de garantir la disponibilité des données dans les temps, local et formats corrects, d’une forme sûre, et selon ce qui a été requis. Ainsi les données peuvent se mouvoir entre les différentes sources, applications, systèmes et structures, en maintenant toujours les informations consolidées.

La disponibilité des données pour tous les services et systèmes est cruciale pour la gestion de l’information du projet et pour les prises de décision reposant sur une information historique, propre, renforcée et de multiples sources. Avec l’augmentation, tant en qualité qu’en diversité, du format des données, le processus d’intégration apparaît comme une étape importante dans la méthodologie de l’intelligence économique. Cette technique permet que des données de sources et des types multiples soient représentés par un format commun, après avoir subi des transformations et des combinaisons pour atteindre une structure définie.

La mise en œuvre d’un processus d’intégration de données efficace augmente la consistance et la transparence des mêmes, et permet la création rapide de rapports selon les standards et nécessités de l’entreprise, l’identification des problèmes dans la qualité de la propre information étant aussi très utile. Le processus commun pour la mise en œuvre de l’intégration des données s’appelle ETL. ETL est l’acronyme pour les mots anglais : “Extract, Transform and Load”.

Voyons de plus près ce que chaque étape signifie.

 

Extraction

L’extraction des données des sources peut être effectuée, par exemple, avec la réception des fichiers (csv, xml, txt, etc.) à traiter ou avec la collecte dans une base de données notamment à travers un query avec des conditions spécifiées.

 

Transformation

A ce stade, les données issues des sources sont modifiées pour respecter les règles, les exigences, et les structures définies avec l’équipe commerciale et les utilisateurs finaux, les rendant plus solides.

Ceci peut s’effectuer par un simple mappage simple ou inclure aussi des processus tels que des agrégations, dérivations, filtres, standardisations, changements de format, utilisation de lookups et instructions conditionnelles.

Il est aussi important d’ajouter des processus de validation des données, comme par exemple, la vérification du champ du numéro du numéro de portable afin qu’il ne contienne que des chiffes et la quantité correcte de caractères, ou si la date de transaction déjà effectuée n’est pas une date future. On peut aussi créer un processus d’identification des erreurs existantes, et qui donne lieu à un nouveau fichier contenant ces informations.

 

Chargement

Le chargement des données traitées par l’utilisateur final peut être effectué dans un nouveau fichier ou en utilisant une base de données, par exemple. On peut ne charger que les registres nouveaux/modifiés (incremental load) ou tous les registres (full load). En créant un processus d’intégration de données, certains points doivent être discutés entre les équipes impliquées. Il faut définir et enregistrer dans la documentation les étapes du processus, quels sont les input/outputs de chaque activité, la périodicité, comment gérer la récupération (en cas de faille) et les détails sur l’archivages des fichiers.

 

Pour conclure, le développement des processus d’intégration de données avec qualité nous permettent de réduire les coûts et le temps de traitement, afin de garantir que l’information soit utilisée plus facilement, avec plus de sécurité et de rapidité, apportant des bénéfices à l’entreprise. »

 

Mónica Oliveira

Consultante en intégration de données