Accès client  
Traitement de fichiers
- Restructuration
- Normalisation
- Déduplication
 
 
 
Photo non contractuelle
 
Restructuration des données
La restructuration de données
Cette étape consiste à homogénéiser les champs qui composent la base de données, en supprimant les éléments « parasites » susceptibles de nuire à la fois à la qualité des adresses et à la déduplication.
Tout outil de déduplication, aussi puissant soit-il, ne peut comparer que sur le « fonds » des données qu’il aura à comparer. L’opération de restructuration permet d’harmoniser la « forme »
Les méthodes de restructuration :
L’opération de « restructuration » intègre des traitements sur :
La globalité des champs
- Suppression des caracteres superflus (N’importe quelle position dans la chaîne)
- Reconversion des doubles « espaces » en espace simple
- Localisation et suppression des caractères non imprimables
- Identification et suppression des séparateurs mal placés
- Constitution de nouvelles colonnes calculées avec les données de la fiche (avec des fonctions pour la récupération des sub-chaînes à gauche, à droite, au milieu ou en fonction d’un séparateur)
Traitement sur des groupes de données :
- Traitement des noms – prénoms – civilités :
Formatage des prénoms multiples
Eclatement Civilité – Nom - Prénom (avec utilisation des tables des prénoms)
Harmonisation des champs selon leur format standars et leurs caractéristiques.
Qualification de la civilité en fonction du prénom
Génération de nouvelles fiches dans le cas de civilités multiples (Ex. M et MME Dupont)
Gestion de la casse (MAJUSCULE, minuscule, première lettre de chaque mot en Majuscule)
- Restructuration de l’adresse
Vérification de la correspondance entre le code postal et la ville
Vérification de la cohérence du code postal
Formatage des lignes « adresses » avec détection des zones industrielles, zones agricoles, boîtes postales ...
Vérification si le code postal est contenu dans le champ ville et l’inverse
- Normalisation du téléphone et du fax
Correspondance préfixe internationale – code pays
Correspondance préfixe interne – code département
Vérification de la structure du numéro
Suppression des caractères non numériques et interprétation du « + » et des parenthèses
Identification des numéros de téléphone portable
- Vérification des emails
Récupération des émails mal écrits (avec par exemple la transformation des « ; » en « . »)
Identification des adresses http dans le champ email
Vérification de la syntaxe du champ email