Le contrôle de qualité des données
Les données récoltées sur internet, et certaines données officielles, sont quelques fois erronées ou manquantes. Les données manquantes sont souvent le résultat de l’application de règles statistiques de confidentialité.
Les données manquantes sont parfois issues de modèles statistiques d’estimation par échantillonnage ou par sondage.
D’autre part, les données internes sont souvent « contraintes ». C’est-à-dire qu’elles proviennent d’une extraction de la base de données clients, suivant un format particulier, et une sélection de variables.
Les clients inactifs sont-ils présents ?
Les clients décédés sont-ils inclus ?
Les agences en création ont elles des clients déjà affectés ?
Les clients en retraire sont-ils bien qualifiés ?
…/…
Avant tout traitement, on réalisera des tableaux de bord et des listes de contrôle et de validation des informations.
On décrira toutes les unités géographiques, toutes les agences, tous les secteurs, avec des données de cadrage.
Ces données sont le nombre de clients, de produits, par nature, par marché, par métiers …/…
On corrigera les informations erronées.
On traitera les données manquantes.18
Executez vos controles de qualite des donnees dans Hadoop, dans le cloud, dans vos applications, en temps reel ou en batch. Definir, decouvrir, evaluer, mesurer, analyser et controler la qualite et la fiabilite de vos donnees.