Un jeu de mots pour experts de la data : la déduplication au service des fichiers BtoB

 

Qu’il s’agisse de prospection ou de fidélisation, tant en BtoB qu’en BtoC, l’acquisition et l’enrichissement de données sont des pratiques quotidiennes et nécessaires.


Cependant, la qualité des données peut être dégradée à chaque saisie par un collaborateur (et/ou client) ou à chaque intégration totale ou partielle de nouveaux fichiers.


La déduplication rigoureuse et régulière est donc une nécessité incontournable.


Il est un fait que cet exercice reste beaucoup plus complexe et plus « risqué » en environnement BtoB qu’en environnement BtoC.


L'ordre est le plaisir de la raison [i]


Les fichiers d’entreprises recèlent trois strates de données : l’entreprise (dénominations, forme juridique, coordonnées principales, adresse, téléphone, email générique, …) ; la segmentation (secteur géographique, secteur d’activité, effectifs, données financières) ; le contact (identité des dirigeants statutaires et opérationnels, leur fonction, leurs coordonnées directes). Arrêtons-nous sur le premier niveau …


Personnes morales, les entreprises jouent à cache-cache dans les fichiers car elles usent de « pseudos » selon leurs interlocuteurs. Face à l’administration, elles déclinent leur raison sociale ; devant les clients, un nom commercial, qui devient une enseigne si elles ont pignon sur rue ou un sigle appelé à supplanter toute autre appellation. Un exemple tiré de l’excellent Livre Blanc de la Déduplication édité par notre syndicat de référence, le Syndicat National de la Communication Directe (Sncd) [ii], illustre ce cas de figure : la raison sociale « EURL AUTO CONTROLE DE LA CHAPELLE » a été créée avec le nom commercial « CONTROLE TECHNIQUE MOINS CHER » et le sigle « ACC ». Elle est exploitée sous l’enseigne « SECURITEST ».


Si ces multiples identités donnent de la souplesse à la communication des entreprises, elles compliquent leur identification : au sein de fichiers de sources différentes, la même société peut se glisser plusieurs fois avec des noms différents. Le risque s’accroît de façon exponentielle dès qu’on a plusieurs sources de données et opérateurs de saisie ou des fichiers « âgés ».


Les traitements de déduplication ont donc pour mission de détecter les noms d’entreprises en double (ou triple …). Si les critères et règles de rapprochement pris en compte par les algorithmes sont trop stricts, de nombreuses entreprises en double ne seront pas détectées et, à l’inverse, en utilisant des règles trop permissives, de « faux doublons » seront rapprochés à tort.


Le remède pourra être alors plus grave que le mal … 


Les mauvaises rencontres et faux amis …


Les appellations peuvent contenir des formes juridiques (SA, Sarl, Eurl...), des articles, des indications géographiques (INTERNATIONAL, EUROPE, FRANCE...) ou encore des expressions telles que « PERE ET FILS », « ET COMPAGNIE ». Ces mots, dits «creux» ou «non significatifs», ne doivent pas être pris en compte dans la procédure de déduplication pour ne pas fausser les résultats.


Plus délicat encore, lorsqu’un fichier BtoB à traiter concerne un secteur « homogène » d’activité, comme, par exemple, la Consommation Hors Domicile (CHD), on va retrouver très fréquemment dans la raison sociale et/ou la dénomination commerciale des mots comme « brasserie », « restaurant », ...


Ces mots constituent une fausse ressemblance comme, par exemple, « brasserie de l’île » et « brasserie du phare » d’autant qu’ici, le mot « brasserie » est long.


A l’inverse, il peut y avoir une fausse différence pour « brasserie de l’île » et « restaurant de l’île ».


Ainsi, pour un fichier de ce type, secteur « homogène » d’activité, il sera nécessaire de désembusquer ces mots qu’il est indispensable d’ignorer pendant les traitements.


Pas si évident que cela.


Voici illustrées quelques chausse-trappes que les outils de gestion de la qualité de données doivent – normalement – savoir détecter et dépasser à deux niveaux :

  • en « dédoublonnage », lorsque l’on cherche à retrouver plusieurs enregistrements identiques dans le même fichier,
  • en « déduplication » pour retrouver un enregistrement d’un fichier 1 présent dans un fichier 2, un fichier 3, un fichier 4 ... et l’enrichir en informations (numéro de téléphone, données financière, contacts, ...) …

Comme quoi la déduplication en BtoB est un exercice aussi sophistiqué que complexe qu’il est nécessaire de pratiquer au quotidien.


Il est très fréquent de constater des résultats parfois très sensiblement différents d’un outil à un autre, d’un prestataire à un autre.


Aussi, n’hésitez jamais à confier à vos prestataires un jeu de données concernant une zone définie (et non un « échantillon » afin de ne pas « casser » les familles de doubles ) avant de confier votre base complète et comparez les performances ! 


[i] (… Mais le désordre est le délice de l'imagination, ajoutait Paul Claudel, dans le soulier de satin)


[ii] L’ouvrage collectif est issu de nos groupes de travail au sein du Syndicat National de la Communication Directe. Il est le fruit d’années d’expériences cumulées au fil de millions de traitement opérés par nous et nos confrères. http://www.sncd.org/nos-publications/livre-blanc-de-la-deduplication/