Si les solutions de gouvernance de données garantissent la fiabilité de l’information et remettent au cœur de l’entreprise la gestion de cette dernière, ces solutions restent principalement déclaratives et nécessitent ainsi une organisation qui accompagne des tâches souvent redondantes et pas nécessairement à forte valeur ajoutée.
Comprendre, expliquer, communiquer le cheminement de l'information et son usage dans le temps - dans des architectures très hétérogènes - est un véritable défi.
Pourtant, il
existe dorénavant des solutions très techniques non déclaratives comme
openAudit qui permettent de combler les interstices des solutions de
gouvernance du marché. L'idée est d’automatiser les tâches les plus chronophages
et récurrentes pour libérer les énergies où l’intelligence, le discernement est
indispensable.
Les nombreux atouts du parsing en continu
Une solution
technique permet de libérer de l'énergie pour actualiser continuellement les
flux, les liens entre données et l'inventaire exhaustif de l'information. Cela
passe nécessairement par de multiples parseurs, sondes en tous genres
indispensables pour constituer des référentiels homogènes qui font abstraction
des multiples technologies de stockage et de transformation de données (ETL, langages
procéduraux, scripts et outils de manipulation de données).
Qui utilise l’information stratégique, opérationnelle, à quelle
fréquence ?
Une fois ces référentiels en place, il devient plus
simple de casser la complexité en classifiant les grands domaines de
transformations et de stockage, en les croisant avec de nouvelles sondes sur
les bases d'audit et ainsi mettre en évidence les autoroutes de l'information
et a contrario les multiples ramifications actives ou mortes. C’est la première
étape pour pouvoir dissocier le canal prioritaire, stratégique de l’entreprise
de l’information secondaire obsolète qui pourra être revalorisée sans
contrainte forte de maintenance.
Quel lien avec la dataOps ?
Ces référentiels vivent au même rythme que les outils de production et
d'analyse de l'information, ils en forment donc la mémoire (évolution de la
donnée et de ses modes de transport) et l'intelligence de l'entreprise (règles
de calcul dans les transformations unitaires, traduction des règles de gestion
formulées par le métier).
Même s'il est bien-entendu difficile de concevoir autant de parsers et de sondes qu'il y a de technologies dans l'entreprise, il existe néanmoins de nombreuses méthodes pour rapprocher les informations stockées entre elles en s'appuyant sur leur structure, sur les schedulers ou les logs des bases de données et des différents outils de transport de l'information. Cette « intelligence » qui automatise les rapprochements redonne de la visibilité là où il y avait des ruptures : transfert de données par FTP avec changement de nom entre les sources et les cibles, SQL dynamique, scripts générés à la volée par des outils tiers, utilisation abusive de couche d'abstraction de l'information comme les vues SQL. Les exemples sont innombrables.
Enfin, il faut comprendre que la mise en place de ces référentiels,
auto-alimentés quotidiennement, doit être considérée comme la première brique
de la dataOps. Bien au-delà de la simple gouvernance de l'information de
l'entreprise, ces référentiels constituent le socle pour accélérer les
évolutions, permettre de revenir en arrière, d'organiser les « pulsions »
du métier en toute transparence ou tout simplement booster une migration
qu’elle soit technique ou fonctionnelle.
Ces référentiels peuvent également aider à automatiser la classification de
l’information en s’appuyant sur la théorie des ensembles
en rassemblant les définitions sémantiques des descriptions techniques.
Le but ultime est de partager l'ensemble de la complexité pour ensuite en
partager la responsabilité. Peu importe la perspective dégagée, peu importe le
point d'entrée, l'essentiel est de sortir du nuage, du brouillard pour avoir de
la vraie visibilité sur les méandres des flux d'information.