Si trop d’informations tue l’information, il en est de même avec les données ou le trop plein masque la possibilité de les utiliser. Les catalogues de données sont une des manières de répondre au problème. Alation et Waterline Data sont deux éditeurs proposant des catalogues de données d’entreprise pour accélérer la mise en place de self-service analytique.
La vision d’Alation est ambitieuse : devenir la source de référence dans l’entreprise avec son catalogue de données. L’entreprise a réussi en partie son pari avec 32 M$ levés, plus de 90 clients en production et une croissance d’une année sur l’autre de 291 %. L’Europe représente 13 % du chiffre d’affaires d’Alation avec des clients comme BMW, Tesco ou l’opérateur télécom Telia.
Satyen Sangani, le CEO d’Alation compare la situation des données dans l’entreprise à celle des médias confrontés au problème des « fake news », il ajoute : « il existe aussi des « fake news » dans l’entreprise ». Trop de sources de données donnent des informations contradictoires, les outils utilisent des codes complexes trop difficiles à analyser, la présence de données dans trop de systèmes différents créent des biais qu’il est impossible d’infirmer ou non. Alation se veut donc la source de référence qui permet de trouver, comprendre et de croire vos données en proposant des recommandations automatiques.
L’éditeur s’appuie sur des fonctions de machine learning pour améliorer sa solution. Le modèle sur les données est entraîné et ingéré dans le système de machine learning qui propose une solution. Un expert confirme si le résultat est valide ou non. La réponse définitive est intégrée dans le moteur de recommandation de la solution d’Alation, Smart Suggest.
En plus du machine learning la solution combine des informations comportementales et l’analyse du langage naturel. La solution indexe et catégorise directement les données et, sur le long terme, ajoute un scoring d’utilisation et de pertinence. L’outil en lui-même autorise d’avoir ainsi une gouvernance et un accès aux bonnes données pour une prise de décision plus appropriée.
Satyan Sangani le CEO d'Alation.
Waterline Data pour ne pas couler sous les flux de données
Waterline Data que nous avons déjà rencontré lors d’un tour précédent en Californie a sur le fond une approche similaire pour répondre aux mêmes questions. Là encore l’entreprise surfe sur une vague déferlante : sa base installée a été multipliée par 6 courant 2017 et la zone EMEA représente désormais un tiers de sa clientèle.
Là encore la solution tague et indexe les données automatiquement alors qu’une faible proportion des données sont comprises et/ ou utilisées dans l’analytique. L’éditeur s’appuie sur sa plate-forme de découverte des métadonnées. Ce moteur automatique propose un score de confiance et attribue un label métier. La solution reprend aussi le lignage de la donnée pour ajouter le contexte d’utilisation de la donnée. Différents attributs permettent de raffiner cette première analyse. L’utilisateur retrouve la donnée par requête sur des mots clés. Des avis des utilisateurs métiers autorisent de préciser encore la pertinence du moteur de recherche et d’avoir rapidement accès aux données pertinentes et de commencer à utiliser les outils partenaires pour les analyses comme les outils de préparation de données de Trifacta. La solution s’intègre avec les principales bases de données du marché, des principaux outils de restitution et des principaux environnements d’exécution analytique par des plug-ins ou des API REST.
L’éditeur s’appuie sur cette base pour présenter une solution pour aider les entreprises à retrouver leurs petits dans le cadre de RGPD en fournissant en automatique au DPO et aux data stewards des labels RGPD sur certaines données avec leur utilisation contextuelle et leur lignage. La solution est intéressante pour automatiser les premières étapes de cartographie des données dans des applications éparses et valider si le traitement opéré sur la donnée est compatible avec la réglementation. Cette application est la première d’une série d’applications plus métiers, voire verticalisées dans les catalogues de données.
Alex Gorelik , CEO de Waterline Data.