Lors de notre périple IT Press Tour rien moins que 3 entreprises relevaient de ce créneau qui combine le traitement des données dans une base et l’analytique avec à chaque fois des approches différentes. Gridgain, Aerospike et MapD sont les étoiles montantes de ce secteur défini par le Gartner.
Depuis la création du terme par le Gartner en 2014, le HTAP (Hybrid Transaction / Analytical Processing) ne cesse de se développer et propose de nouvelles architectures pour répondre aux limitations des architectures plus classiques impliquant des réplications de données avant leur traitement analytique.
Les bases de données HTAP évitent cette migration en rendant les données disponibles pour l’analyse dès leur entrée dans la base. Ces analyses pointent directement sur les données les plus fraîches présentes dans l’application HTAP. Cela induit des économies importantes. Plus besoin d’avoir des datawarehouses ou datamarts pour réaliser l’analyse. Les solutions HTAP évitent aussi la gestion de multiples copies de la donnée. De plus comparativement aux environnements classiques des bases de données transactionnelles, les solutions sont plus simples à faire évoluer ou à mettre à l’échelle voulue pour les traitements.
Ces solutions font généralement appel à des traitements en mémoire. Selon le Gartner, l’utilisation de l’IMC (In-Memory Computing) va connaître un fort développement et représenter un marché de près de 11 milliards de dollars à la fin de 2019. Selon l’institut, 75 % des applications nativement développées pour le cloud utiliseront cette technologie à la même date. Plus de 25 % des compagnies globales dans le monde utiliseront des plates-formes combinant différentes technologies en mémoire en 2021. L’année suivante 40 % des entreprises globales s’appuieront sur cette technologie pour éviter la prolifération des référentiels physiques pour la publication de données. SAP HANA est un représentant de cette famille. Plusieurs autres acteurs investissent maintenant ce secteur avec succès.
GridGain, le plus récompensé
Nous avions déjà rencontré GridGain lors d’un tour précédent. Il était intéressant de voir comment l’entreprise avait progressé durant l’année écoulée. Depuis notre dernière visite, l’entreprise a connu un fort développement de sa base installée dans de nombreux secteurs d’activités différents. Le point commun de tous les clients : le besoin de performance et de rapidité des traitements analytiques à l’échelle des millisecondes tout en conservant la consistance des données.
Nikita Ivanov, le CTO et fondateur de GridGain, parle d’ailleurs de « Fast Data » et non de big data lorsqu’il décrit sa solution. Parmi les clients nous pouvons citer : la banque ING aux Pays-Bas et Workday, l’éditeur de solutions SaaS de ressources humaines et de finance.
Pour rappel, la solution de GridGain reprend les caractéristiques citées plus haut et se construit sur Apache Ignite, un des projets les plus suivis de la Fondation Apache. Le projet connaît un million de téléchargement par an et se classe 5ème dans les commits. Sa mailing list se classe 3ème loin devant des projets comme Cassandra, Flink ou Tomcat.
Abe Kleinfeld, CEO de GridGain.
Aerospike, très présent dans le secteur financier
Créée en 2009, Aerospike compte aujourd’hui 80 salariés. La société est surtout présente dans le secteur financier avec comme clients des fournisseurs de cartes de crédit, des systèmes de paiements et des mastodontes des services financiers. La société revendique plus de 125 clients.
Aerospike a un écosystème assez développé avec comme partenaires clés Intel, Nokia, Amdocs, HCL et Wipro.
L’entreprise met en avant la performance que lui permet d’atteindre sa technologie de mémoire hybride. La solution s’appuie sur une base NoSQL Key/Value dans laquelle le traitement des données est effectué par des accès massivement parallèles avec une répartition automatique des données sur les différents éléments du cluster. La solution rebalance l’équilibre de la charge sur le cluster après un incident ou un changement de configuration ou un ajout de nœud par un algorithme, Smart Partitions, un système breveté d’Aerospike.
La solution supporte le stretch cluster et une fonction de réplication synchrone entre centres de données assure une disponibilité maximale. Un agent sur chaque serveur a une double fonction : exécution des tâches sur le cluster et monitoring du nœud de cluster. L’architecture se veut la plus simple possible et ne requiert pas de cache avec une optimisation de la performance sur les supports Flash. La solution fournit une performance prédictible et peut se déployer sous tous types d’environnements (bare metal, machines virtuelles, containers, Cloud). De plus les clusters se gèrent de manière dynamique. L’ensemble fournit des ratios de performance de 1 pour 10 et des réductions du nombre de serveurs dans le même ordre d’idée pour une charge identique.
MapD joue sa carte !
L’aventure de cette entreprise démarre lors d’études à Harvard sur le printemps arabe. Un des étudiants, Todd Mostak, passait des heures à attendre les résultats de ses requêtes sur l’analyse des messages sur les réseaux sociaux en rapport avec son mémoire. Ne pouvant avoir accès à plus de puissance de calcul il lui vient l’idée d’utiliser les processeurs graphiques de sa carte pour aller plus vite. Il développe la première version de ce qui deviendra MapD. Il continue ensuite ses recherches sur son logiciel au MTI. En 2013 il crée l’entreprise.
La version 3.4 du logiciel a été annoncée en janvier dernier. Il positionne la solution sur les environnements analytiques extrêmes, en particulier ceux ayant besoin d’utiliser des informations géospatiales. La solution se décompose en 3 éléments : MapD Core, un moteur qui permet de requêter sur des milliards de lignes en quelques millisecondes par un moteur SQL optimisé pour les environnements GPU en open source, un moteur de rendering qui fait le lien entre le moteur de requête et MapD Immerse, un outil de visualisation des données interactif. Un outil de compilation rapide permet à la solution de fonctionner à la fois sur des CPU ou des GPU suivant le choix des utilisateurs et du volume des données. Un cache intelligent place les données chaudes dans la mémoire principale ou la mémoire virtuelle des GPU.
Le système peut s’appuyer sur des disques Flash pour assurer la persistance des données. La solution évolue en Scale-out fournissant des performances prédictibles lors de son évolution. Les visualisations peuvent être partagées et être interactives même avec des milliards de points par l’API Vega dont les spécifications de rendus sont générées en tâche de fond.
Dans cette catégorie HTAP ou « Translytique », combinant transactionnel et analytique, Nous avons vu 3 approches différentes s’adaptant à de nombreux cas d’usages même si chacun garde sa spécificité suivant les architectures ou les outils sous-jacents. Ces 3 exemples ne sont là que pour illustrer une tendance bien plus large sur ce qui évolue en ce moment dans les bases de données où les entreprises visent peut-être plus à mieux exploiter les données existantes plutôt que d’ajouter à toutes fins d’autres flux de données.
Todd Mask, CEO et fondateur de MapD.