L’approche As a Service gagne désormais le monde des bases de données. Tous les SGBD ont désormais des déclinaisons cloud et celles-ci sont désormais incontournables dans de nombreux cas d’usage. Avec une croissance estimée à +68,9 % sur la période 2019/2025, le marché des bases de données dans le Cloud (DBaaS) est l’une des niches de marché IT les plus hot du moment. La promesse du DBaaS est de pouvoir disposer à tout moment d’une base de données managée, c’est-à-dire sans avoir à se soucier de l’installation du logiciel, sans avoir à effectuer les montées de versions, les patchs de sécurité, le paramétrage des clusters, la gestion des espaces disque (Tablespace) ou même le tuning de performance. L’offre séduit de plus en plus les entreprises qui développent leurs applications dans le Cloud. Néanmoins si vous voulez faire fortune en développant une base de données cloud, c’est sans doute déjà trop tard. Les petits français de Snowflake y ont pensé en 2012 et aujourd’hui tous les éditeurs de bases de données et bien évidemment les Cloud Services Provider ont affuté des offres DBaaS. OVH aligne ainsi des offres MariaDB, MySQL, PostgreSQL et Redis en mode managé sur son Cloud.
Les hyperscalers en proposent toujours plus
Sans surprise, le CSP qui a poussé le bouchon le plus loin sur ce marché, c’est Amazon Web Services. Lors de la dernière édition de l’AWS Summit Paris, Adrian Cockcroft, vice-président en charge de la stratégie architecture cloud d’AWS a fait de la diversité des bases de données proposées par le géant du Cloud comme un argument marketing choc : «Nous proposons deux fois plus de bases de données que nos concurrents, ce qui vous donne la capacité de choisir la bonne façon de résoudre votre problème. On a aujourd’hui quitté l’époque où une base de données unique devait résoudre tous les problèmes et avec laquelle on essayait de tout faire. Il est bien plus opportun de choisir directement une base de données graphe, une base NoSQL ou une base de données relationnelle. Il existe aujourd’hui différentes bases de données adaptées à différentes applications, différents cas d’usages.» Sur Azure, Microsoft propose bien évident sa base de données SQL Server en mode managé. Il s’agit de l’offre Azure SQL Database, mais aussi l’offre SQL Server sur machines virtuelles. En parallèle, Microsoft propose une base native cloud avec Azure Cosmos DB, ainsi que MySQL, MariaDB, PostgreSQL, Stockage Table, une solution de stockage clé/valeur NoSQL et enfin Cache Azure pour Redes pour le caching à faible latence. Google suit une stratégie similaire avec Cloud Spanner et Cloud SQL, une marque dans laquelle on retrouve les bases de données relationnelles MySQL, PostgreSQL et Microsoft SQL Server, des bases NoSQL avec Cloud BigTable pour les applications Big Data, Cloud Firestone une base cloud native serverless et enfin Cloud Memorystore, une base de données in-memory plutôt dédiée au caching de données. Avec Azure SQL Data Sync, Microsoft propose une solution de synchronisation des données pour sa base de données SQL Azure. De quoi lever les contraintes techniques qui pèsent sur le DBaaS dans certains cas d’usage.Même Oracle a basculé dans une approche Cloud First !
À l’opposé de cette course en avant des hyperscalers, Oracle mise sur une offre beaucoup plus resserrée sur le Cloud. L’éditeur qui, a priori, a le plus à perdre dans le renouvellement du marché, mise résolument sur le Cloud et pousse sa base Oracle Autonomous Database dans le Cloud avec une stratégie résolument différente. Karim Zein, vice-président d’Oracle France, en dit plus : «Nous faisons du transactionnel et du décisionnel depuis longtemps, mais une tendance lourde aujourd’hui est que l’on veut apporter des réponses à des besoins métier et donner le pouvoir aux directions fonctionnelles. Nous avons une relation privilégiée avec les DSI, c’est notre cœur de métier, mais Oracle est aussi très engagé avec les équipes métier avec des solutions marketing, vente, supply chain, finance et RH; les directions fonctionnelles ont besoin d’analyses temps réel rapides. Ces analyses à chaud sont la clé pour leur activité et celles-ci ont besoin de faire ces analyses sans consommer du temps de l’IT.» Cette stratégie qui aurait pu sembler un rien incongrue il y a quelques années est aujourd’hui envisageable grâce à l’Intelligence artificielle. Avec ses bases de données Autonomous, plus véritablement besoin de DBA, Oracle supprime toute nécessité d’avoir des compétences techniques internes pour paramétrer les bases de données, les index, anticiper les capacités de stockage et de calcul, assurer la sécurité, mise en place de configuration haute disponibilité. Cette promesse peut sembler très marketing de la part de l’éditeur, mais la solution testée au Cern de Genève sur un cas d’usage Data Warehouse a su montrer qu’elle savait faire aussi bien qu’un DBA chevronné pour optimiser la base de données.Vers une redistribution des cartes dans le monde de la base de données?
Larry Ellison a bien vu arriver le train des DBaaS et met le paquet pour accrocher son wagon, mais d’autres éditeurs pourraient bien en profiter pour gagner des parts de marché. Ainsi, MongoDB a lancé Atlas son service DBaaS dès 2016, une offre qui pousse de plus en plus de ses clients tels que Leroy Merlin à aller de plus en plus vers son DBaaS. «Atlas est la meilleure façon d’opérer du MongoDB dans un Cloud public qu’il s’agisse d’AWS, Azure, GCP», résume Julien Contarin, Senior Solutions Architect chez MongoDB : «On peut faire du Kubernetes depuis la version 4.2 de notre Ops Manage. Ainsi, grâce à Kubernetes, on peut gérer un cluster MongoDB en bénéficiant de l’autoscale, et ajouter un shard, ou partitionnement, en quelques clics.» L’éditeur travaille sur l’industrialisation de sa plateforme, notamment avec l’intégration d’outils considérés comme fondamentaux pour gérer des opérations dans le Cloud public à l’image de Terraform. En outre nous affichons la compatibilité avec Open Service Broker API. «L’autoscale, jusqu’à maintenant limité au volet stockage porte désormais aussi sur la puissance de la machine, avec un provisioning d’instances plus puissantes en cas de sous performance avérée.» Avec pour approche de proposer la base de données la mieux adaptée à chaque usage, Amazon Web Services propose un impressionnant catalogue d’offres DBaaS. Les taux de croissance du marché DBaaS, et peut-être aussi le succès rencontré par MongoDB Atlas, fait des envieux chez d’autres éditeurs de bases NoSQL. Ainsi, Couchbase a lancé voici quelques semaines Couchbase Cloud, une offre DBaaS sur AWS, Microsoft Azure et un peu plus tard GCP. Encore au stade de la bêta, son éditeur la positionne comme dédiée à la haute disponibilité quel que soit le Cloud choisi grâce à sa technologie de masterless clustering. De même, MariaDB prépare le lancement de SkySQL, une offre MariaDB sur Kubernetes qui pourra être exploitée chez les trois CSP majeurs. Tout comme avec MongoDB Atlas, les développeurs disposeront d’une interface web pour gérer leurs instances de base de données, mais l’éditeur ne positionne pas sa base de données uniquement pour les applications transactionnelles : «MariaDB SkySQL est conçu pour les bases de données de production critiques et dispose d’une architecture de sécurité de pointe. C’est ce que les entreprises clientes attendent depuis longtemps lorsqu’elles cherchent à se déplacer ou à étendre leur utilisation de production dans le nuage», argumente Shane Johnson, Senior Director, Product Marketing de MariaDB. « SkySQL est construit sur la plate-forme MariaDB, il peut être utilisé non seulement pour les charges de travail OLTP traditionnelles, mais aussi pour les analyses modernes et les charges de travail transactionnelles/analytiques hybrides – ou ce que nous appelons les transactions intelligentes – en utilisant une architecture de stockage native dans le Cloud.» La base de données HANA est la clé de voûte de la stratégie de développement de SAP. Elle est à la base de l’offre S/4HANA de l’éditeur et, bien évidemment, de son offre analytique.Quels usages pour ces bases de données managées ?
En termes de cas d’usage, le DBaaS s’est d’ores et déjà imposé comme le modèle dominant pour les Data Warehouse. Beaucoup d’entreprises ont fait le choix du Cloud pour construire leur Data Lake sur le Cloud; et s’il s’agit de créer des Data Warehouse, la solution du Cloud s’impose désormais d’elle-même. Les capacités de stockage sont potentiellement infinies et les coûts à l’usage du Cloud public se prêtent particulièrement bien à cet exercice. Pure player venu du Cloud, Snowflake s’est fait un nom sur ce marché des Data Warehouse dans le Cloud avec une architecture pensée dès sa conception pour le Cloud. Elle fait notamment face à Amazon RedShift, Google BigQuery, Azure Synapse, la nouvelle offre analytique de Microsoft s’appuyant sur Azure SQL Data Warehouse ou encore Teradata, le spécialiste du Data Warehouse, qui a créé une version As a Service de sa solution Vantage sur AWS, Microsoft Azure et Google Cloud Platform. Pour les besoins purement transactionnels, le DBaaS s’impose tout naturellement à toutes les entreprises qui développent de nouvelles applications Cloud Native, avec les traitements exécutés chez le même fournisseur cloud. De plus en plus, l’architecture cible des applications modernes qui s’impose consiste en une combinaison de fonctions Serverless sollicitant des services PaaS, dont ceux d’une base de données DBaaS. Une telle approche permet de franchir une nouvelle étape et ne plus avoir à gérer d’instances virtuelles et ne plus dédier plusieurs machines virtuelles à une base de donnéesLes principaux fournisseurs DBaaS selon la Forrester Wave Q2 2019
L’autoscaling est l’une des fonctions phares d’une offre DBaaS, ici sur MongoDB Atlas. En cas de forte sollicitation du cluster, de nouvelles machines sont automatiquement provisionnées pour tenir la charge. Pour les applications de conception plus ancienne, certaines bases de données typées on-premise, permettent d’exploiter des ressources cloud pour créer des architectures de cluster hybrides, mixant des machines on-premise et des instances cloud. Le modèle est toutefois assez différent de l’approche purement DBaaS car l’entreprise doit garder la main sur ses instances, assurer la cohérence de l’infrastructure, notamment dans les versions et patching de chaque machine du cluster afin de maintenir cette infrastructure plutôt complexe en production. L’approche DBaaS présente bien évidemment des inconvénients et contraintes liées à son fonctionnement, notamment lorsque la base de données est amenée à stocker de gros volumes de données générés par l’entreprise. Cela peut être le cas du monde industriel. L’éloignement physique de la base de données peut poser un problème lorsqu’il s’agit d’alimenter la base de données à très forte cadence comme c’est le cas au Cern de Genève. Même des liens optiques directs de type ExpressRoute ou Direct Connect ne peuvent résoudre tout problème de latence et ne peuvent absorber le débit des informations générées par les équipements industriels. Une brique Egde Computing peut s’avérer indispensable dans ce type de projet afin de placer une étape de stockage rapide et consolidation des données avant leur envoi dans le Cloud. Bien évidemment, les géants du Cloud ont anticipé ce type de contraintes et proposent des solutions Edge assurant une synchronisation de données automatisée avec leurs services DBaaS. Depuis plusieurs années déjà, une base de données telle que SQL et sa fonction de réplication Always On, permet de créer des architectures à haute disponibilité hybrides, avec des groupes de disponibilité on-premise et dans le Cloud public. L’approche cède désormais le pas au full DBaaS.