Stockage nouvelle génération : NVMe • Conformité • IA • Optimisation logicielle • Systèmes hyperconvergés • Systèmes objets et distribués

LE VOLUME DES DONNÉES, STRUCTURÉES OU NON, AUGMENTE SANS CESSE SOUS LA MONTÉE EN PUISSANCE DE NOUVELLES APPLICATIONS : IOT, IA, BIG DATA… DE CE FAIT, LE STOCKAGE FAIT RÉGULIÈREMENT SA RÉVOLUTION POUR FAIRE FACE QUE CE SOIT AU NIVEAU DU HARDWARE, DES ARCHITECTURES OU DES LOGICIELS. LE POINT SUR LES PRINCIPALES TENDANCES DU MOMENT AVEC LE NVMe, L’INTELLIGENCE ARTIFICIELLE, L’HYPERCONVERGENCE ET LE STOCKAGE OBJET. MAIS POUR QUOI FAIRE ? PAS SEULEMENT POUR CONSERVER LES DONNÉES, MAIS ÉGALEMENT POUR SATISFAIRE AUX BESOINS DE PLUS EN PLUS COMPLEXES ET RESTER CONFORME AUX DIFFÉRENTES RÉGLEMENTATIONS EN VIGUEUR.
  1. 2018, l’année NVMe ! 
  2. La conformité reste le principal objectif du stockage 
  3. L’Intelligence artificielle à double face 
  4. L’optimisation logicielle ou le camp des contrariants 
  5. De l’hyperconvergence au composable
  6. Les systèmes objets et distribués montent en puissance

2018 aura été l'année NVMe

Encore émergent l’année d’avant, le non volatile memory on express (NVMe) s’est imposé en 2018 chez la plupart des constructeurs et fournisseurs de solutions de gestion de données. Premier volet du dossier stockage paru dans L’Informaticien n°172. HPE Nimble. Si 2017 avait vu le démarrage du NVMe (Non Volatile Memory on Express) dans les baies de stockage, 2018 a été sa consécration chez la plupart des constructeurs. Il représente une évolution importante en termes de performance et de latence. Cette spécification permet à la technologie Flash de faire un usage optimal des capacités du bus PCI Express (Peripheral Component Interconnect Express). Auparavant les disques Flash étaient interfacés avec les SATA ou SCSI. La limite de cela était que ces bus avaient été optimisés pour les disques durs classiques. Les disques Flash se « déguisaient » en disques durs mais on ne tirait donc pas totalement avantage de la technologie Flash. La spécification NVMe autorise, elle, l’utilisation d’un bus plus efficace et plus direct et optimise l’utilisation du Flash dans le stockage. Grâce à cela, la latence est fortement réduite. Les constructeurs de baies de stockage proposent de manière habituelle des latences aux alentours de 100 microsecondes soit des latences plus faibles d’un facteur 4 à 10 vis-à-vis des générations précédentes. La technologie autorise aussi un traitement plus grand d’IOPS par un nombre de files d’attente plus important via l’utilisation du parallélisme. Le protocole NVMe prend en charge jusqu’à 64 000 commandes par file d’attente et jusqu’à 64 000 files d’attente par périphérique, alors que les disques SAS standard ne prennent en charge que 256 commandes dans une seule file d’attente et les lecteurs SATA ne supportent que 32 commandes par file. En outre, la technologie supporte le multipathing ce qui permet d’optimiser le routage des données pour le traitement.

Une technologie évolutive

La spécification peut évoluer et déjà pointe sur le marché le NVMoF (NVM over Fabric). Ce standard permet à l’interface NVMe de se connecter par des réseaux compatibles RDMA (Remote Direct Memory Access). Couplé avec Ethernet ou Infiniband, le standard va contourner la principale limite d’aujourd’hui, le réseau. Par le biais du RDMA, les données en mémoire peuvent être transférées des serveurs vers l’équipement de stockage, sans ou avec peu de puissance processeur. Les performances sont alors bien supérieures à celles obtenues par le traitement par des SSD locaux du fait que les files d’attentes n’engorgent pas la CPU qui devient dans ce cas le goulet d’étranglement. Certains constructeurs ont d’ailleurs contourné le problème en utilisant les multiples cœurs de processeurs graphiques, en particulier ceux de NVidia qui devient un acteur majeur dans le domaine. Une baie Huawei OceanStor NVMe.

Proposé par l’ensemble du marché

Pure Storage a lancé le bal en début d’année en indiquant vouloir intégrer le NVMe dans toutes ses baies de stockage de la série X qui préadoptent le protocole NVMoF. La FlashArray//X90 propose une capacité effective de 3 Po – après déduplication et compression – dans un rack 6U. Cette baie offre des latences de 250 µs et des performances jusqu’à deux fois plus élevées que la précédente génération. L’idée est d’approcher les performances des stockages directement attachés. Ces baies représentent aujourd’hui 60 % des ventes de Pure Storage en France. Depuis lors les autres constructeurs ont suivi. IBM a annoncé le support du NVMoF pour l’ensemble de son portefeuille de stockage à la fin du troisième trimestre de cette année. Ce support est réalisé sur l’ensemble des protocoles de communication : FC, Ethernet et Infiniband. La galaxie Dell EMC n’est pas en reste avec l’annonce de son PowerMax, qui prend le relais du Vmax. Cette série de baies supporte de bout en bout NVMe et affiche la possibilité de traiter 10 millions d’IOPS pour sa baie PowerMax 8000. Avec cette architecture, Dell EMC s’ouvre la voie du SCM (Storage Class Memory) qui, en termes de rapidité, se placera entre la DRAM volatile et les systèmes Flash, en apportant du stockage persistant.

Micron produit déjà en volume

Quasiment dans le même temps, HPE annonçait le support du NVMe pour ses baies issues du rachat de Nimble Storage. L’exploitation de la technologie devra cependant attendre que les prix des disques NVMe baissent. Les prix devraient devenir compétitifs durant l’année prochaine et des fabricants comme Micron produisent déjà des disques NVMe en volume et en quantité suffisante. Il reste cependant qu’aujourd’hui ce sont plutôt les fournisseurs de Cloud qui les utilisent. Les entreprises devraient s’y convertir plus tard. NetApp s’est aussi placé sur cette technologie avec sa baie AFF 8000 qui complète par le haut ses baies AFF 700 et 700s. Se présentant sous la forme d’un système Rack bicontrôleur de 4U, elle propose 48 emplacements pour disques NVMe à deux ports. La baie combine des disques NVMe et des disques Flash SAS. Cet hybride peut supporter un maximum de 240 disques SSD pour une capacité brute maximale de 6,6 Po et une capacité utile de 26,4 Po. Le constructeur a annoncé aussi le support prochain du NVMoF sur Fibre Channel (FC) qui sera intégré à la prochaine mouture de l’OS de stockage maison, OnTap 9.4. L’OS étendra le support de FC-NVMe aux baies Flash existantes du constructeur. Plus récemment, DDN (DataDirect Networks) indiquait refondre son offre Exascaler via des disques NVMe avec 24 SSD NVMe à double port dans des châssis rack 2U.

Modèle purement logiciel

D’autres acteurs sont très actifs dans le domaine : Excelero, Apeiron, Vexata, E8 et Kaminario. Il est à noter que les deux dernières entreprises citées se tournent désormais vers un modèle purement logiciel et ont arrêté de fournir des appliances. E8 a certifié des serveurs de HPE, Dell EMC et Lenovo pour accueillir sa solution de stockage haute performance NVMe. Vexata pense lui aussi à une version 100 % logicielle de son offre. On le voit, la concurrence est rude sur les environnements haut de gamme et le NVMe est le fer de lance des constructeurs pour les environnements demandant à la fois performance en IOPS et une faible latence. Le NVMe devient le nouveau standard. Si les gros consommateurs du monde du Cloud se sont déjà convertis, les entreprises devraient cependant mettre plus de temps à adopter pleinement le NVMe, même si la demande est forte selon les différents constructeurs.

La conformité reste le principal objectif du stockage

La gestion et la protection des données est au centre de multiples lois et règlements. La conformité à ces règles est le cas d’usage majeur du stockage de ces données. De ce fait, la frontière entre stockage et sécurité des données devient de plus en plus floue. La conformité n’est plus une option mais une obligation pour les entreprises. Le problème est que cette conformité suit différentes règles provenant de différents pays et demandant des protections différentes… Les principales demandes concernent le temps de rétention de la donnée, son immutabilité – ne pouvant changer de nature dans le temps –, sa localisation et la protection de ces données contre la perte ou la fuite de ces données. Selon les règles en vigueur, et elles sont nombreuses (SOC1, SOC2 et SOC3, ISO 27001/27018, DoD et SRG, FedRAMP/FISMA, FINRA/SEC 17a-4, HIPAA/HITECH, GxP, RGPD sans être exhaustif), les durées de rétention de la donnée sont variées et demandent donc des solutions spécifiques selon les cas.

La rétention des données

La principale obligation reste l’archivage. Dans ce secteur, la bande reste encore très présente car offrant souvent un rapport qualité/prix intéressant comparativement aux disques. Si son utilisation demande en général un process précis pour éviter les incidents, l’augmentation régulière des capacités, en particulier pour les bandes LTO, permet aux entreprises de stocker sur le long terme des données pour un coût raisonnable. Le prix d’une cartouche LTO de 7ème génération coûte environ 100 $ pour une capacité de 6 To brute et de 15 To après compression, soit largement l’équivalent d’un disque SATA de dernière génération. Les constructeurs poussent déjà la génération suivante qui devrait autoriser des archivages de 12 To bruts et de 32 To en mode compressé. Elle est aussi un moyen efficace d’acheminer de grandes quantités de données entre les entreprises et le Cloud lorsque la bande passante est insuffisante ou que le client n’est pas desservi par un réseau fibre optique. La bande est un mécanisme idéal pour le transport de données sans WAN ou réseau métropolitain. La rétention dans le temps des données a pour conséquence de s’assurer de l’immutabilité de ces données et de pouvoir les relire sur le long terme.

L’immutabilité de la donnée

Sur le deuxième point évoqué, seule la migration des données de technologie en technologie au fil du temps permettra de conserver durablement la possibilité de lire les données, à moins de conserver en état de fonctionnement des appareillages obsolètes avec des coûts de maintenance élevés. Sur le premier point, l’approche initiale était de rendre Worm (Write Once Read Many), donc non réinscriptibles, des supports de stockage magnétiques qui ne le sont pas par définition, et ainsi assurer l’intégrité des données ou des documents. Aujourd’hui les constructeurs ont ajouté de nombreuses autres fonctions comme la gestion des durées de conservation, des systèmes de signature électronique, la gestion des copies… Les solutions doivent de toute façon répondre à différents critères : d’intégrité (fonction Worm ou interface de type SnapLock), de pérennité (supports non propriétaires avec accès simple et immédiat sans API), d’évolutivité (accroissement des capacités, sans migration et reconfiguration) et de réplication (sécurisation multisite facilitée). Des fabricants comme Overland Tandberg se sont fait une spécialité de ces produits pour des entreprises petites et moyennes en proposant différents types de baies intégrant ces critères. Le logiciel rdxLOCK a récemment été certifié par la société d’audit KPMG et la fonctionnalité WORM intégrée est autorisée désormais pour un grand nombre de normes d’exigences nationales et internationales en matière de comptabilité, de facturation et de taxation. RansomBlock, une autre fonction de rdxLOCK, protège les données contre les menaces de logiciels malveillants de type rançongiciel et virus en définissant des listes blanches des applications qui autorisent une modification des données sauvegardées.

La localisation de la donnée

De nombreux pays demandent dans certains secteurs très régulés, comme la banque ou l’assurance, que les données ne sortent pas du pays. C’est le cas en Suisse et en Allemagne par exemple. De ce fait le choix d’une solution externalisée ou dans le Cloud peut poser question. Les principaux fournisseurs de solutions de stockage ou d’archivage en ligne (Cloud public) ont ouvert initialement des régions pour couvrir l’Europe, puis sous la pression de ces règles dans différents pays. En France, AWS, Azure de Microsoft et même Google Cloud ont des présences directes en France avec des centres de données à même de satisfaire ces conditions de localisation des données. Il conviendrait de plus de s’assurer que les traitements de ces données sont aussi effectués dans le pays.

La nature de la donnée

Le RGPD a été la grande affaire de l’année 2018 et devrait continuer à jouer un rôle moteur dans les mois à venir. Selon les analystes d’IDC, 34 % des entreprises européennes vont accroître leurs dépenses en stockage sur site pour faciliter leur mise en conformité avec le RGPD, notamment pour des systèmes de Cloud public, hybride et sur site. En ce qui concerne les dépenses en stockage orientées GDPR en Europe de l’Ouest, IDC prévoit 3,37 milliards en 2018 et autour de 2,5 milliards par an jusqu’en 2021. L’intégralité de l’écosystème actif autour des données devrait en profiter. Les entreprises se doivent d’avoir désormais une gestion fine des données du fait de cette réglementation qui s’intéresse au traitement des données personnelles ou vues comme telles. Il s’agit tout d’abord de déterminer ce qui donne un caractère personnel à la donnée. Une tâche loin d’être évidente vu la difficulté des entreprises à réellement la mettre en place.

Une frontière de plus en plus floue avec la sécurité

Pour répondre à certaines normes, les solutions de stockage embarquent de plus en plus de solutions auparavant dédiées à la sécurité comme le chiffrement des données en mouvement et au repos, la gestion des accès aux données ou encore solution de DLP (Data Leak or Loss Prevention). La tendance est renforcée par une rapide transition vers le Cloud, en particulier public, qui pose de nouvelles problématiques de sécurité lors d’un stockage ou d’un archivage en ligne pour rester conforme aux différentes réglementations. En tout état de cause, la sécurité et la protection des données restent de la responsabilité des entreprises et pas forcément des sous-traitants ou des prestataires de services.

L'IA à double face !

L’intelligence artificielle tient de plus en plus le rôle d’outil d’automatisation de plusieurs fonctions  ou services de stockage. Par ailleurs, le stockage se met à niveau pour servir les environnements dédiés à l’intelligence artificielle et à ses applications. Pour reprendre les propos de Gabriel Ferreira, le CTO de Pure Storage en France, à l’occasion d’une tribune publiée dans L’Usine Nouvelle, l’Intelligence artificielle est une des applications principales de l’automatisation en apprenant aux ordinateurs à reconnaître des schémas de données non structurées pour les transformer en données structurées, et instaurer une réponse automatique. « Selon Gartner, les datacenters qui ne parviendront pas à appliquer l’IA et l’apprentissage automatique ne seront plus viables d’un point de vue économique et opérationnel d’ici à 2020 », lance Gabriel Ferreira. Les acteurs du stockage commencent en effet à comprendre tout l’intérêt qu’ils peuvent avoir à s’appuyer sur le Machine Learning. L’IA peut leur permettre d’anticiper des défaillances au sein de leur système tout en gagnant en performance.

Des solutions sur l’ensemble des baies

L’utilisation de ce type d’outil est déjà assez ancienne. Le premier à l’avoir pratiqué à grande échelle a été Nimble Storage avec sa solution Infosight. L’entreprise a depuis été rachetée par HPE qui a généralisé cette plate-forme à l’ensemble de ses baies de stockage. La plateforme recueille dans le Cloud l’ensemble des éléments de monitoring des baies Nimble ou autres et développe des modèles de bon fonctionnement à partir de ceux-ci. Lors d’une déviation de ce modèle, l’éditeur peut avertir rapidement le client, l’entreprise utilisatrice, qu’un incident risque de survenir. La solution est à même de réaliser des préconisations pour résoudre le problème avant l’incident. Sur le même principe, Pure Storage a lancé l’année dernière Meta, un service cloud de monitoring basé sur des mécanismes de Machine Learning. Depuis, la plupart des constructeurs ont intégré des fonctions similaires dans leur offre de stockage. PowerMax OS, le système d’exploitation des baies PowerMax de Dell embarque des fonctions de Machine Learning pour optimiser son fonctionnement.

De multiples cas d’usages

Dans ce cadre, l’Intelligence artificielle peut servir de nombreux cas d’usage. Elle est aussi utile pour la prévision des capacités de stockage par des simulations de l’espace de stockage sur 6 mois ou un an. L’année dernière, l’augmentation du volume de données moyen était de plus de 47 %. Il est possible de pratiquer de même sur les charges attribuées aux différentes baies de stockage. Jusqu’à présent les offreurs se sont arrêtés à ce niveau. Ils pourraient rapidement offrir l’automatisation de toutes ces tâches pour alléger le travail des administrateurs ayant à gérer de gros volumes de données sur des environnements multiples. Selon Christian Laporte, chef de produit Stockage chez HPE, ce type d’outil serait à même de résoudre 86 % des incidents automatiquement. Une étude pour Nimble Storage indique que seulement 46 % des incidents proviennent du stockage. Sur les 54 % restants, 28 % s’expliqueraient par des problèmes de configuration d’infrastructure, 11 % par un manque d’interopérabilité entre composants logiciels, 8 % par des règles de bonne pratique non appliquées, et 7 % mettent en cause le serveur ou l’hyperviseur. La plupart des incidents de niveau 1 et 2 pourraient ainsi être résolus sans interventions humaines.

L'optimisation logicielle ou le camp des contrariants

La plupart des offreurs de solutions de stockage se concentrent sur la performance et la latence en s’appuyant sur des éléments hardware comme les mémoires flash. D’autres, comme StorOne ou Infinidat, misent sur le logiciel pour obtenir les mêmes résultats. Avec succès. Gael Naor, CEO et fondateur de StorOne, créateur de Storwize, revendu à IBM, a des convictions fortes sur le stockage : le point faible des solutions du marché actuel réside dans le logiciel. Les performances ou la capacité ne sont plus selon lui un problème : « Il est incompréhensible qu’une baie de stockage Flash facture une opération par seconde 50 cts ou 1 $, alors qu’un simple SSD peut délivrer aujourd’hui 250 000 IOPS pour moins de 500 $. » 

Optimisation logicielle 

Le système conçu par StorOne permet de tirer le meilleur parti des ressources telles que CPU, mémoire et stockage disponible pour proposer une solution avec des performances et des fonctionnalités les plus étendues possibles. La solution peut fonctionner sur un serveur x86 ou en simple appliance logicielle. StorOne revendique des performances 5 fois supérieures à toutes les solutions du marché pour un coût proche de 1 cent du Gigaoctet et avec une utilisation moindre de disques dans la baie. La solution répond aux besoins de stockage primaire et secondaire. Elle est très versatile et supporte les technologies blocs, fichiers et objets (S3) sur des disques distribués via un système d’erasure coding à parité variable. En termes de fonctionnalités, elles sont toutes présentes sans ajout au prix qui est calculé selon la capacité de stockage. StorOne est l’une des entreprises à suivre dans le secteur. Elle propose une réelle nouvelle approche dans le stockage qui commence à être reconnue par les spécialistes de la question. La solution s’appuie sur près de 50 brevets dont certains sont déjà acceptés. Dans le même ordre d’idée, Infinidat fait le pari que les entreprises ne peuvent se satisfaire du stockage Flash et qu’elle peut délivrer, avec ses baies hybrides, des performances dignes des baies Flash, tout en affichant un tarif minimal du fait de l’utilisation de disques à faible coût pour le stockage des données froides.  Datera est un autre exemple d’une jeune start-up dans le stockage qui mise aussi sur l’optimisation logicielle. « La flexibilité ne fait pas tout dans une plate-forme de stockage, les performances sont également très importantes. Et les performances ne reposent pas que sur le matériel mais également sur l’intelligence du système », souligne Hal Woods, son CTO.

Un prix défiant toute concurrence 

Vexata est une autre entreprise à suivre qui profite d’algorithmes optimisés pour les entrées/sorties de disques SSD NVMe sur des processeurs ARM Cavium dans un module 6U. Soit 64 disques par baie en parallèle pour des traitements distribués en utilisant le plus court chemin pour les données sur un réseau Ethernet redondant. Les métadonnées sont traitées en mémoire ce qui permet à la solution d’afficher des performances et des latences bien plus faibles que les solutions concurrentes. Et en prime un prix défiant la plus grande partie de la concurrence pour ce niveau de performance. La société devrait bientôt proposer son offre sous une forme purement logicielle dans le but de réduire encore le prix de la solution.  Au bilan, si les offreurs de solutions de stockage se concentrent sur la performance d’ingestion des données ou la latence, il existe aussi d’autres tendances qui privilégient une optimisation logicielle permettant d’atteindre les mêmes objectifs sur n’importe quel matériel de commodité tout en offrant des coûts de possession et des prix au Gigaoctet bien inférieurs. Baie Vexata VX-100.

De l'hyperconvergence au composable

Les environnements hyperconvergents (hci) prennent une place de plus en plus grande, mais connaissent certaines limites que les infrastructures composables essaient de corriger. HPE Synergy, le serveur composable d'HPE. Si les systèmes convergents, qui combinent seulement puissance de calcul et stockage, semblent stagner, si l’on en croit les chiffres du 2e trimestre fournis par les cabinets d’analystes comme IDC, le segment de l’hyperconvergence continue lui de connaître une forte croissance. En plus du calcul et du stockage, les baies hyperconvergentes ajoutent la supervision par la console d’administration qui gère les machines virtuelles installées sur la baie. Au 2e trimestre de cette année, il s’est vendu pour 1,5 milliard de dollars de ce type de systèmes, en croissance de 78 % d’une année sur l’autre. Cela représente désormais 46 % des systèmes convergents au sens large – convergents et hyperconvergents. Tout comme pour le stockage objet, la plupart des grands fournisseurs de serveurs ou de stockage ont une gamme hyperconvergente. En tête VMware, de la galaxie Dell EMC, avec ses VXRack ou Rail. Selon les trimestres et les machines prises en compte, VMware est premier ou deuxième du secteur derrière Nutanix. Pure player de l’hyperconvergence, Nutanix s’appuie maintenant sur un modèle purement logiciel et certifie certaines machines ou configurations pour déployer sa solution. Dell est ainsi un partenaire de Nutanix et vend beaucoup d’appliances hyperconvergentes accueillant le logiciel de Nutanix. Cela semble étonnant que l’allié de VMware puisse vendre autre chose que son propre produit mais les demandes sont telles que Dell continue ce partenariat qui avait sa logique propre : pour les clients fortement virtualisés avec VMware, Vx Rack, pour les clients ayant fait le choix d’Hyper-v de Microsoft, Nutanix.

Les besoins en puissance de calcul et en stockage peuvent diverger

Avec son propre hyperviseur, Acropolis, Nutanix essaie de plus d’attirer des clients sous l’hyperviseur de VMware vers d’autres cieux. Bref, s’il n’y a pas de conflit entre les deux officiellement, la tension monte mais on fait « business as usual ». Nutanix a d’ailleurs développé d’autres partenariats avec Lenovo et IBM pour porter sa solution sur Power, le processeur d’IBM. Derrière ces deux leaders indiscutables, Simplivity, désormais dans le giron de HPE, entame une remontée. Étonnamment, ce système hyperconvergent, qui était plutôt destiné aux grandes PME lorsque l’entreprise était indépendante, devient un fer de lance de la consolidation et du renouvellement chez les clients des serveurs de chez HPE. Cisco, Datacore, HTBase, Huawei, Pivot 3, Scale Computing, Stratoscale sont les autres acteurs majeurs de ce marché. Si le secteur se porte bien il connaît cependant un point critique. Lors de l’évolution du système, les besoins en puissance de calcul et en stockage peuvent diverger. Le simple ajout de nœud fait que l’utilisateur risque de se retrouver avec de la puissance de calcul inutile ou de la capacité de stockage excédentaire. Les offreurs de solutions hyperconvergentes ont tout d’abord essayé de contourner le problème en multipliant les configurations et les architectures de références. Industriellement parlant, cette solution semblait peu viable. Des constructeurs ont donc eu l’idée de décorréler cette évolution et de proposer ce que l’on appelle une architecture composable pour permettre au client d’utiliser la bonne puissance de calcul ou de rester au plus juste de ses besoins pour la capacité de stockage.

Le composable ou l’hyperconvergent décomposé

Le premier constructeur à avoir présenté cette idée a été HPE avec ses machines Synergy. Dans un rack hyperdense, la machine regroupe des serveurs x86 et du stockage SSD, le tout supervisé par le logiciel One View. One View Composer, qui réside sur un serveur dédié qui permet d’affecter « à la volée » telle unité de traitement avec telle application et le volume de stockage désiré pour répondre aux besoins spécifiques d’une application ou à la charge de travail qu’elle requiert. L’ensemble est complété par une infrastructure réseau qui gère à la fois le réseau entre les serveurs mais aussi vers le Cloud ou les autres éléments distants. Le « plus » : ce réseau peut être lui-même virtualisé, simplifiant la mise en œuvre du SDN (Software Defined Network). Cette fonction est apportée par Plexxi, une entreprise de supervision réseau récemment acquise par HPE. Des plug-ins dans Plexxi autorisent de plus des intégrations avec la plupart des environnements hyperconvergents du marché. Et la virtualisation du réseau permet d’améliorer le niveau de sécurité avec la mise en œuvre de la micro-segmentation sur les VLan. Fortement lié au logiciel, Synergy permet réellement de mettre en place une « Infrastructure As A Code » pour les développeurs. La configuration demande d’une à quelques lignes de codes. HPE annonçait 1 400 clients autour de sa solution en août dernier. Plus récemment, NetApp a annoncé une solution d’hyperconvergence qui reprend peu ou prou les principes d’une infrastructure composable. Sa solution, du nom de HCI, reprend les environnements de VMware. Les clients peuvent ainsi moduler la solution en fonction de leur besoin : plus de calcul ou plus de stockage. Le pilotage de l’ensemble est assuré par les logiciels de Solidfire. À son tour, Dell s’est mis sur les rangs avec le PowerMax MX qui, lui aussi, combine calcul, stockage et réseau, offrant aux clients « une véritable désagrégation des architectures serveurs » et « une totale composabilité qui permet une vitesse comparable à celle du Cloud », a expliqué à CRN Brian Payne, responsable du marketing de la nouvelle offre.

Des performances équivalentes à des environnements « bare metal »

DriveScale est une entreprise récente créée en 2013 par Tom Lyon et Satya Nishtala, deux anciens cadres de Sun Microsystems et de Cisco. La jeune pousse propose une architecture software pour composer une infrastructure répondant aux besoins des tâches dans le Cloud par le biais du switch réseau. La solution de l’éditeur compose l’infrastructure hardware à la volée en combinant calcul et stockage nécessaire à la juste charge pour exécuter une application avec des performances équivalentes à des environnements « bare metal » et du stockage attaché directement (DAS, Direct Attached Storage) sans nécessiter de changement à l’application. De la même manière, l’environnement se redéploie en cas de changement pour s’adapter au plus juste. La solution se compose d’un logiciel, DriveSCale Management System qui collecte les données, réalise la composition et la configuration des clusters, gère les contraintes et supervise le statut logique et physique des clusters. Les informations sont envoyées vers la console par des agents (placés sur des serveurs Linux pour l’instant) et qui peuvent être déployés automatiquement. L’ensemble est centralisé au travers d’un portail en Cloud pour l’administration des différents sites tout en gérant les mises à jour, la revue des logs, la documentation… Tous les échanges se réalise par le switch réseau, appelé Adapter dans le vocabulaire de DriveScale, et les switchs « top of the rack » pour les éléments du cluster. Le principal avantage de la solution est de combiner l’agilité du Cloud et les performances du « bare metal » avec une administration simplifiée par logiciel pour des adaptations et des déploiements réellement dynamiques et en temps réel. L'architecture de la solution de DriveScale.

Les systèmes objets et distribués montent en puissance

Le stockage objet et les systèmes distribués en scale out commencent à prendre leur place dans les entreprises ayant à gérer de très gros volumes de données. Plus qu’un simple stockage, ce type de solution devient le support de nouvelles applications dans différents secteurs d’activité. Selon le cabinet Gartner, en 2022 ce sont 80 % des données qui seront stockées dans des environnements distribués en scale out, en augmentation de 43 % par rapport à 2018. La même source indique que ces systèmes connaissent une croissance à la fois en nombre de déploiements mais aussi en capacité, pour faire face au déluge des données non-structurées dans les entreprises. Celles-ci croissent de plus de 50 % par an.

Une offre déjà importante

L’offre du marché est importante et combine des systèmes NAS en scale out et des systèmes objets. Les grands du secteur sont tous présents : Pure Storage avec sa solution FlashBlade, IBM avec ses offres Spectrum et COS, Dell EMC avec Isilon et Elastic Cloud Storage, Hitachi Vantara avec Hitachi Content Platform, Huawei avec OceanStor et Fusion Storage, NetApp avec StorageGrid, Western Digital avec ActiveScale et DDN avec WOS. À côté d’eux, des start-up et des spécialistes du NAS scale out, ou des systèmes objets, luttent pour se faire une place au soleil. Scality est aujourd’hui un des plus connus et L’Informaticien a abondamment parlé de sa technologie Ring. L’éditeur a récemment ajouté une possibilité d’intégration multicloud avec Zenko. Les entreprises sont encore au début de cette démarche. La montée en puissance autour de cette nouveauté devrait donc prendre du temps. Y travaillent Caringo, Cloudian, Qumulo, Inspur (acteur chinois qui se diversifie dans le stockage), SwiftStack avec OpenStack Swift, Red Hat, Suse avec Ceph. De nombreux autres acteurs comme Elastifile, Hedvig, Nexenta, Nutanix, Rozo Systems (d’origine française), Open IO, WekaIO émergent peu à peu mais n’ont pas encore atteint une taille assez critique sur le marché pour revendiquer des positions de leadership. Il faut noter que les marchés et les applications des différents systèmes comme les NAS scale out et les systèmes objets connaissent une convergence de plus en plus forte, explique le cabinet américain d’analystes pour justifier son dernier rapport mêlant les deux catégories. L'interface de l'outil de Cloudian.

Une standardisation de fait autour de S3

La délivrance des offres sous forme purement logicielle avec des configurations sur certains matériels x86 est une autre tendance forte du moment. La standardisation de fait autour de l’API S3 d’AWS est aussi un point marquant. Elle apporte un langage commun à la plupart des solutions et autorise des environnements hybrides avec des débordements vers le Cloud. Cette tendance va d’ailleurs beaucoup plus loin aujourd’hui avec la volonté de développer de nouvelles possibilités métier, comme pour le rendering dans le secteur de l’animation ou de la vidéo et de nouvelles applications sur des charges de travail liées à l’analytique ou au Machine Learning. L’autre aspect important de la standardisation autour de S3 provient de la tendance DevOps qui permet aux développeurs de travailler à plus d’interaction avec l’infrastructure par cette API et de choisir pour leurs applications le meilleur environnement. C’est particulièrement visible pour le développement d’applications liées à la mobilité. Minio, est un exemple de cette tendance. Après avoir tenté de percer sur le marché avec une solution de stockage objet distribuée compatible S3, Minio a désormais l’ambition de devenir une couche de stockage objet neutre disponible sur plusieurs plates-formes cloud. L’idée est d’apporter la compatibilité S3 sur Azure Blob Storage par exemple pour offrir cette fonctionnalité aux clients de Microsoft.

Pourquoi un stockage objet ?

Les systèmes blocs traditionnels deviennent complexes à gérer à une échelle relativement faible. Le concept de création d’un pool unique de données n’est plus aussi performant quand le nombre d’appliances augmente, surtout si le pool dépasse les limites des différents types d’équipement. Les serveurs de fichiers (filers) fonctionnent avec des hiérarchies de dossiers de fichiers qui deviennent complexes quand il s’agit d’étendre le système, et ce alors que les milliers d’instances virtuelles actuelles rendent les systèmes de partage de fichiers carrément maladroits. Une des caractéristiques des instances de stockage objet est la distribution des objets sur tous les périphériques de stockage, ou au moins en sous-ensembles s’il y a un grand nombre de périphériques dans le cluster. Cela supprime une faiblesse de conception de l’approche type bloc/fichier, où la défaillance d’une appliance ou de plusieurs unités peut entraîner une perte de disponibilité des données ou même une perte des données. Ce type de protection est connu sous le nom d’Erasure Coding. Scality Ring 6.

Simple ajout de nœud

Un objet est un bout de données couplé à des métadonnées extensibles décrivant toutes sortes de choses sur ces données, toutes identifiées par un identificateur global unique. Il peut s’agir de n’importe quoi : d’une ligne de base de données à un document Word en passant par un résultat quotidien de la NASA. Le GUID est généralement un hachage de données et sert à garantir que les données sont intactes ou non altérées, ainsi qu’à identifier l’objet unique. Le fait que les objets puissent contenir n’importe quelle structure de données signifie que le stockage de fichiers et en mode bloc est effectivement un sous-ensemble. Un autre avantage de ces systèmes est l’évolutivité par simple ajout de nœud. Encore à ses débuts, ce type de stockage était utilisé en complément du stockage traditionnel pour les environnements transactionnels. Du fait de son intégration aux applications, aux systèmes traditionnels et aux autres environnements objets par API, et la standardisation de fait autour de S3, le stockage objet a la possibilité de devenir le stockage « universel » dans l’entreprise. Il reste cependant plus adapté aux environnements massifs en données froides pour l’archivage ou à l’agrégation de fichiers. Une baie Hitachi content platform d'Hitachi Vantara.