La vision de Qumulo pour le Cloud Data Lake

Préparer le terrain: l'émergence du lac de données en nuage

La série nuage public a fondamentalement changé l'économie et la dynamique concurrentielle de presque toutes les industries. Les DSI et les PDG, des plus petites startups aux plus grandes multinationales, sont aux prises avec les ramifications d'une infrastructure et de services illimités à leur disposition, ainsi qu'à ceux de leurs concurrents, avec seulement quelques commandes et une carte de crédit. Les obstacles à l'entrée sur de nouveaux marchés tombent et le délai de mise sur le marché de nouveaux produits se raccourcit, ce qui rend les dirigeants à la fois excités et terrifiés.

Les données non structurées sont au cœur de ces changements fondamentaux. Images, vidéos, fichiers journaux, génomes, cartes et fichiers texte sont les matières premières utilisées par ces entreprises pour créer de nouvelles innovations. Envisagez un centre informatique de recherche dans l'une des plus grandes universités du monde. Ce groupe sert des scientifiques du monde entier alors qu'ils cherchent à comprendre les origines de notre soleil et les mutations d'un gène. Pour ce centre de recherche, le succès se définit en attirant les scientifiques les plus talentueux pour s'attaquer aux problèmes les plus importants. L'élasticité du cloud public rend cela possible, en permettant au centre de créer de nouvelles ressources de calcul et de stockage pour ses meilleurs chercheurs avec quelques lignes de code, et de partager leurs résultats finaux dans le monde entier.

Mais pour que cette élasticité fonctionne, le centre de recherche a besoin d'une couche de données accessible, suffisamment ouverte pour favoriser la collaboration mais suffisamment contrôlée pour protéger la propriété intellectuelle. Les clouds publics ont résolu ce problème avec une architecture bien connue appelée «lac de données». Ces grands référentiels de données non structurés combinent plusieurs sources de données dans un pool, surveillé et régi par des systèmes de gestion partagés. Avec les autorisations appropriées, tout chercheur peut accéder à ces données de n'importe où pour mener ses expériences. 

Le défi: données basées sur des fichiers

Le lac de données cloud fonctionne bien pour de nombreux types de données. Si les données sont pour la plupart terminées (c'est-à-dire qu'elles ne changeront pas beaucoup), qu'elles sont indépendantes de l'application et qu'elles ont un modèle d'E / S peu fréquent ou en continu, alors le lac de données cloud fonctionne bien. Cependant, toutes les données non structurées ne correspondent pas à ce moule. Certaines données sont créées et traitées par une application basée sur des fichiers, changent fréquemment au cours de leur traitement et comportent un modèle d'E / S «petite mise à jour» (où le fichier est modifié à plusieurs reprises au cours d'un flux de travail). Ces types de données échouent par l'ancien lac de données cloud.

Prenez, par exemple, les vidéos et les images que les studios modernes utilisent pour créer un film. Tout comme l'exemple du centre de recherche évoqué précédemment, le studio moderne se dispute les artistes les plus talentueux et utilise l'élasticité du cloud pour rendre ces magiciens professionnels productifs à toute heure de la journée et sans délai. Cependant, les applications qui éditent et transforment des images et des vidéos brutes en un film sont basées sur des fichiers, et le flux de travail de l'artiste est constitué de nombreuses modifications apportées à de nombreux fichiers au fur et à mesure que le film se déplace dans la chaîne de production numérique. Un ancien lac de données cloud construit uniquement sur Amazon S3 (par exemple) ne servira pas bien cette charge de travail.

La rupture est à la fois technique et économique. Le défi technique est au cœur de l'approche actuelle des lacs de données. La plupart des fournisseurs de cloud construisent leurs lacs de données autour de systèmes d'objets (par exemple Amazon S3). Bien qu'ils soient puissamment évolutifs et hautement personnalisables, ces systèmes supposent fondamentalement que les objets individuels sont "immuables". Cette hypothèse est au cœur de tous les systèmes d'objets. Lorsque des modifications sont apportées à un objet, elles ne mettent pas à jour l'objet, elles détruisent et recréent l'objet. Pour un flux de travail basé sur des fichiers, il s'agit d'un réel problème, car les applications basées sur des fichiers supposent que les données sous-jacentes seront modifiées à plusieurs reprises. Sans pouvoir faire cette hypothèse, notre centre de recherche et notre studio de cinéma doivent retravailler leurs applications ou demander à leurs utilisateurs finaux, de modifier leurs workflows. Dans les deux cas, il est plus difficile pour ces organisations d'attirer les meilleurs talents de leur secteur.

La répartition économique est liée aux modèles de tarification du cloud stockage d'objets prestations de service. Les principaux services de stockage d'objets facturent aux clients des opérations individuelles sur leurs données. Prenons l'exemple d'un ensemble de données d'objets relativement petit de 20 To. Dans Amazon S3, le coût de stockage de ces données n'est que d'environ 420 $/mois, et si les données sont rarement consultées, ce sera la seule facture que le studio de recherche ou de cinéma verra. Cependant, dès que de petites E/S aléatoires sont effectuées sur les données, cette facture peut monter en flèche à plus de 100,000 XNUMX $/mois. La raison est simple : changements par IO. Tant que l'ensemble de données est au cœur d'une charge de travail lourde en IOPS, le modèle économique du lac de données cloud actuel s'effondre.

Une voie à suivre: le lac de fichiers en nuage

Les applications basées sur des fichiers sont mieux servies par un stockage basé sur des fichiers. Ces applications sont des catalyseurs d’innovation essentiels à la mission. Elles ont besoin d’une infrastructure conçue pour leur succès. C'est pourquoi les systèmes de fichiers existent depuis des décennies et que de nouveaux systèmes de fichiers (et services de fichiers) sont constamment développés. Nous pensons que le Data Lake moderne devrait inclure un système de fichiers évolutif, performant et natif au cloud dans le cadre de son architecture fondamentale.

Ces «lacs de fichiers cloud» offriraient aux clients la possibilité de stocker les données de fichiers telles qu'elles étaient censées être stockées: sous forme de fichiers. Cette nouvelle approche du lac de données crée un espace de noms de fichiers évolutif unique dans un cloud public, avec les fonctionnalités et les capacités d'un système de fichiers moderne tel que Qumulo Core. Cela permettra aux clients :

  • Utilisez les applications que leurs utilisateurs finaux talentueux attendent (et connaissent) et ne reconstruisez pas leurs applications pour l'objet
  • Protégez la propriété intellectuelle à l'aide de méthodologies standard d'accès aux identités éprouvées dans toutes les entreprises modernes (par exemple, Active Directory)
  • Partagez des données entre plusieurs frontières organisationnelles en utilisant la portée du nuage, tout en conservant la structure organisationnelle de leurs systèmes de fichiers

Enfin, et peut-être plus important encore, un «nuage de fichiers en nuage» offre un accès gratuit. IO à un fichier donné dans un fichier de nuages ​​de lac est inclus dans le coût de l'espace de noms. Cela permet d'exécuter des charges de travail d'E / S élevées dans le cloud public avec un coût raisonnable et sans craindre qu'un utilisateur ou une application actif crée un projet de loi à la limite du budget.

Les exigences: ce qu'il faut rechercher dans un lac de fichier

Un véritable lac de fichiers cloud doit, en son cœur, être un système de fichiers évolutif. Afin de servir des charges de travail de fichiers à grande échelle, le lac de fichiers cloud doit pouvoir augmenter en capacité et en performances pour répondre aux besoins du flux de travail. En même temps, il doit offrir les caractéristiques de base d'un solution de stockage de données d'entreprise nécessaires pour gérer plusieurs charges de travail. Certaines fonctionnalités clés, selon nous, sont au cœur de tout lac de fichiers cloud :

  • Évoluez jusqu'à des pétaoctets, des centaines de Go/s et des centaines de milliers d'IOPS dans un seul espace de noms
  • Servir les clients (et les applications) Windows, Linux et Mac sans aucune personnalisation et à partir du même espace de noms
  • Offrir des outils de gestion de fichiers d'entreprise standard tels que des quotas et des instantanés afin que les administrateurs puissent protéger les données et éviter les dépassements de coûts
  • Intégration avec Active Directory et LDAP et offre un contrôle des autorisations granulaire (sous Windows / Mac / Linux) pour contrôler les risques liés à la propriété intellectuelle
  • Être entièrement gérable à partir d'une API ou d'une ligne de commande afin que le fichier de lacs puisse être créé, signalé et géré à partir d'outils d'orchestration standard tels que les CFT

Enfin, un lac de fichiers nuageux ne devrait pas vivre sur une île. Que ce soit via des fonctionnalités natives ou une simple intégration avec les fonctions Lambda, un lac de fichiers cloud doit permettre aux clients de importer des données depuis S3 ou d'autres magasins d'objets cloud pour le traitement et pour exporter des données vers des lacs de données d'objets lorsque le travail basé sur des fichiers est terminé.

Qumulo: le premier lac de fichiers de nuages

Qumulo a passé les dernières années à construire un système de fichiers cloud natif évolutif. Notre produit combine les contrôles d'entreprise riches d'un produit de fichiers moderne avec l'échelle d'une architecture distribuée sans partage dans un package cloud natif. Nos clients utilisent notre produit pour réaliser des films, séquencer des génomes et cartographier les fonds sous-marins.

Qumulo offre un système de fichiers unique avec les avantages suivants:

Bien sûr, ce n'est que le début; nous n'avons pas encore fini. Nous travaillons d'arrache-pied pour continuer à développer davantage de fonctionnalités qui rendent le lac de fichiers encore plus puissant et libèrent la puissance de vos charges de travail de fichiers cloud. Bien sûr, en tant qu'abonné au cloud Qumulo, vous avez accès à toutes ces fonctionnalités gratuitement, simplement en vous inscrivant. 

Conclusion

Partout dans le monde, les organisations axées sur l'innovation se tournent vers le cloud public pour créer de nouveaux produits, faire de nouvelles découvertes et accomplir leurs missions. Au cœur de ce travail se trouvent les données basées sur des fichiers. Chez Qumulo, nous pensons que ces charges de travail sont mieux servies par un lac de données basé sur une technologie qui libère le potentiel de ces données de fichiers.

Le nouveau manuel de stockage de données d'entreprise

Le nouveau manuel de stockage de données d'entreprise

Les données non structurées sont partout et elles se développent à des rythmes incontrôlables. Les DSI et les responsables informatiques se tournent vers des solutions de stockage évolutives pour gérer ces données et rester compétitifs. Le stockage de blocs, le stockage d'objets et le stockage de fichiers ont chacun des capacités et des limitations uniques, ce qui signifie que les systèmes de stockage au niveau de l'entreprise ne sont pas des solutions "taille unique".

Découvrez pourquoi les données non structurées sont importantes et quelle solution de stockage vous convient le mieux.

Télécharger le livre de jeu

Partager cette publication