Qu'est-ce qui rend le système de fichiers scale-out de Qumulo unique sur AWS ? (Partie 1)

Système de fichiers pour AWS Cloud Migration

Cette série en 2 parties explore ce qui rend le système de fichiers distribué et évolutif de Qumulo unique sur AWS. Dans la partie 1 ci-dessous, vous apprendrez comment le Nuage Qumulo Q L'architecture logicielle est conçue pour les performances et l'évolutivité dynamique, prenant en charge l'accès aux fichiers multiprotocole pour les charges de travail hautes performances exécutées dans le cloud ou dans des environnements de cloud hybride. Dans la partie 2, nous nous concentrons sur comment copier des objets entre des compartiments et des clusters S3.

Pourquoi les services de fichiers d'entreprise sont nécessaires dans le cloud

Entre la croissance rapide des données non structurées, les besoins en capacité de stockage sans cesse croissants et les budgets stricts, les services informatiques se heurtent à un problème de centre de données - les dépenses en capital et le manque d'évolutivité sont un obstacle à l'innovation et deviennent plus difficiles à justifier. La migration vers le cloud est la solution évidente pour des performances illimitées et une évolutivité du stockage, et pour maîtriser les coûts pour une stratégie data performante.

Migration vers le cloud Lift and Shift

Les entreprises du monde entier choisissent de déplacer leurs données et leurs applications vers le cloud, mais pour beaucoup, la question est de savoir comment y parvenir rapidement et avec un minimum de risques ? L'un des plus rapides migration de nuage méthodes est "lift and shift", ce qui signifie déplacer des applications existantes sans refontes majeures vers les charges de travail. Et, comme la majorité des applications sur site fonctionnent avec des systèmes de fichiers pour Unix/Linux et/ou Windows, des systèmes de fichiers de classe entreprise sont nécessaires dans le cloud.

Les défis de la migration des données d'entreprise vers le cloud

À mesure que les organisations migrent à l'échelle du pétaoctet, à haut calcul charges de travail vers le cloud, ils sont confrontés à des défis uniques, notamment le choix d'une solution évolutive solution de stockage de données d'entreprise capable de stocker, de gérer et de créer des flux de travail et des applications de calcul haute performance (HPC) avec des données dans leur forme native.

Lors de la migration des charges de travail dépendantes du système de fichiers vers le cloud, les DSI et les administrateurs système ont besoin d'une solution qui réponde aux défis de migration suivants :

  • L'accès aux données doit être possible à partir de n'importe quel protocole en même temps
  • Permissions et les ACL doivent être "traduites" de manière transparente entre POSIX et Windows et potentiellement d'autres protocoles tels que FTP ou HTTP
  • La solution doit disposer de fonctionnalités d'entreprise que les administrateurs de stockage utilisent sur site, telles que les instantanés, les quotas, l'intégration Kerberos et le mappage UID/SID.
  • Dans le même temps, la solution doit être définie par logiciel avec une intégration cloud native ; par exemple, mise en œuvre automatisée via Cloud Formation Templates ou Terraform ainsi que l'intégration avec Amazon CloudWatch
  • La solution doit être évolutive et permettre l'expansion de la capacité et des performances en temps réel sans aucune interruption de service
  • Le système doit pouvoir gérer des milliards de fichiers sans l'obligation d'effectuer des arborescences pour certaines opérations telles que les sauvegardes, les analyses ou la création de statistiques d'utilisabilité
  • La solution doit prendre en charge SMB, NFS et parfois FTP
  • Les entreprises ayant une stratégie multi-cloud veulent une solution de fichiers similaire sur tous les clouds avec les mêmes API, gestion, intégration cloud, niveaux de performances, méthodes de sauvegarde, protocoles d'accès, etc.
  • Idéalement, la solution permet de déplacer des données entre le système de fichiers et Amazon Simple Storage Service (S3) car dans de nombreux cas, leur référentiel central de données réside dans S3.
  • Alternativement, ils peuvent avoir des données sur le système de fichiers qu'ils souhaitent traiter avec un service natif Amazon qui fonctionne sur les données de fichiers dans S3
  • Le système de fichiers doit prendre en charge un environnement cloud hybride pour déplacer facilement les données sur site vers le cloud
    Idéalement, la solution comprend analyse des performances et de la capacité en temps réel pour obtenir des informations sur les modèles d'utilisation, l'utilisation et l'optimisation des coûts

Qumulo a reconnu que les anciennes solutions scale-out et scale-up n'étaient pas conçues pour gérer les volumes de données, les types de fichiers, les applications et les charges de travail d'aujourd'hui. Les systèmes de stockage de données hérités ne peuvent tout simplement pas fournir de chemin vers le cloud. Nous en avons donc construit un meilleur.

Ci-dessous, nous expliquerons comment le Qumulo Core répond à ces exigences sur site et dans le cloud. Nous explorons en détail comment notre approche cloud hybride unique simplifie considérablement les migrations de données non structurées vers AWS et les applications associées, vous permettant de gérer les données de manière transparente entre votre centre de données et les environnements cloud.

Une solution de stockage de fichiers native dans le cloud basée sur EC2, EBS et S3

Qumulo Cloud Q pour AWS est une solution de stockage de fichiers native dans le cloud qui s'appuie sur les volumes Amazon Elastic Compute Cloud (EC2), Amazon Elastic Block Store (EBS) et Amazon Simple Storage Service (S3). Il offre de nombreuses fonctionnalités intéressantes qui vont au-delà des autres solutions de stockage de données d'entreprise, notamment :

  • Avant-poste AWS assistance
  • Disponible en AWS GovCloud (US)
  • Architecture scale-out : évolutive jusqu'à 100 instances, actuellement environ 30 Po dans un seul espace de noms
  • Débit agrégé ultra-élevé avec de faibles latences d'environ 1 ms en moyenne
  • Multi-protocole : les fichiers sont accessibles via NFS/SMB/FTP/HTTP simultanément
  • Copie native et basée sur un répertoire des données de fichiers dans un compartiment S3 et inversement
  • API entièrement programmable
  • CFT avancé pour les déploiements automatisés
  • Intégration Kerberos/Active Directory
  • Intégration d'instantanés
  • Quotas en temps réel
  • Réplication multicloud et réplication sur site vers AWS

Comment le système de fichiers Qumulo Core est-il construit ?

Le noyau Qumulo système de fichiers cloud hybride est conçu comme une application d'espace utilisateur qui s'exécute sur une version allégée d'Ubuntu LTS, qui est fréquemment mise à jour. Il s'agit d'un système en cluster commençant à partir de 4 nœuds et évoluant jusqu'à 100 nœuds à ce jour. Le plus petit cluster peut être aussi petit que 1 To tandis que le plus grand déploiement peut actuellement héberger 30.5 Po de données. Le déploiement se fait via fourni Modèles AWS CloudFormation et Démarrage rapide AWS pour Qumulo Cloud Q.

Histoire connexe: L'architecture de base de Qumulo est conçue avec la flexibilité matérielle à l'esprit

L'image suivante illustre une pile minimale déployée via un CFT qui respecte les principes du cadre AWS Well Architected.

Cluster Qumulo minimal déployé dans un sous-réseau privé

Figure 1 : Cluster Qumulo minimal déployé dans un sous-réseau privé.

Brisons-le: Comme bonne pratique, un cluster Qumulo sera déployé dans un sous-réseau privé. Les types d'instances pris en charge de m5 et c5n sont actuellement pris en charge et le type d'instance détermine les performances dans une large mesure (plus d'informations sur les performances plus tard). L'espace de stockage est composé de volumes EBS. Selon le type de nœud, les volumes sont soit des volumes GP2 (nœuds entièrement Flash), soit une combinaison de GP2 et SC1 ou ST1 (nœuds hybrides). Chaque nœud obtient une adresse IP interne statique et généralement 3 adresses IP flottantes qui basculent vers les nœuds restants en cas de défaillance d'un nœud. En option, le cluster peut également être configuré avec une adresse IP élastique par nœud si des adresses IP publiques sont nécessaires.

Une fonction Lambda sera déployée pour vérifier l'état de tous les volumes EBS et effectuer un remplacement automatique si un ou plusieurs volumes EBS échouent. Une autre fonction Lambda rassemble des métriques de métadonnées détaillées à partir du cluster et les stocke dans les journaux Amazon CloudWatch.

Un système de fichiers pour AWS conçu pour la performance et l'évolutivité

Débit de flux unique, en lecture ou en écriture, est limité à 600 Mo/s ou moins si un type d'instance et une configuration EBS ne prennent pas en charge cette limite supérieure. Ce nombre équivaut à la limite de débit TCP unique AWS de 5 Gbit/s appliquée en dehors d'un groupe de placement EC2. Cette valeur ne peut être dépassée que si les nœuds de cluster et les nœuds de calcul sont déployés dans le même groupe de placement (par défaut, Qumulo se déploie dans un groupe de placement de cluster pour minimiser la latence entre les nœuds de cluster).

Performances multi-flux varie selon la configuration du volume EBS et le type d'instance EC2. Les types d'instances plus petits ont moins de bande passante réseau et moins de bande passante EBS, ce qui les soumet à des crédits en rafale. Les configurations EBS plus petites sont également soumises à des crédits en rafale. Pour des performances garanties, respectives à la ligne de base IOPS, choisissez au moins un type d'instance c5n.4xlarge. Ajustez ensuite le type d'instance pour augmenter le débit. Les architectures XNUMX % Flash doivent être choisies pour les charges de travail à haut débit, en particulier dans les clusters de capacité utilisable plus petite, ou pour les charges de travail hautement aléatoires. L'IOPS est un autre facteur à prendre en compte pour les petites charges de travail de fichiers ou les petits clusters de capacité utilisable.

En savoir plus sur GitHub : Qumulo Cloud Q QuickStart – Dimensionnement et performances sur AWS (PDF)

Le graphique suivant montre les performances multi-flux pour une configuration 8 flash où chaque nœud héberge XNUMX Tio de données (veuillez noter que l'axe Y indique le débit en Mo/s sur une échelle logarithmique) :

Performances de lecture maximales Qumulo Cloud Q All-Flash par cluster et nombre de nœuds pour différents types d'instances.

Figure 2 : Performances de lecture maximales Qumulo Cloud Q All-Flash par cluster et nombre de nœuds pour différents types d'instances.

Les statistiques suivantes montrent la latence de lecture agrégée sur la base d'installation globale de Qumulo. Cette base d'installation mondiale contient environ 70 % de nœuds hybrides (HDD et SSD) de clusters dans le cloud et sur site. Même avec la majorité des nœuds hébergeant des données sur des disques durs, 90 % de toutes les demandes de lecture sont servies avec des latences inférieures à 1 ms. Ceci est le résultat de l'algorithme intelligent de mise en cache prédictive de Qumulo. Il permet des lectures rapides, identifie les modèles d'E/S et pré-extrait les données associées ultérieures du disque vers les SSD ou la mémoire.

Latence de lecture agrégée sur la base d'installation mondiale de Qumulo

Figure 3 : Latence de lecture agrégée sur la base d'installation mondiale de Qumulo.

Accès aux fichiers multiprotocole

Qumulo Autorisations entre protocoles (XPP) gère automatiquement les autorisations d'accès aux fichiers à travers les protocoles. XPP permet des workflows mixtes de protocoles SMB et NFS en préservant les listes de contrôle d'accès (ACL) SMB, en maintenant l'héritage des autorisations et en réduisant l'incompatibilité des applications liée aux paramètres d'autorisations.

XPP est conçu pour fonctionner comme tel :

  • Lorsqu'il n'y a pas d'interaction entre protocoles, Qumulo fonctionne précisément selon les spécifications du protocole.
  • Lorsque des conflits entre les protocoles surviennent, XPP s'efforce de minimiser la probabilité d'incompatibilités d'application.
  • L'activation de XPP ne modifie pas les droits sur les fichiers existants sur un système de fichiers. Les changements ne peuvent se produire que si les fichiers sont modifiés alors que le mode est activé.

Qumulo XPP maintient un ensemble interne d'ACLS pour chaque fichier et répertoire pouvant contenir de nombreuses entrées de contrôle d'accès (ACES) et, par conséquent, construit une structure de droits complexe, tout comme Windows ou NFSv4.1. (Ces ACLS internes sont appelés QACLS.) Une fois qu'un fichier obtient l'accès via SMB ou NFS, les autorisations sont traduites ou appliquées en temps réel aux autorisations de protocole appropriées.

Pour plus d'informations, consultez notre article de la base de connaissances Qumulo sur comment utiliser les autorisations interprotocoles (XPP) dans Qumulo Core.

Application de la traduction pour QACLS vers NTFS ACLS ou autorisations POSIX

Figure 4 : Traduction/application pour QACLS vers NTFS ACLS ou autorisations POSIX.

Qumulo fournit un ensemble d'outils qui fonctionnent ensemble pour interroger la structure interne QACL. Par exemple, la commande CLI qq fs_get_acl fournira une liste des QACL réels d'un fichier ou d'un répertoire donné :

# qq fs_get_acl --path /
Control: Present
Posix Special Permissions: None

Permissions:
Position Trustee Type Flags Rights
======== =========== ======= ===== ================================================
1 local:admin Allowed Delete child, Execute/Traverse, Read, Write file
2 local:Users Allowed Delete child, Execute/Traverse, Read, Write file
3 Everyone Allowed Delete child, Execute/Traverse, Read, Write file

Another interesting command is:

#qq fs_acl_explain_posix_mode --path /

The output will explain in detail how Qumulo produced the displayed POSIX mode from a file's ACL. Please refer to Cross-Protocol (XPP) Explain Permissions Tools to study an output example.

Next up: The Importance of Data Mobility Between Clusters and Amazon S3 

Now that we've shown you what makes Qumulo Cloud Q a unique file system on AWS and how it solves some of the most common challenges of migrating enterprise data to the cloud, in part 2 you'll learn how to copy objects between S3 buckets and clusters using Qumulo Shift. We take a high-level look at the importance of replication and data movement between data center clusters and Amazon S3; and, we reveal three deployment automation options you can take to simplify cloud migration.

The Definitive Guide to Qumulo on AWS

The Definitive Guide to Qumulo on AWS

Qumulo simplifies migrations to the Cloud where unstructured data is being stored in file systems, making Cloud Q for AWS an attractive choice for many workflows.

Download Now

Written by Dr. Stefan Radtke, CTO, Qumulo, and Jason Westra, Solution Architect, AWS.

Share this post