Co-écrit par : Bryan Berezdivin et Marcos Seoane
Les entreprises de tous les secteurs se précipitent pour adopter IA générative et les modèles de base (MB). Malgré des investissements massifs dans l'infrastructure accélérée, un défi persiste : les données et la puissance de calcul sont rarement regroupées au même endroit. Les modèles de base modernes exigent une échelle sans précédent. L'entraînement d'un MB peut nécessiter des milliers d'instances accélérées par GPU fonctionnant pendant des jours, voire des semaines, et consommant des ensembles de données allant de centaines de téraoctets pour les modèles de langage à des dizaines de pétaoctets pour les systèmes multimodaux combinant texte, image et vidéo. Ces ensembles de données ne sont pas statiques et évoluent continuellement à mesure que les organisations réentraînent et affinent les modèles pour prendre en compte de nouveaux cas particuliers, les retours des utilisateurs ou des données spécifiques au domaine.
Pour la plupart des grandes entreprises, les données sont réparties entre des centres de données sur site et plusieurs clouds. Ce décalage entre la localisation des données et la disponibilité accélérée des calculs constitue l'un des principaux freins au déploiement de l'intelligence artificielle (IA). Le déplacement de jeux de données de l'ordre du pétaoctet entre régions ou clouds engendre des coûts opérationnels supplémentaires, une latence accrue et une complexité de gouvernance accrue, impactant directement le temps d'entraînement et le retour sur investissement (ROI). Une architecture de données unifiée et prenant en compte la localisation des données permet de combler cet écart. La plateforme de données unifiée de Qumulo garantit une cohérence globale, un accès universel et une faible latence sur des topologies multirégionales ou hybrides, ouvrant la voie à un nouveau paradigme d'architecture de données en phase avec les environnements de développement d'IA modernes.
Dans cet article, nous décrivons les éléments architecturaux d'une telle plateforme de données unifiée, capable de prendre en charge des charges de travail d'IA à grande échelle comme l'entraînement de modèles fondamentaux. Nous montrons également comment HyperPod Amazon SageMaker, jumelé avec Cloud Native Qumulo (CNQ)Cette solution offre un environnement complet pour l'entraînement distribué des modèles d'IA et d'apprentissage automatique. SageMaker HyperPod assure l'orchestration et la mise à l'échelle robustes des clusters GPU, tandis que CNQ avec Cloud Data Fabric (CDF) garantit l'accessibilité des données, avec une faible latence, entre les régions et les sites. Nous présentons des architectures de référence validées combinant SageMaker HyperPod et CNQ dans un déploiement monorégional (voir figure 1) et multirégional (voir figure 2), ainsi que les détails d'intégration de Qumulo et SageMaker HyperPod.
En associant Qumulo à SageMaker HyperPod (et à d'autres outils d'IA cloud ou sur site), les organisations peuvent :
- Accélérer le délai d'obtention des résultats avant et après l'entraînement de plus de 25 %.
- Déployez des charges de travail d'IA sur vos données géodistribuées et surmontez la pénurie de puissance de calcul accélérée.
- Réduisez les coûts opérationnels de la boucle de données IA sans orchestration.
- Unifier les politiques de gouvernance et de sécurité des données dans tous les environnements.
Une plateforme de données unifiée pour la formation aux modèles de base
Vous trouverez ci-dessous les éléments clés pour la formation du modèle de base, utilisant des données locales ou des données géographiquement distribuées :
- Accès à haut débit et à faible latence aux données pour une utilisation soutenue du GPU en local et à distance.
- Évolutivité élastique pour gérer des ensembles de données de plusieurs pétaoctets et des clusters de calcul de taille dynamique.
- Prise en charge multiprotocole pour fournir des bibliothèques de fichiers optimales comme PyTorch
- Visibilité et gouvernance mondiales pour satisfaire aux exigences de résidence des données et de conformité.
Qumulo offre chacune de ces fonctionnalités grâce à son architecture unique « run-anywhere », permettant à ses caractéristiques spécifiques de s'intégrer à n'importe quelle configuration de calcul, de mémoire et de stockage. Cette architecture permet à la plateforme de données de fonctionner avec des coûts et des performances optimaux dans le cloud (AWS, Azure, GCP et OCI), ainsi que sur tout type de serveur sur site, y compris ceux de HPE, Cisco, Penguin et autres. Si cette architecture constitue le fondement d'une plateforme unifiée, la prise en charge multiprotocole de Qumulo est tout aussi essentielle pour permettre aux applications d'accéder aux données et de les gérer sur ces différents emplacements. Ceci facilite l'intégration au sein d'un écosystème d'applications d'entreprise, notamment avec diverses chaînes d'outils de développement d'IA telles que PyTorch, TensorFlow et JAX. Cette compatibilité est également cruciale pour une intégration aisée avec Amazon SageMaker Hyperpod.
Garantir des performances élevées est essentiel lors des entraînements coûteux, où Qumulo NeuralCache Cette fonctionnalité offre des performances optimales pour les architectures de données locales et géodistribuées. Par exemple, les latences moyennes étaient inférieures à la milliseconde pour l'entraînement de llama-3.1-8B sur plusieurs instances AWS P5e EC2 (chacune équipée de 8 GPU Nvidia H200 Tensor Core). Nous avons recueilli des données de performance supplémentaires, qui seront publiées séparément pour les déploiements mono-régionaux et multi-régionaux.
Pour les équipes d'IA, le développement de modèles nécessite de multiples cycles d'entraînement, qui utilisent généralement des données externes au site disposant de ressources de calcul accéléré. Par exemple, un entraînement peut être nécessaire dans la région 1, mais retardé de plusieurs jours, voire de plusieurs semaines, en raison de la rareté des GPU. L'approche « fait maison » (DIY) engendre des centaines de pipelines pour préparer chaque jeu de données présélectionné en vue des entraînements et des validations sur un site de calcul accéléré. Il en résulte des retards d'entraînement, une prolifération des données, une incohérence des jeux de données et des problèmes de gouvernance. Une solution alternative consiste à utiliser une plateforme de données unifiée qui déplace les données à la demande pour garantir performance, rentabilité et cohérence entre les sites. Cloud Data Fabric (CDF)Qumulo fournit une plateforme de données prenant en compte la localité. CDF étend efficacement un répertoire/préfixe d'un « hub » à un ou plusieurs « spokes ». Ces spokes sont entièrement cohérents et utilisent la prise en compte de la localité et l'ensemble de modèles de Neural Cache pour déterminer les données à précharger pour chaque charge de travail. CDF permet ainsi aux spokes d'offrir aux applications des performances locales. Nous illustrons une architecture validée avec SageMaker HyperPod et Qumulo dans les figures 1 et 2.
Il s'agit d'un nouveau paradigme de données pour les équipes d'IA, qui permettra de réduire le délai d'obtention des résultats pour les ingénieurs et d'améliorer les performances des nouveaux modèles grâce à une boucle de données optimisée et automatisée. La modélisation des coûts montre que cette approche peut réduire le coût total de possession (TCO) de plus de 30 %. Pour atteindre ces objectifs, les principales fonctionnalités d'une plateforme de données unifiée avec Qumulo sont décrites ci-dessous ;
Accès aux données élastique et haute performance pour un calcul accéléré
- Échelle de 1 Go/s à 1 To/s débit avec une latence inférieure à la milliseconde comme le montre le benchmarks d'IA-Image.
- Optimisez l'utilisation des GPU en éliminant les blocages d'E/S lors du chargement, du partitionnement, de la création de points de contrôle ou du réglage fin des données.
- Adaptez-vous automatiquement à chaque charge de travail d'entraînement grâce à la mise en cache et au préchargement pilotés par l'IA de NeuralCache™, en local et à distance.
Unified Data Fabric pour la mobilité des charges de travail
- Latences optimisées sur les nœuds périphériques grâce à la mise en cache et à la prélecture transparentes pilotées par l'IA NeuralCache™ depuis les clusters Qumulo centraux vers/depuis plusieurs clusters Qumulo périphériques.
- Compressez, dédupliquez et optimisez les transferts de données WAN pour réduire les données transférées de plus de 30 % par rapport aux copies manuelles.
- Appliquer des données cohérentes dans tous les environnements grâce à des métadonnées partagées, telles que les informations de version.
Flexibilité multiprotocole
- Prise en charge native de S3, NFS, SMB, REST et SFTP Élimine les refactorisations, les réarchitectures ou les copies redondantes.
- Les data scientists, les ingénieurs et les équipes de simulation peuvent accéder aux mêmes ensembles de données avec leurs outils préférés.
- Réduit jusqu'à 4 fois la surcharge liée à l'orchestration des données par rapport au stockage cloisonné traditionnel.
SageMaker HyperPod avec Qumulo
Pour illustrer cela, Qumulo a vérifié un flux de travail de modèle de fondation commun en utilisant HyperPod SageMaker Déployé dans la même région que les données d'entraînement, ou dans une région distincte, Qumulo CDF permet un entraînement global du modèle sans duplication ni orchestration des données, tout en préservant la cohérence et en réduisant le coût total de possession. Un point clé : dans la plupart des projets de développement de modèles d'IA, seuls 30 % des données étiquetées sont utilisées par cycle d'entraînement, avec un chevauchement important entre les cycles suivants. Ceci génère un retour sur investissement plus élevé qu'avec la réplication des données à chaque cycle, une pratique courante pour la plupart des équipes. Autre avantage majeur : de nombreuses équipes ont créé des catalogues de données complexes pour éviter les redondances, catalogues qui ne sont plus nécessaires avec Qumulo CDF.
SageMaker HyperPod avec Qumulo – Jeu de données à région unique
Dans ce déploiement, nous avons installé CNQ avec les données d'entraînement dans la même région que SageMaker HyperPod. CNQ a été déployé dans une zone de disponibilité unique, non colocalisée avec les nœuds EC2 P5e. L'architecture est illustrée dans la figure 1.
SageMaker HyperPod avec Qumulo – Ensemble de données multirégional
Dans ce déploiement, CNQ a été installé dans la région 2 en tant que nœud central et dans la région 1 en tant que nœud périphérique. CDF assure une distribution optimale des données vers et depuis le dossier CNQ périphérique. Ainsi, seules les données nécessaires à l'entraînement sont distribuées au nœud périphérique.
SageMaker HyperPod avec Qumulo – Option hybride ou multicloud
De nombreuses entreprises exploitent déjà des clusters GPU dans un environnement tandis que leurs ensembles de données restent dans un autre. La plateforme Cloud Data Fabric de Qumulo permet des topologies hybrides ou multicloud transparentes, sans orchestration nécessaire.
- Du sur site au cloud : Entraînez-vous sur SageMaker HyperPod ou Azure AI Foundry en utilisant des clusters Qumulo sur site comme source de données de référence. Nous illustrons cela dans la figure 2.
- Multicloud : Utilisez des instances Qumulo sur AWS, Azure et GCP avec un espace de noms et des contrôles de stratégie unifiés.
- De la périphérie au cœur : Collectez, organisez et entraînez-vous sur des données générées en périphérie, sans tâches de réplication complexes.
Intégration de Qumulo avec SageMaker HyperPod
Nous fournissons ci-dessous une recette éprouvée pour un déploiement dans une seule région utilisant Qumulo natif du cloud (CNQ) sur la place de marché AWS Pour l'intégration avec SageMaker Hyperpod, CNQ prend en charge les données d'entraînement et les points de contrôle, et utilise le pilote NFS CSI pour permettre le déploiement dynamique de conteneurs sur SageMaker Hyperpod.
Pour reproduire une configuration validée, nous décrivons les étapes suivantes ;
Étape 1 : Provisionner un cluster Amazon EKS et HyperPod
Nous avons suivi le Guide d'installation EKS et HyperPod déployer un cluster EKS et intégrer SageMaker HyperPod.
# Create EKS Cluster with managed node groups
eksctl create cluster \
--name hyperpod-eks \
--version 1.29 \
--region us-west-2 \
--nodegroup-name workers \
--node-type P5.4xlarge \
--nodes 2 \
--nodes-min 2 \
--nodes-max 8
# Confirm nodes are ready
kubectl get nodes
Étape 2 : Déployer le cluster Qumulo via Terraform
Le déploiement de Qumulo (CNQ), solution native du cloud, sur AWS avec Terraform implique la mise en place d'une plateforme de données de fichiers entièrement élastique. Cette plateforme exploite AWS S3 pour le stockage persistant et les instances EC2 pour les ressources de calcul et de cache. Le processus de déploiement suit le cadre AWS Well-Architected, garantissant ainsi l'évolutivité, la sécurité et l'efficacité opérationnelle. Avant de commencer, l'environnement doit répondre à plusieurs prérequis, notamment des autorisations IAM appropriées, une connectivité Internet sortante vers les points de terminaison de Qumulo et la configuration d'une passerelle VPC S3, le cas échéant. Le package de déploiement Terraform fournit des modèles modulaires qui automatisent le provisionnement de toutes les ressources AWS nécessaires.
Le déploiement se déroule en deux phases principales. Premièrement, le stockage persistant est mis en place grâce à la création de compartiments S3 qui hébergeront les données Qumulo, à l'aide de configurations Terraform. Une fois le stockage créé, la seconde phase déploie les instances EC2 qui hébergent Qumulo Core. Terraform gère automatiquement la cohérence de la configuration, les conventions de nommage et la gestion des dépendances, en attribuant à chaque ressource un identifiant de déploiement unique afin d'éviter les conflits entre plusieurs clusters.
Après le déploiement, les tâches post-déploiement comprennent la validation de la configuration du cluster, la confirmation du bon provisionnement via AWS Systems Manager et, éventuellement, la configuration de la résolution DNS à l'aide du DNS faisant autorité de Qumulo. Le résultat est un cluster Qumulo natif du cloud, pleinement opérationnel et capable de gérer des données à l'échelle du pétaoctet avec l'élasticité requise. accès multiprotocole pour Accès S3, NFS, SMB, FTP et RESTAPI et les avantages d'intégration d'AWS.
Suivez l' Guide de déploiement de CNQ sur AWS avec Terraform pour des étapes détaillées.
Étape 3 : Créer un utilisateur Qumulo et exporter le système de fichiers NFS
Le Outil d'interface graphique Qumulo (accessible via un navigateur HTTP) :
- Ajout d'un nouvel utilisateur et de nouvelles autorisations.
- Créez un chemin d'exportation NFS /ai-factory-data.
Référence: Comment créer une exportation NFS.
Étape 4 : Installation du pilote CSI et configuration des PVC
Pour connecter les charges de travail Kubernetes à Qumulo, nous avons installé le pilote CSI et défini les PVC.
# Install Qumulo CSI Driver
helm repo add csi-driver-nfs https://raw.githubusercontent.com/kubernetes-csi/csi-driver-nfs/master/charts
helm install csi-driver-nfs csi-driver-nfs/csi-driver-nfs --namespace kube-system --version 4.12.0
# Example PV configuration
apiVersion: v1
kind: PersistentVolume
metadata:
name: pv-qumulo-static
spec:
capacity:
storage: 50Ti
accessModes:
- ReadWriteMany
persistentVolumeReclaimPolicy: Retain
storageClassName: ""
mountOptions:
- vers=3
- proto=tcp
- nolock
csi:
driver: nfs.csi.k8s.io
# Unique ID for this directory/volume; use a stable path-based handle volumeHandle: qumulo-nfs-root
volumeAttributes:
server: qumulo.qumulo-hub.com
share: "/csi"
# Example PVC configuration
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
name: pvc-qumulo-static
spec:
accessModes:
- ReadWriteMany
resources:
requests:
storage: 50Ti
storageClassName: ""
volumeName: pv-qumulo-static
Référence: Connexion de Kubernetes avec un pilote CSI.
Étape 5 : Exécuter la charge de travail
Nous avons déployé un Modèle Lama 2 grâce à PyTorch FSDP sur Kubernetes.
# Launch distributed Llama 2 job with FSDP
kubectl create -f llama2-fsdp-job.yaml
La configuration a suivi l'exemple AWS : Exemple Llama 2 FSDP.
Cette configuration est prête pour la production, validée pour les opérations mono-régionales et multi-régionales, et constitue le modèle pour les usines d'IA hybrides et multicloud.
Conclusion
À mesure que les entreprises développent leurs ambitions en matière d'IA, la possibilité d'entraîner les modèles là où la puissance de calcul est disponible, sans avoir à se déplacer jusqu'à l'emplacement des données, améliore l'efficacité opérationnelle et accélère l'obtention de résultats pour les différents secteurs d'activité. Qumulo, disponible sur site, dans le cloud et en périphérie de réseau, permet d'atteindre cet objectif de la manière la plus économique, tout en offrant les performances et la simplicité requises pour le développement de modèles de base. En associant Qumulo à SageMaker HyperPod (et à d'autres frameworks de développement d'IA sur site ou dans le cloud), les organisations peuvent :
- Accélérer le délai d'obtention des résultats avant et après l'entraînement de plus de 25 %.
- Déployez des charges de travail d'IA sur vos données géodistribuées et surmontez la pénurie de puissance de calcul accélérée.
- Réduisez les coûts opérationnels de la boucle de données IA sans orchestration.
- Unifier les politiques de gouvernance et de sécurité des données dans tous les environnements.
Que vos GPU fonctionnent sur AWS, Azure, GCP ou sur site, Qumulo permet une stratégie d'IA permettant de former et de gérer des systèmes partout.
En savoir plus sur qumulo.com/ai


