L'IA agentique marque la transition des workflows statiques centrés sur les modèles vers des systèmes de raisonnement continu qui planifient, agissent et s'adaptent sans surveillance humaine constante. Alors que les LLM avec RAG peuvent extraire de nouvelles informations au moment de la requête, les systèmes agentiques ont des besoins accrus en données temps réel, de sorte que la récupération et l'adaptation du contexte s'effectuent en continu, au cœur du raisonnement. Cela pose un défi fondamental pour les données : plusieurs agents, chacun ayant ses propres tâches, doivent accéder au même contexte évolutif et le partager sans empiéter sur l'état des autres. Sans cela, le raisonnement est fragmenté, les résultats dérivent et les workflows en aval échouent.
L'IA agentique remplace les sollicitations ponctuelles par un raisonnement continu : les agents perçoivent l'environnement, se souviennent du contexte pertinent, planifient, agissent et évaluent de manière itérative afin de maximiser les fonctions de récompense. Pour que cela fonctionne à grande échelle, la boucle de données continue doit évoluer en synchronisme : les nouveaux signaux sont ingérés, organisés et versionnés, indexés (y compris les intégrations), puis récupérés sous forme de tranches immuables à chaque réflexion d'un agent. Les boucles de données sont alimentées par d'importants volumes de données non structurées, notamment du texte, des images, des vidéos et des flux de capteurs. Ces ensembles de données sont de plus en plus géo-distribués entre les clouds, les centres de données et les environnements périphériques. Les actions et les résultats sont vérifiés par des points de contrôle de provenance et réinjectés dans la curation, de sorte que l'étape de raisonnement suivante part d'un état cohérent et vérifiable. Dans les flux mono-agent, il s'agit d'un modèle simple de récupération et de contexte ; dans les systèmes multi-agents, cela exige des points de contrôle persistants, des lectures ancrées dans des instantanés, une récupération simultanée, un accès sensible aux politiques et un lignage. Sans ce couplage étroit des deux boucles, les agents stagnent sur un contexte obsolète, entrent en collision sur des données changeantes et échouent à la reproductibilité, faisant de l'architecture des données un facteur décisif pour savoir si ces systèmes d'IA de nouvelle génération peuvent atteindre l'échelle de l'entreprise.
Comme le dit Andrew Ng, « le goulot d'étranglement pour de nombreuses applications est d'obtenir les bonnes données pour alimenter le logiciel », et comme le dit clairement le PDG de Snowflake, « alimenter l'IA d'aujourd'hui ne concerne pas les modèles, mais la couche de données qui les alimente ».
Défis clés
- Gestion des données non structurées sur des infrastructures cloisonnées
Les modèles multi-agents d'Agentic AI exigent un accès fluide à des ensembles de données diversifiés. Lorsque les informations sont cloisonnées, comme les dossiers clients, la télémétrie IoT ou les règles opérationnelles, la complexité du pipeline et les goulots d'étranglement des performances apparaissent. Les GPU perdent en efficacité lorsque l'accès aux données est lent, ce qui augmente les coûts de calcul en raison de la baisse des performances des applications d'IA. Maintenir l'agilité nécessite d'orchestrer des ensembles de données pertinents pour le pré-entraînement, le réglage fin et l'augmentation avec une latence minimale.
61 % des dirigeants déploient des agents d'IA, mais Gartner ne prévoit qu'une automatisation de 15 % d'ici 2028, ce qui souligne que les silos de données fragmentés compromettent le retour sur investissement des agents.
- Conservation et diffusion des données pour les flux de travail adaptatifs
Les flux de travail d'apprentissage continu nécessitent une livraison de données rapide et ciblée. Complexe la curation consomme 30 à 50 % du temps du projet, en particulier pour les sources dynamiques comme les flux de sentiments sur les réseaux sociaux. Les pipelines CI/CD multi-agents doivent alimenter simultanément de nombreux modèles d'apprentissage, où même des retards de données mineurs peuvent bloquer le traitement entre les agents.
Forbes rapporte que jusqu'à 79 % du temps des professionnels des données est consacré à la préparation des ensembles de données, ce qui souligne pourquoi les pipelines de livraison automatisés et versionnés sont essentiels.
- Gouvernance des données pour la sécurité, l'éthique et la conformité
Les systèmes autonomes présentent des risques accrus en matière de conformité, notamment lorsque 35 % ou plus de leur traçabilité des données peut être intraçable, comme cela est observé dans certains secteurs. Sans une transparence totale sur l'origine, les transformations et l'utilisation des données, les organisations s'exposent à des risques juridiques, réputationnels et opérationnels. L'absence de traçabilité compromet l'explicabilité, la détection des biais et la protection de la vie privée, deux aspects essentiels dans les secteurs réglementés.
Selon 75 % des initiatives d'IA échouent en raison d'incohérences dans les données et 69 % n'atteignent jamais la production. Radar Tech, les données propres et la traçabilité ne sont pas facultatives, elles sont essentielles pour les systèmes d'agents.
Exigences architecturales
Yann LeCun, lauréat du prix Turing, nous rappelle que « plus de données et plus de calcul » ne produiront pas une IA plus intelligente comme par magie ; ce sont les informations que vous alimentez, la cohérence des données et la façon dont elles sont structurées et gérées qui comptent le plus. Après tout, atteindre une intelligence même « de niveau félin » reste difficile, ce qui souligne pourquoi l'IA agentique exige plus qu'une simple évolutivité.
Accès unifié aux données
Un espace de noms global (GNS) hybride/multicloud intègre tous les ensembles de données cloud, périphériques et sur site dans une vue logique unique. Cela élimine la gestion manuelle des emplacements, la duplication des données et les incohérences de version, permettant aux agents de travailler avec un ensemble d'informations complet et cohérent.
Prise en charge interprotocole
Les différentes étapes de la boucle de données exploitent différentes bibliothèques déployées dans les conteneurs et bénéficient différemment des interfaces POSIX/objet. Les charges de travail ETL et d'entraînement bénéficient de POSIX, tandis que l'étiquetage bénéficie des interfaces objet. Les plateformes prenant en charge l'accès aux fichiers (SMB, NFS), aux objets (S3) et aux API (REST) évitent les changements de plateforme coûteux, permettant aux agents de fonctionner nativement dans tous les environnements sans délai de migration des données.
PERFORMANCE OPTIMISÉE
La mise en cache intelligente utilisant des cartes thermiques ou la prélecture garantit un accès à faible latence dans un cluster unique ou un ensemble de clusters géolocalisés. L'accès flexible et à faible latence aux données distantes, où qu'elles se trouvent, permet aux agents de prendre des décisions en temps réel dans des domaines tels que le diagnostic autonome.
Évolutif, performant, simultané
L'IA agentique nécessite une livraison rapide et simultanée d'ensembles de données organisés à plusieurs agents, sans goulots d'étranglement ni changements d'état. Le contrôle de version intégré, les instantanés immuables et l'indexation garantissent que tous les agents fonctionnent à partir d'un ensemble de données cohérent. L'intégration aux pipelines CI/CD automatise les mises à jour, les tests et le déploiement pour l'entraînement, la validation, le RAG et le réglage fin. Sans ces fonctionnalités, les systèmes multi-agents sont confrontés à des dérives de données, des traitements redondants et des ralentissements en cascade.
Gouvernance robuste et suivi de la provenance
La provenance automatisée des données enregistre un enregistrement chronologique détaillé de chaque transformation, mouvement et accès aux données. Cela facilite les rapports de conformité, facilite les audits, détecte les abus et reconstitue les contextes de décision pour faciliter l'explication et atténuer les biais.
Synthèse
En bref, la mise à l'échelle de l'IA agentique est autant une défi de l'architecture des données Un défi majeur pour l'IA. La réussite exige des plateformes de données unifiées, performantes et gouvernables, capables d'orchestrer des pétaoctets de données distribuées et non structurées, tout en préservant la transparence, la sécurité et l'agilité essentielles à la sécurité et à l'efficacité des systèmes autonomes. La plateforme de données cloud de Qumulo a été conçue pour relever ces défis. En savoir plus ici.


