Chez Qumulo, nous avons consacré des années à la création de systèmes de stockage primaires d'entreprise Scale Anywhere et à leur évolution vers une véritable plate-forme de données cloud : destinés aux secteurs du calcul haute performance, du supercalcul, de l'intelligence artificielle, de la création de contenu, de la santé, des sciences de la vie, de la défense/du renseignement et de la recherche. L'un des cas d'utilisation les plus marquants de notre technologie a été le support Groupes de véhicules autonomes, aussi connu sous le nom Systèmes avancés d'aide à la conduite (ADAS)Ces clusters d'IA, fondamentaux pour le développement de véhicules autonomes, exploitent les atouts uniques de Qumulo dans la gestion d'ensembles de données massifs avec un mélange de fichiers volumineux et petits, offrant une durabilité, une cohérence et une évolutivité inégalées dans les environnements de cloud public, hybride et privé.
Tandis que grands modèles de langage (LLM) comme GPT-4 a dominé les gros titres pour sa capacité à écrire des histoires, à peaufiner le langage ou même à faire des blagues décentes, Les clusters ADAS remplissent une fonction plus critique: améliorer la sécurité des conducteurs, optimiser la consommation de carburant et, en fin de compte, sauver des vies. Chacun de ces domaines à forte intensité de calcul (ADAS et LLM) présente des différences nuancées qui génèrent à la fois des défis et des opportunités. Si les LLM peuvent captiver l'imagination du public, chez Qumulo, nous sommes fiers de renforcer les systèmes de données à l'origine de nombreux des plus grands clusters ADAS du monde, une application transformatrice qui touche la vie de chacun sur la route, améliorant la sécurité et l'efficacité.
Finalité et nature des données
Grands modèles de langage (LLM) :
Les LLM sont conçus pour traiter et générer du texte de type humain. Leurs ensembles de données se composent de tokens dérivés de sources en langage naturel telles que des livres, des articles, des sites Web et des référentiels de codes. Ces ensembles de données mettent l'accent sur généralisation linguistique, ce qui nécessite que les données soient diverses et représentatives de la ou des langues que le modèle servira. La tokenisation, un processus par lequel le texte est divisé en unités de sous-mots ou en mots, permet une représentation efficace des données.
Conduite autonome / Systèmes avancés d'aide à la conduite (ADAS) :
Les véhicules autonomes s'appuient sur des données de capteurs pour naviguer dans des environnements réels. Ces ensembles de données comprennent sorties brutes et non compressées des caméras, du LiDAR, du radar, du GPS et des unités de mesure inertielles (IMU). L'objectif est de former des modèles à comprendre les environnements spatiaux, à reconnaître les objets et à prendre des décisions en temps réel. Les ensembles de données ADAS doivent capturer non seulement les scénarios de conduite courants, mais également les cas extrêmes rares, tels que les conditions météorologiques défavorables ou le comportement inhabituel des piétons.
Taille des ensembles de données : une perspective quantitative
LLM :
L'échelle des ensembles de données LLM est généralement mesurée en tokens. Par exemple:
- Le GPT-3 a été formé sur environ 300 milliards de jetons, équivalent à environ 570 Go de données compressées ou à plusieurs téraoctets non compressés (Brown et al., 2020).
- Les LLM modernes comme GPT-4 utilisent probablement des ensembles de données dépassant 1 à 2 pétaoctets, notamment lorsqu'il s'agit d'intégrer des sources multimodales et multilingues. Cela équivaut à environ une centaine Longs métrages RAW 8K.
ADAS :
Les ensembles de données ADAS sont mesurés en stockage de données brutes en raison de la nature non compressée des sorties des capteurs :
- Un seul véhicule autonome génère 1 à 10 téraoctets de données par jour (Waymo, 2023).
- Les ensembles de données à l'échelle de la flotte, utilisés par des entreprises telles que Tesla et Waymo, dépassent 100 à 500 pétaoctets par an. Pour le contexte, la flotte de Tesla collecte plus de 1 million de kilomètres de données de conduite par jour (Tesla AI Day, 2021). En comparaison avec les ensembles de données de formation LLM, cela représente environ 25,000 8 longs métrages RAW 32K chaque année, soit XNUMX ans de cinéma moderne.
Diversité et structure des données
LLM :
- Données hautement compressées en raison des processus de tokenisation et de déduplication.
- Donne la priorité à la diversité dans tous les domaines (par exemple, articles scientifiques, fiction, code) pour garantir la généralisation.
- Un prétraitement important est effectué pour filtrer le texte de mauvaise qualité ou biaisé (OpenAI, 2020).
ADAS :
- Video:Enregistrements haute résolution (1080p ou 4K) à 30–60 images par seconde.
- LiDAR: Des millions de points 3D par seconde.
Une partie importante des données est utilisée pour simulation et validation, en particulier pour les cas limites rares.
Défis informatiques
LLM :
- La formation implique des milliards, voire des milliers de milliards de paramètres, nécessitant un traitement à haut débit d’ensembles de données tokenisés.
- Formation GPT-3 requise environ 3640 pétaflops-jours de calcul (Brown et al., 2020).
- Les pipelines de données optimisés (par exemple, la tokenisation, le traitement par lots) réduisent la taille effective de l'ensemble de données pendant la formation.
ADAS :
- Le traitement implique des données de séries chronologiques et une modélisation spatiale, nécessitant souvent des performances en temps réel.
- Des environnements de simulation (par exemple, CARLA, NVIDIA DRIVE) sont utilisés pour augmenter la formation, ce qui ajoute à la complexité du calcul.
- Le matériel spécialisé, tel que les GPU ou les TPU dédiés, et les processeurs CISC à socket unique et à grande largeur de cœur traitent de grands ensembles de données brutes pour la formation et l'inférence.
Longévité et croissance des données
LLM :
- La taille des ensembles de données augmente progressivement avec la complexité du modèle. Cependant, la croissance ralentit en raison de la diminution des rendements à grande échelle (Kaplan et al., 2020).
- Les ensembles de données plus anciens restent pertinents, car les fondamentaux linguistiques ne changent pas rapidement.
ADAS :
- La croissance des ensembles de données est exponentielle en raison de :
- Augmentation de la taille des flottes et taux d’adoption plus élevés.
- Progrès dans la technologie des capteurs (résolution et taux d’échantillonnage plus élevés).
- Extension de la couverture des cas limites pour une généralisation robuste.
- Les ensembles de données plus anciens peuvent devenir obsolètes à mesure que les technologies des véhicules et des capteurs évoluent.
Comparaisons d'ensembles de données
Aspect | LLM | ADAS/Conduite autonome |
---|---|---|
Taille de l'ensemble de données | Des téraoctets aux pétaoctets | Des centaines de pétaoctets |
Type de données | Texte (jetons) | Vidéo, LiDAR, Radar, GPS, SIG, Imagerie satellite |
Compression | Hautement compressé (tokenisation) | Compression minimale (données brutes) |
Objectif | Compréhension linguistique | Prise de décision spatiale en temps réel – sauver des vies et améliorer la sécurité des transports |
Croissance | Une mise à l’échelle plus lente avec des rendements décroissants | Croissance exponentielle (flotte, capteurs) |
Pour aller plus loin
Une liberté de choix
Cela conduit à une décision stratégique plus large : l'infrastructure de calcul accéléré doit-elle être construite sur site, ou est-il plus efficace d'utiliser l'évolutivité et la capacité des environnements de cloud public, en connectant les ensembles de données de manière transparente sur des infrastructures hybrides ? Chez Qumulo, nous visons à permettre à nos clients d'exceller dans les deux scénarios, en supprimant les barrières technologiques afin qu'ils puissent prendre les meilleures décisions commerciales, techniques et opérationnelles en fonction de leurs besoins spécifiques. Pour en savoir plus sur les performances révolutionnaires que Qumulo a fournies dans l'environnement de cloud public à l'aide de notre plateforme de données cloud, consultez cette vidéo.
Références
Brown, T., et al. (2020). Les modèles linguistiques sont des apprenants à faible cadence. NeurIPS. Lien
Kaplan, J., et al. (2020). Lois d'échelle pour les modèles de langage neuronal. OpenAI. Lien
Waymo (2023). Présentation de l'ensemble de données sur la conduite autonome. Waymo Research. Site
Journée de l'IA Tesla (2021). Collecte de données sur la flotte de Tesla. Tesla. Lien