Stockage pour les charges de travail Big Data et Analytics

Le stockage de données massives est une préoccupation croissante pour de nombreuses entreprises

La capacité à prendre des décisions éclairées à partir de grands ensembles de données est essentielle pour les entreprises d'aujourd'hui. L'intelligence que les entreprises tirent de l'analyse des données alimente leur croissance et leur capacité à être compétitives.

Par exemple, les annonceurs en ligne s'appuient sur l'analyse des données pour optimiser le rendement des annonces et prévoir le comportement des acheteurs. Les plateformes de médias sociaux l'utilisent pour mieux comprendre ce qui est important pour leurs utilisateurs. Les sociétés de logistique analysent de grandes quantités de données provenant de capteurs et de dispositifs (IoT) pour réduire les coûts et accélérer la livraison. L’analyse des données est essentielle au développement de technologies de véhicules autonomes.

Les sources de données pour l'analyse incluent les téléphones mobiles, les capteurs et les appareils portables, ainsi que les applications et les infrastructures du centre de données et du cloud.

Un stockage adéquat est un problème urgent pour les analyses de données de toutes sortes.

  • Comment le stockage doit-il être associé aux ressources de calcul pour garantir une haute disponibilité des données avec une faible latence et une évolutivité horizontale?
  • Quelles sont les conditions requises pour qu'un système de stockage de fichiers réponde à ces charges de travail exigeantes?
  • Quelles sont les meilleures stratégies pour dimensionner le stockage au fil du temps?

Exigences de stockage de l'analyse de données

L'analyse de données peut générer des informations à partir d'ensembles de données ou de flux de données massifs avec divers flux de travail. Deux de ces flux de travail sont des analyses par lots (big data) et des analyses en continu.

Qu'il s'agisse de traitement par lots ou en continu, l'analyse des données exige de grandes performances du système de stockage de fichiers. Une solution consistait à attacher directement les ressources de calcul aux ressources de stockage. Le stockage en pièce jointe directe crée des silos de données et est difficile à gérer et à adapter de manière efficace, mais l’idée que la proximité assurerait la performance a fait sa popularité. Le stockage à connexion directe pour l'analyse des données découle des hypothèses selon lesquelles les bandes passantes disque dépassent les bandes passantes réseau et que les E / S disque représentent une fraction considérable de la durée de vie d'une tâche.

Avec des vitesses de réseau accrues et des techniques analytiques plus complexes, ces hypothèses ne sont plus valables. Le stockage en réseau hautement évolutif peut désormais surpasser le stockage à connexion directe. De plus, le stockage accessible via un réseau est compétitif et ne crée pas de silos de données. Aujourd'hui, une stratégie plus efficace pour les flux de travail d'analyse de données, tels que ceux qui utilisent Apache Spark ou Spark Streaming, consiste à mettre à l'échelle le calcul et le stockage séparément avec un stockage haute performance connecté au réseau.

Qumulo pour le stockage de données volumineuses et l'analyse

Qumulo File Fabric (QF2) est un système de stockage de fichiers moderne doté des fonctionnalités de performance, d'évolutivité et d'entreprise requises par les charges de travail d'analyse de données. QF2 s'exécute sur du matériel standard sur site et en tant qu'instances EC2 sur AWS.

système le plus performant pour le stockage de données volumineuses et l'analyse

Obtenez vos résultats plus rapidement

QF2 a un meilleur débit de lecture que le stockage à connexion directe pour les charges de travail analytiques. QF2, fonctionnant sur les réseaux rapides d'aujourd'hui, surpasse l'infrastructure HDFS. L'avantage des performances de QF2 provient de son architecture SSD / HDD hybride et de sa technologie avancée de système de fichiers distribués.

plus abordable que les solutions de stockage Big Data héritées

N'achetez que le stockage dont vous avez besoin

QF2 dissocie le stockage du calcul. Avec QF2, les clients contrôlent la quantité de stockage qu'ils achètent et peuvent éviter le surprovisionnement. Les clients économisent de l'argent en achetant uniquement le stockage dont ils ont besoin, quelle que soit la croissance de leur cluster de calcul.

De plus, QF2 utilise une protection des données efficace basée sur un codage d'effacement au niveau du bloc, au lieu de copies de fichiers en miroir inefficaces et coûteuses. Une protection efficace vous offre une capacité plus utilisable sur votre système de stockage. Vous économiserez de l'argent sur les disques ainsi que sur les coûts d'infrastructure tels que l'alimentation et le refroidissement.

éliminer les silos de données

Éliminer les silos de données

QF2 donne aux clients un espace de noms unique pour toutes leurs données. Un seul référentiel élimine plusieurs copies de données et simplifie le flux de travail.
résoudre les problèmes de stockage de données en temps réel

Résoudre les problèmes de stockage en temps réel

Les clients doivent faire plus que stocker leurs données. Ils ont besoin de le gérer. QF2 permet aux administrateurs de trouver et de résoudre des problèmes en temps réel. Par exemple, un administrateur peut facilement déterminer les hotspots IO et appliquer des quotas de capacité qui prennent effet immédiatement. QF2 facilite la gestion des projets et des utilisateurs avec un aperçu de la manière dont le stockage est utilisé.

solution de stockage de données volumineuses pouvant être exécutée sur site ou dans le cloud

Exécuter dans le nuage et sur les lieux

De nombreuses charges de travail d'analyse de données peuvent bénéficier d'une exécution dans le cloud, ainsi que sur site.

QF2 fonctionne à la fois sur site et sur AWS, avec les meilleures performances et la meilleure évolutivité de toute offre cloud basée sur des fichiers. Avec QF2, le cloud et les clusters sur site fonctionnent ensemble pour fournir des performances évolutives avec une structure de stockage de fichiers unifiée.

QF2 utilise la réplication continue pour déplacer les données là où elles sont nécessaires, lorsque cela est nécessaire. La réplication continue signifie que les clients peuvent facilement transférer des données de leur cluster QF2 sur leur cluster QF2 dans AWS, effectuer leurs calculs, puis transférer les résultats vers le stockage sur site.

La possibilité d'exécuter le même flux de travail d'analyse de données dans des environnements cloud et locaux garantit la cohérence et réduit les coûts de développement. Cela permet également aux clients de choisir où placer leurs charges de travail en fonction de décisions commerciales plutôt que de limitations techniques.

Workflow d'analyse de données

Voici un exemple de workflow d'analyse de données en continu qui montre QF2 comme le stockage central de l'ensemble du processus, depuis l'ingestion des données jusqu'à leur affichage et leur traitement.

diagramme d'un flux de travail d'analyse de données en continu utilisant la plateforme de stockage Big Data de Qumulo

Les entrées peuvent provenir de périphériques, tels que des téléphones portables, des instruments scientifiques, des véhicules autonomes et des périphériques série. Il peut également provenir d'applications qui stockent généralement leurs données dans QF2, puis envoient un lien vers les progiciels de flux de données d'événements. Les ressources de calcul traitent les données et stockent et récupèrent les fichiers à partir de QF2. Enfin, les résultats sont livrés et affichés sous forme d’informations sur un tableau de bord ou utilisés pour déclencher une action particulière, telle qu’une alerte de sécurité.

La gestion des données avec QF2 est tellement simple que l'impact est difficile à décrire. Cela nous a apporté un retour sur investissement considérable en termes de gain de temps et de problèmes éliminés, et le fait de pouvoir compter sur un stockage fiable nous rend impatients de l'utiliser plus largement dans toute l'entreprise.

John Beck - Responsable informatique Hyundai MOBIS

Vous voulez en savoir plus?

Donnez-nous 10 minutes de votre temps, et nous vous montrerons comment repenser le stockage de données.