L'une des choses dont nous sommes le plus fiers chez Qumulo est la relation que nous entretenons avec nos clients. Nous les soutenons avec une équipe dédiée à la réussite des clients qui communique via Slack et au téléphone, et utilise une surveillance basée sur le cloud pour résoudre les problèmes des clients de manière efficace et aussi rapide que possible. Les clients sont notre champ magnétique - au cœur de tout ce que nous faisons.

Chez Qumulo, créer, stocker et construire avec des données est notre super pouvoir, et cela signifie que nous mesurons tout - y compris notre capacité à répondre aux besoins de nos clients pour résoudre leurs problèmes avec facilité. Cette métrique dans notre secteur est connue sous le nom de score de satisfaction client Net Promoter Score (NPS), et le NPS de Qumulo atteint 91 au dernier quart de notre exercice. Peut-être encore plus impressionnant est-il que notre taux de satisfaction client continue d'augmenter à mesure que notre clientèle grandit!

Maintenant, je suis ingénieur et je n'ai pas reconnu ce terme «Customer Success» lorsque j'ai rejoint l'entreprise il y a quelques années. Aujourd'hui, je comprends que c'est comme un «support client» sur les stéroïdes: proactif, orienté solution et dédié à assurer la le client a vraiment du succès en utilisant notre plateforme de données de fichiers pour atteindre leurs objectifs.

Enquêter sur les problèmes avec la surveillance basée sur le cloud 

Comment Qumulo Équipe Customer Success (CS) résoudre des problèmes épineux sur le terrain si rapidement? Eh bien, beaucoup de nos clients ont activé la surveillance basée sur le cloud ou «Mission Qontrol» (nous avons un faible pour la lettre Q ici), qui est une fonctionnalité de téléphone à domicile qui envoie une myriade de mesures de santé du système à notre système d'analyse de données . En interne, notre équipe CS est capable d'extraire et de visualiser des graphiques de mesures de santé par rapport à leurs données pour obtenir un aperçu vraiment détaillé du comportement de notre système, conçu pour gérer une grande complexité pour nos clients. 

Pour visualiser les données de métriques de santé, nous utilisons une application open source appelée Grafana, qui peut extraire d'un assortiment de sources de données. En interne, nous concevons le pipeline de données qui récupère toutes les données de métriques de santé de nos clusters de clients, stockées en toute sécurité dans une base de données, et y effectue les transformations appropriées en cours de route. 

Exemple concret : voir le problème

Récemment, un client de recherche biomédicale a mis à niveau son cluster Qumulo, et quelques jours plus tard, les administrateurs de données ont remarqué qu'ils avaient atteint une limite sur les instantanés de système de fichiers existants. Nous avons une limite élevée sur le nombre d'instantanés, simplement pour nous assurer que certains processus ne deviennent pas incontrôlables - et en fait, c'était le cas. Mais pourquoi était-ce? Après tout, le client utilisait des instantanés de manière routinière - dans le cadre de notre fonction de réplication, qui crée et supprime automatiquement les instantanés, à une cadence d'une minute. De toute évidence, c'était quelque chose qui nécessitait une enquête plus approfondie.

En utilisant notre tableau de bord Mission Qontrol Cloud-Based Monitoring, les enquêteurs CS ont pu rapidement confirmer que le produit était à sa limite pour les instantanés, puis identifier que l'utilisation du processeur était vraiment élevée sur un seul nœud. Dans ce cas, un nombre extraordinaire de «permissions définies» (setattr) les opérations arrivaient dans ce nœud. Le client a également pu constater que les opérations de nettoyage des instantanés prenaient plus de temps que d'habitude. 

Avec tout cela à l'esprit, ils ont compris que les opérations setattr créaient rapidement beaucoup de travail en retard pour le nettoyage des instantanés, et entraînaient une accumulation lente des instantanés. Le système de surveillance contient des milliers de mesures de santé pour chaque nœud, mais les enquêteurs ont pu naviguer facilement à travers tout cela, grâce à la visualisation des données, comme le montrent les figures 1 à 4.

La réplication crée / supprime automatiquement les instantanés.

Figure 1: La réplication crée / supprime automatiquement les instantanés. Pourquoi le nettoyage prend-il du retard?

 

les transactions passent plus de temps dans le nettoyage des instantanés

Figure 2: Après la mise à niveau, plus de temps est passé sur les transactions individuelles dans le nettoyage des instantanés

 

Utilisation du processeur sur les nœuds avec une anomalie bleue

Figure 3: utilisation du processeur sur différents nœuds. La ligne bleu foncé en haut sort de l'ordinaire.

 

charge de travail globale par opération

Figure 4: La charge de travail globale du client, en termes de différents types d'opérations.

 

Comment collectons-nous toutes ces données sur les mesures de santé du système?

Lorsque nous avons lancé avec nos premiers clients en 2013, nous savions que la réactivité aux problèmes des clients serait la clé de notre succès, nous avons donc construit un système approximatif avec des statistiques et des alertes clients clés. Depuis lors, notre capacité de surveillance du cloud est devenue beaucoup plus intelligente. Nous avons étendu le nombre de mesures de santé rapportées à plus de 10,000 XNUMX mesures différentes suivies par nœud, parfois même par disque.

Au cours de la dernière année, nous avons continué à investir dans cette architecture en divisant le service en plusieurs composants avec leur propre objectif: un serveur Web pour capturer les métriques entrantes, un système de file d'attente distribué pour les mettre en mémoire tampon et gérer le déploiement vers de nombreux consommateurs internes. et une bonne base de données analytique pour héberger les données et faciliter leur interrogation par les enquêteurs.

L'architecture de surveillance basée sur le cloud de Mission Qontrol prend en charge l'analyse des données de manière efficace avec une mise en file d'attente distribuée en dissociant les consommateurs de données les uns des autres et des systèmes de production des clients.

système de mise en file d'attente distribué de surveillance basé sur le cloud

Figure 5. File d'attente distribuée dans Mission Qontrol

Pour le système de mise en file d'attente, nous avons choisi RabbitMQ car il était facile à utiliser, avait les fonctionnalités dont nous avions besoin avec une API conviviale et semblait avoir une large communauté d'utilisateurs satisfaits. Nous l'exécutons depuis environ un an maintenant et nous l'avons trouvé très fiable.

Avec ce volant au milieu, qui transmet les données à tous les consommateurs de données, nous pouvons faire tellement de choses. Nous pouvons examiner les problèmes spécifiques des clients, comme celui de l'institution de recherche dont nous avons parlé plus tôt; nous pouvons faire une analyse agrégée avec les milliards de fichiers stockés dans nos clusters; nous pouvons évaluer les performances des nouvelles fonctionnalités pour nos clients et identifier d'autres améliorations que nous devrions apporter; et nous pouvons étudier comment l'utilisation des différentes fonctionnalités du produit a évolué au fil du temps.

Et où sont stockées toutes ces données? Sur Qumulo, bien sûr. Nous avons en fait deux clusters Qumulo, un dans notre centre de données et un espace de noms dans le cloud, nous tirons donc pleinement parti de la puissance du Plateforme de données de fichiers Qumulo, et bien sûr, «manger notre propre nourriture pour chien».

Plus D'infos
Contactez-Nous

Faites un essai routier. Démo Qumulo dans nos laboratoires interactifs.

Abonnez-vous au blog Qumulo pour les témoignages clients, les informations techniques, les tendances du secteur et les actualités sur les produits