Pratiques d'analyse pour rationaliser les opérations de recherche et d'infrastructure

L'Institute for Health and Metrics Evaluation montre comment les analyses natives de Qumulo donnent un aperçu de leurs données de recherche. Ils vont également plus loin en montrant comment ils utilisent l’API Qumulo pour créer leur propre tableau de bord complet, qui leur permet de générer des rapports sur l’ensemble de leur flotte Qumulo.

Transcription de webinaire

Salut. Je m'appelle Felix Russell. Je suis avec le Institute for Health Metrics et Evaluation à l'Université de Washington à Seattle. Et je suis ici pour vous parler des pratiques d'analyse pour la rationalisation de la recherche et des opérations d'infrastructure que j'ai rencontrées en travaillant dans un grand HPC en conjonction avec Qumulo. Donc, un petit aperçu de notre organisation, nous sommes financés par une combinaison de subventions publiques et privées. La plus grande majorité de notre argent provient en fait du Fondation Bill & Melinda Gates qui ont été très utiles dans notre création et notre croissance continue.

Nos objectifs sont d'évaluer les mesures de mortalité et de facteur de risque pour une variété de maladies et de causes d'ajustement de l'année de vie, donc découvrir ce qui soustraire le plus de votre vie si vous la contractez est une façon rapide d'y penser, en agrégeant les mesures de santé de une variété de sources académiques. Et nous évaluons également l'efficacité des services de santé. Et nous découvrons si, par exemple, le service de santé nationalisé d'un pays est efficace pour faire son travail pour le montant qu'il paie pour fournir des soins de santé à ses citoyens. Donc, cela s'intègre parfaitement dans nos clients. Nos clients sont également de grandes organisations philanthropiques qui utilisent les données que nous fournissons ainsi que de grands ministères de la santé et des établissements universitaires. Nous écrivons des articles universitaires et nous sommes très, très largement cités dont nous sommes fiers.

À la fin de la journée, nos produits sont des visualisations et des articles académiques. Donc, à IHME, nous utilisons une variété d'outils logiciels pour la modélisation, cela ne sera pas l'objet de ma présentation pour le moment. Je fais partie de l'équipe infrastructure et je me concentre sur le back-end, comment obtenir les chercheurs, les outils dont ils ont besoin pour réussir leur modélisation et les activités géospatiales qui font ces jolis graphiques et visualisations que vous voyez ici la droite. Les pipelines de build qui sont utilisés par d'autres équipes et par nous sont les Luigi, Jenkins et GoCD. Nous utilisons une variété de produits de base de données pour soutenir nos visualisations et nos pipelines de transformation à l'intérieur du HPC. Nous utilisons les produits Percona et MariaDB, ainsi que certains SQL et Postgres vraiment standard.

Pour le Web, nos produits sont visualisés à l'aide de frameworks HTML qui sont une combinaison de produits locaux et open source. Ainsi, à l'Institute for Health Metrics, nous disposons d'un vaste pool de matériel qui est divisé en plusieurs clusters pour nous aider à atteindre nos objectifs de modélisation dans nos clusters. Nous avons 500 nœuds de calcul x86 hétérogènes qui représentent environ 25,000 150 cœurs répartis sur plusieurs générations et architectures d'AMD et d'Intel, et environ XNUMX téraoctets de mémoire à notre disposition.

Ainsi, Qumulo a une grande histoire avec notre organisation. Ils nous ont fourni quatre clusters que nous avons déployés dans deux centres de données. Nous avons un niveau de vitesse composé de 158 téraoctets sur notre Plate-forme QC24, c'est la seule nouvelle plate-forme de Qumulo qui comprend 11 nœuds. Et pour le niveau scratch, nous avons environ trois pétaoctets de Nœuds QC208. Il y en a 21, et ils répondent à la grande majorité des besoins de stockage scratch. Nous avons eu une bonne expérience avec le Qumulo. Ils ont une longue histoire de tolérance aux pannes éprouvée face aux pannes et aux charges importantes. Les mises à niveau sont fréquentes et indolores. L'application de la politique d'instantané est robuste et facile à faire même pour un utilisateur final, et nous aimons cela car cela nous permet de confier la tâche de récupérer les données instantanées à l'utilisateur final, sans avoir à les gérer sur notre infrastructure ou notre équipe DevOps. .

Le le service client a été excellent. Nous avons une excellente relation avec l'équipe. Le client face à une équipe d'ingénieurs de Qumulo qui a été courtois avec son temps et ses efforts même à des heures non standard. Et, bien sûr, ils fournissent d'excellentes métriques et API pour interagir avec le cluster et voir ce qu'il fait. Donc, les métriques natives de Qumulo vont être au centre de cette diapositive, car je vais comparer ce qu'elles font à ce que vous pouvez faire avec l'API. Les tableaux de bord de cluster natif qui sont l'adresse Web principale pour vous connecter et gérer le clustering, l'interface graphique Web affiche des informations de base sur les zones de temps avec le débit et les IOPS évidemment, ainsi que la recherche des données de hotspot actuelles pour voir quels fichiers sont en cours d'écriture à ou lire le plus.

Les laboratoires DataViz, non représentés ici à droite, sont une fonctionnalité pratique sur laquelle Qumulo travaille actuellement et qui vous montrera des informations de cluster agrégées ainsi que des informations de tendance historiques plus approfondies. Donc, à l'Institute for Health Metrics, nous avons des outils de surveillance et de journalisation très disparates et ils ont tous des rôles différents et nous essayons de converger vers une solution. Nous avons décidé que le ElasticSearch, la pile ELK, est souhaitable et c'est génial car il s'agit d'un développement interactif. Il est bon pour alerter, et il est rapide à la recherche en raison de son back-end perdant, et il est facile d'orchestrer sa création et sa mise à l'échelle à l'aide de Rancher, qui est ce que vous voyez ici en haut à droite. Les tableaux de bord affichés dans Kibana se trouvent juste en dessous, notamment le tableau de bord, affichant par exemple la suite de gestion de la configuration, Salt et ses performances, dans notre environnement, afin que nous puissions améliorer notre gestion de la configuration. C'est un outil puissant pour la représentation graphique et l'agrégation de nombreuses données.

ELK Stack est très bon dans sa tolérance aux pannes, son débit et son volume de documents. Les temps de requête sont très rapides. Vous pouvez vieillir vos anciens documents et vous pouvez très bien compter dessus. Et pour Decoy, j'ai inclus l'inconvénient, c'est que c'est trop bon et c'est addictif. Dans notre environnement, Elastic Search fournit Agrégation Syslog et Recherche, ce qui est très pratique pour détecter des modèles et pour trouver les entrées de journal très rapidement. Mesures de l'hôte et du groupe d'hôtes pour les données les plus importantes, ainsi que pour les données corrodées, et pour consulter notre planificateur HPC au fil du temps, sans créneaux horaires. Et maintenant, nous soutenons l’ingestion de métriques à partir de nos grappes de travail.

Ainsi, ce désir de convergence et toutes les informations en un seul endroit engendrent un projet appelé Qumulo-analytics-elasticsearch. Et cela nous permet de prendre les données des clusters Qumulo à notre disposition et de regrouper toutes ces données en un seul endroit. Et cela nous donne des métriques d'agrégation inter-cluster par client et par chemin, les hotspots, le suivi des tendances de capacité et nous donne notre propre définition de la durée pendant laquelle nous voulons conserver les données et de la précision ou de l'intervalle des données. nous voulons conserver à mesure qu'il vieillit. Cela nous donne beaucoup de flexibilité dans notre suivi. C'est très sympa car ce projet ici est disponible, il est sur GitHub. C'est open source. C'est une petite application Python, et il est très facile de démarrer et de surveiller même sans cluster de recherche élastique à l'échelle de la production.

Vous pouvez utiliser un petit déploiement dockerisé du point de terminaison ELK Stack, vos Qumulos, vos clusters Qumulo, les données enregistrées par l'API dans votre ordinateur portable par exemple, pour tester le site Web en bas ici. Et dans l'esprit de cela, je vais vous montrer une brève démo de ce à quoi cela ressemble en action. Ici, nous avons les plus grands chemins dans un cluster donné séparés par un cluster. Et ici, les plus grands chemins sont visibles à travers les clusters. Ainsi, vous pouvez voir les données intégrées ici, quels chercheurs, par exemple, sont les plus grands contrevenants sur qui stocke le plus de fichiers ou qui stocke le plus de données. Il est facile de repérer les tendances dans les clusters comme celui-ci pour des clusters spécifiques. Les métriques de débit de lecture et d'écriture sont également traçables ici et le fichier et les métadonnées plus détaillés vers IOPS, vous pouvez garder un œil sur l'historique ici. La série chronologique des données est facilement définissable ici. Si vous souhaitez explorer une heure plus spécifique, cliquez et faites glisser et vous aurez les données correspondantes re-rendues en conséquence.

Ici, nous avons le débit pour les bons hôtes, le fait que ce nom d'hôte soit en haut est un bon signe. Nous transférons une grande quantité de données, ce qui signifie que cet hôte utilise le plus de trafic sur tous nos clusters Qumulo, consommant le plus de données, et qu'il lit et écrit le plus efficacement possible. Il y a cette métrique pour l'écriture et la lecture, et nous avons ici le meilleur débit pour les fichiers. Cela permet de voir les zones sensibles, l'heure de la série temporelle définie pour voir quels fichiers sont en cours d'écriture ou de lecture parmi les plus actifs. Et ceci n'est qu'un exemple de ce que vous pouvez faire avec les données du projet Qumulo-analytics-elasticsearch.

La méthodologie de ce projet était assez simple, utilisant des collections Python et des bibliothèques de sockets sous Python et le client Qumulo_api, le client REST intégré à Python. Et elasticsearch-py, qui est un autre wrapper de client REST pour Python, et les données que le point de terminaison Qumulo_api tient dans raw sont facilement visibles ici en haut à droite. C'est une sorte de données non triées très brutes. Le script est juste bon pour lire cela et le transmettre à la recherche élastique, vous savez, de manière plus utile. Et cela conclut ma présentation, et je tiens à remercier tout particulièrement mes managers et Qumulo de m'avoir accordé le temps et les ressources nécessaires pour y parvenir. Et merci d'avoir pris le temps de regarder la présentation.

Compétences

Publié le

31 juillet 2018