Quatre considérations lors de l'évaluation des systèmes de fichiers pour votre environnement informatique de recherche en sciences de la vie

Le marché de l'informatique de recherche est plus critique que jamais. Par exemple, la recherche sur la pharmacothérapie est très demandée en raison de la pandémie de COVID, et la recherche en génomique s'améliore rapidement et amène de nouveaux traitements et thérapies sur le marché plus rapidement.

Cette innovation est due à la capacité des organisations des sciences de la vie à traiter d'énormes quantités de données, tout en exploitant des technologies telles que l'intelligence artificielle (IA) et l'apprentissage automatique (ML). Les charges de travail de calcul de recherche comme le séquençage génomique, l'analyse des données et l'imagerie de recherche dépendent incroyablement de leur plateforme de gestion des données.

Les organisations dépensent des dizaines de millions de dollars en systèmes et plates-formes pour capturer, traiter et stocker de nombreux types de données (par exemple, expérimentales, opérationnelles, cliniques) provenant de nombreuses sources disparates. De plus, les instruments créent des données complexes à partir d'une vaste gamme d'appareils - séquenceurs génomiques, microscopes 3D, systèmes d'imagerie des patients - qui transmettent d'énormes quantités de données à des systèmes centralisés pour analyse. Avec l'évolution continue des technologies d'IA, de ML et d'imagerie 3D, la taille et la quantité de données que les organisations des sciences de la vie doivent gérer continueront à évoluer bien au-delà des pétaoctets.

En conséquence, de nombreuses organisations évaluent des architectures modernes pour consolider, traiter et exploiter ces données.

Les plates-formes de données de fichiers ont la capacité de traiter d'énormes quantités de données pour le calcul de la recherche, souvent constituées de milliards de fichiers, afin d'extrapoler des informations de recherche clés. Les innovations IoT (Internet of Things) contribuent à capturer ces points de données à des niveaux records.

Plateforme de données de fichiers de Qumulo 

Selon la Monde Bio-IT«Avec la demande croissante de puissance de calcul des chercheurs et des scientifiques en sciences de la vie qui s'attaquent aux problèmes de mégadonnées, le stockage et l'infrastructure doivent pouvoir évoluer pour gérer efficacement des milliards de points de données et de fichiers.»

Lors de l'évaluation d'une plate-forme de données de fichiers pour vos charges de travail de calcul de recherche, vous devez tenir compte des éléments suivants:

  • Ma plate-forme de données de fichiers offre-t-elle des performances de petits fichiers aussi efficacement que de gros fichiers en streaming? Cela supprime les limitations de taille de «bloc» appliquées avec d'autres systèmes de fichiers. Pour améliorer les performances, de nombreux systèmes de fichiers utilisent des blocs de plus grande taille, ce qui est bien pour les gros fichiers, mais très inefficace pour les petits fichiers, car chaque bloc ne peut contenir qu'un seul fichier. Cela conduit potentiellement à un énorme gaspillage de capacité.

«L'un de nos principaux critères de remplacement était de trouver un système de stockage capable de combler ce volume et cette variété de fichiers», déclare Bill Kupiec, responsable informatique de Département d'embryologie de Carnegie. «Il devait gérer à la fois le streaming nécessaire pour de très grands ensembles de données et le traitement rapide requis pour des millions de petits fichiers. Cela a rendu extrêmement difficile la recherche d'une solution viable.

«Notre organisation de recherche se situe entre les fissures de la plupart des fournisseurs de stockage, avec des ensembles d’imagerie géants et des millions de minuscules restes de séquençage génétique. Il était difficile de trouver un système qui gère raisonnablement tous nos flux de travail complexes, et à la fin, seul Qumulo était la solution idéale. ”

  • Mon organisation peut-elle adapter de manière transparente les charges de travail, en cas de besoin, aux environnements cloud? En raison de la taille croissante des ensembles de données et de la nature intensive en calcul de l'IA et du ML, les organisations tirent parti de la flexibilité et des ressources du cloud. Le cloud public offre de plus grandes quantités de traitement des performances de calcul et d'accès aux GPU, une collaboration améliorée et un accès aux applications d'IA et de ML natives du cloud.
  • Mon système de fichiers assure-t-il une haute disponibilité de mes données? Le système de fichiers de Qumulo offre une protection des données au niveau de l'entreprise en utilisant codage d'effacement. Les données sont efficacement réparties sur plusieurs nœuds pour se protéger contre les pannes de disque. En cas de panne d'un disque, contrairement aux solutions RAID traditionnelles, les performances ne sont pas affectées lors des reconstructions. Le codage d'effacement nécessite également moins de capacité (généralement 33% d'espace en moins) pour la résilience que RAID.
  • Mon organisation souffre-t-elle de «cécité des données»? Les analyses en temps réel de Qumulo offrent une visibilité et des informations sur des milliards de fichiers. Les organisations prennent le contrôle, avec des informations sur l'ensemble de la plate-forme de données de fichiers, ce qui leur permet de prévoir les tendances d'utilisation et de capacité, d'optimiser les flux de travail et de gérer de manière plus proactive les besoins de stockage actuels et futurs.

Apprendre encore plus

Qumulo dispose de plusieurs ressources utiles pour en savoir plus sur recherche informatique et comment notre plate-forme de données de fichiers répond aux exigences de performance et de capacité des organisations des sciences de la vie, dans le centre de données et dans le cloud.

Arrêtez-vous à notre stand virtuel au Monde Bio-IT cette semaine - nous serions ravis de vous parler! Regardez également ce webinaire gratuit à la demande avec moi, Adam Kraut de BioTeam, Inc., et Emric Delton des Laboratoires ARUP, pour quelques bonnes pratiques sur l'accélération de la recherche en génomique: "Accélérer la recherche génomique avec des solutions de cloud hybride. »

Contactez-nous ici si vous souhaitez organiser une réunion ou demander une démo. Et Abonnez-vous à notre blog pour des meilleures pratiques et ressources plus utiles!

Partager cette publication