Stockage de données génomiques et séquençage

Besoin de stocker efficacement des milliards de petits fichiers? Pas de problème avec Qumulo.

Le séquençage de nouvelle génération (NGS) a considérablement accru les besoins en stockage de données génomiques.

Lorsque les séquenceurs deviennent plus avancés, ils produisent plus de données. En outre, l'efficacité a permis de réduire les coûts, ce qui signifie qu'un plus grand nombre d'organisations peut effectuer davantage de séquencement.

Les séquenceurs produisent tellement de données qu'il n'est pas rare qu'un seul laboratoire génère plus d'un milliard de fichiers en un an. Au niveau mondial, les données de séquence doublent environ tous les sept mois et surpassent YouTube, Twitter et l'astronomie en termes de croissance du stockage.

Pour suivre le rythme, les administrateurs informatiques sont sous pression pour trouver des moyens d'étendre et de gérer leur infrastructure de stockage.

Les systèmes de stockage hérités, basés sur des conceptions 15 ou même 20, ne peuvent pas répondre aux exigences des flux de travail NGS modernes. Les organisations informatiques doivent désormais utiliser différentes solutions pour différentes parties de leurs flux de travail NGS afin de compenser les inefficacités de leurs systèmes existants. Les systèmes multiples ajoutent de la complexité, ce qui se traduit par des coûts de maintenance plus élevés. Plusieurs systèmes peuvent également provoquer des silos de données, de sorte qu'un groupe de chercheurs peut ne pas être en mesure d'accéder aux données utilisées par une autre équipe. Le manque de collaboration peut ralentir le temps nécessaire pour obtenir des résultats, ce qui peut retarder la mise sur le marché d'un produit.

Défis de performance

Les données brutes NGS provenant d'un séquenceur sont constituées de nombreux petits fichiers TIFF, chacun de taille 1K. Le grand nombre de petits fichiers ralentit les performances des systèmes de stockage hérités. Lorsque cela se produit, les ressources de calcul manquent de données et les chercheurs ne peuvent pas obtenir leurs résultats en temps réel. Ralentir les chercheurs hautement rémunérés est non seulement coûteux, mais peut également avoir un impact sur le délai de commercialisation.

Défis d'efficacité

Les petits fichiers constituent la majeure partie d'un ensemble de données NGS, mais les systèmes existants les stockent de manière inefficace car ils reposent sur la mise en miroir, ce qui gaspille de l'espace de stockage. L'espace de stockage gaspillé se traduit par des coûts plus élevés, à la fois en termes de nombre de disques que le département informatique doit acheter et de coûts d'infrastructure tels que l'espace de rack, l'alimentation et le refroidissement.

Défis de visibilité

Les organisations NGS peuvent finir par stocker des milliards de fichiers. Les systèmes de stockage hérités ne permettent pas de voir le système de stockage dont les administrateurs informatiques ont besoin pour gérer autant d’actifs. Les systèmes hérités utilisent des appliances séparées, hors cluster, qui reposent sur des méthodes obsolètes pour collecter des données. Ces méthodes sont des processus séquentiels, tels que les parcours d'arbres, qui ne peuvent pas produire de résultats dans un délai raisonnable lorsqu'une organisation stocke autant d'actifs. Cela peut prendre des jours ou des semaines pour obtenir des réponses à des questions simples, longtemps après lesquelles ces réponses peuvent être utiles.

Les défis du cloud

Les organisations NGS se tournent vers le cloud pour deux raisons. Premièrement, avec ses ressources évolutives à la demande, le cloud est la réponse logique lorsqu'une entreprise a besoin d'une puissance de calcul supplémentaire pour un projet exigeant ou inattendu. L'autre est que de nombreuses organisations NGS partagent des données et collaborent à des projets avec des chercheurs du monde entier. Le cloud est un moyen de rendre les données facilement accessibles. Le problème est que les fournisseurs de stockage de fichiers hérités n’ont pas de solution de cloud ou offrent des versions de leurs correctifs pour les rendre «compatibles avec le cloud».

Fiche technique: Qumulo pour le séquençage génomique

Qumulo est le système de stockage de fichiers pour NGS.

Le système de fichiers de Qumulo est une solution idéale pour stocker, gérer et accéder aux données de séquençage génomique. Il gère efficacement les petits fichiers et sa prise en charge de SMB, NFS, FTP et REST signifie que toutes les phases du pipeline d'analyse génomique peuvent utiliser le même cluster Qumulo. Qumulo est un système de stockage de fichiers moderne, capable de gérer des milliards de fichiers et fonctionnant dans le centre de données et le cloud public.

performance

Le système de fichiers de Qumulo gère les petits fichiers, tels que TIFF et BCL, aussi efficacement que les gros. Avec Qumulo, les chercheurs peuvent effectuer leurs analyses en temps réel, ce qui se traduit par des économies de coûts et une mise sur le marché plus rapide.

Coût

Qumulo met 100% de la capacité allouée par l'utilisateur à la disposition du stockage de fichiers, contrairement aux NAS existants et à l’échelle existants qui recommandent uniquement d’utiliser X% à 70 de la capacité utilisable.

Évolutivité

Chaque fois que les clients ajoutent un nœud à un cluster Qumulo, ils évoluent de manière linéaire, en termes de capacité et de performances. Il n'y a pas de limite pratique au nombre de fichiers que Qumulo peut stocker.

Visibilité en temps réel

La visibilité et le contrôle en temps réel de Qumulo fournissent des informations sur ce qui se passe dans le système de stockage, jusqu'au niveau du fichier. Les administrateurs système peuvent appliquer des quotas en temps réel.

Cloud et on-prem

La réplication continue signifie que vous pouvez facilement transférer des données de votre cluster Qumulo sur site vers votre cluster Qumulo dans AWS, effectuer vos calculs, puis transférer les résultats vers le stockage sur site.

Stockage de données génomiques: workflow NGS

Voici un exemple de workflow pour la réalisation de NGS sur site:

schéma d'utilisation d'une solution de stockage de données génomique sur site

Dans cet exemple, les séquenceurs d'ADN génèrent de nombreux petits fichiers BCL ou appels de base, qui sont des fragments de séquence d'ADN non ordonnés. Un processus de démultiplexage assemble des fichiers BCL dans un fichier FASTQ, qui est un fichier texte qui stocke les résultats de sortie combinés des fichiers BCL avec les scores de qualité correspondants.

La batterie de calcul effectue l'alignement et l'appel de variantes. En alignement, les fragments de séquence sont vérifiés en qualité, prétraités et alignés sur un génome de référence. Un fichier BAM est un fichier binaire qui stocke ces données d'alignement. La variante appelant recherche les différences entre les données et le génome de référence. Les résultats sont stockés dans un fichier VCF.

Une fois ces magasins de données prêts, ils peuvent être utilisés pour une analyse spécifique à l'application, effectuée par les chercheurs pour leurs propres projets. Par exemple, un chercheur pourrait travailler sur une thérapie ciblée pour les patients dont la tumeur présente une mutation génétique spécifique. Les chercheurs peuvent utiliser toutes les données générées contenues dans les fichiers BAM et VCF.

Qumulo fournit un système de stockage de fichiers central, adapté à tous les types de données génomiques. Qumulo présente une efficacité de fichier de petite taille et un débit de pointe pour gérer toutes les phases du flux de travail.

Stockage de données génomiques: workflow NGS sur AWS

Voici un exemple de flux de travail qui montre comment effectuer une analyse dans le nuage avec Qumulo pour les instances ponctuelles AWS et EC2.

schéma d'utilisation d'une solution de stockage de données génomique sur AWS

Qumulo permet d'activer des flux de travail couvrant des centres de données locaux et le cloud. Dans cet exemple, le cluster cloud Qumulo sur AWS et le cluster Qumulo local font partie de la même matrice de stockage en raison de la réplication continue, ce qui maintient les deux clusters synchronisés. Une organisation peut tirer parti des instances ponctuelles EC2 pour réduire les coûts.

«Notre organisation de recherche se situe entre les fissures de la plupart des fournisseurs de stockage, avec des ensembles d'imagerie géants et des millions de petits fragments de séquençage génétique. Il était difficile de trouver un système qui gère raisonnablement tous nos flux de travail complexes, et à la fin, seul Qumulo était la solution idéale. ”

Bill Kupiec - Responsable informatique, département d'embryologie, Carnegie Institution for Science

Vous voulez en savoir plus?

Donnez-nous 10 minutes de votre temps, et nous vous montrerons comment repenser le stockage de données.