Données génomiques et séquençage

Stockez et gérez efficacement des milliards de petits fichiers.
DémoFiche solution

Les anciennes solutions de données ne suffisent pas

Le séquençage de nouvelle génération (NGS) a considérablement accru les besoins en stockage de données génomiques.

Lorsque les séquenceurs deviennent plus avancés, ils produisent plus de données. En outre, l'efficacité a permis de réduire les coûts, ce qui signifie qu'un plus grand nombre d'organisations peut effectuer davantage de séquencement.

Les séquenceurs produisent tellement de données qu'il n'est pas rare qu'un seul laboratoire génère plus d'un milliard de fichiers en un an. Au niveau mondial, les données de séquence doublent environ tous les sept mois et surpassent YouTube, Twitter et l'astronomie en termes de croissance du stockage.

Qumulo peut vous aider

Les administrateurs informatiques sont sous pression pour trouver des moyens d'étendre et de gérer l'infrastructure de stockage. Les systèmes de stockage hérités, basés sur des conceptions vieilles de 15 ou 20 ans, ne peuvent pas répondre aux exigences des flux de travail NGS modernes. Les organisations informatiques sont désormais obligées d'utiliser différentes solutions pour différentes parties de leurs flux de travail NGS afin de compenser les inefficacités de leurs systèmes hérités. Plusieurs systèmes ajoutent de la complexité, ce qui se traduit par des coûts de maintenance plus élevés.

Plusieurs systèmes peuvent également entraîner des silos de données, de sorte qu'un groupe de chercheurs peut ne pas être en mesure d'accéder aux données qu'une autre équipe utilise. Le manque de collaboration peut ralentir le temps nécessaire pour obtenir des résultats, ce qui peut retarder la mise sur le marché d'un produit.

CARACTERISTIQUES

Stockage Qumulo pour le séquençage génomique

Le système de fichiers de Qumulo est une solution idéale pour stocker, gérer et accéder aux données de séquençage génomique.

Performance

Le système de fichiers de Qumulo gère les petits fichiers, tels que TIFF et BCL, aussi efficacement que les gros. Avec Qumulo, les chercheurs peuvent effectuer leurs analyses en temps réel, ce qui se traduit par des économies de coûts et une mise sur le marché plus rapide.

Évolutivité

Chaque fois que les clients ajoutent un nœud à un cluster Qumulo, ils évoluent de manière linéaire, en termes de capacité et de performances. Il n'y a pas de limite pratique au nombre de fichiers que Qumulo peut stocker.

Coût

Qumulo met 100% de la capacité allouée par l'utilisateur à la disposition du stockage de fichiers, contrairement aux NAS existants et à l’échelle existants qui recommandent uniquement d’utiliser X% à 70 de la capacité utilisable.

Visibilité en temps réel

La visibilité et le contrôle en temps réel de Qumulo fournissent des informations sur ce qui se passe dans le système de stockage, jusqu'au niveau du fichier. Les administrateurs système peuvent appliquer des quotas en temps réel.

Cloud et on-prem

La réplication continue signifie que vous pouvez facilement transférer des données de votre cluster Qumulo sur site vers votre cluster Qumulo dans AWS, effectuer vos calculs, puis transférer les résultats vers le stockage sur site.

Prise en charge de protocoles mixtes

La prise en charge de SMB, NFS, FTP et REST signifie que toutes les phases du pipeline d'analyse génomique peuvent utiliser le même cluster Qumulo.

Comment ça fonctionne

Stockage de données génomiques: workflow NGS

Voici un exemple de workflow pour la réalisation de NGS sur site:

Dans cet exemple, les séquenceurs d'ADN génèrent de nombreux petits fichiers BCL ou appels de base, qui sont des fragments de séquence d'ADN non ordonnés. Un processus de démultiplexage assemble des fichiers BCL dans un fichier FASTQ, qui est un fichier texte qui stocke les résultats de sortie combinés des fichiers BCL avec les scores de qualité correspondants.

La batterie de calcul effectue l'alignement et l'appel de variantes. En alignement, les fragments de séquence sont vérifiés en qualité, prétraités et alignés sur un génome de référence. Un fichier BAM est un fichier binaire qui stocke ces données d'alignement. La variante appelant recherche les différences entre les données et le génome de référence. Les résultats sont stockés dans un fichier VCF.

Une fois ces magasins de données prêts, ils peuvent être utilisés pour une analyse spécifique à l'application, effectuée par les chercheurs pour leurs propres projets. Par exemple, un chercheur pourrait travailler sur une thérapie ciblée pour les patients dont la tumeur présente une mutation génétique spécifique. Les chercheurs peuvent utiliser toutes les données générées contenues dans les fichiers BAM et VCF.

Qumulo fournit un système de stockage de fichiers central, adapté à tous les types de données génomiques. Qumulo présente une efficacité de fichier de petite taille et un débit de pointe pour gérer toutes les phases du flux de travail.

Stockage de données génomiques: workflow NGS sur AWS

Voici un exemple de flux de travail qui montre comment effectuer une analyse dans le nuage avec Qumulo pour les instances ponctuelles AWS et EC2.

Qumulo permet d'activer des flux de travail couvrant des centres de données locaux et le cloud. Dans cet exemple, le cluster cloud Qumulo sur AWS et le cluster Qumulo local font partie de la même matrice de stockage en raison de la réplication continue, ce qui maintient les deux clusters synchronisés. Une organisation peut tirer parti des instances ponctuelles EC2 pour réduire les coûts.

Notre organisation de recherche se situe entre les mailles du filet pour la plupart des fournisseurs de stockage, avec des ensembles d'imagerie géants et des millions de minuscules restes de séquençage génétique. Trouver un système qui gère raisonnablement tous nos flux de travail complexes a été difficile, et au final, seul Qumulo était la solution idéale. »

Bill Kupiec - Responsable informatique, département d'embryologie, Carnegie Institution for Science

Découvrez Qumulo en action avec une démonstration

Découvrez comment gérer en toute simplicité vos données de fichiers à très grande échelle dans des environnements cloud hybrides