Données génomiques et séquençage

Stockez efficacement des milliards de petits fichiers avec un stockage hautes performances.

Haute performance pour les charges de travail génomiques.

Le système de fichiers de Qumulo est une solution idéale pour stocker, gérer et accéder aux données de séquençage génomique. Il gère efficacement les petits fichiers et prend en charge SMB, NFS, FTP et REST, ce qui signifie que toutes les phases du pipeline d'analyse génomique peuvent utiliser le même cluster Qumulo.

Principaux avantages
9

Échelles en milliards de fichiers

9

Surveillance basée sur le cloud

9

Simplicité immédiate

9

API REST complète

Le stockage de données héritées ne suffit pas.

Le séquençage de nouvelle génération (NGS) a considérablement accru les besoins en stockage de données génomiques.

Lorsque les séquenceurs deviennent plus avancés, ils produisent plus de données. En outre, l'efficacité a permis de réduire les coûts, ce qui signifie qu'un plus grand nombre d'organisations peut effectuer davantage de séquencement.

Les séquenceurs produisent tellement de données qu'il n'est pas rare qu'un seul laboratoire génère plus d'un milliard de fichiers en un an. Au niveau mondial, les données de séquence doublent environ tous les sept mois et surpassent YouTube, Twitter et l'astronomie en termes de croissance du stockage.

Les administrateurs informatiques sont contraints de trouver des moyens d'étendre et de gérer l'infrastructure de stockage.

Les systèmes de stockage hérités, qui sont basés sur des conceptions vieilles de 15 ou 20 ans, ne peuvent pas répondre aux exigences des flux de travail NGS modernes. Les organisations informatiques sont désormais obligées d'utiliser des solutions différentes pour différentes parties de leurs flux de travail NGS afin de compenser les inefficacités de leurs anciens systèmes. Plusieurs systèmes ajoutent de la complexité, ce qui se traduit par des coûts de maintenance plus élevés. Plusieurs systèmes peuvent également provoquer des silos de données, de sorte qu'un groupe de chercheurs peut ne pas être en mesure d'accéder aux données qu'une autre équipe utilise. Le manque de collaboration peut ralentir le temps nécessaire pour obtenir des résultats, ce qui peut retarder le temps nécessaire à un produit pour arriver sur le marché.

Qumulo peut vous aider.

Caractéristiques:

Stockage Qumulo pour le séquençage génomique

Le système de fichiers de Qumulo est une solution idéale pour stocker, gérer et accéder aux données de séquençage génomique.

performance

Le système de fichiers de Qumulo gère les petits fichiers, tels que TIFF et BCL, aussi efficacement que les gros. Avec Qumulo, les chercheurs peuvent effectuer leurs analyses en temps réel, ce qui se traduit par des économies de coûts et une mise sur le marché plus rapide.

Évolutivité

Chaque fois que les clients ajoutent un nœud à un cluster Qumulo, ils évoluent de manière linéaire, en termes de capacité et de performances. Il n'y a pas de limite pratique au nombre de fichiers que Qumulo peut stocker.

Coût

Qumulo met 100% de la capacité allouée par l'utilisateur à la disposition du stockage de fichiers, contrairement aux NAS existants et à l’échelle existants qui recommandent uniquement d’utiliser X% à 70 de la capacité utilisable.

Visibilité en temps réel

La visibilité et le contrôle en temps réel de Qumulo fournissent des informations sur ce qui se passe dans le système de stockage, jusqu'au niveau du fichier. Les administrateurs système peuvent appliquer des quotas en temps réel.

Cloud et on-prem

La réplication continue signifie que vous pouvez facilement transférer des données de votre cluster Qumulo sur site vers votre cluster Qumulo dans AWS, effectuer vos calculs, puis transférer les résultats vers le stockage sur site.

Prise en charge de protocoles mixtes

La prise en charge de SMB, NFS, FTP et REST signifie que toutes les phases du pipeline d'analyse génomique peuvent utiliser le même cluster Qumulo.

Comment ça marche?

Stockage de données génomiques: workflow NGS

Voici un exemple de workflow pour la réalisation de NGS sur site:

Dans cet exemple, les séquenceurs d'ADN génèrent de nombreux petits fichiers BCL ou appels de base, qui sont des fragments de séquence d'ADN non ordonnés. Un processus de démultiplexage assemble des fichiers BCL dans un fichier FASTQ, qui est un fichier texte qui stocke les résultats de sortie combinés des fichiers BCL avec les scores de qualité correspondants.

La batterie de calcul effectue l'alignement et l'appel de variantes. En alignement, les fragments de séquence sont vérifiés en qualité, prétraités et alignés sur un génome de référence. Un fichier BAM est un fichier binaire qui stocke ces données d'alignement. La variante appelant recherche les différences entre les données et le génome de référence. Les résultats sont stockés dans un fichier VCF.

Une fois ces magasins de données prêts, ils peuvent être utilisés pour une analyse spécifique à l'application, effectuée par les chercheurs pour leurs propres projets. Par exemple, un chercheur pourrait travailler sur une thérapie ciblée pour les patients dont la tumeur présente une mutation génétique spécifique. Les chercheurs peuvent utiliser toutes les données générées contenues dans les fichiers BAM et VCF.

Qumulo fournit un système de stockage de fichiers central, adapté à tous les types de données génomiques. Qumulo présente une efficacité de fichier de petite taille et un débit de pointe pour gérer toutes les phases du flux de travail.

Stockage de données génomiques: workflow NGS sur AWS

Voici un exemple de flux de travail qui montre comment effectuer une analyse dans le nuage avec Qumulo pour les instances ponctuelles AWS et EC2.

Qumulo permet d'activer des flux de travail couvrant des centres de données locaux et le cloud. Dans cet exemple, le cluster cloud Qumulo sur AWS et le cluster Qumulo local font partie de la même matrice de stockage en raison de la réplication continue, ce qui maintient les deux clusters synchronisés. Une organisation peut tirer parti des instances ponctuelles EC2 pour réduire les coûts.

Our research organization falls between the cracks for most storage vendors, with giant imaging sets and millions of tiny genetic sequencing scraps. Finding a system that reasonably handled all our complex workflows was difficult, and in the end only Qumulo was the right fit.”

Bill Kupiec - Responsable informatique, département d'embryologie, Carnegie Institution for Science

Vous voulez en savoir plus?

Donnez-nous 10 minutes de votre temps et nous vous montrerons comment repenser la gestion de vos données.