Stockage pour données génomiques et séquençage

La capacité à extraire des informations génétiques - le code biologique de toute vie - a subi une transformation spectaculaire au cours de la dernière décennie.

Les nouvelles techniques sont collectivement appelées «séquençage de nouvelle génération» ou NGS. Par rapport à la méthode traditionnelle de séquençage de première génération («Sanger sequencing»), NGS offre un débit plus élevé de séquences génétiques, une production automatisée et des coûts considérablement réduits.

Pour mettre cela en contexte, il a fallu dix ans et près de trois milliards de dollars au Projet du génome humain pour séquencer le premier génome humain. En utilisant NGS, un génome humain entier peut être séquencé en une seule journée pour environ $ 1000.

La conséquence de NGS a été une expansion rapide de la quantité de données génomiques collectées et de la diversité des applications utilisant ces données. Aujourd'hui, le séquençage génétique sert de base à:

  • Recherche en sciences de la vie primaires (universités, instituts)
  • Diagnostic (utilisations cliniques)
  • Découverte de médicaments (pharmas)
  • Découverte de biomarqueurs (principalement des entreprises pharmaceutiques)
  • Médecine personnalisée (hérédité, etc.)
  • Agriculture et recherche animale

Les avantages de NGS sont concrets. Par exemple, 10% du cancer est héréditaire. En raison de l'ENG, les gens peuvent simplement se mettre d'accord avec leur médecin pour passer un test qui détermine s'ils (et, par extension, les membres de leur famille) sont exposés à certains types de cancer. Les nouveau-nés reçoivent généralement des tests génétiques. Ces tests recherchent des anomalies génétiques pouvant être traitées pour prévenir la mort ou la maladie dans le futur. Les adultes peuvent être testés pour déterminer s'ils sont porteurs de maladies telles que la mucoviscidose, la maladie de Tay-Sachs (une maladie mortelle due au métabolisme incorrect des graisses) ou l'anémie falciforme.

NGS a considérablement augmenté les besoins en stockage de données génomiques. Lorsque les séquenceurs deviennent plus avancés, ils produisent plus de données. En outre, l'efficacité a permis de réduire les coûts, ce qui signifie qu'un plus grand nombre d'organisations peut effectuer davantage de séquencement. Les séquenceurs produisent tellement de données qu'il n'est pas rare qu'un seul laboratoire génère plus d'un milliard de fichiers en un an. À l'échelle mondiale, les données de séquence doublent environ tous les sept mois et surpassent YouTube, Twitter et l'astronomie en termes de croissance du stockage. Pour suivre le rythme, les administrateurs informatiques sont sous pression pour trouver des moyens d'étendre et de gérer leur infrastructure de stockage.

Les systèmes de stockage hérités, basés sur des conceptions 15 ou même 20, ne peuvent pas répondre aux exigences des flux de travail NGS modernes. Les organisations informatiques doivent désormais utiliser différentes solutions pour différentes parties de leurs flux de travail NGS afin de compenser les inefficacités de leurs systèmes existants. Les systèmes multiples ajoutent de la complexité, ce qui se traduit par des coûts de maintenance plus élevés. Plusieurs systèmes peuvent également provoquer des silos de données, de sorte qu'un groupe de chercheurs peut ne pas être en mesure d'accéder aux données utilisées par une autre équipe. Le manque de collaboration peut ralentir le temps nécessaire pour obtenir des résultats, ce qui peut retarder la mise sur le marché d'un produit.

Défis de performance

Les données brutes NGS provenant d'un séquenceur sont constituées de nombreux petits fichiers TIFF, chacun de taille 1K. Le grand nombre de petits fichiers ralentit les performances des systèmes de stockage hérités. Lorsque cela se produit, les ressources de calcul manquent de données et les chercheurs ne peuvent pas obtenir leurs résultats en temps réel. Ralentir les chercheurs hautement rémunérés est non seulement coûteux, mais peut également avoir un impact sur le délai de commercialisation.

Défis d'efficacité

Les petits fichiers constituent la majeure partie d'un ensemble de données NGS, mais les systèmes existants les stockent de manière inefficace car ils reposent sur la mise en miroir, ce qui gaspille de l'espace de stockage. L'espace de stockage gaspillé se traduit par des coûts plus élevés, à la fois en termes de nombre de disques que le département informatique doit acheter et de coûts d'infrastructure tels que l'espace de rack, l'alimentation et le refroidissement.

Défis de visibilité

Les organisations NGS peuvent finir par stocker des milliards de fichiers. Les systèmes de stockage hérités ne permettent pas de voir le système de stockage dont les administrateurs informatiques ont besoin pour gérer autant d’actifs. Les systèmes hérités utilisent des appliances séparées, hors cluster, qui reposent sur des méthodes obsolètes pour collecter des données. Ces méthodes sont des processus séquentiels, tels que les parcours d'arbres, qui ne peuvent pas produire de résultats dans un délai raisonnable lorsqu'une organisation stocke autant d'actifs. Cela peut prendre des jours ou des semaines pour obtenir des réponses à des questions simples, longtemps après lesquelles ces réponses peuvent être utiles.

Défis du cloud

Les organisations NGS se tournent vers le cloud pour deux raisons. Premièrement, avec ses ressources évolutives à la demande, le cloud est la réponse logique lorsqu'une entreprise a besoin d'une puissance de calcul supplémentaire pour un projet exigeant ou inattendu. L'autre est que de nombreuses organisations NGS partagent des données et collaborent à des projets avec des chercheurs du monde entier. Le cloud est un moyen de rendre les données facilement accessibles. Le problème est que les fournisseurs de stockage de fichiers hérités n’ont pas de solution de cloud ou offrent des versions de leurs correctifs pour les rendre «compatibles avec le cloud».

QF2 est le système de stockage de fichiers pour NGS

Qumulo File Fabric (QF2) est une solution idéale pour stocker, gérer et accéder aux données de séquençage génomique. Il gère efficacement les petits fichiers et sa prise en charge de SMB, NFS, FTP et REST signifie que toutes les phases du pipeline d'analyse génomique peuvent utiliser le même cluster QF2. QF2 est un système de stockage de fichiers moderne capable de s'adapter à des milliards de fichiers et s'exécutant dans le centre de données et le cloud public.

solution la plus performante pour le stockage de données génomiques

performance

QF2 gère les petits fichiers, tels que TIFF et BCL, aussi efficacement que les grands. Avec QF2, les chercheurs peuvent effectuer leurs analyses en temps réel, ce qui se traduit par des économies de coûts et une mise sur le marché plus rapide.

plus abordable que le stockage de données génomique hérité

du béton

QF2 met à disposition de 100 le pourcentage de capacité disponible pour le stockage de fichiers, contrairement au NAS évolutif et extensible hérité qui recommande uniquement l'utilisation de 70% à 80% de la capacité utilisable. L'utilisation efficace de l'espace disque diminue l'empreinte des données et permet d'économiser non seulement sur le coût du système de stockage, mais aussi sur les coûts d'infrastructure

visibilité et contrôle en temps réel pour votre stockage de données génomiques

Visibilité et contrôle en temps réel

La visibilité et le contrôle en temps réel de QF2 fournissent des informations sur ce qui se passe dans le système de stockage, jusqu'au niveau des fichiers, quel que soit le nombre de fichiers présents dans le système. Les administrateurs système peuvent appliquer des quotas en temps réel. Les outils d'exploration des capacités et des tendances des capacités donnent aux services informatiques les informations dont ils ont besoin pour planifier judicieusement pour l'avenir et ne pas gaspiller de l'argent à cause de surprovisionnements. QF2 est si simple à configurer et à gérer qu'une fois que le personnel supérieur définit la configuration, la gestion quotidienne peut être effectuée par du personnel junior.

stockage de données génomiques sur site ou dans le cloud

Cloud et on-prem

Les entreprises qui souhaitent transférer certaines de leurs charges de travail d'analyse génomique vers le cloud peuvent tirer parti de QF2 for AWS. QF2 offre les performances les plus élevées de toutes les offres en nuage. Il s'agit du seul système de stockage de fichiers dans le cloud doté d'un ensemble complet de fonctionnalités d'entreprise, telles que la prise en charge multiprotocole et la visibilité en temps réel.

QF2 utilise la réplication continue pour déplacer les données là où elles sont nécessaires, lorsque cela est nécessaire. La réplication continue crée une copie des données dans un répertoire de votre cluster principal et les transfère dans un répertoire sur un second cluster cible. La réplication continue est toujours en cours d'exécution (sauf si vous ne le configurez pas). QF2 prend vos dernières modifications et les réplique sans que vous ayez à vous en préoccuper.

La réplication continue signifie que vous pouvez facilement transférer des données de votre cluster QF2 sur votre cluster QF2 dans AWS, effectuer vos calculs, puis transférer les résultats vers le stockage sur site.

solutions évolutives pour le stockage de données génomiques

Évolutivité

Chaque fois que les clients ajoutent un nœud à un cluster QF2, ils augmentent de façon linéaire, à la fois en termes de capacité et de performance. Il n'y a pas de limite pratique au nombre de fichiers que QF2 peut stocker.

Stockage de données génomiques: workflow NGS

Voici un exemple de workflow pour la réalisation de NGS sur site:

schéma d'utilisation d'une solution de stockage de données génomique sur site

Dans cet exemple, les séquenceurs d'ADN génèrent de nombreux petits fichiers BCL ou appels de base, qui sont des fragments de séquence d'ADN non ordonnés. Un processus de démultiplexage assemble des fichiers BCL dans un fichier FASTQ, qui est un fichier texte qui stocke les résultats de sortie combinés des fichiers BCL avec les scores de qualité correspondants.

La batterie de calcul effectue l'alignement et l'appel de variantes. En alignement, les fragments de séquence sont vérifiés en qualité, prétraités et alignés sur un génome de référence. Un fichier BAM est un fichier binaire qui stocke ces données d'alignement. La variante appelant recherche les différences entre les données et le génome de référence. Les résultats sont stockés dans un fichier VCF.

Une fois ces magasins de données prêts, ils peuvent être utilisés pour une analyse spécifique à l'application, effectuée par les chercheurs pour leurs propres projets. Par exemple, un chercheur pourrait travailler sur une thérapie ciblée pour les patients dont la tumeur présente une mutation génétique spécifique. Les chercheurs peuvent utiliser toutes les données générées contenues dans les fichiers BAM et VCF.

QF2 fournit un système de stockage centralisé, adapté à tous les types de données génomiques. QF2 présente une efficacité de petit fichier à la pointe du secteur et dispose du débit nécessaire pour gérer toutes les phases du flux de travail.

Stockage de données génomiques: workflow NGS sur AWS

Voici un exemple de flux de travail qui montre comment effectuer une analyse dans le cloud avec QF2 pour les instances ponctuelles AWS et EC2.

schéma d'utilisation d'une solution de stockage de données génomique sur AWS

QF2 active les flux de travail qui couvrent les centres de données sur site et le cloud. Dans cet exemple, le cluster de nuages ​​QF2 sur AWS et le cluster QF2 local font partie de la même structure de stockage en raison de la réplication continue, ce qui maintient la synchronisation des deux clusters. Une organisation peut tirer parti des instances ponctuelles d'EC2 pour réduire les coûts.

Notre organisation de recherche se situe entre les fissures de la plupart des fournisseurs de stockage, avec des ensembles d’imagerie géants et des millions de minuscules fragments de séquençage génétique. Trouver un système capable de gérer raisonnablement tous nos flux de travail complexes était difficile, et à la fin, seul QF2 était le bon choix.

Bill Kupiec - Responsable informatique, Département d'embryologie Institution Carnegie pour la science

Etude de cas: Carnegie Science

Découvrez comment le département d'embryologie aborde le volume et la variété des données de recherche avec QF2

Vidéo: recherche de conduite avec QF2

Découvrez comment l’Institut d’informatique et d’imagerie scientifique de l’Université d’Utah utilise QF2 pour mener ses recherches.

Vous voulez en savoir plus?

Donnez-nous 10 minutes de votre temps, et nous vous montrerons comment repenser le stockage de données.