Azure Native Qumulo Maintenant disponible dans l'UE, au Royaume-Uni et au Canada - En savoir plus

Comment les organisations biotechnologiques peuvent gérer les données de fichiers croissantes pour le séquençage génomique de nouvelle génération

Rédigé par:
Le séquençage génomique appelé « séquençage de nouvelle génération » (ou NGS) a subi une transformation spectaculaire au cours de la dernière décennie.

Séquençage génomique a subi une transformation spectaculaire au cours de la dernière décennie. De nouvelles techniques ont été développées qui sont collectivement appelées «séquençage de nouvelle génération» ou NGS. À mesure que NGS continue d'évoluer, les systèmes de stockage et de gestion des données qui prennent en charge ces capacités croissantes doivent également évoluer rapidement.

Les administrateurs informatiques sont sous pression pour trouver des moyens d'augmenter l'efficacité de leurs infrastructures de stockage

Les fragments d'ADN provenant d'échantillons biologiques sont extraits par des machines appelées séquenceurs. Le séquençage de nouvelle génération a un débit beaucoup plus élevé de séquences génétiques, une production automatisée et un coût considérablement plus bas que le séquençage de première génération. En utilisant NGS, un génome humain entier peut être séquencé en une seule journée.

À mesure que les séquenceurs sont devenus plus avancés et plus rentables, le nombre d'études continue de croître et de plus en plus de données sont produites. Ces séquenceurs peuvent produire des milliards de petits fichiers, ainsi le système de fichiers utilisé pour gérer ces énormes capacités de petits fichiers doit être rapide, facilement évolutif et efficace en ce qui concerne à la fois le stockage et la protection des données, pour répondre aux budgets de recherche et soutenir de nouveaux projets de recherche. .

Aider les tests et informations de diagnostic de vitesse de progéniture

Progenity, Inc. est une société de biotechnologie qui fournit aux cliniciens des tests de diagnostic moléculaires complexes et spécialisés pour la santé des femmes, la médecine de la reproduction et l'oncologie.

Au fil des ans, les travaux de l'entreprise dans le domaine du séquençage génétique ont généré plus d'un milliard de fichiers. Selon David Meiser, architecte de solutions pour les applications Linux et Windows chez Progenity, «Ce rythme s'accélère. Dans deux ans, nous pourrions avoir encore un milliard de fichiers. »

«Un problème qui était toujours présent était qu'il y avait une surcharge de fichiers importante», a déclaré Meiser, «Les fichiers que nous écrivons sont très petits et la taille de bloc de notre ancien système de stockage était très grande.» De plus, Meiser a expliqué: «Nous avons constaté que nous ne pouvions pas effectuer d'analyse sur place car les temps d'accès étaient très élevés.»

Les systèmes de fichiers hérités, basés sur des conceptions vieilles de 15 ou 20 ans, ne peuvent pas répondre aux exigences des flux de travail NGS modernes.

Trop souvent, les organisations informatiques sont désormais obligées d'utiliser différentes solutions pour différentes parties de leurs flux de travail NGS afin de compenser les inefficacités de leurs systèmes hérités. Ceci est problématique pour plusieurs raisons:

  • Plusieurs systèmes ajoutent de la complexité, ce qui se traduit par des coûts opérationnels globaux plus élevés.
  • Plusieurs systèmes peuvent également entraîner des silos de données, de sorte qu'un groupe de chercheurs peut ne pas être en mesure d'accéder aux données qu'une autre équipe utilise.
  • Le manque de collaboration peut ralentir le temps nécessaire pour obtenir des résultats, ce qui peut retarder le temps nécessaire pour terminer des projets ou mettre un produit sur le marché

Avec sa croissance rapide et ses flux de travail gourmands en données, Progenity savait que son fournisseur de systèmes hérités serait incapable de répondre à ses besoins futurs. «Après quelques années avec notre système de stockage d'origine, nous avons réalisé que la façon dont l'entreprise fonctionnait n'était pas un bon modèle pour nous», a déclaré Meiser, faisant référence à la fois aux coûts élevés et à l'efficacité du stockage.

Configurations NGS WorkFlow sur site et basées sur le cloud

Qumulo plateforme de données de fichiers répond aux exigences de performance et de capacité pour le stockage, la gestion et l'accès aux données de séquençage génomique, sur site ou dans le cloud. Il gère des milliards de petits et grands fichiers et prend en charge une variété de protocoles, notamment SMB, NFS, FTP et REST, ce qui signifie que toutes les phases du flux de travail d'analyse génomique peuvent utiliser le même cluster Qumulo.

Vous trouverez ci-dessous un exemple de configuration de flux de travail NGS sur site.

 

Cet exemple montre les séquenceurs d'ADN générant de nombreux petits fichiers BCL ou appels de base, qui sont des fragments de séquence d'ADN non ordonnés. Un processus de démultiplexage assemble les fichiers BCL dans un fichier FASTQ, qui est un fichier texte qui stocke les résultats de sortie combinés des fichiers BCL avec les scores de qualité correspondants.

La batterie de calcul effectue l'alignement et l'appel de variantes. En alignement, les fragments de séquence sont vérifiés en qualité, prétraités et alignés sur un génome de référence. Un fichier BAM est un fichier binaire qui stocke ces données d'alignement. La variante appelant recherche les différences entre les données et le génome de référence. Les résultats sont stockés dans un fichier VCF.

Une fois que ces magasins de données sont prêts, ils peuvent être utilisés pour une analyse spécifique à l'application, qui est effectuée par les chercheurs pour leurs propres projets. Par exemple, un chercheur pourrait travailler sur une thérapie ciblée pour les patients atteints d'une tumeur qui a une mutation génétique spécifique. Les chercheurs peuvent utiliser toutes les données générées contenues dans les fichiers BAM et VCF.

Voici un exemple de flux de travail qui montre comment effectuer une analyse dans le nuage avec Qumulo pour les instances ponctuelles AWS et EC2.

Dans cet exemple, grâce à la réplication continue, le cluster cloud Qumulo sur AWS et le cluster Qumulo local sont toujours synchronisés. Une organisation peut tirer parti des instances ponctuelles EC2 pour réduire les coûts.

 

Apprendre encore plus

Qumulo dispose de plusieurs ressources utiles pour en savoir plus sur données génomiques et séquençage et comment notre plateforme de données de fichiers aide les organisations à stocker, gérer et accéder aux données de séquençage génomique sur site et dans le cloud. Lisez notre dossier de solution ici, et consultez notre webinaire à la demande, "Accélérer la recherche génomique avec des solutions de cloud hybride. »

Contactez-nous ici si vous souhaitez organiser une réunion ou demander une démo.

Articles Similaires

Remonter en haut