Azure Native Qumulo Maintenant disponible dans l'UE, au Royaume-Uni et au Canada - En savoir plus

Stockage de données pour le séquençage génomique

Rédigé par:

Un génome est l'ensemble des instructions héréditaires pour construire, faire fonctionner et entretenir un organisme et pour transmettre la vie à la génération suivante. Le séquençage génomique détermine l'ordre des nucléotides d'ADN, ou bases, dans un génome - l'ordre de ses bases - les As, Cs, Gs et Ts - qui composent l'ADN d'un organisme. Le génome humain est composé de plus de 3 milliards de ces lettres génétiques.

En savoir plus: Stockage de données Qumulo pour le séquençage génomique

Le séquençage génomique a subi une transformation spectaculaire au cours de la dernière décennie. De nouvelles techniques ont été développées qui sont collectivement appelées « séquençage de nouvelle génération » ou NGS. Par rapport au séquençage de première génération (« séquençage Sanger »), le NGS a un débit de séquences génétiques beaucoup plus élevé, une production automatisée et un coût considérablement inférieur. En utilisant NGS, un génome humain entier peut être séquencé en une seule journée. En revanche, les techniques de première génération ont nécessité plus d'une décennie pour fournir la version finale d'un seul génome humain. Les estimations du coût de la cartographie de ce premier génome s'élèvent à 3 milliards de dollars. Aujourd'hui, cela coûterait environ 1,000 XNUMX $.

Pourquoi le séquençage génomique est-il important?

Un séquençage génomique meilleur, plus rapide et moins coûteux signifie que son impact sur nos vies est beaucoup plus grand. Les chercheurs sont maintenant en mesure de comparer rapidement et à moindre coût de grandes portions d'ADN provenant de personnes différentes. De telles comparaisons peuvent fournir une quantité énorme d'informations sur le rôle de l'hérédité dans la sensibilité aux maladies et aux influences de l'environnement. De plus, la capacité à séquencer le génome plus rapidement et à moindre coût crée un vaste potentiel pour les diagnostics et les thérapies.

Des exemples plus concrets sont les types de tests génétiques qui deviennent de plus en plus courants. Beaucoup de personnes subissent des tests de dépistage génétique pour détecter les troubles qu'elles peuvent transmettre à leurs enfants. D'autres tests peuvent déterminer les risques héréditaires pour certains types de cancers.

Qu'est-ce que cela signifie pour le stockage de données pour le séquençage génomique?

Mis à part le «C'est tellement cool, je dois vous en parler», pourquoi est-ce que je blogue sur le séquençage génomique?

Les fragments d'ADN provenant d'échantillons biologiques sont extraits par des machines appelées séquenceurs. Le génome entier ne peut pas être séquencé en une seule fois car les méthodes dont nous disposons aujourd'hui ne peuvent gérer que de courtes portions d'ADN à la fois. Par conséquent, ces séquenceurs produisent beaucoup, beaucoup de petits fichiers. Les fichiers d'image brute sont généralement des fichiers TIFF, d'environ 1 Ko chacun, avec un total de 2 à 5 To par échantillon.

Le stockage de données doit être rapide et efficace

Toute machine produisant autant de petits fichiers aura besoin d'un système de stockage performant, qui stocke et protège efficacement les petits fichiers. Des techniques telles que la mise en miroir peuvent gaspiller beaucoup d'espace disque. L'espace disque perdu signifie que les entreprises doivent acheter davantage d'espace de stockage, utiliser davantage d'espace rack et payer plus cher les coûts d'infrastructure tels que l'alimentation et le refroidissement.

Qumulo est bien plus efficace pour représenter et protéger les fichiers de petite taille que le NAS à extension scalaire hérité du passé, nécessitant généralement un tiers de la capacité de stockage et la moitié de la charge de protection.

I / O importe toujours

Le processus d'affinage des données brutes, qui consiste à transformer le brouillon fragmenté en un produit final long et continu, sans rupture ni erreur, s'appelle la finition. La finition implique différents types d'analyses, y compris l'accrochage de toutes les lectures individuelles dans le bon ordre, la recherche d'erreurs et de lacunes et la recherche de différences entre le résultat final et un génome de référence. Toutes ces étapes produisent différents types de fichiers et toutes ces étapes requièrent d'excellentes performances d'E / S pour une analyse rapide.

Les E / S rapides sont importantes si de nombreux chercheurs à l'autre bout du flux de travail utilisent les données finies pour leurs propres projets. Les chercheurs en aval veulent faire leur travail en temps réel et ne pas attendre, car leurs propres ressources de calcul manquent de données.

Qumulo est deux fois plus performant que les systèmes de stockage traditionnels.

Le stockage doit être adapté à des milliards de fichiers

Très peu d'organisations ont un seul séquenceur. Ils en ont des rangées, toutes produisant des TB de données par jour. Même quelques séquenceurs peuvent produire plus d'un milliard de fichiers par an, prenant en charge 1-2PB de stockage. Différentes étapes des analyses sont également stockées pour différentes durées. Alors que les fichiers TIFF bruts ne peuvent être stockés que pendant quelques semaines, les autres types de fichiers peuvent être stockés pendant des années. L'énorme volume de données signifie que le stockage de fichiers doit facilement évoluer et, encore mieux, l'ajout d'un nœud ne doit pas seulement augmenter la capacité mais les performances.

Avec Qumulo, vous pouvez utiliser n'importe quel mélange de gros et de petits fichiers et stocker autant de fichiers que nécessaire. La technologie avancée des systèmes de fichiers de Qumulo ne comporte aucune limite pratique. De nombreux clients Qumulo ont des empreintes de données dépassant le milliard de fichiers.

La visibilité et le contrôle sont essentiels

Lorsque vous avez des milliards de fichiers dans un système de stockage, vous devez les gérer. Les techniques séquentielles telles que la promenade dans les arbres ne fonctionnent plus. Obtenir des informations sur les données peut prendre des jours, voire des semaines, ce qui signifie qu’il est inutile.

Qumulo offre une visibilité en temps réel sur les données et permet aux administrateurs de trouver facilement des réponses à des questions comme la localisation des hotspots d'E / S et de prendre des mesures instantanées.

Prise en charge multi-protocole

De nombreux séquenceurs envoient leurs données au stockage via SMB, mais de nombreux chercheurs accèdent aux données via NFS. Un système de stockage doit prendre en charge plusieurs protocoles. Qumulo prend en charge SMB, NFS, FTP et REST.

Passer au nuage

Les entreprises se tournent vers le cloud pour leur donner plus de ressources informatiques pour leurs analyses. Ils sont gênés car de nombreuses options de stockage de fichiers dans le cloud présentent une évolutivité et des performances médiocres.

Qumulo Cloud Q pour AWS présente les performances les plus élevées en matière de stockage de fichiers dans le cloud, tout en étant la plus évolutive. Contrairement à d'autres options, les performances et la capacité peuvent être mises à l'échelle indépendamment.

Qumulo utilise la réplication continue pour déplacer les données là où elles sont nécessaires, lorsque cela est nécessaire. Qumluo prend vos dernières modifications et les reproduit sans que vous ayez à vous en préoccuper. La réplication continue signifie que vous pouvez facilement transférer des données de votre cluster Qumulo sur votre cluster Qumulo dans AWS, effectuer vos analyses, puis transférer les résultats vers le stockage local.

Essayez aujourd'hui le meilleur stockage de données pour le séquençage génomique

Si vous faites partie d'un groupe de recherche ou d'une entreprise qui effectue du séquençage génomique, assurez-vous de poser les bonnes questions avant d'acheter un système de stockage de fichiers.

Si vous souhaitez en savoir plus sur la façon dont l’architecture Qumulo peut vous faire économiser de l’argent tout en vous offrant capacité et évolutivité, lisez la Guide technique de l'architecture de données de fichiers Qumulo.

Articles Similaires

Remonter en haut