Comment copier des objets entre des compartiments et des clusters S3 (partie 2)

Comment copier des objets entre des compartiments et des clusters S3

Cette série en 2 parties explore ce qui rend le système de fichiers scale-out de Qumulo unique sur AWS. Dans la partie 1, nous avons décrit comment l'architecture logicielle Qumulo Cloud Q est conçue pour les performances et l'évolutivité dynamique, ainsi que l'accès aux fichiers multiprotocole. Ce sont tous des attributs que Qumulo apporte aux charges de travail hautes performances exécutées dans le cloud. Ensuite, dans la partie 2 ci-dessous, nous continuerons avec ce qui rend Qumulo unique sur AWS - en nous concentrant sur la façon de copier des objets vers (et depuis) ​​Amazon S3 en utilisant Décalage Qumulo; et, comment automatiser le déploiement de Qumulo Cloud Q sur AWS pour simplifier la migration vers le cloud. 

Comprendre la réplication et le déplacement des données entre les clusters de centres de données et Amazon S3

Il existe un nombre croissant de workflows dans lesquels les données doivent être déplacées entre le système de fichiers et un compartiment S3. Par exemple, en tant qu'éditeur de contenu multimédia ou artiste, vous utilisez généralement un système de fichiers partagé pour fusionner des effets spéciaux ou collaborer avec d'autres artistes. Ensuite, vous pouvez utiliser d'autres services AWS pour transcoder les fichiers qui se trouvent dans un compartiment S3. Un autre exemple est le séquençage du génome, où les séquenceurs écrivent dans SMB, les processus analytiques lisent les données via NFS et l'archivage est effectué sur S3.

Compte tenu de ce qui précède, la mobilité des données entre les clusters et Amazon S3 devient d'autant plus importante.

Stockage d'objets vs stockage de fichiers

Historiquement, les solutions de stockage d'objets n'étaient pas conçues pour faciliter le déplacement de données basées sur des fichiers dans un magasin d'objets cloud (compartiment Amazon S3) afin qu'elles puissent être utilisées avec des services cloud. (Relatif: Stockage de blocs vs stockage d'objets vs stockage de fichiers : quelle est la différence ?) Prenez par exemple des charges de travail actives à hautes performances : montage vidéo, effets spéciaux, séquençage génomique : ces flux de travail nécessitent des services spécialisés pour être pleinement réalisés, tels que le transcodage ou le traitement multimédia, l'apprentissage automatique et l'analyse de données, qui sont tous disponibles en tant que Services AWS.

La technologie de stockage basée sur les fichiers de Qumulo a une fonctionnalité intégrée, appelée Décalage Qumulo, qui permet aux administrateurs de données de créer une relation entre un répertoire et un compartiment S3. Où et quand cela est nécessaire, les données peuvent être copiées du répertoire vers le compartiment S3.

Copier les relations entre les données dans les répertoires et les données dans les compartiments Amazon S3

Figure 1 : Copier les relations entre les répertoires et les compartiments Amazon S3

Comme on peut s'y attendre d'un moderne solution de stockage de données d'entreprise, Qumulo peut répliquer des données entre différents clusters - et Qumulo Shift rend cela possible. L'emplacement du cluster Qumulo n'est pas pertinent dans ce cas. Les clusters source et cible peuvent résider sur site, dans différentes zones de disponibilité (par exemple, une pour le cluster Qumulo et une autre que vous pourriez utiliser pour un grappe Qumulo de reprise après sinistre), différents clouds privés virtuels (VPC) et même différents clouds.

Qu'est-ce que Qumulo Shift pour Amazon S3 ?

Qumulo Shift pour Amazon S3 est un service cloud gratuit offert dans le cadre de Qumulo Cloud Q pour AWS et vous permet de copier des fichiers natifs d'un répertoire d'un cluster vers un dossier d'un compartiment Amazon S3 dans son format d'objet natif. Qumulo Shift permet aux entreprises axées sur les données de maîtriser les coûts pour une stratégie data performante, améliorant ainsi votre retour sur investissement.

Qumulo Shift fait partie intégrante de tout déploiement Qumulo et vous offre un pipeline de données transparent vers et depuis le stockage S3. En utilisant Qumulo Shift pour Amazon S3, les entreprises peuvent copier des objets de n'importe quel cluster Qumulo - qu'il soit sur site ou déjà exécuté dans un choix de clouds - vers le magasin d'objets cloud Simple Storage Service d'Amazon (Amazon S3).

Que vous créiez des données avec des applications basées sur des fichiers ou que vous ayez besoin d'un référentiel de sauvegarde/archivage ou d'un point de transfert pour l'une des centaines d'outils d'analyse de données et de transformation natifs du cloud proposés par AWS, Qumulo Shift vous permet de déplacer facilement des fichiers entre votre Stockage Qumulo et Amazon S3.

Copiez les fichiers natifs d'un répertoire d'un cluster vers un dossier d'un compartiment Amazon S3 dans son format d'objet natif

Cette fonction vous permet de mettre votre fichier natif les données de votre cluster Qumulo, qu'il soit sur site ou dans le cloud, dans un compartiment S3 dans son AWS S3 objet natif format. Et cela indigène partie est importante car cela signifie qu'aucun formatage propriétaire n'est appliqué, vous êtes donc libre de tirer parti et d'innover avec de puissants services AWS et des applications de marché par rapport à votre ensemble de données S3.

Comment fonctionne Qumulo Shift

La création d'une relation de réplication entre un cluster Qumulo sur site et un autre dans Amazon S3 est rendue possible avec Qumulo Shift. Pour le voir en action, regardez une courte démo vidéo au dessous de. Le chef de produit Qumulo, Scott Gentry, montre comment mettre les données créées dans un cluster de centre de données à la disposition des services AWS à l'aide du stockage S3.

Comment copier des objets entre des compartiments et des clusters S3 à l'aide de Qumulo Shift

La réplication Qumulo Shift vous permet de copier des objets d'un répertoire d'un cluster vers un dossier d'un compartiment Amazon S3 (magasin d'objets cloud). Lors de la création d'une relation de réplication entre un cluster et un bucket S3, Qumulo Core effectue les étapes suivantes.

  1. Qumulo vérifie que le répertoire source spécifié existe sur le système de fichiers et que le compartiment S3 existe, est accessible à l'aide des informations d'identification spécifiées et contient des objets téléchargeables.
  2. Une fois la relation créée avec succès, une tâche est lancée à l'aide de l'un des nœuds du cluster.
    Remarque : Lors de l'exécution de plusieurs opérations de décalage, plusieurs nœuds seront utilisés.
  3. Ce travail prend un instantané temporaire du répertoire source pour s'assurer que la copie est cohérente à un instant donné. Par exemple, nommé replication_to_bucket_my_bucket.
  4. Qumulo Shift then recursively traverses the directories and files in that snapshot, copying each file to a corresponding object in S3.
  5. File paths in the source directory are preserved in the keys of replicated objects. For example, the native file /my-dir/my-project/file.txt will be uploaded as the native object https://my-bucket.s3.us-west-2.amazonaws.com/my-folder/my-project/file.txt.

The data is not encoded or transformed in any way, but only data in a regular file's primary stream is replicated (alternate data streams and file system metadata such as ACLs are not included). Any hard links to a file within the replication source directory are also replicated to Amazon S3 as a full copy of the object, with identical contents and metadata—however; this copy is performed using a server-side S3 copy operation to avoid transferring the data across the internet.

When copying objects between S3 buckets and clusters, Qumulo Shift will check to see if a file was previously replicated to S3 using Shift. If the resulting object still exists in the target S3 bucket (and neither the file nor object have been modified since the last successful replication) its data will not be re-transferred to S3. Qumulo Shift will never delete files in the target folder on S3, even if they have been removed from the source directory since the last replication.

How to Copy Objects from a Cluster to an Amazon S3 Bucket

To copy objects from a directory in a cluster to a folder in an Amazon S3 bucket using the Qumulo Shift Web UI. 3.2.5 (and higher), follow these steps:

  1. Log in to Qumulo Core.
  2. Click Cluster > Copy to/from S3.
  3. On the Copy to/from S3 page, click Create Copy.
  4. On the Create Copy to/from S3 page, click Local ⇨ Remote and then enter the following:
    a. The Directory Path on your cluster (/ by default)
    b. The S3 Bucket Name
    c. The Folder in your S3 bucket
    d. The Region for your S3 bucket
    e. Your AWS Region (/ by default)
    f. Your AWS Access Key ID and Secret Access Key.
  5. (Optional) For additional configuration, click Advanced S3 Server Settings.
  6. Click Create Copy.
  7. In the Create Copy to S3? dialog box, review the Shift relationship and then click Yes, Create.

The copy job begins.

For more information about using Qumulo Shift to copy objects from a cluster to an Amazon S3 bucket, visit our Documentation Portal (docs.qumulo.com) for a step-by-step guide to troubleshooting copy job issues and other best practices.

How to Copy Objects from an S3 Bucket to a Cluster

A new feature of Qumulo Shift, called Qumulo Shift-From, was released with Qumulo Web UI 4.2.3. This feature allows data administrators to create relationships where the S3 bucket is the source and a Qumulo directory is the target, allowing users to shift data from S3 to Qumulo as well as from Qumulo to S3.

To copy objects from a folder in an Amazon S3 bucket to a directory in a Qumulo cluster, follow these steps.

  1. Log in to Qumulo Core.
  2. Click Cluster > Copy to/from S3.
  3. On the Copy to/from S3 page, click Create Copy.
  4. On the Create Copy to/from S3 page, click Local ⇦ Remote and then enter the following:
    a. The Directory Path on your cluster (/ by default)
    b. The S3 Bucket Name
    c. The Folder in your S3 bucket
    d. The Region for your S3 bucket
    e. Your AWS Region (/ by default)
    f. Your AWS Access Key ID and Secret Access Key.
  5. (Optional) For additional configuration, click Advanced S3 Server Settings.
  6. Click Create Copy.
  7. In the Create Copy from S3? dialog box, review the Shift relationship and then click Yes, Create.

The copy job begins and Qumulo Core estimates the work to be performed. When the estimation is complete, the Web UI displays a progress bar with a percentage for a relationship on the Replication Relationships page. The page also displays the estimated total work, the remaining bytes and files, and the estimated time to completion for a running copy job.

Note: For work estimates, Qumulo Shift from S3 jobs calculate the total number of files and bytes in a job's bucket prefix. This requires the job to use the ListObjectV2 S3 action once per 5,000 objects (or 200 times per 1 million objects).

For additional information about copying objects from an Amazon S3 bucket to a directory in a Qumulo cluster, visit the Qumulo Documentation Portal, which steps for troubleshooting copy job issues and other best practices.

Deployment Automation to Simplify Cloud Migration

Deploying infrastructure by using code has many advantages: You always have consistent and repeatable deployments. It’s much faster and you can identify drifts in the configuration. Also, it’s less error-prone and scales for large deployments.

How to Deploy a Qumulo Cluster in AWS

There are three options to deploy a Qumulo cluster in AWS in an automated way. These are:

  1. By using the AWS Quick Start for Qumulo Cloud Q. It is an automated reference deployment built by Amazon Web Services (AWS) and Qumulo. The underlying AWS CloudFormation Templates automate all required steps to build a Qumulo Cluster according to best practices so that you can build and start using your environment within minutes.
  2. The CloudFormation Template that is provided by each Cluster type in the AWS Marketplace.
  3. The AWS Terraform Templates provided by Qumulo on GitHub.
Why Deploy Clusters Using the AWS Quick Start for Qumulo Cloud Q

We recommend you deploy Qumulo clusters using the AWS Quick Start for Qumulo Cloud Q. This is primarily because the Quick Start is backed by a couple of AWS CloudFormation Templates, which simplify and speed up the deployment. Using Quick Start to deploy the full capabilities of Qumulo Cloud Q on AWS, the automated deployment process takes about 15 minutes.

However, you can also use the CloudFormation Templates provided in the AWS Marketplace; they deploy just the basic cluster and two Lambda functions. These serverless functions collect telemetry data from the cluster and send them to AWS CloudWatch; and, they monitor the health of all EBS volumes and replace them automatically in case of EBS volume failures.

Automated Deployment Options to Deploy Qumulo Clusters

The following table lists the different automated deployment options currently available to deploy Qumulo clusters.

Automated deployment options currently available to deploy Qumulo clusters

Table 1: Automated Deployment Options

Unique Features Come Standard with Qumulo's File Storage on AWS

Qumulo’s Hybrid Cloud File Storage on AWS simplifies migrations to the cloud where unstructured data is being stored in file systems, regardless whether data access is through SMB, NFS, FTP or HTTP. File locking and access control works across all protocols; thus, redundant data placement for each protocol can be avoided.

Qumulo’s cloud-native software, Qumulo Cloud Q for AWS, can deliver tends of GB/s on throughput with latencies between 0.5-5 ms. It allows easy data movement between the file system and Amazon S3 buckets. It integrates through deployment templates, and users can subscribe through the AWS marketplace.

As shown below, and described in part 1 of this series, a number of unique features that come standard with a Qumulo Cloud Q software subscription make it an attractive choice on AWS for a variety of high-performance use cases and workflows.

Scalable file counts and high performance file operations

We urge you to be curious with AWS and Qumulo file data services. You can find more information on Qumulo Care, here: Qumulo in AWS: Getting Started.

Another option is to use the Qumulo Studio Q Quick Start, which spins up a complete post-production environment in the cloud for remote video editing and it includes a Qumulo cluster and Adobe Creative Cloud for editing. Lastly, Qumulo can also be deployed as an AWS Nimble Studio option for the file system.

The Definitive Guide to Qumulo on AWS

The Definitive Guide to Qumulo on AWS

Qumulo simplifies migrations to the Cloud where unstructured data is being stored in file systems, making Cloud Q for AWS an attractive choice for many workflows.

Download Now

Share this post