Par David Bailey

Nous allons parler aujourd'hui du multiplicateur de données de machine, ou du troisième âge des données. Mais d'abord, une leçon d'histoire sur l'explosion des données d'entreprise au cours des dernières décennies.

Les débuts: 1990 de mi-fin
Lorsque vous réfléchissez aux systèmes de stockage et à leur utilisation dans le milieu à la fin de la période 1990, ils étaient vraiment faits pour traiter les données d’entreprise. Les systèmes étaient principalement destinés à servir de bases de données ou à gérer le traitement des transactions en ligne. À l’époque, rappelez-vous que les systèmes de stockage étaient de très gros monstres de la taille d’un réfrigérateur et prenaient en charge un ou deux petits systèmes mainframe (et parfois aussi de très grands systèmes mainframe). Mais c’était aussi le temps où, si une base de données était 200 GB ou même un TB, elle était considérée comme un très grand base de données et une très grande quantité de stockage à gérer.

De plus, ces premiers systèmes n’avaient peut-être que plus de contrôleurs 12 auxquels ils pouvaient connecter des systèmes. Ainsi, les administrateurs ne géraient pas une tonne de serveurs générant les données, car vous n'aviez pas beaucoup de connexions à gérer sur les serveurs.

Ainsi, à la fin des 1990, vous commencez à voir l’invention des réseaux de stockage (SAN), ou réseaux de stockage, dans lesquels vous avez de plus en plus de systèmes que vous souhaitez connecter au même système de stockage, qu’il s’agisse de serveurs de messagerie ou autres. L'avènement des réseaux de stockage a réellement amélioré le nombre total de connexions que vous pouviez établir avec ces systèmes de stockage, que ce soit du point de vue du débit, ou simplement à cause du volume considérable de serveurs qui sortaient.

L'émergence du «contenu humain d'entreprise» - courriels, feuilles de calcul et photos numériques
Cela a conduit à la génération suivante de la vague de données. Nous classons cela comme un «contenu d'entreprise humaine» provenant de nombreuses sources externes. Il s'agit de données de fichiers non structurées générées par des utilisateurs individuels - à partir de sources telles que des courriers électroniques, des documents Word, des feuilles de calcul Excel, etc. Certains des réseaux sociaux les plus récents ont commencé à se lancer - les MySpaces du monde et d’autres. Des entreprises comme NetApp et Isilon ont commencé à prendre pied sur le marché.

L’autre source de données majeure en ce moment (création de la croissance de 10x!) Provient de l’essor de la photographie numérique. Les appareils photo numériques ont commencé à faire leur apparition en production de masse à la fin des 1990 et au début des 2000, et les consommateurs se sont rendus compte qu'ils avaient besoin d'un endroit pour stocker leurs photos, car les premiers appareils photo numériques ne disposaient pas de beaucoup d'espace de stockage. Les utilisateurs souhaitaient également pouvoir imprimer ces photos. Cela a conduit à la montée en puissance de sociétés telles que Ofoto et Shutterfly afin que les consommateurs puissent télécharger leurs photos numériques dans leurs systèmes.

Enfin, au début des 2000, il existait des sociétés comme RealNetworks, qui diffusaient à l’époque des jeux de baseball et de NFL, ainsi que d’autres types de contenu vidéo. Bien sûr, c’était un petit contenu vidéo de la taille d’un timbre-poste à l’époque, mais ce n’était que le début de ce que vous voyez maintenant en termes de contenu vidéo en ligne, alors que de plus en plus de sociétés ont commencé à mettre des données en temps réel sur les réseaux vue.

Saisie de l'âge des données générées par machine
Et cela nous amène à aujourd'hui. Nous constatons toujours la montée en puissance des données de fichier non structurées, mais une grande partie d'entre elles est maintenant générée par une machine. Les images satellite, ou les données provenant de capteurs qui collectent des informations sur les voitures empruntant des ponts et des routes à péage, en sont des exemples. Il existe également une grande quantité de données générées en ce qui concerne les journaux Web - les journaux provenant des serveurs de fichiers, des journaux provenant des commutateurs pour voir qui utilise ces ressources du point de vue de l'audit.

Une autre source de données générées par machine - dans certains cas, des pétaoctets de données - provient de la bioinformatique, où des analyseurs génétiques effectuent des analyses pour les études sur le cancer, etc. Ces volumes de données augmentent 100x!

Et c’est là que Qumulo s’est parfaitement positionné pour gérer ces volumes énormes, afin que nos clients puissent voir la croissance de leurs données, comprendre comment elles sont utilisées, tout en facilitant la gestion de ces données.

L'un des problèmes que nous voyons avec les données générées par machine et la gestion de ces énormes quantités d'informations, qu'il s'agisse de 100 de téraoctets ou de pétaoctets, est la cécité des données. Cela est dû au fait que de très grandes quantités de données sont générées à partir de nombreuses sources de données machine. Pouvoir comprendre comment ces données grandissent et ce qu'elles contiennent est primordial pour la gestion de ces données. Pour de nombreuses entreprises, il n’est pas rare de voir la quantité de données de 5-10 augmenter chaque jour dans ces systèmes de stockage. Il est très important de comprendre cette échelle et de gérer la croissance de ces données.

L'autre chose que nous devons examiner avec les données générées par machine est la méthodologie de déploiement ou les composants d'afflux. Avec les données stockées sur site, dans le cloud ou dans une combinaison des deux? Devez-vous gérer les données sur différentes plates-formes ou machines de fournisseurs?

Libérez la puissance de vos données basées sur des fichiers avec Qumulo
La mission de Qumulo est d'aider les entreprises à libérer le pouvoir de leurs données basées sur des fichiers. Nous croyons que ces données sont le moteur de l'innovation d'aujourd'hui. Partout dans le monde, les entreprises ont du mal à gérer l’immense quantité de données qu’elles créent, conservent, analysent ou tout simplement. De téraoctets à pétaoctets, ce défi ne fait qu'augmenter, et le fardeau de ne pas être en mesure de tirer des renseignements de ces données aggrave encore le problème.

Il est essentiel que les utilisateurs puissent efficacement stocker, gérer et comprendre leurs données afin de prendre des décisions stratégiques et exploitables.

Souhaitez-vous en savoir plus sur le troisième âge des données et savoir si votre infrastructure de stockage actuelle peut faire face au déluge croissant de données? Contactez-nous pour plus d'informations ici .

Partager avec votre réseau