Le big data et pourquoi pas vous…

Le big data et pourquoi pas vous…

On parle de Big Data, comme “le nouveau pétrole”, c’est bien… mais concrètement est-ce pour vous ? Et surtout pourquoi rester au bord de la route ?

Lors de discussions avec nos clients, je me rends compte qu’il y a plusieurs visions :

    • ceux qui sont sûrs d’avoir besoin d’une solution Big Data
    • et ceux pour qui le Big Data est une notion vague, ou qui se disent que ce n’est pas pour eux, mais uniquement les très grosses structures.

Pourquoi pas, mais reprenons les bases.

Une définition littérale,

Voire très basique, du Big Data est : traitement des gros volumes de données. À partir de là, on est en droit de se demander à partir de quand on a un gros volume de données.
Je vais prendre 2 graphiques, le premier étant l’évolution de la capacité de stockage d’un disque dur (pour l’anecdote, le Megabyte coutait 9200$ en 1961[1] et 0.032$ par gigabyte en 2015[2])

Course à la capacité sur les disques durs
Course à la capacité sur les disques durs
https://en.wikipedia.org/wiki/History_of_hard_disk_drives
Les données créées dans le monde
Les données créées dans le monde (en Zettabytes)
Source: IDC’s Data Age 2025 study (IDC White Paper © 2017 IDC)

 

Si je fais référence à ces deux graphiques, c’est uniquement pour illustrer que ce qui est considéré comme Big Data aujourd’hui sera une Small data demain. Si j’avais fait cet article il y a 10 ans, j’aurais parlé de Térabytes et cela aurait semblé hors d’atteinte pour beaucoup de monde, alors que maintenant, il y existe même des smartphones avec une capacité de 1To.
Donc pour moi, le volume n’est pas la vraie raison d’une approche Big Data.
Alors, c’est quoi ?

Quand on parle de Big Data, on a aussi une définition plus réfléchie, moins littérale

les fameux 3 V :

  • Volume,
  • Variété,
  • Vélocité.

Nous avons déjà évoqué la notion de volume et je vous ai dit que pour moi il n’était pas forcément un impératif, même si on ne va pas se le cacher, 200Mo de données sur une solution de Big Data n’est pas forcement justifiable.

Alors, parlons des 2 autres V :

La variété des données.

Aujourd’hui, nos clients souhaitent croiser de plus en plus de données. Avant c’était relativement simple : on avait affaire à des sources de type bases de données et fichiers plats de type CSV. Et donc pour consolider ce petit monde, on avait une approche qui était généralement basée sur le principe suivant :

une ingestion classique

Déjà avec données « simples » cela pouvait être laborieux, mais avec l’arrivée de données de type XML, JSON… ça ne s’arrange pas. Et c’est là que des nouveaux outils peuvent grandement vous simplifier la vie, un exemple avec le datalake.

une ingestion moderne

Les données peuvent être injectées de manière brute et être analysées comme en ensemble sans se soucier réellement du formatage. Ce qui permet de gagner du temps et surtout, de la richesse d’analyse.

En effet, sur un modèle classique, on aurait certainement limité les colonnes à ce qui est utilisé au moment de la création et donc on avait l’analyse limitée à ce périmètre. Si l’on voulait explorer plus de données, donc plus de colonnes, il aurait fallu redévelopper la transformation, puis vérifier la normalisation, etc.

Alors que sur le modèle « Big Data », on a la totalité des données.

  • Si une nouvelle analyse est demandée, il a l’intégralité des données,
  • Si l’analyse a besoin d’une valeur présente sur toutes les lignes, alors que certaines ont des colonnes vides à 90 %. Ces lignes auraient pu être supprimées et donc auraient été perdues dans un modèle classique.

Le dernier V : la vélocité.

Si une quantité de données non négligeable est à injecter, cela peut prendre du temps de transformation et de normalisation. Ça peut vous imposer la fréquence d’import et donc la fraicheur de vos données, et parfois rendre obsolètes les données avant même de les avoir enregistrées. Encore une fois, les mécanismes et outils disponibles dans le monde du « Big Data » peuvent vous soulager. Ici, on parlera, par exemple de Kafka (pas Franz [3], mais Apache[4]) ou d’autres…

Maintenant, vous allez peut-être me dire – et c’est très bien – que ça coûte cher. Et là, je vous réponds … Oui, si vous travaillez dans vos locaux/datacenters avec vos machines et dans ce cas, il faut un vrai bon ROI. Donc ce n’est pas forcément pour vous et on revient à la première idée reçue « c’est pour les grosses structures » avec beaucoup de moyens. Et je réponds NON, car il y a des solutions cloud qui vous permettent de valoriser et d’expérimenter vos données avec un coût maîtrisé et surtout évolutif à la hausse comme à la baisse.

Conclusion

Les excuses pour ne pas franchir le pas sont de plus en plus minces. Je pense qu’il est préférable de se poser la question de comment valoriser les données plutôt que de perdre du temps à se demander si le Big Data est fait pour vous. Commencez plutôt à parler de Smart Data (même si le concept est beaucoup plus large que ce qui a été évoqué ici), cela vous fera voir les choses d’un autre œil.

Partager cette publication