Big Data is watching you !

  Vous l’avez sûrement vu de vous même dans les magazines, à la télé ou même entendu par vos amis, le terme “Big Data” est aujourd’hui plus que jamais à la mode. Mais que se cache t-il derrière ce concept un peu flou ? Une explication s’impose…

Les 3V (+2) : Volume, Vitesse, Variété (Véracité et Valeur)

  Tout d’abord, il faut savoir que nous produisons quotidiennement une quantité de données absolument démente. Ces données sont issues de sources multiples : capteurs utilisés pour recueillir des informations sur le climat, messages publiés sur les sites de réseaux sociaux, photos et vidéos numériques, enregistrements de transactions d’achats, signaux GPS de téléphones portables… Et toutes ces données constituent ce qui est aujourd’hui appelé “Big Data”. Une définition un peu plus précise et assez répandue est celle du cabinet d’études Gartner. Les analystes de ce cabinet ont en effet défini les Big Data comme la convergence entre 3 caractéristiques que sont le Volume, la Vitesse et la Variété. A cela, IBM ajoute une 4ème dimension, la Véracité, et nous ajouterons également la Valeur, même si cela parait évident il est toujours important de rappeler que ces données doivent apporter de la valeur ajoutée à ceux qui les exploitent.

  Bref, en clair, l’expression “Big Data” veut dire beaucoup et peu à la fois. Retenons simplement que ce concept considère la donnée, sous toutes ses formes, comme une matière première, un capital dont l’entreprise regorge mais qu’il faut savoir exploiter pour pouvoir la valoriser.

Volume

iceberg

  Pour prendre conscience de cette quantité folle, lisez bien ce qui suit : pendant l’année 2002, nous estimons avoir produit 23 Exaoctets de données (jetez un oeil au tableau d’équivalence pour vous rendre compte de ce que cela représente). Aujourd’hui, nous estimons produire ces mêmes 23 Exaoctets de données… chaque semaine ! D’autre part, des études, du cabinet Gartner notamment, ont également estimé que 90% des données actuelles ont été créées dans les deux dernières années et que le taux de croissance de celles-ci est d’environ 800% sur les 5 ans à venir. De quoi donner le vertige, non ?

Tableau des équivalences des unités de mesure de données

‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾

Nota : De nombreux logiciels parfois même certains systèmes d’exploitation utilisent toujours la notation antérieure à 1998 pour laquelle : 1 kilooctet = 1024 octets, 1 mégaoctet = 1024 kilooctets = 1 048 576 octets…

  • 1 Octet (8 Bits) ou 1 Byte (Byte étant le nom anglais)
    Un caractère
  • 1 Kilooctet = 1 000 Octets
    Une histoire (vraiment) très courte
  • 1 Megaoctet = 1 000 000 Octets
    La capacité approximative d’une disquette 3.5 pouces
    500 Megaoctets : La capacité d’un CD-ROM
  • 1 Gigaoctet = 1 000 000 000 Octets
    Un film en qualité TV
  • 1 Teraoctet = 1 000 000 000 000 Octets
    Toutes les fichiers radiographiques (rayons X) d’un hôpital moderne
  • 1 Petaoctet = 1 000 000 000 000 000 Octets
    13 ans de contenu TV en haute définition
  • 1 Exaoctet = 1 000 000 000 000 000 000 Octets
    5 Exaoctets : Tous les mots prononcés par des humains depuis le début du langage (format texte)
    23 Exaoctets : La quantité de données produite chaque semaine (approximativement)
  • 1 Zettaoctet = 1 000 000 000 000 000 000 000 Octets
    42 Zettaoctets : Tous les mots prononcés par des humains depuis le début du langage (format audio)

Existent ensuite le Yottaoctet, Xenottaoctet, Shilentnooctet, Domegemegrotteoctet… que nous ne détailleront pas mais qui représentent comme vous vous en doutez BEAUCOUP d’Octets!

_____________________________________________________________________________

  Parallèlement à ce phénomène, nous sommes de plus en plus à même de stocker ces données. Gordon Moore, un des trois fondateurs d’Intel, avait d’ailleurs réussi à dégager une tendance, appelée “Loi de Moore” (1975) , indiquant que le nombre de transistors sur une puce de circuit intégré doublait tous les deux ans environ. Ce nombre de transistors correspond à la densité des puces et est donc directement lié à leur puissance de calcul, leur capacité de stockage d’informations… La théorie de Moore s’est vérifiée pendant les 40 dernières années puisqu’on a enregistré un doublement des performances dans le domaine de la microélectronique tous les 18 mois, pour un coût constant. En bref, stocker et traiter de l’information coûte de moins en moins cher au fil des ans. Aujourd’hui cette loi tend cependant à se vérifier de moins en moins puisque l’activité des puces dégage énormément de chaleur, et que peu de moyens viables ont été trouvé pour les refroidir efficacement durant leurs calculs. Du coup, nous augmentons la surface des installations pour compenser ce problème.

  Comme nous en avons déjà parlé, la quantité de données que nous produisons chaque jour est extrêmement importante. Chaque jour, ce sont 12 Terabytes (ou Teraoctets, c’est pareil) qui sont produits rien que sur Twitter. Et cela n’est rien comparé aux installations scientifiques d’envergure. Pour exemple,  le radiotelescope “Square Kilometre Array” par exemple, produira 50 teraoctets de données analysées par jour, à un rythme de 7 000 teraoctets de données brutes par seconde !

front_ska

Le projet “Square Kilometre Array” en Australie

  Alors si nous n’avons pas entendu parler de Big Data avant ces dernières années, c’est simplement parce que la technologie qui était à notre disposition n’était pas encore suffisante pour traiter l’information que nous produisons, tout du moins pas assez puissante pour nous permettre de dégager des tendances et des facteurs de corrélation entre des domaines très différents par exemple. Attention toutefois puisque nous faisons ici référence à la démocratisation du phénomène alors que certains mastodontes de l’industrie sont déjà sur le secteur depuis plusieurs décennies (Google, IBM, SAP, Amazon, Microsoft…)

Variété

Variete

  Vous l’aurez plus ou moins compris, les données qui sont produites et stockées sont donc de tous types : texte, données de capteurs, son, vidéo, données sur le parcours, fichiers journaux, images, chiffres… Difficile donc de s’y retrouver dans tout ça, d’autant plus que la majorité de ces données arrivent non-structurées, c’est à dire brutes, à la différences des données structurées qui sont déjà bien ordonnées. Selon les estimations du cabinet Gartner, les données non-structurées représenteraient environ 80% des données totales disponibles, données qu’il faut donc traiter, trier et analyser si l’on veut leur donner du sens.

Vélocité

velocite

  A l’ère d’internet, nul besoin de vous apprendre que la vitesse de traitement de l’information est de plus en plus grande. En outre, il est nécessaire de prendre des décisions de plus en plus rapidement et donc d’analyser les données qui s’offrent à nous encore plus rapidement (pensez un peu aux images des salles de trading que vous avez pu voir dans les films à l’américaine !) En plus de la rapidité, une nouvelle forme de traitement des données intervient, qui consiste en l’anticipation du futur (certes cela existait déjà avant dans certains domaines mais on assiste aujourd’hui à une généralisation du phénomène).

Véracité

veracite

  La confiance en ces amas de données est également un facteur clé de succès pour l’avenir des Big Data. Néanmoins, de nombreux points ont été soulevés ces dernières années remettant en cause cette confiance. Dans son “Hype Cycle” d’Août 2014, Gartner montre notamment que le Big Data arrive dans une période de troubles appelée “Trough of Disillusionment” (ou “Creux de la Désillusion” en français). Cela arrive lorsqu’une technologie ne parvient pas à répondre aux attentes du public et finit par se démoder. En conséquence, la presse s’en désintéresse et abandonne le sujet, du moins temporairement.

  Parmi les critiques liées aux Big Data, nous avons notamment les problématiques de protection de la vie privée. Est-il normal que des entreprises puissent avoir accès à des données personnelles qui vous concernent telles que votre dernier achat en ligne, votre orientation sexuelle, le nombre d’enfants vivant sous votre toit et même, puissent faire du business en les échangeant avec d’autres entités ? Où se situe la limite entre ce que vous acceptez de divulguer et ce que vous transmettez malgré vous sur le Web ? La “Privacy” est un sujet très épineux en ce qui concerne les “Big Data” et qui reste pour autant encore très flou.

  D’autre part, la crise de confiance du Big Data est également liée à quelques échecs retentissants, notamment celui de Google Flu Trends qui a régulièrement surestimé la propagation des épidémies de grippe au cours des dernières années (voir encadré), notamment par sa non-utilisation des données issues du terrain, aussi appelées “Small Data”.

Google Flu Trends : De la nécessité des ‘Small Data’

‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾

  Google Flu Trends est un outil Google lancé en 2008 et qui s’appuie sur le modèle Google Trends, un analyseur des recherches de mot clés permettant de dégager des tendances. Sa spécificité est d’être théoriquement capable de prédire les épidémies de grippe. Or en Mars 2014, une étude issue du magazine Science (à lire en anglais ici) démontrait que Google Flu Trends (GFT) a, pendant les trois dernières années, toujours surestimé les chiffres de la maladie. Pour réaliser ses prévisions, Google Flu Trends se base sur les termes tapés par les internautes dans le moteur de recherche. Schématiquement, l’épidémie se développerait là où le mot fièvre, entre autres, est plus recherché qu’en temps normal. Sauf que les estimations de Google pour les Etats-Unis (en orange sur le graphique) dépassent de 50% celle du Centre américain de contrôle et de prévention des maladies (CDC) alors que ces dernières sont plus fiables car elles proviennent directement du terrain (en bleu clair sur le graphique). gftdata   En réalité, pour créer le Google Flu Trends, les développeurs ont comparé l’évolution du nombre de recherches de 50 millions de termes dans un territoire donné, avec la propagation connue de la grippe dans ce même territoire. Ils ont ensuite construit l’algorithme. Sauf que certains noms fréquemment recherchés en période d’épidémie n’ont aucun rapport avec la maladie. Un exemple ? Les mots liés au football américain, dont la saison se déroule principalement en hiver. Comme leur courbe de recherche augmente en même temps que celle de la maladie, ils étaient au départ intégrés dans les calculs. De nombreux cas de grippe prévus par Google Flu Trends n’ont donc en fait jamais existé. Ce vocabulaire a fini par être exclu du système par l’entreprise, mais d’autres liens fortuits peuvent venir perturber les résultats de la même manière. L’auteur principal de l’étude, David Lazer, professeur à la Northeastern University, explique que les correctifs à apporter à GFT seraient relativement simples : il faut simplement recalibrer régulièrement GFT à partir des données réelles sur le terrain. Autrement dit, GFT + CDC = données plus justes. La conclusion que tirent les chercheurs souligne que des statistiques prédictives extrapolées des “Big Data” peuvent être trompeuses si elles ne sont pas ajustées avec des “Small Data” réelles acquises sur le terrain. Les “Big Data” ne sont pas un substitut de la collecte et de l’analyse sur le terrain. Les deux sont complémentaires.

_____________________________________________________________________________

Value

valeur

  Alors certes, les “Big Data” sont capables de répondre à quasiment n’importe quelle question… Oui mais encore faut-il avoir une question ! L’idée ici est de dire que l’utilisation de telles ressources doit être en mesure de produire de la valeur que ce soit pour l’économie, la société, une entreprise, une personne ou autre. Il faut pouvoir être capable de tirer de réels enseignements de ces données et de dégager des modèles viables. Et c’est sûrement le challenge qui de tous, me parait le plus important puisqu’il est à l’essence même de cette nouvelle industrie. Les “Big Data” n’analysent pas des données, ils doivent être en mesure de répondre à des questions. Fin 2012, CLEAR MEASURES (ex-LÛCRUM) estimait que l’apport des Big Data serait particulièrement stratégique pour répondre aux problématiques du secteur du Retail (vente au détail) avec une augmentation de +49% de la productivité et de +9.6 milliards de dollars.

Quelques exemple d’utilisation des “Big Data”

  Après la théorie (un peu barbante, je vous l’accorde), passons à la partie “fun” avec quelques exemples d’utilisations du Big Data que vous connaissez peut-être sans le savoir…

Les Pop Tarts de Walmart

pop tarts

  Début Août 2004, l’ouragan Charley frappe la Floride de plein fouet. Le bilan sera de 34 morts en Jamaïque, à Cuba et aux Etats-Unis et les dégâts s’élèveront à 16 milliards de dollars. Quelques semaines plus tard, une tornade nommée Frances menace une nouvelle fois l’Etat. Linda M. Dillman, directrice de l’information chez Walmart (chaine de distribution majeure aux Etats-Unis), presse alors ses équipes : plus question d’attendre, il faut anticiper pour éviter les ruptures de stocks des biens de première nécessité. Ses équipes vont alors analyser les données récupérées juste avant le passage de Charley quelques semaines plus tôt et ils vont faire une découverte étonnante. Si, comme on peut s’en douter, les gens ont massivement acheté bouteilles d’eau, bougies et piles, ils se sont également aperçu que les ventes de Pop-Tarts avaient été multipliées par 7, juste avant l’arrivée de la tornade. Il n’aura pas fallu longtemps avant que des camions entiers arrivent dans les Walmart de la région, chargés du précieux sésame. Walmart a bien appris sa leçon puisqu’il est aujourd’hui connu dans le monde entier pour son utilisation (trop) massive des Big Data afin d’anticiper les besoins de ses clients.

La série House of Cards de Netflix

House_of_cards   A moins que vous ne soyez pas sorti de votre caverne depuis 6 mois, vous avez surement entendu parler de l’arrivée de Netflix en France. Netflix, fondé en 1997, est le service de vidéo à la demande venu tout droit des Etats-Unis. Autrefois cantonné à la diffusion de contenu existant, l’entreprise produit aujourd’hui ses propres séries. Sa particularité ? Analyser tout ce que vous regardez et en déduire des tendances pour ses prochaines productions. C’est comme ça que la série House of Cards est née : l’idée de base a été de créer un remake d’une mini-série politique (homonyme) diffusée sur la BBC en 1990. En analysant les goûts des abonnés ayant aimé cette première version, les équipes d’analystes de Netflix se sont aperçus que ceux-ci avaient également regardé énormément de films mettant en scène Kevin Spacey ou réalisés par David Fincher. C’est de là que s’est monté le projet de cette série plusieurs fois récompensée et très plébiscitée.

Les Oakland Athletics

athletics

  L’histoire de Billy Beane et de son équipe des Oakland Athletics a profondément marqué l’histoire du base-ball américain. En 1995, le propriétaire de la franchise des A’s décède et laisse sa place a Alderson, après avoir dépensé des montants faramineux pour payer ses joueurs. Les directives des nouveaux directeurs sont claires : il faut réduire la masse salariale a tout prix. Alderson va donc concentrer son attention sur les sabermetrics, une approche statistique du baseball, pour recruter des joueurs sous-évalués et donc peu coûteux pour le club. En 1998, Beane succède à Alderson et continue son travail en s’entourant d’un jeune économiste tout juste diplômé de Yale, Peter Brand. Ensemble, ils vont établir des modèles statistiques et permettront aux Oakland Athletics de devenir l’une des meilleurs équipes au ratio masse salariale/résultats. En 2006, l’équipe possède la 24e masse salariale des 30 équipes MLB mais termine la saison avec le 5e bilan victoires/défaites. Malgré un manque de résultats probants (une seule participation en séries éliminatoires en 2006), Beane a tout de même changé complètement la mentalité du milieu. En 2009, il sera d’ailleurs nommé par Sports Illustrated 10e dans le Top 10 des managers généraux de la décennie, tous sports confondus.

Conclusion

  Comme vous l’aurez compris, la gestion des données issues des Big Data devient un enjeu majeur permettant des applications économiques inédites : connaitre parfaitement le consommateur afin de décrypter son comportement de consommation. Le premier défi est alors d’améliorer les outils d’analyse pour pouvoir mieux interpréter ce flux toujours plus important de données. Des chiffres que l’on ne comprend pas ne servent pas à grand chose. Néanmoins, le problème central n’est pas celui de l’efficacité de traitement des données. En effet, l’autre défi que doivent surmonter les Big Data, et certainement le plus important, est celui du respect de la vie privée en délimitant de manière précise les données personnelles qui ne peuvent et ne doivent pas être exploitées par des tiers. Mais rassurez-vous, le tableau n’est pas si noir ! Les domaines lucratifs n’ont pas le monopole des Big Data comme nous le montre l’association humanitaire Mobilizing Health qui les utilise notamment pour apporter des soins en Inde.

Julie Crawzs

Oui, mesdames, messieurs, un geek peut aussi porter des talons et avoir l’air tout à fait normal in RL (Real-Life pour les non-initiés) ! www.julieszwarc.com

Submit a Comment

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *