Big Data. La révolution des données

Big Data. La révolution des données

Volume infini, temps réel et formats déstructurés caractérisent les données du Big Data. De leur capacité à gérer et analyser ces données dépend la compétitivité des entreprises, des organisations et des territoires.

Big Data ?

4 axes technologiques majeurs sont au coeur de la transformation numérique:

  1. Mobile et Web². La fusion des mondes réel et virtuel.
  2. Cloud computing. Le Web comme plateforme ubiquitaire de services.
  3. Big Data. La révolution des données.
  4. Empowerment social. La redistribution des rôles.

Interconnectés et s’alimentant l’un l’autre, ces 4 axes sont les fondations et les catalyseurs de la transformation numérique. L’information, globale ou hyperlocale, permet d’élaborer des produits et des services innovants, notamment au travers d’expériences sociales et mobiles hautement personnalisées. A ce titre, les data sont le carburant de la transformation numérique. Les terminaux mobiles intelligents et la connectivité permanente forment une plateforme pour les échanges sociaux et permettent l’émergence de nouvelles méthodes de travail et d’organisation. Les technologies sociales relient les gens entre eux, à leurs entreprises et avec le monde, sur base de modèles relationnels inédits où les rapports de force sont profondément modifiés. Enfin, le Cloud computing permet de développer et fournir, de manière transparente, l’information et les services nécessaires aux utilisateurs et aux entreprises.

« Nous créons actuellement en deux jours autant d’information que nous en avions créée depuis la naissance de la civilisation jusqu’en 2003 », rappelait récemment Eric Schmidt, Chairman de Google. Pour les entreprises, le défi consiste à traiter et activer les données disponibles afin d’améliorer leur compétitivité. Outre les données « classiques » déjà manipulées par les entreprises et exploitées par les techniques de Business Intelligence, s’ajoutent désormais les données informelles, essentiellement issues du « crowdsourcing », via les médias sociaux, les terminaux mobiles, et, de plus en plus via les senseurs intégrés dans les objets.

Avant de définir le Big Data, il est essentiel de dire ce qu’il n’est pas. « Big Data is NOT a bigger data warehouse » (Paul Doscher, LucidWorks). Autrement dit, le Big Data, ce n’est pas des data centers toujours plus gros pour stocker toujours plus de données.

Si l’on se réfère à Wikipédia, le Big Data désigne des ensembles de données tellement volumineux qu’il devient difficile, voire impossible, de les manipuler avec des outils classiques de gestion de base de données ou de gestion de l’information. Le Big Data oblige les entreprises à redéfinir les technologies de capture, stockage, recherche, partage, analyse et visualisation des données. Les perspectives et opportunités liées au traitement des big data, c’est-à-dire aux « analytics », semblent sans limite et concernent des domaines aussi variés que les tendances industrielles, l’épidémiologie, le marketing ou la sécurité. Le phénomène du Big Data est dès lors considéré comme l’un des grands défis informatiques de la prochaine décennie.

Pourquoi Big et pourquoi maintenant ?

3 facteurs expliquent le développement du Big Data:

  1. Le coût du stockage. Celui-ci ne cesse de diminuer et constitue de moins en moins un critère pertinent pour les entreprises. Les solutions de Cloud Computing permettent en outre une gestion des données élastique et en fonction des besoins réels des entreprises.
  2. Les plateformes de stockage distribuées et les réseaux à très haut débit (THD). Avec le développement du THD et l’avènement du Cloud Computing, le lieu de stockage des données n’a plus vraiment d’importance. Elles sont désormais stockées à des endroits physiques distincts, et parfois non identifiés. Ainsi, quel utilisateur sait où se trouvent réellement ses photos postées sur Facebook ou ses messages sur Google Mail?
  3. Les nouvelles technologies de gestion et d’analyse de données. Parmi ces solutions technologiques liées au Big Data, l’une des références est la plateforme Hadoop (Apache Foundation) permettant le développement et à la gestion d’applications distribuées adressant des quantités de données énormes et évolutives.

Ces 3 facteurs combinés tendent à transformer la gestion et du stockage des données un « simple » service.

Sources et types de données

Pour comprendre le phénomène du Big Data, il est intéressant d’identifier les sources de production des données.

  • Les applications et services professionnels. Il s’agit des logiciels de gestion tels que les ERP, CRM, SCM, les outils de production de contenu et de bureautique ou les intranets, etc. Même si ces outils sont connus et largement maîtrisés par les entreprises, Microsoft a reconnu en son temps que la moitié des contenus produits via la suite Office échappent à tout contrôle et ne sont donc pas valorisés. Ce phénomène a connu un nouveau rebond avec l’irruption du courrier électronique. 200 millions d’e-mails sont ainsi envoyés chaque minute.
  • Le Web. Sites d’actualité, d’e-commerce, gouvernementaux ou issus du monde associatif, en investissant le Web, les entreprises et organisations y ont créé un volume considérable d’informations et suscité des interactions toujours plus nombreuses, rendant nécessaires le développement des annuaires et moteurs de recherche, ces derniers créant eux mêmes d’innombrables données issues des requêtes des internautes.
  • Les médias sociaux. En fournissant à la foule des outils d’expression (crowdsourcing), le Web 2.0 est à la base de la croissance phénoménale du volume de données produites ces dix dernières années: Facebook, YouTube et Twitter bien-sûr, mais aussi les blogs, les plateformes de partage comme Slideshare, Flickr, Pinterest ou Instagram, les flux RSS, les réseaux sociaux d’entreprises comme Yammer ou BlueKiwi, etc. Chaque minute, plus de 30 heures de vidéo sont uploadées sur YouTube, 2 millions de posts sont publiés sur Facebook et 100.000 tweets diffusés sur Twitter.
  • Le mobile. Comme le précise IBM, le mobile n’est pas un terminal. Le mobile, c’est les données. Il y a aujourd’hui 4 fois plus de téléphones mobiles en usage que de PC et tablettes. Un utilisateur mobile « standard » a 150 interactions quotidiennes avec son smartphone, notamment pour les messages et les interactions sociales. Combiné aux médias sociaux et aux services de Cloud Computing, le mobile s’est imposé comme le premier média personnel de masse. A la fin 2013, l’App Store de Apple et Google Play auront dépassé les 50 milliards d’applications téléchargées.
  • Les objets. Le mobile a ouvert la voie à l’Internet des Objets (IOT). Chaque objet du quotidien, équipé de capteurs, dans nos maisons ou dans l’industrie, est désormais un terminal digital potentiel, capturant et émettant des données en permanence. Le géant industriel General Electric met en place des capteurs intelligents sur la plupart de ses produits, des équipements électriques de base aux turbines en passant par des scanners médicaux. Les données opérationnelles recueillies sont analysées pour permettre d’améliorer les services, d’en développer de nouveaux ou de minimiser les temps d’arrêts. Grâce aux analytics, le fonctionnement des machines fait désormais l’objet d’adaptations en temps réel. Le Big Data ouvre ainsi les portes de l’Internet de l’industrie.

On peut d’autre part envisager deux grandes catégories de données:

  • les données structurées. Ce sont les données que l’on peut facilement organiser par rangées et colonnes, et qui sont traditionnellement gérées dans des bases de données. Il s’agit notamment des données liées au fonctionnement habituel des entreprises et organisations (stocks, comptabilité, finances, ressources humaines, statistiques, études scientifiques, …)
  • les données non structurées. Déjà présentes sous la forme de la production bureautique non organisée, ces données se multiplient de manière exponentielle et incontrôlable avec les plateformes de crowdsourcing, le mobile et l’Internet des objets. Par leur volume, leur vitesse d’acquisition et la variété de leurs formats, elles nécessitent de nouveaux outils pour leur stockage, leur traitement et leur analyse. C’est à leur développement que correspond la naissance du Big Data.

Les 3, 4, 5, … 6 V du Big Data

Pour les analystes du Gartner, le concept de Big Data recouvre 3 dimensions: volume, vélocité et variété. IBM, qui a fait du Big Data une priorité majeure, a ajouté un 4ème « V »: la véracité. Avec la visibilité et la valeur, un 5ème et un 6ème « V » sont de plus en plus pris en compte pour expliquer le Big Data.

Volume

Le volume est évidemment la première caractéristique qui vient à l’esprit quand on parle de Big Data. Suivant une courbe exponentielle, ce volume concerne non seulement les données produites chaque jour, mais aussi celui des capacités de stockage des supports informatiques. Il tend aujourd’hui vers l’infini et nécessite des unités de mesure vertigineuses comme le yottabyte qui équivaut à 1.000.000.000.000.000.000.000.000 de bytes, soit un trillion de terabytes. Il est évident que les bases des données et outils de gestion traditionnels ne sont pas capables de gérer de telles quantités de données.

Vitesse (Velocity)

La vitesse du Big Data représente le temps nécessaire pour que les données soient collectées, traitées et activées par l’entreprise. Le monde digital est désormais « plus rapide que le temps réel » et les données n’échappent à cette tendance. Elles sont produites, capturées, traitées, et partagées à une vitesse inédite. Comme l’a justement remarqué Rupert Murdoch : « The world is changing very fast. Big will not beat small anymore. It will be the fast beating the slow ».

Une entreprise de services financiers doit ainsi traiter et analyser plusieurs millions de messages par seconde pour activer ou non des ordres sur les marchés. Le temps réel est donc la nouvelle unité de temps pour les entreprises et les systèmes classiques de traitement des informations (gestion, personnalisation, marketing, …) se révèlent là encore peu adaptés.

Variété

La montée en puissance des données non structurées va de pair avec un diversification des formats et des types de données. L’entreprise doit donner du sens aux avis et propositions émis sur Facebook, aux images, aux sons, aux vidéos, mais aussi aux informations émises par les terminaux mobiles ou issues des interactions M2M (Machine To Machine). Dans le domaine du commerce, des solutions Big Data permettront de relier les données non structurées émises par un client (comportement, intonations de la voix, …) aux données classiques enregistrées à son sujet (historique des achats, service après-vente, …) pour développer en temps réel une offre adaptée à ses besoins.

TerraEchos a ainsi développé un système très sophistiqué pour classer les sons. Celui-ci permet un contrôle intelligent et en direct pour un périmètre donné, équipé de milliers de capteurs. Ceux-ci recueillent les sons détectés qui sont organisés et analysés pour déclencher des actions appropriées (envoi d’un garde, activation d’une caméra, …) sur base de modèles à la fois prédéfinis et évolutifs.

Véracité

La qualité et la fiabilité des données est clairement un paramètre essentiel. C’est d’autant plus vrai que les sources de données sont désormais majoritairement hors du périmètre de contrôle des organisations. Le concept de véracité traduit donc le besoin stratégique de disposer de données de qualité.

En principe, une plateforme Big Data permet à une entreprise d’analyser les données relatives à son environnement de manière quasi exhaustive et donc d’améliorer sa compréhension de l’ensemble des composants de son environnement (clients, partenaires, produits, concurrents, …). Mais paradoxalement, l’entreprise est confrontée au risque de se noyer dans cet océan de données et de n’être pas capable de faire le tri entre les informations pertinentes et le « bruit ».

Une bonne illustration de ce problème est survenue lors de l’élection présidentielle de 2012 au Mexique, des tweets issus de robots spammeurs et des faux comptes « orientés » ont largement pollué débat politique et son analyse sur Twitter.

Visibilité

Les données ne servent à rien si elles ne sont pas visibles et accessibles pour ceux qui en ont besoin. Ce besoin de visibilité est souvent évoqué par les marketers qui souhaitent disposer de tableaux (dashboards) et visualisations intelligents, accessibles à la volée et facilement interprétables.

C’est l’objectif de la solution proposée par CaptainDash qui permet de monitorer, comprendre et optimiser les processus sur base de données factuelles et visuelles. Toutes les informations nécessaires sont accessibles via une interface mobile et véritablement intuitive.

Valeur

En bout de course, la valeur du Big Data pour une entreprise se mesurera à l’avantage compétitif qu’elle en aura dégagé. Cela dépend notamment de la qualité des analytics et de la compétence des « data scientists » chargés de leur donner du sens. Créer des données pour le plaisir de la performance technique n’est pas viable sur le long terme. Cela implique donc également des outils de mesure du ROI.

Data visualisation

Une image (datavisualisation) vaut mieux qu’un long (big) discours (data) … Une visualisation intelligente et utilisable des analytics sont un facteur clé dans le déploiement du Big Data dans les entreprises. Le développement des infographies va d’ailleurs de pair avec le développement des techniques d’exploitation des données.

Les datavisualisations permettent de:

  • montrer « vraiment » les données. Là où les tableaux de données sont rapidement ingérables, les diagrammes, graphiques ou cartes permettent une compréhension rapide et aisée des données;
  • révéler les détails. La visualisation des données exploite la capacité de la vue humaine à envisager une image dans son ensemble, tout en captant différents détails qui seraient passés inaperçus dans un format textuel ou dans une feuille de calcul;
  • fournir des réponses rapides. En éliminant le processus de requête, la visualisation de données réduit le temps nécessaire pour dégager des informations pertinentes pour les entreprises, par exemple au sujet de la fréquentation d’un site Web;
  • prendre de meilleures décisions. En permettant de visualiser les modèles, les tendances et les relations issues de l’analyse des données, l’entreprise peut améliorer la qualité de ses décisions;
  • simplifier les analyses. Les datavisualisations doivent être interactives. Les outils Webmasters de Google en sont l’illustration. En offrant des fonctionnalités simples et instinctives pour modifier les jeux de données et les critères d’analyse, ces outils libèrent la créativité des utilisateurs.

Des entreprises comme Tableau Software ou Synthesio, dans le domaine du social monitoring, illustrent la puissance des datavisualisations.

Usages du Big Data

Les usages du Big Data sont infinis, mais quelques domaines majeurs émergent.

Comprendre le client et personnaliser les services

C’est l’une des applications évidentes du Big Data. En captant et analysant un maximum de flux de données sur ses clients, l’entreprise peut non seulement dégager des profils génériques et concevoir des services spécifiques, mais aussi personnaliser ces services et les actions marketing qui y seront associées. Ces flux intègrent les données « classiques » déjà organisées via des systèmes de CRM, mais également les données non structurées issues des médias sociaux ou de capteurs intelligents capables d’analyser le comportement des clients sur le lieu d’achat.

L’objectif est de dégager des modèles susceptibles de prévoir les besoins des clients afin de leur fournir des services personnalisés en temps réel. On parle dès lors de segmentation attitudinale. Avec la quantité infinie de données qu’il collecte à notre sujet, Google est évidemment un acteur incontournable en la matière.

Ces modèles seront utilisés dans tous les secteurs d’activités, depuis les grandes enseignes commerciales pour améliorer et personnaliser les offres, notamment dans l’e-commerce, en passant par les assurances qui seront adaptées à chaque cas particulier ou encore au monde politique pour lequel la capacité à « interpréter » les souhaits des électeurs est depuis toujours un

Optimiser les processus business

Le Big Data va également impacter fortement les processus business. Des processus complexes tels que la Supply Chain Management (SCM) seront optimisés en temps réel en fonction de prévisions issues de l’analyse des données des médias sociaux, des tendances d’achats, de la circulation routière ou des stations météorologiques.

Un autre exemple concerne la gestion des ressources humaines, depuis le recrutement jusqu’à l’évaluation de la culture d’entreprise ou la mesure de l’engagement et des besoins du personnel.

Améliorer la santé et optimiser les performances

Le Big Data va considérablement affecter les individus. Cela passe tout d’abord par le phénomène du « Quantified Self », c’est-à-dire la capture et l’analyse des données relatives à notre corps, notre santé ou nos activités, via le mobile, les « wearables » (montres, bracelet, vêtements, lunettes, …) et plus généralement l’Internet des Objets. L’évolution des sites de rencontre passera également par l’utilisation d’algorithmes sophistiqués basés sur l’analyse de profils sociaux beaucoup plus riches et complexes.

Le Big Data va permettre des avancées considérables dans des domaines tels que le décodage de l’ADN ou la prédiction des épidémies ou la lutte contre des maladies encore incurables comme le Sida. Avec les modélisations basées sur des quantités de données infinies, les essais cliniques ne seront plus limités par la taille des échantillons. Dans le domaine du sport, on peut citer l’exemple d’IBM a qui a développé SlamTracker pour le tennis. Grâce aux captures vidéo et à l’analyse des données liées, il est possible d’améliorer la préparation d’un match en analysant le jeu d’un adversaire sur base de paramètres inédits. Autre exemple remarquable, la victoire de l’Oracle Team USA lors de la fameuse compétition de l’America’s Cup, ou comment 300 senseurs et 3000 variables ont permis un incroyable retournement de situation.

Rendre les machines intelligentes

Le Big Data va rendre les machines et terminaux les plus divers plus intelligents et plus autonomes. Elles sont indispensables au développement de l’industrie 4.0. Avec la multiplication à l’infini des capteurs sur les équipements domestiques, professionnels et industriels, le Big Data appliqué au M2M (MachineTo Machine) va offrir de multiples opportunités pour les entreprises qui investiront ce marché. Les voitures intelligentes illustrent ce phénomène. Elles génèrent déjà d’énormes quantités de données qui peuvent être exploitées pour optimiser l’expérience de conduite ou les modèles de taxation. Les voitures intelligentes seront en mesure d’échanger entre elles des informations en temps réel et d’optimiser leur utilisation en fonction d’algorithmes spécifiques. Grâce aux capteurs équipant son matériel agricole, John Deere permet aux entreprises agricoles d’améliorer la gestion de leur flotte, de réduire les temps d’arrêt et d’économiser le carburant. Le système est basé sur le croisement des données en temps réel et historiques relatives à la météo, les conditions du sol, les caractéristiques des cultures, etc.

De même, les maisons intelligentes seront des contributeurs majeurs pour la croissance des données M2M. Les compteurs intelligents surveilleront les consommations énergétiques, mais seront surtout capables de proposer des comportements optimisés sur bases de modèles issus des analytics.

Le Big Data est également indispensable au développement de la robotique. Les robots vont générer et utiliser des volumes considérables de données pour comprendre leur environnement et s’y insérer de manière intelligente. En utilisant des algorithmes d’auto-apprentissage basés sur l’analyse de ces données, les robots pourront améliorer leur comportement et effectuer des tâches toujours plus complexes, comme le pilotage d’un avion par exemple. Aux USA, des robots sont maintenant capables de percevoir les similarités ethniques grâce aux données issues du crowdsourcing.

Développer les smartcities

Le Big (Open) Data est indissociable du développement des villes et territoires intelligents. Un exemple classique concerne l’optimisation des flux de trafic sur base d’informations « crowdsourcées » en temps réels à partir des GPS, des capteurs, des mobiles ou des stations météorologiques.

Le Big Data va permettre aux villes, et singulièrement les mégalopoles de relier et faire interagir des secteurs fonctionnant jusque là en silos: bâtiments privés et professionnels, infrastrutures et systèmes de transport, production d’énergie et consommation des ressources, etc. Seules les modélisations issues du Big Data permettent d’intégrer et d’analyser les paramètres innombrables issus de ces différents secteurs d’activité. C’est également l’objectif de l’initiative Smarter Cities d’IBM.

Dans le domaine de la sécurité, les autorités pourront utiliser la puissance des Big Data pour améliorer la surveillance et la gestion des événements mettant en péril notre sécurité ou pour prédire d’éventuelles activités criminelles, dans le monde physique (vols, accidents de la route, gestion des catastrophes, …) ou virtuel (transactions financières frauduleuses, espionnage électronique, …).

Les métiers du Big Data

Nouvelle discipline au croisement des mathématiques, des statistiques, de l’ICT, voire de la sociologie, le Big Data nécessite des compétences pointues et très convoitées.

Chief Data Officer, Data Scientist, Data Miner, … les compétences nécessaires pour stocker, analyser et exploiter les données du Big Data constituent un challenge à la fois pour l’organisation des entreprises, mais aussi pour l’offre de formation. Les écoles sont une fois de plus confrontées au défi de proposer des formations pour des métiers dont l’émergence et l’évolution ne correspondent plus au rythme des cursus traditionnels. Comme l’explique Pierre Cannet (Blue Search Conseil): « Il y a forcément pénurie de profils quand il y a rupture technologique ».

Data As a Service

Le Big Data est indissociable des modèles « As a Service » liés au Cloud Computing. La combinaison de solutions Infrastructure as a Service (IaaS) et Software as a Service (SaaS) offrent d’ores et déjà des solutions pointues de gestion de données. L’évolution logique est évidemment d’envisager un modèle (Big) Data as a Service ((B)DaaS).

Dans le prolongement du phénomène majeur de consumérisation de l’IT, le (B)DaaS devrait révolutionner l’industrie du Big Data en rendant ses services:

  • plus accessibles. Déployer une plateforme Big Data est un processus complexe. En mode Cloud, une entreprise pourra choisir son fournisseur et, en quelques minutes, accéder à son infrastructure et déployer les applications dont elle a besoin.
  • plus abordables. Pourquoi payer pour des services, des volumes et des durées si les besoins de l’entreprise sont limités ou ponctuels? C’est une question particulièrement pertinente dans le cas des PME. En appliquant aux données un modèle de tarification flexible, les bénéfices du Big Data deviennent accessibles à toutes les entreprises.
  • plus simples. On l’a vu les expertises liées au Big Data sont pointues et actuellement peu disponibles. Avec une offre « as a Service », la complexité est reportée du côté du fournisseur, l’entreprise pouvant se concentrer exclusivement sur l’exploitation des services Big data pour son métier spécifique.

Ainsi, si la disponibilité de fournisseurs de données à valeur ajoutée est une réalité fort ancienne, l’application des modèles SOA (Service-oriented architecture) permet d’envisager le déploiement à grande échelle de nouveaux services Big Data en ligne, accessibles au plus grand nombre, et proposant, à la demande, l’agrégation de données brutes, quantitatives ou personnelles, afin de faciliter la compréhension de certains phénomènes et d’anticiper ainsi de nouvelles tendances de marché.

C’est ce type de modèle que proposent des startups comme qunb ou qubole.