e Big Data n’est pas forcément si volumineux. Ce terme peut aussi
bien désigner la complexité de traitement des informations que le volume
ou le type des données.
Selon Mike Gualtieri, analyste principal
chez Forrester, les services de profilage génétique personnel, à
l'instar de 23andMe, qui facturent 99 dollars pour séquencer le génome
d'un individu, illustrent précisément ce point.
Qu’est-ce que le Big Data ?
«
Les données générées lors du séquençage d'ADN d'un individu ne
dépassent pas les 800 Mo », a-t-il déclaré au public lors du Sommet
Hadoop à Amsterdam » en avril dernier.
« Ce n'est pas beaucoup.
Appelleriez-vous cela du Big Data ? Si je dis que 800 Mo correspondent à
du Big Data, je serai la risée de toute la salle », explique Mike
Gualtieri.
«
Cependant, ces données incluent quatre milliards d'informations et
beaucoup de schémas. C'est donc un énorme défi en termes de traitement,
un défi informatique considérable. Vous n'avez pas besoin de pétaoctets
de données pour rencontrer une opportunité comme avoir un problème de
Big Data. »
En fait, le Big Data est un concept qui se définit par
lui-même, décrit par Mike Gualtieri comme la frontière de la capacité
d'une entreprise individuelle à stocker, traiter et accéder aux données
afin d’atteindre ses objectifs. Or, ces résultats concernent surtout la
compréhension des clients et le service aux clients.
« Le terme
[Big Data] désigne de plus en plus l'ensemble de vos données. Toutes vos
données. Ce n'est pas un certain type de données : ce sont toutes les
données que vous possédez », explique M. Gualtieri.
« Ainsi, lorsqu'on parle de Big Data, on parle juste de données. Vous voulez qu'on discute du Big Data ? Parlons des données. »
Les limites du Big Data
Pour
le moment, les entreprises sont très loin d'atteindre leurs limites en
termes de données individuelles. C'est ce que révèle une enquête
Forrester au cours de laquelle il a été demandé aux entreprises quelle
quantité de leurs données actuelles elles utilisaient pour leurs
analyses.
« Elles n'en utilisent que 12 %. Donc, si vous faites le
calcul, quelle est votre limite en partant des seules données dont vous
disposez ? Elle est de 88 %. Cela représente déjà une grande frontière,
sans la croissance des données ni toutes les sources externes que vous
possédez peut-être » poursuit M. Gualtieri.
« Par conséquent,
n'allez pas vous précipiter pour essayer de récupérer toutes ces
nouvelles données. Analysez celles que vous possédez déjà. Et pourquoi
vous ne pouvez pas le faire ? La raison en est simple : vous disposez
d'un portefeuille de plusieurs centaines d'applications. »
Un
représentant d'une grande entreprise, que Mike Gualtieri a rencontré
récemment, comptait huit systèmes rien que pour la gestion de la
relation client.
« Cela arrive souvent. Si vous allez dans une
banque, il y a un portefeuille de 400 à 500 applications. Toutes
contiennent des données ; il est donc vraiment difficile de juste
rassembler ces données pour les analyser et, en plus, tout est cloisonné
» explique-t-il.
« Maintenant, quel est le problème des données
cloisonnées ? Elles donnent une vision incorrecte sur ce qu'il se passe
dans votre entreprise ; elles vous donnent une vision inexacte sur ce
qu'il se passe avec vos clients. »
M. Gualtieri a comparé cette
situation de données cloisonnées à la blague de l’homme ivre qui laisse
tomber ses clés dans la rue en rentrant chez lui. Il est surpris en
train de les chercher sous un lampadaire. Lorsqu'on lui demande pourquoi
il se contente de les chercher à cet endroit, il répond : « C'est là
qu'il y a de la lumière ».
Selon M. Gualtieri, c'est exactement le
problème des informations cloisonnées : « On ne peut pas voir à
l'extérieur. Ces silos sont l'obscurité même. »
La solution Hadoop
Hadoop peut aider à éclairer les données de l'entreprise en les gérant sur l'ensemble des clusters du matériel standard.
«
Ce système peut apporter la lumière dans toute cette obscurité, en
permettant de regrouper toutes les données, de les rendre visibles afin
de pouvoir les analyser » conclut M. Gualtieri.
« Hadoop, ce
n’est pas le Big Data en lui-même. C'est une technologie du Big Data.
Vous pouvez avec éliminer les silos, mais Hadoop est également un
framework pour le traitement des données. »
« Hadoop est le
premier système d'exploitation des données. C'est ce qui le rend si
puissant et c'est pourquoi il intéresse 81 % des grandes entreprises.
Cela dit, elles ne sont peut-être pas encore toutes convaincues. »
Les
recherches montrent que 45 % des grandes entreprises sont en train de
tester la validité de Hadoop, 16 % l'utilisant en production.
« Il
n'y a donc pas encore un grand nombre d'entreprises en production, mais
la dynamique est lancée et une énorme vague de production s'annonce
pour Hadoop », avance Mike Gualtieri.
« Lorsque nous observons
cette tendance du Big Data, Hadoop est parfaitement positionné pour
devenir une plate-forme de gestion majeure et centrale. »
Ce qui
suscite principalement l'intérêt pour le Big Data, c'est avant tout le
souhait de pouvoir traiter les clients comme des individus. Hadoop peut
offrir en partie la solution technologique, mais l'équation comporte un
troisième élément.
L’approche humaine du Big Data
«
Nous cherchons comment traiter les clients comme des individus ; nous
avons toutes les données, nous avons cet excellent système
d'exploitation des données et cela nous amène à la prochaine tendance, à
savoir la science des données », poursuit M. Gualtieri.
La
science des données revêt de nombreuses formes différentes (exploration
des données, analyses prédictives, apprentissage automatique, etc.),
mais son but est d'identifier, dans les données et les modèles
prédictifs, de nouvelles informations qui révèlent des probabilités.
«
Un scientifique des données utilise essentiellement une combinaison
d'algorithmes statistiques et d'apprentissage automatique pour réaliser
ces analyses. La science des données est très différente des analyses
traditionnelles ; c'est ce que la plupart des gens ne comprennent pas »,
précise M. Gualtieri.
Traditionnellement, les analyses se sont
basées sur les théories des dirigeants concernant, par exemple, le
désabonnement des clients.
« Il s'agit d'une approche humaine des
analyses traditionnelles. Dans le cadre de la science des données,
l'approche est très différente. Nous n'avons pas besoin d'organiser une
grande réunion. Nous n'avons pas besoin de vos hypothèses. Nous n'avons
pas besoin de vos idées. Ce dont nous avons besoin, c'est de toutes les
données dont vous disposez », s'amuse-t-il.
« On pourrait comparer
cela à un analyste en veille économique typique, qui collecte les
données qui ont été semées : un statisticien qui taille et découpe. Un
scientifique des données exécute une armée d'algorithmes sur les données
pour en extraire la signification. »