Big DataRéseauxStockage

2012 sera l’année du Big Data… c’est IDC qui le dit !

5 0 2 commentaires

Pour faire face à l’augmentation exponentielle du volume des données, de l’ordre de 700% dans les 5 prochaines années, il est temps que les organisations passent au Big Data.

1,9 Zo (Zettaoctets) – soit 1.900.000.000.000.000.000.000 (1,9 x 10 puissance 21) octets, ou encore 1,9 milliard de Téraoctets (To), également exprimé en sextillion ou en trilliard d’octets – c’est le volume de données que nous auront créé ou dupliqué en 2011… Soit l’équivalent de l’ensemble de la capacité de stockage de l’information en 2007 ! Oubliés l’Exa ou le Tera, nous passons désormais au Zetta.

Il devient difficile d’imaginer ce que cela représente. Avant, des images comme une pile de papier qui relierait la Terre à la Lune parlaient à notre intellect. Aujourd’hui, nous pourrions évoquer la distance de la Terre à Mars ou de la Terre au Soleil, cela dépasse le cadre de notre vision, et donc ne signifierait plus grand chose. En revanche, au sein des organisations, cela se traduit très simplement : de plus en plus de données à stocker, où les mettre et à quel prix ?

Une problématique technologique

La problématique n’est pas seulement économique, mais également technologique : l’entreprise dispose-t-elle des moyens nécessaires pour s’équiper et pour administrer ses données aujourd’hui et demain, et surtout pour les analyser ? Pour Matt Oostveen, directeur de recherche chez IDC Australie, la réponse est dans le Big Data.

Le volume des données, en particulier non structurées, qui s’accumulent ne permet plus de les traiter avec des outils classiques, comme les bases de données. C’est là qu’intervient le Big Data, une approche différente du traitement, de l’analyse et de l’extraction de la donnée qui passe par la refonte de l’architecture de stockage et de réseau du système d’information. La recherche porte sur le traitement en temps réel du flux des données, la consolidation de l’information provenant de multiples origines et sous de multiples formats, la logique des bases de données, le marquage (tag), etc.

De nombreux acteurs se positionnent aujourd’hui sur ce marché en devenir. Nous pouvons même considérer que les premières technologies sont suffisamment mures pour généraliser le Big Data. L’une des clés de son adoption est dans le serveur. La performance des processeurs et la quantité de mémoire qu’ils embarquent aujourd’hui dans le silicium et sur la RAM (la mémoire « vive ») permettent désormais d’exécuter des bases de données avec de très grands volumes directement en mode « in memory ». La performance des technologies d’aujourd’hui se met au service de la donnée.

L’automatisation en réponse à la hausse des données

Demeure cependant un constat qui pourrait se révéler à terme dramatique : face à l’augmentation exponentielle du volume des données stockées, le nombre des administrateurs du stockage n’augmente pas ! Cette problématique est d’autant plus sérieuse que dans les organisations, un nombre conséquent de processus liés à la gestion du stockage sont encore manuels. Là encore, pour Matt Oostveen, la réponse est dans le Big Data, ou tout du moins dans un volet de ces technologies : l’automatisation. Celle-ci passe bien évidemment par la virtualisation, qui dans beaucoup d’entreprises affiche également un déficit d’automatisation. De nombres réponses sont encore à construire, probablement dans le nuage…

Au fait, préparons nous au futur : la prochaine unité de mesure du volume des données numériques sera le YottaOctets (YottaBytes), soit 10 puissance 24 octets.

crédit photo © pro motion pic – Fotolia.com

  1. Bonjour,

    les enjeux sont posés et je partage ma réflexion.

    Les données sont-elles hors de contrôle ? Nous assistons à un véritable déluge des données et les chiffres parlent d’eux même. 9, 57 Zettaoctects d’informations ont été consommées sur le web en 2008 soit bout à bout la distance de la Terre à Neptune, 4 milliards de km !!

    Dans ce contexte, 3 tendances. D’une part, les entreprises vont devoir transformer leur infrastructure informatique pour manager ces données. D’autre part, ces entreprises seront tributaires des avancées technologiques futures de capacité et de puissance. Enfin, elles feront face à un probable burn-out car l’exploitation de données requiert une énergie de plus en plus grande.

    Le coût du stockage est moins élevé mais la volumétrie de données explose. Le prix du Giga-octet ne cesse de baisser depuis quelques années. Un serveur NAS de 1 péta-octet coûte 300 000 euros soit moins de 30 centimes le giga ! http://www.silicon.fr/un-serveur-nas-de-1-petaoctet-a-moins-de-30-centimes-le-giga-52904.html . Toutefois, le budget alloué lui ne baisse pas en raison de la non maîtrise des données non structurées. Par ailleurs, la consommation d’énergie sera un enjeu dans le futur et le stockage massif de données entraînera une consommation croissante d’énergie au sein des infrastructures informatiques.

    Beaucoup veulent exploiter de grands volumes de données, il faudra alors qu’ils envisagent une gestion plus intelligente de la donnée. C’est une démarche qui requiert une vision sur le long terme.

    Le vertige des chiffres

    9,57 Zettaoctects (10 puissance 21 d’octets) d’informations ont été consommées sur le web en 2008 alors que le nombre d’abonnés Internet en 2010 dans le monde a été multiplié par 7 depuis 2000. Il est aujourd’hui à 2 milliards d’abonnés qui au demeurant s’équipent de téléphone mobile connectés à Internet. Cela donne une belle courbe de croissance à l’internet mobile, sachant que selon Ericsson, en 2015, 80% des connexions se feront via le mobile !

    L’on attend pas moins de 3 ,4 milliards d’abonnés 3G en 2015 alors qu’ils ne sont encore que 500 millions en 2010. La consommation de données devrait donc très fortement augmenté avec la 3ème génération de normes de téléphonie mobile. Surf sur Internet, envoi de fichiers multimédias… toutes ces pratiques seront sanctionnées par une explosion des données sur les réseaux. Que penser du LTE (Long Term Evolution) ou futur 4G qui devrait être disponible en France à partir de 2012.

    C’est bien beau d’utiliser le mobile mais savons nous que 200 000 SMS sont envoyés chaque seconde dans le monde et que 6 trillions (10 puissance18) de SMS sont envoyés par an. On pourrait facilement faire une moyenne du nombre d’octets envoyé chaque année par SMS… On reste perplexe d’autant plus face à l’explosion du mobile Internet dans les prochaines années…Ces chiffres impressionnent mais davantage quand ils sont rapprochés du terrain. On remarque alors que quelque chose ne va pas. En 2007, 49,6% des abonnés mobiles européens qui ont reçu un SMS publicitaire (source m :metrics, 2007) sont seulement 2 à 5% à y avoir répondu.

    Globalement, la capacité totale d’archivage dans le monde va continuer à croître comme c’est le cas depuis quelques années. En 2010, on a estimé cette capacité à 25 127 peta-octet de fichiers, 4 085 péta-octet de Base de données, 4025 péta-octet d’email. (International Communication Union) On pourra multiplier par 10 cette capacité de stockage en 2015 avec plus de 226 160 peta-octet de fichiers, 32 188 peta-octet de base de données, 44 091 peta-octet d’email.

    L’évolution des capacités de stockage et de consommation d’énergie.

    Depuis la révolution industrielle, nous connaissons une impressionnante augmentation des consommations d’énergie et l’on ne s’imagine pas assez que cela ne durera pas indéfiniment. A titre d’exemple, les Etats-Unis produisaient 10puissance8 watts en 1650 et ils en produiront 10puissance13 avant 2050. Pour comparaison, le soleil en produit 10puissance 26 et la galaxie 10puissance 38. (Galactic-scale Energy). http://physics.ucsd.edu/do-the-math/2011/07/galactic-scale-energy/ Bien entendu, cette production d’énergie n’est pas liée qu’aux données, elle sert à bien d’autres choses : produire, transformer, nous chauffer…. On peut toutefois en rapporter une partie sur la consommation des données.

    Par exemple, les serveurs Internet consomment autant d’énergie que la Suède. http://www.e-dilik.fr/hi-tech/entrons-dans-lere-du-petaoctet/ . Ce n’est pas si rassurant à l’ère du péta-octet.
    Une recherche effectuée sur Google équivaut à l’énergie consommée pendant une heure par une ampoule à économie d’énergie. Donc le tout connecté se paiera vraiment très cher dans un 1er temps sur la nature, puis sur l’augmentation croissante du coût de toutes les énergies.

    En 2007, il y avait 480 millions de serveurs en fonctionnement dans le monde (Internet Software Consortium, juillet 2007). En 2010, il y a 232 millions de serveurs web dans le monde qui pour héberger des sites, partager du contenu, ou mailler les réseaux. Un rapport de septembre 2008 réalisé par l’agence d’évaluation environnementale « BIO Intelligence » précise que le web devrait contribuer à hauteur de 4% des émissions de gaz à effet de serre en Europe en 2020. Ainsi, rien que pour l’envoi d’Email, une entreprise de 100 personnes produit annuellement 13,6 tonnes équivalent CO2 soit 136kg équivalent CO2 par salarié, soit 13 allers-retours Paris- New York !

    Selon une étude Médiamétrie, un internaute français effectue environ 950 recherches sur Internet par an ce qui évidemment impacte le fonctionnement des serveurs qui consomment de l’énergie et dégagent de la chaleur. Les capacités de stockage augmentent et que les coûts baissent d’année en année, mais l’on occulte souvent le coût propre à la consommation de ces données stockées qui lui augmente inévitablement.

    En 2010, Facebook utilisait 40 000 serveurs pour assurer l’utilisation du réseau social à 350 millions d’utiilisateurs. Aujourd’hui, il y aurait plus de 700 millions de membres actifs dont les activités seraient gérées par 60 000 serveurs.

    Une étude Analytics Press montre l’évolution des besoins de stockage de Google entre 2000 et 2010. Le schéma ci-dessous estime le nombre de serveurs utilisés par Google et sa part dans le volume global de serveurs dans le monde. En 2011, Google possède environ 1 millions de serveurs soit environ 3% du parc mondial de serveurs.

    La consommation d’énergie a été multipliée par 22 entre 2000 et 2010 pour passer de 0,1 gigawatts à 0,22 gigawatts soit selon un autre rapport de 2011 équivalent à 220 mégawatts. Ce qui à notre niveau correspond environ à la puissance de l’usine marémotrice de la Rance ou du Barrage de Bort Les Orgues.

    Rapporter au niveau de l’entreprise, les chiffres sont évidemment différents mais croissant tout de même. Déjà en 2007, une étude IBM précisait que le coût énergétique du parc informatique inquiétait les PME. Selon plusieurs études, la consommation annuelle d’un PC et des équipements informatiques liés (imprimante, etc.) représente en moyenne de 361 kWh à 878 kWh par personne et par an. Un serveur à deux processeurs en 2010 à quinze fois la puissance d’un serveur de gamme équivalente sorti en 2005, à prix égal, avec une consommation énergétique inférieure de 8% mais 80% des parcs de serveurs d’entreprise n’ont pas évolué. (Informatique, n° 2035, 14 avril 2010). Il faudra bien faire des arbitrages dans les futurs investissements !

    Aussi, certains proposent aujourd’hui des solutions « alternatives » afin de réduire la facture énergétique. Microsoft invite donc à remplacer les chaudières par….des serveurs. http://www.bulletins-electroniques.com/actualites/67805.htm

    Il semble donc que la profusion croissante des données sera difficile à contenir dans les parcs de serveurs existants. A défaut, de tout refondre, l’entreprise augmentera encore son parc informatique avec des serveurs plus performants, ou elle virtualisera davantage l’ensemble de ces traitements au sein de data-centers. Un peu délicat dès lors que les données manipulées peuvent présenter un caractère confidentiel.

    Cette course au stockage implique aussi l’utilisation de technologies de plus en plus puissante qui permettent de traiter les informations et d’exécuter les instructions. C’est la tâche des processeurs informatiques. Gordon E. Moore découvrit en 1965 une loi selon laquelle la complexité des circuits intégrés, le nombre de transistors et la puissance des processeurs doublaient tous les 18 mois à 2 ans. Depuis les années 1960, nous assistons à une progression technologique exponentielle

    Tendances et folie des grandeurs

    Pour certains, la loi de Moore est une conséquence de l’évolution économique c’est pour cette raison que tous les 3 ans, l’on achète un ordinateur au même prix que l’ancien et 2 fois plus puissants. Selon eux, le problème viendrait du fait que les constructeurs doivent toujours améliorer leur technologie pour élaborer des appareils plus puissants, plus compacts, à prix constants. http://astrosurf.com/luxorion/seti-loi-moore.htm. Ainsi, c’est pour satisfaire les besoins du marché que les technologies seraient de plus en plus puissantes. Enfin, c’est l’une des façons dont la loi de Moore sert à l’interprétation.

    Toutefois, l’on constate que cette loi contient des variantes très bien soulevés dans un article de Wikipédia. http://fr.wikipedia.org/wiki/Loi_de_Moore Son auteur ne parle pas de loi de Moore mais de conjectures de Moore pour une meilleure interprétation de l’évolution des ordinateurs et de la complexité de l’informatique. Tout d’abord, ces conjectures sont liées à plusieurs variables : la puissance, la capacité, la vitesse mais très rarement à la densité des transistors sur une puce. Selon, l’auteur, la loi de Moore devrait se vérifier jusque 2015 avant que l’on assiste un réel ralentissement de l’évolution des micro-processeurs. En effet, on constate une stabilisation de la puissance des micro-presseurs due aux limites physiques des micro-processeurs. Ainsi et pour beaucoup, l’innovation radicale sera attendue des processeurs quantiques tirant parti de la physique quantique dans leurs principes même de fonctionnement.

    L’utilisation de processeurs quantiques « exploserait » la puissance de calcul. Ceux-ci employés en priorité dans les domaines scientifiques et militaires, pourraient bien s’adapter aux matériels informatiques existants à commencer par les ordinateurs qui selon le schéma suivant, se déploieraient dans les 20 prochaines années.

    On y constate aussi que l’ensemble des technologies se sont engagées dans une véritable course à la performance dans un monde ou l’on recherche systématiquement l’interconnexion et la convergence. Cette performance est pour beaucoup jugeaient possible dans le cadre d’une performance accrue qui passe aujourd’hui par le tout numérique. On précisera alors l’importance du transport des données dès lors qu’un processeur quantique pourra effectuer des calculs de plus en plus complexes sur les données.

    Le transport des données (à travers notamment le déploiement de la fibre optique) est alors aussi important que la miniaturisation des composants informatiques. Le transport de grands volumes de données se faisant dès lors de plus en plus rapidement avec des technologies de traitement aux capacités de calcul de plus en plus gigantesques. Bien sur, cela n’est pas pour tout de suite mais il y a bien une réalité dans ces évolutions. Celle-ci se joue déjà au niveau des infrastructures de transport et de transfert des données.

    Autoroutes de l’information et Burn-out.

    L’on remarque alors qu’il y a un enjeu sur la consommation d’énergie déployée par ces différentes technologies. Face à des ressources énergétiques limitées, la consommation des données sera soumise à de nouvelles pressions économiques et politiques. Il y a d’autres enjeux dont nous devons aussi tenir compte aujourd’hui. Les données à gérer seront de plus en plus nombreuses et face à l’exigence de leur transport, de leur traitement, le coût de la donnée devrait augmenter. Dans ce cas, seules les personnes qui pourront payer accéderont aux meilleurs services. On en parle déjà pour l’allocation de la bande passante et la mise en place de tarifs différenciés pour les utilisateurs et les entreprises. Cela devrait probablement s’accentuer dans les prochaines années.

    Comme le note Christian Fauré, nous aurions tort de penser que le numérique est l’équivalent du virtuel, qui le placerait comme un lieu en dehors des questions d’économies et de politiques industrielles. http://owni.fr/2011/10/27/psychanalyse-du-web/

    Selon moi, la réalité actuelle qui s’impose aux individus et aux entreprises est exprimée dans le concept des autoroutes de l’information. Dès 1995, Joel de Rosnay distingué une voie Bottom up (ascendante) de type Internet et une voie top down (descendante), généralement privilégiée par les ingénieurs de télécommunication. http://www.cite-sciences.fr/derosnay/articles/auto.htm

    Or, aujourd’hui, la voie top down domine dans un schéma bottom up à savoir que l’Internet s’est largement développé sauf que son accès est organisé par les acteurs des télécommunications et des fournisseurs d’accès et de contenus. Il est très naïf de penser que les futures autoroutes de l’information offriront à tous les citoyens du monde un accès illimité à des contenus illimités, sous tous les formats techniquement possibles et cela gratuitement. Les obstacles ne seront pas supprimés mais se multiplieront dans les prochaines années une fois que l’on aura atteint une phase critique.

    Il y aura un burn-out. L’omniprésence informationnelle aura des conséquences sur la vie des individus. On parlera de surcharge cognitive croissante et de leur incapacité à s’adapter tout simplement. Idem dans les entreprises lorsqu’elles gonfleront leurs silos de données sans avoir clairement posée la problématique de leurs traitements. D’ailleurs, pour les uns et les autres, les données ne manqueront pas !! Des données comportementales issues d’interactions multiples sur les supports mobiles, interactifs et les objets interconnectés. Des données non structurées qui représenteront jusqu’à 95% des données collectées sur les individus.

    On parlera nécessairement d’adaptation à la progression fulgurante des technologiques dès lors que la physique quantique ouvre des perspectives jamais atteintes. Or, méfiance, car aurons nous clairement les capacités de nous adapter à cette nouvelle donne technologique. Si l’humain c’est adapté, c’est moins par ses gènes que son cerveau. Ceux-ci ont évolué moins vite que la structure de ses neurones. L’humain s’est adapté à son environnement changeant tout simplement parce qu’il a développé une faculté à communiquer. Pour cela, l’humain a du produire de l’information à savoir qu’il a du diffuser ses idées, transmettre des gestes, de la parole, des écrits pour propager ses idées. Le langage, la culture ont servis de médiation entre les hommes. Quel constat aujourd’hui ?

    Face à la profusion d’information et ce que l’on nomme déjà infobésité, l’humain est face à un réel enjeu qui au niveau actuel légitime l’utilisation de technologies qui vont situer les informations dans leur contexte, l’aider à naviguer dans de grands volumes de données, faire ce tri et ce classement dans les données qu’il n’est plus capable de faire lui-même. Au mieux, l’utilisation de l’informatique doit permettre l’automatisation de certaines tâches. On parlera aussi de médiation numérique.

    Mais dans le contexte déraisonné que nous connaissons actuellement et les surenchères sur les technologies, nous devrons faire des choix. Sinon, c’est le désir que nous avions d’ouvrir l’information et la connaissance au plus grand nombre qui pourrait bien causer notre propre perte.