Pourquoi et comment Intel investit-il sur le Big Data ?

Parviz Peiravi Intel

Intel propose sa propre distribution Hadoop et investit toujours sur les infrastructures logicielles (SOA, parallélisation…). De passage à Paris, Parviz Peiravi, Architecte Cloud et Big Data chez Intel, partage sa vision de ce marché et de son avenir.

Que vient faire Intel dans le Big data ?

Intel étudie toutes les technologies émergentes comme le cloud computing, le Big Data, la virtualisation, etc. Outre la recherche et l’application à nos matériels, nous accompagnons également nos clients en développant des solutions logicielles autour de ces technologies.

Dans le cadre du Big Data, nous avons élaboré une plate-forme pour répondre aux demandes des entreprises. En fait, nous travaillons depuis 2004 sur ces technologies. Pour répondre aux besoins de très grands opérateurs en télécommunications comme China Mobile (200 millions de clients) ou encore China Unicom, nous avons fini par développer Intel distribution for Hadoop dès 2009.

Hadoop est l’exemple même de la solution open source Big Data qu’Intel considère comme un levier pour développer des technologies, afin de se positionner sur des marchés et mieux vendre ses solutions.

Intel Distribution for Hadoop intègre au mieux plusieurs composants open source qui font partie de ce projet Apache. En outre, nous avons créé les outils de gestion nécessaire pour en faciliter le déploiement, les mises à jour…

Quelle place Hadoop va-t-il se forger au sein des datawarehouses ?

Ces solutions Big Data représentent une grande innovation dans le domaine des datawarehouses. Mais plutôt que de les remplacer, elles se positionnent en complément, par leur capacité à intégrer aussi les données non structurées, et traiter très rapidement d’énormes volumes de données en mode batch.

Cependant, les architectures Intel sont peu utilisées dans les datawarehouses…

Les datawarehouses effectuent de très lourds traitements sur les données (ETL pour l’extraction, le traitement et le chargement des données) sur des infrastructures onéreuses de type RISC (comme les serveurs IBM Netezza ou Oracle). Et ces dernières prennent également en charge l’analyse de ces données.

Sur des infrastructures de type x86, beaucoup moins onéreuses, il est possible d’effectuer ces analyses de manière tout aussi performante (voire plus performante) grâce à des processus massivement parallèles en mode cluster.

L’automatisation de ce type de collaboration entre infrastructures, permet non seulement de pérenniser l’investissement existant, mais également de libérer une partie de la puissance de traitement des matériels plus onéreux en faveur d’autres tâches.

L’objectif ne consiste donc pas forcément à remplacer ces infrastructures avec Hadoop, mais bien à le positionner en complément, pour des traitements qui ne s’effectuent pas en temps réel, mais qui présentent des performances plus élevées sur des téraoctets de données, à un coût bien plus compétitif.

Quel autre challenge entre-t-il dans cette l’équation ?

La sécurité devient l’un des challenges les plus importants avec le Big Data, mais aussi avec le cloud computing, la mobilité, et toutes les nouvelles technologies qui nécessitent l’intervention sur plusieurs infrastructures, couverture le partage, etc.

Comment assurer alors une sécurité complète pour ces nouvelles technologies ces nouveaux usages ?

Renforçant encore notre savoir-faire sur la sécurité avec l’acquisition de McAfee [NDLR : en aout 2010], nous avons développé l’Intel Expressway Service Gateway (une passerelle très performante assumant la gestion des identités et des accès). Par ailleurs, nos puces Xeon intègrent le chiffrement triple AES pour le traitement et nous pouvons également chiffrer les communications ou le stockage. Tout cela reste possible entre plusieurs plates-formes ou environnements. Et, bien entendu, entre les divers modules Hadoop, par exemple.

Nous reversons d’ailleurs nombre de ces technologies de sécurité à la communauté Apache [NDLR : comme le chiffrement Intel AES-NI des puces Xeon, par exemple].

Intel propose-t-il en direct sa plate-forme Hadoop ?

Toutes ces solutions logicielles sont proposées par notre réseau de partenaires existant, mais également par de nouveaux spécialistes de notre écosystème.

Nous réalisons effectivement quelques ventes directes, mais de façon très limitée, auprès de clients souvent sélectionnés en amont de ces développements.

Quels secteurs vous semblent les plus prometteurs actuellement ?

Parmi les entreprises les plus ouvertement intéressées aux Big Data, on retrouve en première position des opérateurs de ces commutations. Ces innovations leur permettent une meilleure monnaie utilisation de leurs données : transactions, vente de contenus, SMS… Et ses modèles d’infrastructures logicielles répondent à leurs exigences d’évolutivité, en respectant la confidentialité et les obligations réglementaires.

Au second rang, les entreprises nécessitant le lancement de grandes campagnes marketing souhaitent désormais mieux cibler leur client et prospect en analysant leur historique, mais également leur comportement ou leur sentiment.

Enfin, Big Data répond un fort besoin pour la maintenance opérationnelle des infrastructures informatiques (matériels et logiciels) : bande passante, nombre d’utilisateurs, qualité de service, respect des engagements de service (SLA). Il devient alors possible de détecter des modèles (patterns) afin d’automatiser des actions, des alertes…

Comment voyez-vous le futur de ces technologies ?

À l’avenir, le marché va s’orienter vers une plus grande automatisation des technologies de type Hadoop. En parallèle, nous assisterons à une forte convergence des bases de données et du cloud computing via des évolutions de type HPC as a Service, Analytic as a Service, ou Data Processing as a Service (ETL).

Déjà, la quasi-totalité des nouvelles applications est imaginée ou conçue pour le cloud, avec un assemblage intelligent de différents services ou API (mash-up).

C’est pourquoi Intel a acquis la société Mashery et sa solution de gestion des API et services pour créer Intel Expressway API Manager. Logiquement, nous travaillons à une intégration de cette API et de Hadoop, en plus de l’intégration avec les fonctions sécurité d’ExpressWay.

Tous les acteurs informatiques doivent jouer un rôle de « service Broker » en proposant des API ouvertes, sécurisées et performantes.

Quel est le frein le plus perceptible à l’avènement de ces avancées ?

Un des freins majeurs risque d’être essentiellement humain, lié au manque de compétences croissant à travers le monde de Data Scientist (ou scientifique de la donnée).

Ces personnes, spécialisées à la fois en données, mathématiques et statistiques, traduisent une question posée par un spécialiste métier en algorithme. Et s’ils ne sont pas en charge de l’informatique ou du déploiement informatique (bien qu’ils fassent appel à des informaticiens), il leur faut posséder également une connaissance des métiers de l’entreprise et des processus fonctionnels.

C’est pourquoi je pense qu’il s’agira plutôt d’équipes fonctionnant efficacement que d’individus.


Voir aussi
Quiz Silicon.fr – Inside Intel !