HP Discover 2011: Vertica, Autonomy, ou l’intelligence des data structurées ou non…

Lors de l’évènement HP Discover, les enjeux sur les big data, structurées ou non, se confirment. Nouvelles fonctionnalités sur les offres d’origine Vertica et Autonomy

Vienne.– Ouverte ce 29 novembre,  la grand’ messe HP Discover revendique plus de 6.000 inscrits contre 4 à 5.000 prévus. Il est vrai que la capitale de l’Autriche accueille pour 3 jours un méga-évènement HP, sans précédent puisqu’il réunit, pour la première fois, ‘HP Tech@works’ et ‘HP Software Universe’.
Yves de Talhouët, ex-pdg de HP France, promu l’été dernier VP EMEA (Europe, Proche-Orient, Afrique), n’a pas abordé la question de « l’unicité » de la compagnie (le projet de séparation de la division PSG est définitivement enterré). De même, c’est à peine si la thèmatique du ‘cloud computing’ a été abordée… comme si, entrée dans les moeurs, elle était déjà passée de mode!

Yves de Talhouet, HP EMEA, Discover 2011, Vienne
Yves de Talhouet, HP EMEA, Discover 2011, Vienne

Le thème phare concernait l' »optimisation de l’information ‘ou le méga-traitement des données -les ‘big data‘, mais pas seulement. Le nouveau graal,  c’est: comment tirer du sens, de l’intelligence en décryptant les masses de données, notamment celles non structurées, circulant dans et hors de l’entreprise. Elles représenteraient 85% des données disponibles et leur croissance annuelle serait de +62%. Selon HP, l’inflation des données est bien là: 97.000 ‘tweets’ seraient envoyés chaque seconde dans le monde, et 294 milliards d’emails par jour.
Une excellente occasion de mettre en avant l’évolution de l’offre de deux « pépites » récemment acquises par HP: Vertica et Autonomy.

Information Management, la division montante…
Yves de Talhouët est d’abord revenu sur un leitmotiv cher à HP : l’entreprise ‘Intant on‘. « L’IT rend les entreprises et les administrations instantanément « on ». Et tout le monde en tire une gratification et des résultats immédiats. (…) L’entreprise et son IT ne font qu’un« .

Cinq jalons auront été posés cette année par HP :  le ‘delivery’ hybride du ‘cloud’, la transformation des applications, l’infrastructure convergée, la sécurité d’entreprise et, ce mois de novembre, l’optimisation de l’information – avec l’absorption de l’éditeur britannique Autonomy, qui vient opportunément enrichir le portefeuille de ce qui constitue désormais, au sein de HP Software, une entité à part entière  ‘Information Management‘ -regroupant Vertica, HP Information Management Services et Autonomy (tout récemment acquise et qui conserve son statut de société, donc filiale).

HP Discover Vienne 2011Mike Lynch, Autonomy
HP Discover Vienne 2011Mike Lynch, Autonomy

A sa tête, on retrouve tout simplement le britannique Mike Lynch, fondateur et CEO d’Autonomy -dont l’acquisition a coûté la bagatelle de 10,7 milliards de dollars – un prix colossal du fait de la surenchère d’offres concurrentes- cela pour une société de logiciels qui compte moins de 500 personnes! (‘Information Management’ compte environ 4.500 personnes).

Pour les experts de HP, après l’ère des bases de données relationnelles, puis celle des bases orientées ‘objets’, l’apogée du traitement  ‘in-memory et de Hadoop apporte des réponses mais ne résout pas le problème fondamental de cet afflux des données non structurées.  La question est d’autant plus complexe que la signification, ou  le sens, que l’on peut donner à ces données est « dynamique« : il change selon le contexte, selon les cultures, selon les milieux sociaux et leurs codes…

Le challenge, c’est « comprendre toutes espèces d’informations » – et cela risque de nous occuper pour les 5 ans à venir.  D’où l’intérêt des techniques de décryptage automatique de ces données. Ce serait bien là, selon HP, la pépite fournie par Autonomy: son offre, vendue en OEM, se retrouve d’ailleurs chez maints éditeurs…
Il s’agit de « capturer, intégrer et extraire de la valeur hors des data véhiculées par les ‘médias sociaux’. Les avantages seraient multiples:
-améliorer la compréhension des comportements des clients ou consommateurs;
-protéger la réputation des marques;
-seconder les personnels qui sont en contact direct avec les clients ou  consommateurs;
-inspirer le développement des nouveaux produits…

Comparaisons avec GreenPlum, Watson, Netezza…
L’analyse des méta-données et des mots-clés n’est pas la panacée. Selon son fondateur, le moteur d’Autonomy a la capacité de travailler à la fois sur la sémantique et la linguistique -ou « information humaine« . Il est efficace sur le semi-structuré, textes, audio, vidéo…,  alors que les produits considérés comme proches ou similaires -tels GreenPlum (acquis par EMC) travaillent certes sur des data non structurées mais sur des listes de mots. Jeopardy (sur Watson d’IBM) travaille sur des données dites « canoniques » (‘canonical‘), donc selon une approche exclusivement « linguistique », alors qu’IDOL d’Autonomy s’appuie à la fois sur des listes « linguistiques » et sur les usages des médias sociaux, susceptibles de changements constants.  Quant à Netezza (acquis) par IBM, il traite uniquement des données structurées, tout comme Vertica.

_____________________
IDOL 10  d’Autonomy ou l’analyse contextuelle des données non structurées

Autonomy, société du groupe HP, annonce la version 10 de son offre IDOL qui s’inscrit précisément dans cette logique du traitement en temps réel des données structurées ou non structurées, grâce à des ‘appliances’ très performantes – reposant désormais sur des plates-formes HP.
IDOL 10 (Intelligent data operating layer) apporte une couche de traitement unique permettant d’extraire du sens de toutes formes d’informations, y compris audio, vidéo, médias sociaux, emails ou contenu de sites web, aussi bien que des données structurées comme les logs de clients ou des données provenant de capteurs divers.
La nouvelle plateforme combine le logiciel d’infrastructure d’Autonomy -qui permet de traiter et comprendre automatiquement le sens de données non structurées- avec le puissant moteur d’analyse en temps réel de Vertica travaillant sur des données structurées.

IDOL compterait 500 fonctions liées à la détection automatique des langues, le faculté de résumer, la catégorisation, le lancement d’alertes, la signature acoustique, l’identification et la classification de mélodies, le regroupement de nouvelles à la Une, l’analyse d’images, la reconnaissance d’images, la génération d’hyperliens, l’agrégation d’infos en temps réel, la réconciliation de ‘tags’, etc.
IDOL travaille avec 400 connecteurs vers HTTP, FTP, DMS, Exchange, File System, Groove, Java, LotusNotes, MatrixOne, POP3, RSS, SAP, SharePoint, Siebel…

Par ailleurs, Autonomy a annoncé la disponibilité de trois appliances, qui traitent et comprennent automatiquement tous types de données:
– une appliance d’archivage, avec déduplication automatique et indexation de toutes les données -audio, video, sociales, email et SharePoint;
– une appliance d’eDiscovery, couvrant toutes phases d’EDRM, de bout en bout;
– une appliance moteur de recherche, avec visibilité sur 100% des données de l’entreprise.
Ces appliances sont intégrées à des serveurs HP ProLiant.
A noter qu’Autonomy possède sa propre infrastructure ‘cloud’ – avec une capacité de 31 péta-octets sécurisés et « massivement extensibles ».