Pour gérer vos consentements :

Big Data : Data Science Studio joue aussi la carte Spark

C’est fait ! Spark complète la version 2.1 de Data Science Studio (DSS), plateforme logicielle d’analyse de données et de création d’applications prédictives conçue par l’éditeur français Dataiku. Spark est un framework de calcul distribué. Il utilise des techniques In-Memory et peut fonctionner sur un cluster de serveurs. C’est un projet Open Source phare de la Fondation Apache désormais. « Spark avec sa release 1.5 atteint le niveau de maturité permettant un déploiement efficace pour tous, et rejoint donc, avec Cassandra, MongoDB et Hadoop MapReduce, la galaxie des technologies disponibles dans DSS », explique à la rédaction Florian Douetteau, cofondateur et CEO de Dataiku. Avec Spark, DSS peut traiter des volumes de données plus important qu’avec un moteur de traitement classique.

DSS s’appuie sur le duo Hadoop + Spark

Florian Douetteau

Les frameworks, les langages de programmation et les dialectes (Py, R, Pig, Hive, SQL, Spark…) évoluant très rapidement, « nous voulons fournir à nos clients le meilleur des technologies » via une interface unifiée, précise le cofondateur de Dataiku. L’utilisateur doit pouvoir « passer rapidement de l’une à l’autre, sans devoir développer à nouveau toute son application », ajoute-t-il. MapReduce est donc toujours disponible dans Data Science Studio. « À vrai dire, pour certaines catégories d’usages, MapReduce est plus efficace que Spark actuellement », souligne Florian Douetteau. DSS supporte aussi Apache Tez (une amélioration de MapReduce poussée par Hortonworks) et Impala (moteur de requêtes initialement développé par Cloudera, mais disponible dans la plupart des distributions Hadoop).

Résultat, DSS peut être l’outil principal de développement de projets, de la détection de fraude à la réduction du churn, en passant par la maintenance prédictive.

Dataiku s’exporte outre-Atlantique

Créée en 2013, la start-up Dataiku a été profitable dès ses débuts. Depuis janvier 2015 son équipe a doublé, passant de 25 à 50 collaborateurs répartis entre Paris et New york City. L’entreprise compte aujourd’hui plus de 60 entreprises clientes, dont « quelques grands comptes aux États-Unis ».

Lire aussi :

F. Douetteau, Dataiku : « Nul besoin de data scientists superstars pour le Big Data
IBM investit massivement dans la technologie Big Data Spark

crédit photo © Dataiku

Recent Posts

AWS abandonne WorkDocs, son concurrent de Dropbox

Un temps pressenti pour constituer le socle d'une suite bureautique AWS, Amazon WorkDocs arrivera en…

9 heures ago

Eviden structure une marque de « serveurs IA »

Eviden regroupe cinq familles de serveurs sous la marque BullSequana AI. Et affiche le supercalculateur…

12 heures ago

SSE : l’expérience se simplifie plus que les prix

Le dernier Magic Quadrant du SSE (Secure Service Edge) dénote des tarifications et des modèles…

14 heures ago

IA générative : les lignes directrices de l’ANSSI

Formats de paramètres, méthodes d'apprentissage, mutualisation GPU... Voici quelques-unes des recommandations de l'ANSSI sur l'IA…

1 jour ago

De la marque blanche à l’« exemption souveraine », Broadcom fait des concessions aux fournisseurs cloud

À la grogne des partenaires VMware, Broadcom répond par diverses concessions.

2 jours ago

iPadOS finalement soumis au DMA

iPadOS a une position suffisamment influente pour être soumis au DMA, estime la Commission européenne.

2 jours ago