Utilisation de Spark, outil de Map-Reduce in-memory sur des données étant dans une base Cassandra. Premier blog-post écrit pour le blog de ma boite, Affini-Tech \o/
C'est vrai qu'à suivre le projet Spark depuis environ un an, on peut dire que c'est l'outil Big-Data qui a le plus évolué ces derniers temps. Des tonnes de fonctionnalités ont été rajoutées dessus : support du SQL, dataframe, utilisation du python, packet manager... Avec en plus pas mal d'outils comme MLLib qui se basent dessus. Et ce n'est pas finis : de nouvelles versions sortent régulièrement avec à chaque fois pleins d'améliorations rajoutées dedans (je le sais, j'ai assisté rien qu'hier au webcast de la présentation de Spark 1.3)