Une explication du concept de Pregel, qui est un concurrent du concept Map-Reduce. Encore peu implémenté (sauf par GraphX et Apache Giraph) et utilisé (sauf par Google, tiens donc...), ce sera sans doute un des concepts phare de l'avenir du Big-Data avec la baisse à venir de l'utilisation de Map-Reduce. Issue à la base du Bulk Synchronous Parallel (http://en.wikipedia.org/wiki/Bulk_synchronous_parallel).
Utilisation de Spark, outil de Map-Reduce in-memory sur des données étant dans une base Cassandra. Premier blog-post écrit pour le blog de ma boite, Affini-Tech \o/
Une analyse plutôt pertinente du chemin que doivent prendre les technologies Big-Data afin d'être adoptées plus facilement. En gros, celles-ci doivent être simplifiées un maximum pour l'utilisateur final. C'est un problème que l'on retrouve pour toute nouvelle technologie en informatique : au début c'est miraculeux et extrêmement novateur, mais très compliqué à utiliser (cela nécesssite de se plonger dedans à fond avec peu de doc sur le net) mais dès que ça commence à être simplifié, ça peut enfin commencer à être vraiment industrialisé.
C'est vrai qu'à suivre le projet Spark depuis environ un an, on peut dire que c'est l'outil Big-Data qui a le plus évolué ces derniers temps. Des tonnes de fonctionnalités ont été rajoutées dessus : support du SQL, dataframe, utilisation du python, packet manager... Avec en plus pas mal d'outils comme MLLib qui se basent dessus. Et ce n'est pas finis : de nouvelles versions sortent régulièrement avec à chaque fois pleins d'améliorations rajoutées dedans (je le sais, j'ai assisté rien qu'hier au webcast de la présentation de Spark 1.3)
Pourquoi Google abandonne petit à petit Map-Reduce... C'est sûr qu'il y a pas mal de limitations dans le concept, mais ça a permis de développer des tonnes de trucs au dessus. Là-dessus, Hadoop est un peu comme R : c'est pas hyper fiable, y a des bugs, mais ça permet d'introduire de nouveaux paradigmes et façons de faire qui vont pouvoir être développés et améliorés jusq'uà ce qu'on n'ait plus besoin de la base. En tout cas, on n'est pas près d'en voir la fin je pense.
Une vidéo sur le big data ET l'open data ! Mon rêve ! Rêve d'autant plus grand que cette vidéo est celle d'une conférence TED s'étant déroulé à l'UTC, mon ancienne école ! C'est vrai que l'utilisation des big data a pour l'instant plutôt un côté commercial, mais cela va peut-être basculer. Cela me donne des idées pour le futur...
Deux de mes sujets favoris, le python et le big-data, rassemblés en un. Pour avoir déjà traité des gros ensembles de données en python, c'est vrai que les scripts ne sont pas les mêmes. Il faut faire attention aux dates, à ses entrées-sorties, à la performance... J'ajouterais deux points auxquels faire aussi attention : ne pas hésiter à paralléliser son code (surtout que maintenant des machines à 8 ou 16 coeurs, ça se loue pour pas grand chose) et à mettre des compteurs pour savoir où on en est. Parce qu'au bout de deux heures, quand ça tourne encore, c'est utile de savoir si on est à 10% ou à 99%...
Il est toujours bon de lire des articles très critiques sur ce que l'on fait. Celui(ci en est un beau sur les big-data. On y apprends en autre que la fameuse détection de grippe par Google est actuellement complètement fausse (deux fois trop de patients) et d'autres histoires du même style. Cela-dit, cet article rejoint quand même certaines de mes idées sur le fait que oui, les big-datas permettent énormément de choses, mais pas tout. Il ne sert à rien de céder à l'effet d emode et de se dire que le monde va changer du tout au tout grâce à elle. Ma plus grande crainte là-dedans est la création d'une "bulle big-data" qui finirait par exploser, ruiner pas mal de gens et décrédibiliser le domaine, comme celle arrivée à la fin des années 90 sur le web 2.0. On verra bien
Edit : le truc qui fait mal, c'est que le site demande une inscription pour lire les articles... Tellement horreur de ça.
L'université de Berkeley a lancé il y a quelques années un laboratoire pour réfléchir sur le Big-Data. Ils se veulent à la croisée du data-mining, du crowdsourcing et du Cloud. Tombé par hasard dessus grâce à des tutos qu'ils fournissent, ils ont l'air d'utiliser et développer nombre d'outils extrêmement intéressant. À suivre de près !