C'est vrai qu'avec tous les nouveaux outils Data qui apparaissent (Hadoop, Spark, pandas) on oublie souvent que le meilleur moyen de traiter de la donnée, c'est d'utiliser la bonne vieille command line. Alors certes, ça prends un peu de temps, mais c'est quand même largement optimisé par rapport à pas mal d'outils (je pense d'ailleurs que je vais de plus en plus utilisé certaines commandes dans mes scripts python dans des soucis d'optimisation, je pense notamment au fait de concaténer des fichiers, beaucoup beaucoup plus rapide avec un cat qu'en recopiant le fichier ligne à ligne). Je pense que je vais me lancer dans la lecture de ce bouquin pour être au top :
http://datascienceatthecommandline.com/