199 links
  • Bwatt's links
  • Home
  • Login
  • RSS Feed
  • Tag cloud
  • Picture wall
  • Daily
Links per page: 20 50 100
◄Older
page 1 / 2
31 results for tags big-data x
  • The Death of Big Data and the Emergence of the Multi-Cloud Era
    Description assez intéressante de la naissance et de la 'mort' du concept de Big-Data, et notamment Hadoop. Bien sûr, le Big-Data n'est pas mort, mais son utilisation en tant que domaine global l'est. Ce concept est maintenant suffisamment implanté pour qu'on utilise des concepts plus spécifiques, comme le streaming, le multi-cloud...
    Article que je comprend parfaitement mais qui me rend un peu triste, ayant commencé à travailler comme ingénieur big-data (maintenant plus data-engineer), quand le domaine était encore en pleine expansion (et totalement en mode fare-west). Maintenant les choses se sont un peu stabilisées : c'est à la fois plus simple et moins fun. Enfin, il reste encore de nombreux beaux challenges à adresser !
    Tue Aug 13 11:51:23 2019 - permalink -
    QR-Code
    - https://www.kdnuggets.com/2019/07/death-big-data-multi-cloud-era.html
    big-data english
  • Data Lake formation with AWS Glue & Apache Drill – Dweep Sharma – Medium
    Construction d'un datalake chez redBus, avec des technos full cloud. Assez intéressant de voir les outils et les usages (surtout que je participe à la même chose dans ma boite :))
    Tue Feb 26 17:35:27 2019 - permalink -
    QR-Code
    - https://medium.com/@dweepks/data-lake-formation-with-aws-glue-apache-drill-676133e816bc
    big-data datalake english
  • Aggrator Leaf Tailer: an architecture for live analytics on event streams
    Le futur système pouvant potentiellement (je ne suis pas devin) remplacer la lambda architecture. En gros, la lambda architecture permet d'une part d'envoyer en streaming des données dans une base finale, qui peut-elle être utiliser pour faire du batch et vous renvoyer des analytics rapidement. On a ici le meilleur des deux mondes : streaming et batch. Le problème c'est que cela implique beaucoup de contrainte, pouvant être potentiellement résolues par l'ALT.
    Fri Feb 8 10:59:51 2019 - permalink -
    QR-Code
    - https://rockset.com/blog/aggregator-leaf-tailer-an-architecture-for-live-analytics-on-event-streams/
    architecture big-data english
  • Data’s Inferno: 7 Circles of Data Testing Hell with Airflow
    Comment pouvoir tester efficacement ses pipelines airflow. Pas mal de choses et d'aspect intéressant, et dont je compte bien m'inspirer, travaillant actuellement intensément sur Airflow
    Tue Jun 5 13:47:43 2018 - permalink -
    QR-Code
    - https://medium.com/@ingwbaa/datas-inferno-7-circles-of-data-testing-hell-with-airflow-cef4adff58d8?mkt_tok=eyJpIjoiTkRoalptTm1NbVJpWmpBNCIsInQiOiJUZUZTQU5XaGJpbUFWTjBRbkFwYjNPK2JMWWFUUFJjQWtpS2owNXBYZjhydUoxbXNyMkdIMnhMUkFsNFk0NDcyRDVHSlJhZnd6UmJNZ2RnSG42OW1OcldicXVqV3NhdTNuemEzcm00bkh0NzJpaG91VVVKMmZ5NXc1SmdDb20zUiJ9
    airflow big-data data-engineer
  • Les agriculteurs hackeurs du Nebraska
    Les agriculteurs font de la résistance au Nebraska contre les grandes firmes. Au programmes de celles-ci : verrouillage des logiciels des tracteurs, brevets à gogo, et récupération à tout va de big-date dans le but à terme de remplacer l'humain. Encore une fois où je n'approuve pas l'usage non éthique des big-data, même si c'est mon boulot (quant aux brevets, n'en parlons pas). Assez moche mais au moins les gens essaient de s'organiser contre eux. Affaire à suivre
    Mon Aug 14 10:23:54 2017 - permalink -
    QR-Code
    - http://mobile.lemonde.fr/pixels/visuel/2017/08/08/agro-hackeurs-du-nebraska_5170156_4408996.html
    agriculteur big-data brevet
  • SOAT Blog » Apache Kafka – Genèse, Concepts et Fonctionnement du message-broker du big-data
    Une assez bonne description de Kafka, outil de messaging en train de prendre une place prépondérante dans le monde Big-Data
    Tue Aug 8 18:24:37 2017 - permalink -
    QR-Code
    - http://blog.soat.fr/2017/04/apache-kafka-concepts/
    big-data outil
  • Big Data : les histoires d’Hadoop finissent mal (en général)
    Pourquoi les architectures Big-Data finissent par échouer en général. Un truc que j'avais déjà entendu il y a peu (par Gartner, qui a sorti que 70% des projets échoueront cette année !). C'est vrai que c'est un truc que j'ai souvent vu : des projets qui ne passent jamais l'étape du PoC. À cela plusieurs raisons selon moi :
    - qui dit Big-Data dit Big-Architecture. Et donc difficile à maintenir. Un PoC ça va, mais maintenir ensuite demande du temps, des compétences, des gens et de l'argent. Ce que les entreprises ne sont pas prêtes à mettre
    - ce qui amène au deuxième point : le manque de formation. Les projets sont en général faits par des externes qui maitrisent le sujet, et il y a peu de passation de connaissance. Que ce soit la faute de l'un ou de l'autre. Du coup, on se retrouve souvent avec des gens qui quand ils doivent s'éloigner d'une procédure établie, où on leur a donnée chaque commande, sont perdus. Le mieux est selon moi d'intégrer un interne lors du développement du projet afin qu'il puisse se faire la main dessus. Et ça, c'est rarement fait (par manque de temps, de budget, et à cause du "on verra bien plus tard" Trop tard souvent)
    - les projets sont trop aboutis. La faute au effet hype (avec des articles qui promettent monts et merveille) et des boites qui mettent des étoiles dans les yeux des clients pour réussir la vente. Sauf qu'il faut ensuite réaliser le produit, et que ça s'avert beaucoup moins performant qu'annoncé, ce qui décoit le client. Les prestataires se disent que si elles ne font pas cela, elles n'auront pas de projets, mais c'est faux : une personne technique d'une boite sera toujours rassuré quand on lui dit qu'on va d'abord mettre un truc simple en place pour voir, et qu'ensuite on avisera (et c'est ces personnes-là qu'il faut viser !). C'est selon moi la meilleure façon de procéder : d'abord résoudre un problème que les gens ont, avec un projet simple, ce qui mettra le client en confiance, et lui donnera ensuite envie de signer pour plus gros (et le fidélise donc !). Personne n'a envie de tout changer d'un coup (surtout dans une grande entreprise, qui sont la majorité des clients en Big-Data !), donc l'approche petit à petit donne une chance de réussir, alors qu'un gros changement a toutes les chances d'échouer (quelque chose pour moi qui est très vrai dans beaucoup de situations).
    Tue Apr 11 20:52:30 2017 - permalink -
    QR-Code
    - http://www.silicon.fr/big-data-histoires-hadoop-finissent-mal-en-general-172035.html
    big-data réflexion
  • Raft Consensus Algorithm
    Description de l'algorithme Raft, permettant de faire du consensus entre plusieurs serveurs (et utilisé par cockroachDB). Similaire à Paxos (que je compté étudier prochainement).
    Tue Mar 28 18:20:21 2017 - permalink -
    QR-Code
    - https://raft.github.io/
    algorithme big-data
  • Google Spanner Inspires CockroachDB To Outrun It
    La version Open-Source de Spanner (évoqué dans l'article précédent). Pas aussi efficace, bien sûr (car eux ne maitrise pas le hradware), mais quand même. L'article évoque notamment les différences majeures entre les deux outils.
    Mon Mar 27 21:52:32 2017 - permalink -
    QR-Code
    - https://www.nextplatform.com/2017/02/22/google-spanner-inspires-cockroachdb-outrun/
    big-data outil
  • Spanner, TrueTime & The CAP Theorem
    Un article tiré d'un des derniers bigdatahebdo sur spanner, le dernier-né dans la galaxie big-data chez Google Cloud. Il s'agit d'un des papiers blances qu'ils publient régulièrement. Un peu ardu, mais pas trop long pour une fois, donc accessible.
    Spanner est un outil voulant réconcilier Big-Data et SQL, avec des possibilités énormissimes. Google a notamment réussi à contourner le fameux CAP théorème, grâce à une alliance de Hardware et de Software. Il n'y a qu'eux pour réussir un truc pareil (il n'y a pas grand monde qui maitrise aussi bien ces deux aspects). Pour la petite histoire, cela s'est notamment fait en installant des horloges atomiques dans leurs datacenters...
    Mon Mar 27 21:47:53 2017 - permalink -
    QR-Code
    - https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/45855.pdf
    big-data bigdatahebdo google
  • BigData Hebdo
    Un podcast fait sur le big-data par mon ancien chef et un de ses amis. Ils rassemblent des articles de news sur le big-data, et les aborde en les analysant. Un très bon moyen de se tenir au courant du monde du big-data !
    PS : dorénavant, tous les articles provenant de ce podcast seront taggés bigdatahebdo
    Mon Mar 27 21:46:14 2017 - permalink -
    QR-Code
    - http://bigdatahebdo.azurewebsites.net/
    big-data podcast
  • Santé : ce que préparent les géants du numérique
    Comment le big-data va révolutionner la santé ("La rencontre du BigData et de la santé ouvre un cycle d’innovations sans précédent. On est dans le même type de saut vertigineux que la découverte des antibiotiques"). C'est sûr que ça va changer pas mal de choses. Après, il y a aussi beaucoup de risques, comme l'indique l'article. Si les assureurs commencent à jouer avec nos données de santé, ça va faire mal... Et ne me dites pas que les données sont sécurisées : quand on voit le désastre niveau sécurité informatique dans lequel on est, avec scandales à répétition, on est mal barré
    Sun Sep 18 15:19:36 2016 - permalink -
    QR-Code
    - https://www.franceinter.fr/societe/bigdata-et-sante-une-chance-ou-une-menace
    big-data santé
  • YouTube thumbnail
    PyData Paris 2016 - Python and Big Data: a good match? - YouTube
    La vidéo de ma présentation sur Python et Big Data à pydata 2016. Ok, mon accent est pas terrible mais c'est ma première présentation dans un évènement de cette envergure !
    Pour résumer, j'explique en quelques points pourquoi Python me semble être un excellent langage pour faire du Big-Data.
    Tue Jul 5 14:37:11 2016 - permalink -
    QR-Code
    - https://www.youtube.com/watch?v=lVmlTOdVRok
    big-data conference fierte python
  • Rachat de LinkedIn par Microsoft
    Une réflexion sur le rachat de LinkedIn par Microsoft, avec les dérives que cela peut entrainer. J'adore mon boulot et tout ce que Big-Data, mais comme toute nouvelle technologie, il ne faut pas oublier les risques de dérive possible...
    Thu Jun 16 15:17:34 2016 - permalink -
    QR-Code
    - http://www.affordance.info/mon_weblog/2016/06/digital-labor-microsoft-linkedin.html
    big-data fr réflexion
  • Le Blog d'Ippon Technologies - Big Data : Panorama des solutions 2016
    Avec l'explosion des outils Big-Data, arrive l'explosion des architectures différentes. Et autant pas mal de gens arrivent à maitriser le batch, autant les autres types (streaming, lambda...) sont encore assez exotiques en dehors de grosses grosses entreprises. C'est là-dedans qu'il y a du boulot marrant du coup :)
    Tue Apr 5 16:41:11 2016 - permalink -
    QR-Code
    - http://blog.ippon.fr/2016/03/31/big-data-panorama-des-solutions-2016/
    architecture big-data
  • L’évolution des bottlenecks dans l’écosystème BigData | OCTO talks !
    L'évolution des technos big-data en fonction des différents bottlenecks rencontrés. C'est ultra-intéressants de voir les différe,ts problèmes et les solutions trouvés.
    Prochain problème à régler : le fameux Grabage Collector. Un autre article là-dessus pour ceux que ça intéresse : http://blog.octo.com/la-mort-prochaine-du-ramasse-miettes/
    Fri Mar 18 12:40:52 2016 - permalink -
    QR-Code
    - http://blog.octo.com/levolution-des-bottlenecks-dans-lecosysteme-bigdata/
    architecture big-data concept
  • Spark et SQL-On-Hadoop : vers un Hadoop augmenté
    Un peu de Hadoop, ça faisait longtemps ! C'est vrai que, travaillant actuellement moins avec cet écosystème, je tombe sur moins d'articles. L'occasion de me rattraper avec un article pointant vers un grand nombre d'autres articles centrés sur des outils de l'écosystème Hadoop. À Consommer sans modération
    Thu Mar 3 16:26:41 2016 - permalink -
    QR-Code
    - http://www.lemagit.fr/essentialguide/Spark-et-SQL-On-Hadoop-vers-un-Hadoop-augmente
    big-data hadoop
  • LSH : Plus proches voisins approximatifs
    Un nouvel algorithme décrit pour comparer les distances entre mots ou documents (à mettre enn parallèle avec la distance de Levenshtein pour ceux qui connaissent). En plus d'avoir l'air de donner de bons résultats, il est extrêmement scalable du fait de sa complexité linéaire. Ce qui est très intéressant dans le domaine du big data.
    J'y vois plusieurs utilisations : indexation plus poussée (même si je n'ai pas l'impression qu'elasticsearch l'implémente encore), recherche avancée, rapprochement de jeux de données (je sais pas si y en a déjà qui ont bossé sur des **** de noms de ville par exemple, mais perso, j'ai tout eu : avec et san tiret, avec et sans abréviation, etc...), nettoyage de données...
    Fri Nov 6 11:34:21 2015 - permalink -
    QR-Code
    - http://www.bluedme.com/lsh/
    algorithme big-data indexation
  • Qu’est-ce que le Data Lake, le nouveau concept "Big Data" en vogue - JDN
    Un article du JDN sur le concept de Data Lake écrit par mon chef, et relu et corrigé par moi-même ! Vraiment intéressant comme concept, en gros on regroupe toutes les données d'une entreprise dans une plateforme sans trop les structurer pour les avoir directement pour un usage futur (à la différence d'un datawarehouse où on les structure directement en vue d'un usage prévu).
    Wed Nov 4 10:43:24 2015 - permalink -
    QR-Code
    - http://www.journaldunet.com/solutions/cloud-computing/1165409-qu-est-ce-que-le-datalake-le-nouveau-concept-big-data-en-vogue/
    big-data concept
  • Some important streaming algorithms you should know about
    Une description par Ted Dunning (l'un des papes des moteurs de recommandation, actuellement chez MAPR) d'algorithme streaming plutôt pratique. Attention, ça parle pas mal d'algorithmes et de probabilités et il faut parfois s'accrocher !
    Fri Oct 23 12:17:25 2015 - permalink -
    QR-Code
    - https://www.mapr.com/blog/some-important-streaming-algorithms-you-should-know-about
    algorithme big-data
Links per page: 20 50 100
◄Older
page 1 / 2
Shaarli - The personal, minimalist, super-fast, no-database delicious clone by the Shaarli community - Help/documentation