199 links
  • Bwatt's links
  • Home
  • Login
  • RSS Feed
  • Tag cloud
  • Picture wall
  • Daily
Links per page: 20 50 100
◄Older
page 1 / 2
29 results for tags english x
  • How we built a tool for validatubg big data workflows
    Présentation d'un outil pour voir les problèmes de qualité de données après avoir updaté un workflow. Pas mal d'idées intéressantes pour pouvoir garder une bonne data quality
    Mon Aug 26 13:42:22 2019 - permalink -
    QR-Code
    - https://engineering.klarna.com/how-we-built-a-tool-for-validating-big-data-workflows-170c196a4493
    data-engineer english
  • How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh
    Article très intéressant (bien qu'assez long) sur le concept de distributed data mesh : le but est en gros de ne plus faire un datalake monolithique, mais de le séparer entre toutes les teams. En gros, chaque product team devient responsable de la mise à disposition de ses datasets (comme elle l'est de ses APIs), grâce à un data engineer dans sa team et des outils mis à disposition par une autre équipe centrale de data engineer. Le concept est intéressant mais demande un gros changement de paradigme, et n'est utile selon moi que dans les grosses entreprises
    Thu Aug 22 15:44:38 2019 - permalink -
    QR-Code
    - https://martinfowler.com/articles/data-monolith-to-mesh.html
    data-engineer datalake english
  • Why not Airflow
    Description de Airflow (outil d'orchestration de data) et de ses limites. Assez d'accord sur le fond, Airflow est vraiment un outil qui révolutionne le data engineering, mais qui, comme tout nouvel outil révolutionnaire (tel Hadoop et Docker) soufre de pas mal de défauts. L'auteur recommander prefect, un nouvel outil pour faire ça, mais peut-être encore un peu jeune pour être fiable. À suivre
    Wed Aug 14 11:24:30 2019 - permalink -
    QR-Code
    - https://medium.com/the-prefect-blog/why-not-airflow-4cfa423299c4
    english orchestration outil
  • The Death of Big Data and the Emergence of the Multi-Cloud Era
    Description assez intéressante de la naissance et de la 'mort' du concept de Big-Data, et notamment Hadoop. Bien sûr, le Big-Data n'est pas mort, mais son utilisation en tant que domaine global l'est. Ce concept est maintenant suffisamment implanté pour qu'on utilise des concepts plus spécifiques, comme le streaming, le multi-cloud...
    Article que je comprend parfaitement mais qui me rend un peu triste, ayant commencé à travailler comme ingénieur big-data (maintenant plus data-engineer), quand le domaine était encore en pleine expansion (et totalement en mode fare-west). Maintenant les choses se sont un peu stabilisées : c'est à la fois plus simple et moins fun. Enfin, il reste encore de nombreux beaux challenges à adresser !
    Tue Aug 13 11:51:23 2019 - permalink -
    QR-Code
    - https://www.kdnuggets.com/2019/07/death-big-data-multi-cloud-era.html
    big-data english
  • The rise of dataops from the ashes of data governance
    Même axe que l'article d'avant, mais plus axé sur la comparaison avec l'avènement de la compilation et du versionnage de code, ainsi que sur l'opposition à la data governance.
    Thu Jun 6 18:25:39 2019 - permalink -
    QR-Code
    - https://towardsdatascience.com/the-rise-of-dataops-from-the-ashes-of-data-governance-da3e0c3ac2c4
    data-engineer english
  • DataOps Principles: How Startups Do Data The Right Way - Retina.ai
    Deux articles (celui-là et le suivant) sur le principe de DataOps. En gros, l'idée c'est de s'inspirer de la mouvance Devops pour l'appliquer à la donnée. Ça consiste à automatiser un maximum, et donner pas mal de pouvoirs aux utilisateurs qu'il puisse créer lui-même les tables qui l'intéresse. Ça englobe aussi la validation automatique de schéma, la reproductibilité, la simplicité... Pas mal de bon sens mais c'est toujours mieux de le voir expliciter
    Thu Jun 6 10:07:39 2019 - permalink -
    QR-Code
    - https://retina.ai/blog/dataops-principles/
    data-engineer english
  • Data profiling in the age of big data – Tech at Nordstrom – Medium
    Un outil open-source pour faire du data-profiling sur votre datalake (validation de schéma, statistiques de base...) Approche vraiment intéressante, car c'est fait en dehors du pipeline de données. Les outils utilisés sont aussi intéressants : Spark, Datadog, et surtout Jupyter + papermill pour piloter ça (solution dont je suis de plus en plus fan même si je n'ai jamais testé encore)
    Mon Jun 3 11:24:48 2019 - permalink -
    QR-Code
    - https://medium.com/tech-at-nordstrom/data-profiling-in-the-age-of-big-data-7675d486c89c
    data-engineer english jupyter
  • What is idempotence? - LispCast
    Brève explication du principe d'idempotence. Notion importante en web, notamment pour les services REST, mais aussi cruciale dans le monde de la data, surtout quand on commence à orchestrer ses jobs (si je relance mon job de la veille, je veux être dans le même état que celui dans lequel il était)
    Mon May 27 11:43:15 2019 - permalink -
    QR-Code
    - https://lispcast.com/what-is-idempotence/
    concept english
  • No frills data warehousing with dbt
    Brève explication de l'utilisation de dbt. En gros, ça permet de pouvoir observer facilement des changements de données dans une base, et de créer un pipeline de récupération et validation de données à partir de ça. Ou comment créer un ETL très facielement à partir de pas grand chose.
    Tue May 14 11:01:33 2019 - permalink -
    QR-Code
    - http://tamaszilagyi.com/blog/2019/2019-03-05-dbt/
    data-engineer english tools
  • GitHub - igorbarinov/awesome-data-engineering: A curated list of data engineering tools for software developers
    Big list of data-engineer tools, on every interesting domain
    Tue Apr 2 15:24:03 2019 - permalink -
    QR-Code
    - https://github.com/igorbarinov/awesome-data-engineering
    data-engineer english tools
  • Blockchain explained
    Explication visuelle du principe du blockchain. Ne rentre pas dans les détails, mais les bases sont là, et très bien expliquées.
    Fri Mar 8 13:57:15 2019 - permalink -
    QR-Code
    - http://graphics.reuters.com/TECHNOLOGY-BLOCKCHAIN/010070P11GN/index.html
    blockchain english explications
  • The rise of the data engineer
    Explications du rôle de data-engineer selon Maxime Beauchemin (créateur d'Airflow). Globalement d'accord sur sa vision (me considérant moi-même comme tel), même si je suis réticent sur certains détails.
    Thu Feb 28 17:43:19 2019 - permalink -
    QR-Code
    - https://medium.freecodecamp.org/the-rise-of-the-data-engineer-91be18f1e603
    data-engineer english
  • Data Lake formation with AWS Glue & Apache Drill – Dweep Sharma – Medium
    Construction d'un datalake chez redBus, avec des technos full cloud. Assez intéressant de voir les outils et les usages (surtout que je participe à la même chose dans ma boite :))
    Tue Feb 26 17:35:27 2019 - permalink -
    QR-Code
    - https://medium.com/@dweepks/data-lake-formation-with-aws-glue-apache-drill-676133e816bc
    big-data datalake english
  • Taming data quality with circuit breaker
    Comment les data-engineers de quickbook gère leurs problèmes de données, à l'aide de court-circuit pour éviter que la donnée "sale" contamine la donnée propre. Pas mal car catégorise vraiment bien les différents problèmes de données possibles. On retrouve finalement certains mécanismes déjà mis en place (dans ma boite en tout cas), mais de manière plus claire. Bon on voit aussi que le chemin est long pour avoir un truc parfait mais bon, ça viendra !
    Tue Feb 12 09:40:15 2019 - permalink -
    QR-Code
    - https://quickbooks-engineering.intuit.com/taming-data-quality-with-circuit-breakers-dbe550d3ca78
    data-engineer data-pipeline english
  • Aggrator Leaf Tailer: an architecture for live analytics on event streams
    Le futur système pouvant potentiellement (je ne suis pas devin) remplacer la lambda architecture. En gros, la lambda architecture permet d'une part d'envoyer en streaming des données dans une base finale, qui peut-elle être utiliser pour faire du batch et vous renvoyer des analytics rapidement. On a ici le meilleur des deux mondes : streaming et batch. Le problème c'est que cela implique beaucoup de contrainte, pouvant être potentiellement résolues par l'ALT.
    Fri Feb 8 10:59:51 2019 - permalink -
    QR-Code
    - https://rockset.com/blog/aggregator-leaf-tailer-an-architecture-for-live-analytics-on-event-streams/
    architecture big-data english
  • How to deliver on machine learning projects
    Article lu il y a longtemps (je n'ai malheureusement pas pu poster de liens pendant longtemps à cause d'un problème de docker). L'auteur expose les différentes étapes pour itérer sur un projet de Machine Learning. Assez intéressant pour avoir une idée de comment procéder de manière logique, plutôt que de se lancer tête baissée sans savoir trop où on va.
    Thu Feb 7 09:47:45 2019 - permalink -
    QR-Code
    - https://blog.insightdatascience.com/how-to-deliver-on-machine-learning-projects-c8d82ce642b0
    english machine-learning
  • Kitchen Soap – On Being A Senior Engineer
    Une bonne description des qualités qu'il faut pour l'auteru pour etre un senior engineer. Où il montre qu'on n'a pas uniquement besoin de techniques, mais surtout de maturité. Et cette maturité passe par la faculté de travailler en harmonie avec les autres (accepter les critiques, rester ouvert à tout le monde et pas seulement à l'IT...).
    Tue Feb 6 15:52:56 2018 - permalink -
    QR-Code
    - https://www.kitchensoap.com/2012/10/25/on-being-a-senior-engineer/
    bonnes-pratiques english informatique
  • Do Things that Don't Scale
    Un article décrivant les bonnes pratiques à suivre quand on lance une start-up (spécifiquement une start-up développant un produit informatique B2C). Il peut se résumer en ceci : pensez uniquement à l'instant présent en recrutant un maximum d'utilisateurs et en satisfaisant le moindre de leurs besoins. D'où le titre de l'article : il n'est effectivement pas utile de trop prévoir (et donc de scale up), mieux vaut voir petit. Si vouy avez à scaler, vous verrez en temps utile (et ce sera un bon problème pour vous).
    Ca me fait pas mal penser au développement informatique, où une des règles d'or pour moir est : pas de pré-optimisation. Faites un truc petit, mais qui marche bien. Ainsi vous pourrez convaincre rapidement un client. L'optimisation viendra après, si nécessaire, quand vous aurez mieux cerner les besoins nécessaires (car pour moi 90% de la pré-optimisation est ensuite à jetter, car basé sur les besoins supposés du client, tels que vu dans le cahier des charges, et non sur ses besoins réels, qui se voient à l'usage).
    Mon Jan 22 11:09:02 2018 - permalink -
    QR-Code
    - http://paulgraham.com/ds.html
    bonnes-pratiques english informatique
  • Joel on Software
    Un autre excellent blog sur les manières de travailler en informatique (très souvent cité par Codeahoy, le précédent blog shaarlié) mais aussi avec quelques pans plus techniques, écrits par l'un des deux fondateurs de stackoverflow. Un de ses meilleurs articles porte notamment sur 'The Joel test' (https://www.joelonsoftware.com/2000/08/09/the-joel-test-12-steps-to-better-code/), un test établi afin de trouver les entreprises qui ont selon lui la meilleure culture informatique (les entreprises qui postent des offres sur Stackoverflow doivent notamment y passer). À lire absolument pour avoir une idée du bonhomme (surtout vu que l'erticle renvoie vers pleeeeeeeeeeeeins d'autres articles intéressants).
    Mon Jan 8 15:53:01 2018 - permalink -
    QR-Code
    - https://www.joelonsoftware.com/
    bonnes-pratiques english informatique
  • CodeAhoy
    Excellent blog que je dévore ces temps-ci (j'en ai déjà posté deux articles ici), avec des nombreux articles, non pas techniques, mais plutot sur la culture informatique dans une boite ainsi que les concepts. L'auteur a été manageur informatique dans différentes boites, et en a tiré de précieuses connaissances sur la manière de gérer des projets informatiques qu'il ressort ici. À consommer sans modération.
    Fri Dec 22 14:16:51 2017 - permalink -
    QR-Code
    - https://codeahoy.com/
    bonnes-pratiques english informatique
Links per page: 20 50 100
◄Older
page 1 / 2
Shaarli - The personal, minimalist, super-fast, no-database delicious clone by the Shaarli community - Help/documentation