199 links
  • Bwatt's links
  • Home
  • Login
  • RSS Feed
  • Tag cloud
  • Picture wall
  • Daily
Links per page: 20 50 100
page 1 / 1
10 results for tags data-engineer x
  • How we built a tool for validatubg big data workflows
    Présentation d'un outil pour voir les problèmes de qualité de données après avoir updaté un workflow. Pas mal d'idées intéressantes pour pouvoir garder une bonne data quality
    Mon Aug 26 13:42:22 2019 - permalink -
    QR-Code
    - https://engineering.klarna.com/how-we-built-a-tool-for-validating-big-data-workflows-170c196a4493
    data-engineer english
  • How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh
    Article très intéressant (bien qu'assez long) sur le concept de distributed data mesh : le but est en gros de ne plus faire un datalake monolithique, mais de le séparer entre toutes les teams. En gros, chaque product team devient responsable de la mise à disposition de ses datasets (comme elle l'est de ses APIs), grâce à un data engineer dans sa team et des outils mis à disposition par une autre équipe centrale de data engineer. Le concept est intéressant mais demande un gros changement de paradigme, et n'est utile selon moi que dans les grosses entreprises
    Thu Aug 22 15:44:38 2019 - permalink -
    QR-Code
    - https://martinfowler.com/articles/data-monolith-to-mesh.html
    data-engineer datalake english
  • The rise of dataops from the ashes of data governance
    Même axe que l'article d'avant, mais plus axé sur la comparaison avec l'avènement de la compilation et du versionnage de code, ainsi que sur l'opposition à la data governance.
    Thu Jun 6 18:25:39 2019 - permalink -
    QR-Code
    - https://towardsdatascience.com/the-rise-of-dataops-from-the-ashes-of-data-governance-da3e0c3ac2c4
    data-engineer english
  • DataOps Principles: How Startups Do Data The Right Way - Retina.ai
    Deux articles (celui-là et le suivant) sur le principe de DataOps. En gros, l'idée c'est de s'inspirer de la mouvance Devops pour l'appliquer à la donnée. Ça consiste à automatiser un maximum, et donner pas mal de pouvoirs aux utilisateurs qu'il puisse créer lui-même les tables qui l'intéresse. Ça englobe aussi la validation automatique de schéma, la reproductibilité, la simplicité... Pas mal de bon sens mais c'est toujours mieux de le voir expliciter
    Thu Jun 6 10:07:39 2019 - permalink -
    QR-Code
    - https://retina.ai/blog/dataops-principles/
    data-engineer english
  • Data profiling in the age of big data – Tech at Nordstrom – Medium
    Un outil open-source pour faire du data-profiling sur votre datalake (validation de schéma, statistiques de base...) Approche vraiment intéressante, car c'est fait en dehors du pipeline de données. Les outils utilisés sont aussi intéressants : Spark, Datadog, et surtout Jupyter + papermill pour piloter ça (solution dont je suis de plus en plus fan même si je n'ai jamais testé encore)
    Mon Jun 3 11:24:48 2019 - permalink -
    QR-Code
    - https://medium.com/tech-at-nordstrom/data-profiling-in-the-age-of-big-data-7675d486c89c
    data-engineer english jupyter
  • No frills data warehousing with dbt
    Brève explication de l'utilisation de dbt. En gros, ça permet de pouvoir observer facilement des changements de données dans une base, et de créer un pipeline de récupération et validation de données à partir de ça. Ou comment créer un ETL très facielement à partir de pas grand chose.
    Tue May 14 11:01:33 2019 - permalink -
    QR-Code
    - http://tamaszilagyi.com/blog/2019/2019-03-05-dbt/
    data-engineer english tools
  • GitHub - igorbarinov/awesome-data-engineering: A curated list of data engineering tools for software developers
    Big list of data-engineer tools, on every interesting domain
    Tue Apr 2 15:24:03 2019 - permalink -
    QR-Code
    - https://github.com/igorbarinov/awesome-data-engineering
    data-engineer english tools
  • The rise of the data engineer
    Explications du rôle de data-engineer selon Maxime Beauchemin (créateur d'Airflow). Globalement d'accord sur sa vision (me considérant moi-même comme tel), même si je suis réticent sur certains détails.
    Thu Feb 28 17:43:19 2019 - permalink -
    QR-Code
    - https://medium.freecodecamp.org/the-rise-of-the-data-engineer-91be18f1e603
    data-engineer english
  • Taming data quality with circuit breaker
    Comment les data-engineers de quickbook gère leurs problèmes de données, à l'aide de court-circuit pour éviter que la donnée "sale" contamine la donnée propre. Pas mal car catégorise vraiment bien les différents problèmes de données possibles. On retrouve finalement certains mécanismes déjà mis en place (dans ma boite en tout cas), mais de manière plus claire. Bon on voit aussi que le chemin est long pour avoir un truc parfait mais bon, ça viendra !
    Tue Feb 12 09:40:15 2019 - permalink -
    QR-Code
    - https://quickbooks-engineering.intuit.com/taming-data-quality-with-circuit-breakers-dbe550d3ca78
    data-engineer data-pipeline english
  • Data’s Inferno: 7 Circles of Data Testing Hell with Airflow
    Comment pouvoir tester efficacement ses pipelines airflow. Pas mal de choses et d'aspect intéressant, et dont je compte bien m'inspirer, travaillant actuellement intensément sur Airflow
    Tue Jun 5 13:47:43 2018 - permalink -
    QR-Code
    - https://medium.com/@ingwbaa/datas-inferno-7-circles-of-data-testing-hell-with-airflow-cef4adff58d8?mkt_tok=eyJpIjoiTkRoalptTm1NbVJpWmpBNCIsInQiOiJUZUZTQU5XaGJpbUFWTjBRbkFwYjNPK2JMWWFUUFJjQWtpS2owNXBYZjhydUoxbXNyMkdIMnhMUkFsNFk0NDcyRDVHSlJhZnd6UmJNZ2RnSG42OW1OcldicXVqV3NhdTNuemEzcm00bkh0NzJpaG91VVVKMmZ5NXc1SmdDb20zUiJ9
    airflow big-data data-engineer
Links per page: 20 50 100
page 1 / 1
Shaarli - The personal, minimalist, super-fast, no-database delicious clone by the Shaarli community - Help/documentation