199 links
  • Bwatt's links
  • Home
  • Login
  • RSS Feed
  • Tag cloud
  • Picture wall
  • Daily
Links per page: 20 50 100
◄Older
page 1 / 10
  • Nous avons besoin d'une génération de magiciens
    Tellement d'accord avec ce qui est dit. Tellement de conflits, de problèmes pourraient être résolus si nous avions être pu éduqué à gérer nos angoisses, nos peurs, à savoir utiliser notre outil le plus précieux, c'est à dire notre cerveau (et pas dans un sens que rationnel, mais aussi émotionnel).
    J'en profite pour dire que l'orientation des articles qui vont être publiés ici risque de changer radicalement, vu que je suis en train de petit à petit quitter l'informatique pour entrer dans le domaine de l'hypnose et de l'accompagnement.
    Wed Feb 3 12:15:19 2021 - permalink -
    QR-Code
    - https://medium.com/@kevin.finel/nous-avons-besoin-dune-g%C3%A9n%C3%A9ration-de-magiciens-54f7f1c049ac
    cerveau hypnose
  • Amilitants
    Que dire de plus, sinon que j'ai déjà beaucoup eu le même sentiment, et que je suis entièrement d'accord.
    Wed Dec 16 00:27:26 2020 - permalink -
    QR-Code
    - https://edgard.fdn.fr/blog/index.php?post/2016/11/03/Amilitants
    militant
  • Big data quality at Criteo
    Le deuxième article
    Thu Feb 6 09:32:36 2020 - permalink -
    QR-Code
    - https://medium.com/criteo-labs/big-data-quality-at-criteo-66c6bd0d42d8
    concept data en
  • Data governance at criteo
    Série de deux articles (l'autre arrive après) sur la data governance et la data quality chez Criteo, deux sujets qui deviennent de plus en plus important dans les entreprises (notamment dans la mienne). En efft, il ne suffit pas de récupérer plein de données, il faut aussi être sûr qu'elles sont documentées et de bonnes qualités. Sinon vos utilisateurs perdront très vite confiance dedans, ce qui pose pas mal de problèmes.
    Thu Feb 6 09:30:45 2020 - permalink -
    QR-Code
    - https://medium.com/criteo-labs/data-governance-at-criteo-e13b4d5047a1
    concept data en
  • Réplication des données : enjeux et approches
    Un article intéressant et complet sur les différents moyens de répliquer la donnée dans les bases de données distribuées, avec avantages et inconvénients de chaque approche. Pas mal pour choisir quelle base on veut, et permet de préciser des concepts dont on a parfois connaissance, mais sans une vue exhaustive.
    Fri Jan 24 16:08:33 2020 - permalink -
    QR-Code
    - https://blog.ippon.fr/2020/01/20/replication-des-donnees-enjeux-et-approches/
    architecture database
  • Modern Data Practice and the SQL Tradition | Florents Tselai
    Un article défendant l'intérêt des bases SQL contre les bases NoSQL. Le SQL-bashing est effectivement quelque chose que j'ai pas mal vu (l'un de mes chefs disait il y a 5 ans que SQL allait mourir. Il a finis par reconnaitre qu'il s'était complètement gouré), souvent pour des mauvaises raisons (trop vieux, pas cassez shiny, trop rigide...). Et c'est vrai que je pensais en partie comme ça pendant un moment, en vantant énormément MongoDB par exemple (j'en suis revenu depuis), notamment pour sa souplesse. Or, par expérience, ce qui fait la souplesse et permet de démarrer très vite devient ensuite un enfer à maintenir. Avoir un schéma de base de données permet effectivement une énorme stabilité, qu'on est obligé de reproduire par plein de bidouille quand on utilise du NoSQL.
    Bref, l'article explique bien tout ça, et reflète bien mon avis là-dessus
    Mon Nov 18 09:28:46 2019 - permalink -
    QR-Code
    - https://tselai.com/modern-data-practice-and-the-sql-tradition.html
    database en
  • A framework for elegantly configuring complex applications
    NEw framework in python to manage configuration. Small thing, but in general you always finish by develop your custom tool when your project increase in complexity, so this could be very useful.
    Fri Oct 11 16:39:53 2019 - permalink -
    QR-Code
    - https://cli.dev/
    developpeur python
  • How we built a tool for validatubg big data workflows
    Présentation d'un outil pour voir les problèmes de qualité de données après avoir updaté un workflow. Pas mal d'idées intéressantes pour pouvoir garder une bonne data quality
    Mon Aug 26 13:42:22 2019 - permalink -
    QR-Code
    - https://engineering.klarna.com/how-we-built-a-tool-for-validating-big-data-workflows-170c196a4493
    data-engineer english
  • How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh
    Article très intéressant (bien qu'assez long) sur le concept de distributed data mesh : le but est en gros de ne plus faire un datalake monolithique, mais de le séparer entre toutes les teams. En gros, chaque product team devient responsable de la mise à disposition de ses datasets (comme elle l'est de ses APIs), grâce à un data engineer dans sa team et des outils mis à disposition par une autre équipe centrale de data engineer. Le concept est intéressant mais demande un gros changement de paradigme, et n'est utile selon moi que dans les grosses entreprises
    Thu Aug 22 15:44:38 2019 - permalink -
    QR-Code
    - https://martinfowler.com/articles/data-monolith-to-mesh.html
    data-engineer datalake english
  • Why not Airflow
    Description de Airflow (outil d'orchestration de data) et de ses limites. Assez d'accord sur le fond, Airflow est vraiment un outil qui révolutionne le data engineering, mais qui, comme tout nouvel outil révolutionnaire (tel Hadoop et Docker) soufre de pas mal de défauts. L'auteur recommander prefect, un nouvel outil pour faire ça, mais peut-être encore un peu jeune pour être fiable. À suivre
    Wed Aug 14 11:24:30 2019 - permalink -
    QR-Code
    - https://medium.com/the-prefect-blog/why-not-airflow-4cfa423299c4
    english orchestration outil
  • The Death of Big Data and the Emergence of the Multi-Cloud Era
    Description assez intéressante de la naissance et de la 'mort' du concept de Big-Data, et notamment Hadoop. Bien sûr, le Big-Data n'est pas mort, mais son utilisation en tant que domaine global l'est. Ce concept est maintenant suffisamment implanté pour qu'on utilise des concepts plus spécifiques, comme le streaming, le multi-cloud...
    Article que je comprend parfaitement mais qui me rend un peu triste, ayant commencé à travailler comme ingénieur big-data (maintenant plus data-engineer), quand le domaine était encore en pleine expansion (et totalement en mode fare-west). Maintenant les choses se sont un peu stabilisées : c'est à la fois plus simple et moins fun. Enfin, il reste encore de nombreux beaux challenges à adresser !
    Tue Aug 13 11:51:23 2019 - permalink -
    QR-Code
    - https://www.kdnuggets.com/2019/07/death-big-data-multi-cloud-era.html
    big-data english
  • The rise of dataops from the ashes of data governance
    Même axe que l'article d'avant, mais plus axé sur la comparaison avec l'avènement de la compilation et du versionnage de code, ainsi que sur l'opposition à la data governance.
    Thu Jun 6 18:25:39 2019 - permalink -
    QR-Code
    - https://towardsdatascience.com/the-rise-of-dataops-from-the-ashes-of-data-governance-da3e0c3ac2c4
    data-engineer english
  • DataOps Principles: How Startups Do Data The Right Way - Retina.ai
    Deux articles (celui-là et le suivant) sur le principe de DataOps. En gros, l'idée c'est de s'inspirer de la mouvance Devops pour l'appliquer à la donnée. Ça consiste à automatiser un maximum, et donner pas mal de pouvoirs aux utilisateurs qu'il puisse créer lui-même les tables qui l'intéresse. Ça englobe aussi la validation automatique de schéma, la reproductibilité, la simplicité... Pas mal de bon sens mais c'est toujours mieux de le voir expliciter
    Thu Jun 6 10:07:39 2019 - permalink -
    QR-Code
    - https://retina.ai/blog/dataops-principles/
    data-engineer english
  • Data profiling in the age of big data – Tech at Nordstrom – Medium
    Un outil open-source pour faire du data-profiling sur votre datalake (validation de schéma, statistiques de base...) Approche vraiment intéressante, car c'est fait en dehors du pipeline de données. Les outils utilisés sont aussi intéressants : Spark, Datadog, et surtout Jupyter + papermill pour piloter ça (solution dont je suis de plus en plus fan même si je n'ai jamais testé encore)
    Mon Jun 3 11:24:48 2019 - permalink -
    QR-Code
    - https://medium.com/tech-at-nordstrom/data-profiling-in-the-age-of-big-data-7675d486c89c
    data-engineer english jupyter
  • What is idempotence? - LispCast
    Brève explication du principe d'idempotence. Notion importante en web, notamment pour les services REST, mais aussi cruciale dans le monde de la data, surtout quand on commence à orchestrer ses jobs (si je relance mon job de la veille, je veux être dans le même état que celui dans lequel il était)
    Mon May 27 11:43:15 2019 - permalink -
    QR-Code
    - https://lispcast.com/what-is-idempotence/
    concept english
  • No frills data warehousing with dbt
    Brève explication de l'utilisation de dbt. En gros, ça permet de pouvoir observer facilement des changements de données dans une base, et de créer un pipeline de récupération et validation de données à partir de ça. Ou comment créer un ETL très facielement à partir de pas grand chose.
    Tue May 14 11:01:33 2019 - permalink -
    QR-Code
    - http://tamaszilagyi.com/blog/2019/2019-03-05-dbt/
    data-engineer english tools
  • GitHub - igorbarinov/awesome-data-engineering: A curated list of data engineering tools for software developers
    Big list of data-engineer tools, on every interesting domain
    Tue Apr 2 15:24:03 2019 - permalink -
    QR-Code
    - https://github.com/igorbarinov/awesome-data-engineering
    data-engineer english tools
  • Blockchain explained
    Explication visuelle du principe du blockchain. Ne rentre pas dans les détails, mais les bases sont là, et très bien expliquées.
    Fri Mar 8 13:57:15 2019 - permalink -
    QR-Code
    - http://graphics.reuters.com/TECHNOLOGY-BLOCKCHAIN/010070P11GN/index.html
    blockchain english explications
  • The rise of the data engineer
    Explications du rôle de data-engineer selon Maxime Beauchemin (créateur d'Airflow). Globalement d'accord sur sa vision (me considérant moi-même comme tel), même si je suis réticent sur certains détails.
    Thu Feb 28 17:43:19 2019 - permalink -
    QR-Code
    - https://medium.freecodecamp.org/the-rise-of-the-data-engineer-91be18f1e603
    data-engineer english
  • Data Lake formation with AWS Glue & Apache Drill – Dweep Sharma – Medium
    Construction d'un datalake chez redBus, avec des technos full cloud. Assez intéressant de voir les outils et les usages (surtout que je participe à la même chose dans ma boite :))
    Tue Feb 26 17:35:27 2019 - permalink -
    QR-Code
    - https://medium.com/@dweepks/data-lake-formation-with-aws-glue-apache-drill-676133e816bc
    big-data datalake english
Links per page: 20 50 100
◄Older
page 1 / 10
Shaarli - The personal, minimalist, super-fast, no-database delicious clone by the Shaarli community - Help/documentation