Un outil open-source pour faire du data-profiling sur votre datalake (validation de schéma, statistiques de base...) Approche vraiment intéressante, car c'est fait en dehors du pipeline de données. Les outils utilisés sont aussi intéressants : Spark, Datadog, et surtout Jupyter + papermill pour piloter ça (solution dont je suis de plus en plus fan même si je n'ai jamais testé encore)