LSH : Plus proches voisins approximatifs
Un nouvel algorithme décrit pour comparer les distances entre mots ou documents (à mettre enn parallèle avec la distance de Levenshtein pour ceux qui connaissent). En plus d'avoir l'air de donner de bons résultats, il est extrêmement scalable du fait de sa complexité linéaire. Ce qui est très intéressant dans le domaine du big data.
J'y vois plusieurs utilisations : indexation plus poussée (même si je n'ai pas l'impression qu'elasticsearch l'implémente encore), recherche avancée, rapprochement de jeux de données (je sais pas si y en a déjà qui ont bossé sur des **** de noms de ville par exemple, mais perso, j'ai tout eu : avec et san tiret, avec et sans abréviation, etc...), nettoyage de données...
Fri Nov 6 11:34:21 2015 - permalink -
-
http://www.bluedme.com/lsh/