Bartosz Mikulski

Parfois, nous voulons mesurer à quel point les choses sont similaires les unes aux autres ou à quel point elles sont différentes. Cela n’arrive pas seulement lorsque nous utilisons des algorithmes comme la classification k-NN ou le clustering.

Lorsque nous mesurons les performances de tout autre algorithme d’apprentissage automatique ou réseau de neurones qui renvoie une valeur complexe qui peut être « partiellement correcte. »Dans ces cas, nous voulons savoir à quel point le résultat est proche de la bonne réponse.

Dans cet article, je vais vous expliquer quelques mesures de distance. Tout d’abord, je vais commencer par des métriques basées sur la distance de Minkowski car nous les comprenons tous intuitivement. Dans les prochains articles, je vais également vous montrer comment mesurer la « distance » entre les ensembles de valeurs et la distance entre les séquences.

Distance de Minkowski

Lorsque nous pensons à la distance, nous imaginons généralement les distances entre les villes. C’est la compréhension la plus intuitive du concept de distance.Heureusement, cet exemple est parfait pour expliquer les contraintes des distances de Minkowski.

Espace vectoriel normé

Nous ne pouvons calculer la distance de Minkowski que dans un espace vectoriel normé, ce qui est une façon élégante de dire: « dans un espace où les distances peuvent être représentées comme un vecteur qui a une longueur. »

Commençons par prouver qu’une carte est un espace vectoriel.Si nous prenons une carte, nous voyons que les distances entre les villes sont des espaces vectoriels normés car nous pouvons dessiner un vecteur qui relie deux villes sur la carte. Nous pouvons combiner plusieurs vecteurs pour créer un itinéraire qui relie plus de deux villes.Maintenant, l’adjectif « normé. »Cela signifie que le vecteur a sa longueur et qu’aucun vecteur n’a de longueur négative. Cette contrainte est également respectée car si nous traçons une ligne entre les villes sur la carte, nous pouvons mesurer sa longueur.

Distance de Minkowski – exigences

  1. Le vecteur zéro, 0, a une longueur nulle; tous les autres vecteurs ont une longueur positive.Si nous regardons une carte, c’est évident. La distance entre une ville et la même ville est nulle car nous n’avons pas du tout besoin de voyager. La distance entre une ville et une autre ville est positive car nous ne pouvons pas parcourir -20 km.

  2. Multiplier un vecteur par un nombre positif change sa longueur sans changer sa directionnous avons parcouru 50 km au nord. Si nous parcourons 50 km de plus dans la même direction, nous nous retrouverons à 100 km au nord. La direction ne change pas. Facile, n’est-ce pas?

  3. La distance la plus courte entre deux points quelconques est une ligne droite (c’est ce qu’on appelle l’inégalité triangulaire).Je crois que c’est explicite.

Types de distance de Minkowski

Il n’y a qu’une seule équation pour la distance de Minkowski, mais nous pouvons la paramétrer pour obtenir des résultats légèrement différents.

\

Distance de Manhattan

C’est la somme des différences absolues de toutes les coordonnées. C’est une mesure de distance parfaite pour notre exemple. Lorsque nous pouvons utiliser une carte d’une ville, nous pouvons donner une direction en disant aux gens qu’ils doivent marcher / conduire deux pâtés de maisons vers le nord, puis tourner à gauche et parcourir trois autres pâtés de maisons. Au total, ils parcourront cinq pâtés de maisons, c’est-à-dire la distance de Manhattan entre le point de départ et leur destination.

\

Distance euclidienne

Si nous regardons à nouveau l’exemple de bloc de ville utilisé pour expliquer la distance de Manhattan, nous voyons que le chemin parcouru est constitué de deux lignes droites. Lorsque nous tracons une autre ligne droite qui relie le point de départ et la destination, nous nous retrouvons avec un triangle. Dans ce cas, la distance entre les points peut être calculée en utilisant le théorème de Pythagore.

\

Distance de Tchebychev

C’est le cas extrême de la distance de Minkowski. Lorsque nous utilisons l’infini comme valeur du paramètre p, nous nous retrouvons avec une métrique qui définit la distance comme la différence absolue maximale entre les coordonnées:

\

Je me suis demandé comment elle était utilisée dans la pratique et j’ai trouvé un exemple. Dans un entrepôt, la distance entre les emplacements peut être représentée par la distance de Tchebychev si un pont roulant est utilisé car le pont roulant se déplace sur les deux axes en même temps avec la même vitesse.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.