0% found this document useful (0 votes)

14 views10 pages

Distance Functions

The document outlines various distance metrics used in data analysis, including Cosine, Euclidean, Mahalanobis, Hellinger, Jaccard, Manhattan, Correlation, Dice, Hamming, and Chebyshev distances. Each metric is defined with its mathematical formula, terms explained, and specific use cases such as document similarity, clustering, and anomaly detection. The metrics vary in their approach, measuring angles, straight-line distances, correlations, and dissimilarities between vectors or sets.

Uploaded by

mailtoamar933

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views10 pages

Distance Functions

Uploaded by

mailtoamar933

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

Cosine Distance

Measures the angular difference between vectors, ignoring

their magnitude

x ·y
dcos(x, y ) = 1 −
∥x∥ · ∥y ∥

Terms Explained:
▶ x, y : Non-zero vectors in Rn
▶ x · y : Dot product
▶ ∥x∥, ∥y ∥: Euclidean norms
▶ Range: 0 (same direction) to 2 (opposite directions)

Use Cases:
Information Retrieval: Document similarity
Recommender Systems: User preference matching
@AIinMinutes
Euclidean Distance
Measures the straight-line distance between two vectors in
space; equal to the length of their difference vector

v
u n
uX
d(x, y ) = t (xi − yi )2 = ∥x − y ∥2
i=1

Terms Explained:
▶ x, y : Vectors in Rn
▶ xi − yi : Difference at dimension i
▶ ∥x − y ∥2 : L2 norm of the difference vector

Use Cases:
k-Nearest Neighbors: Finding similar data points
k-Means: Clusters data by minimizing intra-cluster
distances.
@AIinMinutes
Mahalanobis Distance
Measures distance while accounting for correlations among
features

q
d(x, y ) = (x − y )T Σ−1 (x − y )

Terms Explained:
▶ x, y : Vectors in Rn
▶ Σ−1 : Inverse covariance matrix
▶ Normalizes by feature covariances

Use Cases:
Outlier Detection: Accounts for feature correlations
Classification: Handles different feature scales and
correlations

@AIinMinutes
Hellinger Distance
Measures how different two probability distributions are

v
u n
1 uXp p
H(P, Q) = √ t ( Pi − Qi )2
2 i=1

Terms Explained:
▶ P, Q: Probability distributions
√
▶ Pi : Square root of probability at position i
▶ H(P, Q) ∈ [0, 1]: 0 = identical, 1 = no overlap

Use Cases:
Anomaly Detection: Identifies statistical deviations
Imbalance-aware Algorithms: Used in Hellinger Distance
Decision Trees for handling class imbalance.
@AIinMinutes
Jaccard Distance
Measures how different two sets are by comparing their
shared and unique elements

|X ∩ Y |
dJ (X , Y ) = 1 −
|X ∪ Y |

Terms Explained:
▶ X , Y : Two sets
▶ |X ∩ Y |: Size of intersection
▶ |X ∪ Y |: Size of union
▶ Range: 0 (identical) to 1 (disjoint)

Use Cases:
Document Similarity: Comparing text as word sets
Recommender Systems: Finding similar user preferences
@AIinMinutes
Manhattan Distance
Measures distance as the sum of absolute differences along
each axis

n
X
d(x, y ) = |xi − yi | = ∥x − y ∥1
i=1

Terms Explained:
▶ x, y : Vectors in Rn
▶ |xi − yi |: Absolute difference at dimension i
▶ ∥x − y ∥1 : L1 norm (taxicab norm)

Use Cases:
Grid Navigation: Calculating city block distances
Feature Selection: L1 Regularizer

@AIinMinutes
Correlation Distance
Measures dissimilarity based on how variables are
statistically related

cov(x, y )
dcorr (x, y ) = 1 − ρ(x, y ) = 1 −
σx σy

Terms Explained:
▶ x, y : Data vectors of equal length
▶ ρ(x, y ): Pearson correlation coefficient
▶ cov(x, y ): Covariance between x and y
▶ σx , σy : Standard deviations

Use Case:
Feature Agglomeration: Correlation Clustering

@AIinMinutes
Dice Distance/Loss
Measures set dissimilarity, placing greater emphasis on
shared elements than the Jaccard distance

2|X ∩ Y |
dD (X , Y ) = 1 −
|X | + |Y |

Terms Explained:
▶ X , Y : Two sets
▶ |X ∩ Y |: Size of intersection
▶ |X | + |Y |: Sum of set sizes
▶ Range: 0 (identical) to 1 (no overlap)

Use Cases:
Image Segmentation: Evaluates segmentation overlap in
image analysis; also as a loss function
@AIinMinutes
Hamming Distance
Counts the number of positions where two sequences differ

n
X
dH (x, y ) = I(xi ̸= yi )
i=1

Terms Explained:
▶ x, y : Equal-length sequences
▶ I(xi ̸= yi ): Indicator function (1 if xi ̸= yi , 0
otherwise)
▶ Counts positions where elements differ

Use Cases:
Error Detection: Hamming codes for transmission errors
Bioinformatics: Comparing DNA sequences
@AIinMinutes
Chebyshev Distance
Measures distance between vectors using the largest
absolute difference in any dimension

d∞ (x, y ) = max |xi − yi | = ∥x − y ∥∞

Terms Explained:
▶ x, y : Vectors in Rn
▶ maxi |xi − yi |: Maximum absolute difference
▶ ∥x − y ∥∞ : L∞ norm (chessboard distance)

Use Cases:
Anomaly Detection: Flags outliers based on the largest
deviation across features
Warehouse Optimization: Finding minimax distances

@AIinMinutes

Class Notes Unit 2 ML Material
No ratings yet
Class Notes Unit 2 ML Material
31 pages
Student's Solutions Manual and Supplementary Materials for Econometric Analysis of Cross Section and Panel Data, second edition
From Everand
Student's Solutions Manual and Supplementary Materials for Econometric Analysis of Cross Section and Panel Data, second edition
Jeffrey M. Wooldridge
No ratings yet
Lecture 3
No ratings yet
Lecture 3
58 pages
ML Unit 2
No ratings yet
ML Unit 2
24 pages
III Clustering
No ratings yet
III Clustering
87 pages
DS - Module 3
No ratings yet
DS - Module 3
65 pages
Distance and Similarity
No ratings yet
Distance and Similarity
33 pages
Measuring Data Similarity and Dissimilarity
No ratings yet
Measuring Data Similarity and Dissimilarity
20 pages
Lecture 4
No ratings yet
Lecture 4
33 pages
DMi 03-Proximity
No ratings yet
DMi 03-Proximity
51 pages
Distances Similarities
No ratings yet
Distances Similarities
39 pages
TE IT DMBI Module2 Data Preprocessing L8-L11
No ratings yet
TE IT DMBI Module2 Data Preprocessing L8-L11
73 pages
Week 3 - Similarity Distance Measures
No ratings yet
Week 3 - Similarity Distance Measures
42 pages
Data Mining and Predictive Modeling: Lecture 13: Measuring Data Similarity
No ratings yet
Data Mining and Predictive Modeling: Lecture 13: Measuring Data Similarity
19 pages
Introduction To Machine Learning: K-Nearest Neighbor Algorithm
No ratings yet
Introduction To Machine Learning: K-Nearest Neighbor Algorithm
25 pages
Showfile
No ratings yet
Showfile
130 pages
Distance Metrices
No ratings yet
Distance Metrices
3 pages
9 Distance Measures in Data Science
No ratings yet
9 Distance Measures in Data Science
9 pages
Clustering
No ratings yet
Clustering
15 pages
Distance and Similarity
No ratings yet
Distance and Similarity
33 pages
3 Unit PR NonParametric Decision Making
No ratings yet
3 Unit PR NonParametric Decision Making
78 pages
VectorApplicationsInDS
No ratings yet
VectorApplicationsInDS
31 pages
Class-Data Preprocessing-IV
No ratings yet
Class-Data Preprocessing-IV
28 pages
Class 1c - DataFundamentals
No ratings yet
Class 1c - DataFundamentals
27 pages
DM Lab 02
No ratings yet
DM Lab 02
12 pages
Lab 2
No ratings yet
Lab 2
21 pages
Similarity
No ratings yet
Similarity
20 pages
Distance and Similarity: Andre Salvaro Furtado
No ratings yet
Distance and Similarity: Andre Salvaro Furtado
56 pages
Week03 - 1 - KNN
No ratings yet
Week03 - 1 - KNN
32 pages
01 Basics 02knn 03
No ratings yet
01 Basics 02knn 03
9 pages
Assignment Physics 2025 - 2026 MCQ 033605
No ratings yet
Assignment Physics 2025 - 2026 MCQ 033605
11 pages
Lecture 7 - Distance Measures
No ratings yet
Lecture 7 - Distance Measures
38 pages
Similarity Analysis
No ratings yet
Similarity Analysis
85 pages
Distance Based Models
No ratings yet
Distance Based Models
58 pages
DMi 03 Proximity
No ratings yet
DMi 03 Proximity
9 pages
CS2209 Similarity Distances
No ratings yet
CS2209 Similarity Distances
23 pages
Similarty and Dissimilarity
No ratings yet
Similarty and Dissimilarity
11 pages
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
No ratings yet
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
30 pages
Data Science: Department of Computer Science & Engineering
No ratings yet
Data Science: Department of Computer Science & Engineering
31 pages
9 Distance Measures in Data Science - Towards Data Science
No ratings yet
9 Distance Measures in Data Science - Towards Data Science
14 pages
Lecture 2. Similarity Measures For Cluster Analysis
No ratings yet
Lecture 2. Similarity Measures For Cluster Analysis
31 pages
TM3 ch07 Clustering
No ratings yet
TM3 ch07 Clustering
47 pages
Similarity
No ratings yet
Similarity
19 pages
K Nearest Neighbour - Algorithm
No ratings yet
K Nearest Neighbour - Algorithm
29 pages
Distance Metrics in Machine Learning
No ratings yet
Distance Metrics in Machine Learning
2 pages
MOTION IN 1 D AND 2D
No ratings yet
MOTION IN 1 D AND 2D
58 pages
6145 Maths 1
100% (1)
6145 Maths 1
866 pages
Module 3 Lab 1
No ratings yet
Module 3 Lab 1
6 pages
Science 3 Quarter 4 Module 1-2 Projectile Motion
100% (4)
Science 3 Quarter 4 Module 1-2 Projectile Motion
20 pages
Dist
No ratings yet
Dist
14 pages
JR Phy Impshort Answer Questions
No ratings yet
JR Phy Impshort Answer Questions
1 page
Data Mining: Similarity and Distance Recommendation Systems Sketching, Locality Sensitive Hashing
No ratings yet
Data Mining: Similarity and Distance Recommendation Systems Sketching, Locality Sensitive Hashing
57 pages
Lesson 6 Similarities KNN
No ratings yet
Lesson 6 Similarities KNN
25 pages
Materi 7.1. Distance Measurement
No ratings yet
Materi 7.1. Distance Measurement
14 pages
Why Do You Need Apache Iceberg
No ratings yet
Why Do You Need Apache Iceberg
10 pages
ML Unit 2
No ratings yet
ML Unit 2
11 pages
Obtaining Statistical Properties Through Modeling and Simulation - Jack Vanlightly
No ratings yet
Obtaining Statistical Properties Through Modeling and Simulation - Jack Vanlightly
21 pages
Hasan Sayginel: Edexcel IAL Physics Unit 1
No ratings yet
Hasan Sayginel: Edexcel IAL Physics Unit 1
22 pages
Designing Distributed Systems Selecteive
No ratings yet
Designing Distributed Systems Selecteive
19 pages
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
26 pages
Gradient 5
No ratings yet
Gradient 5
8 pages
Similarity
No ratings yet
Similarity
20 pages
Sangharsh Assignment-02 Vector (Physics) MR Sir Mahaveer
No ratings yet
Sangharsh Assignment-02 Vector (Physics) MR Sir Mahaveer
5 pages
KNN Algorithm
No ratings yet
KNN Algorithm
10 pages
An Introduction To Symmetry in TLA+ - Jack Vanlightly
No ratings yet
An Introduction To Symmetry in TLA+ - Jack Vanlightly
15 pages
Pinot
No ratings yet
Pinot
12 pages
Distance Functions
No ratings yet
Distance Functions
7 pages
To Be Atomic or Non-Atomic, That Is The Question (Fizzbee) - Jack Vanlightly
No ratings yet
To Be Atomic or Non-Atomic, That Is The Question (Fizzbee) - Jack Vanlightly
14 pages
Sigra Manual A7 en PDF
No ratings yet
Sigra Manual A7 en PDF
124 pages
Similarity and Dissimilarity
No ratings yet
Similarity and Dissimilarity
34 pages
Kvs PGT Syllabus 1 31
No ratings yet
Kvs PGT Syllabus 1 31
43 pages
Lec09 466 PDF
No ratings yet
Lec09 466 PDF
5 pages
Data Mining: Similarity and Distance
No ratings yet
Data Mining: Similarity and Distance
6 pages
The Law of Large Numbers - A Foundation For Statistical Modeling in Distributed Systems - Jack Vanlightly
No ratings yet
The Law of Large Numbers - A Foundation For Statistical Modeling in Distributed Systems - Jack Vanlightly
9 pages
Table Format Interoperability, Future or Fantasy - Jack Vanlightly
No ratings yet
Table Format Interoperability, Future or Fantasy - Jack Vanlightly
9 pages
The Inventor Mentor
100% (1)
The Inventor Mentor
271 pages
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2
No ratings yet
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2
4 pages
Different Distances Used in K-NN
No ratings yet
Different Distances Used in K-NN
8 pages
Robust Analytic Design of Power-Synchronization Control
No ratings yet
Robust Analytic Design of Power-Synchronization Control
10 pages
87 Vector and Kinematics - Q
100% (1)
87 Vector and Kinematics - Q
5 pages
Wa0004 PDF
No ratings yet
Wa0004 PDF
193 pages
6 Syllabus
No ratings yet
6 Syllabus
16 pages
Kinematics (Theory) Final
No ratings yet
Kinematics (Theory) Final
35 pages
Worked Examples in Mathematics for Scientists and Engineers
From Everand
Worked Examples in Mathematics for Scientists and Engineers
G. Stephenson
No ratings yet
Unit I Engineering Mechanics - Statics
No ratings yet
Unit I Engineering Mechanics - Statics
17 pages
NCERT Solutions Class 12 Maths Chapter 10 Vector Algebra
No ratings yet
NCERT Solutions Class 12 Maths Chapter 10 Vector Algebra
27 pages
2023 Winter Outline ECOR 1045 v1
No ratings yet
2023 Winter Outline ECOR 1045 v1
6 pages
Notes On Rotations, Orientation Errors and Robot Kinematics
No ratings yet
Notes On Rotations, Orientation Errors and Robot Kinematics
47 pages
Example of Vector
No ratings yet
Example of Vector
13 pages
GLB GLBB
No ratings yet
GLB GLBB
41 pages
Vector Calculus
No ratings yet
Vector Calculus
15 pages
Misconceptions About Gyroscopic Stabilization
No ratings yet
Misconceptions About Gyroscopic Stabilization
8 pages
Question Bank in Statics Topic:: Moments & Couple in 3D
No ratings yet
Question Bank in Statics Topic:: Moments & Couple in 3D
11 pages
Presentation On Del Operator and Its Applications
100% (1)
Presentation On Del Operator and Its Applications
16 pages
Hydrostatic Forces On Submerged Curved Surfaces
No ratings yet
Hydrostatic Forces On Submerged Curved Surfaces
2 pages
Lect2 - Fuzzy Set
No ratings yet
Lect2 - Fuzzy Set
40 pages
Q1: Circle The Correct Option
No ratings yet
Q1: Circle The Correct Option
2 pages
Motion in A Plane PDF
No ratings yet
Motion in A Plane PDF
18 pages
OpenFOAM Numerical Schemes
No ratings yet
OpenFOAM Numerical Schemes
9 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Distance Functions

Uploaded by

Distance Functions

Uploaded by

Cosine Distance

Measures the angular difference between vectors, ignoring

d∞ (x, y ) = max |xi − yi | = ∥x − y ∥∞

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.