본문 바로가기
Drawing (AI)/Mathematics for Machine Learning

마할라노비스 거리

by 생각하는 이상훈 2024. 7. 19.
728x90

Mahalanobis Distance

마할라노비스 거리는 통계와 Machine Learning에서 중요한 측정 방법으로, 서로 다른 데이터 포인트 간의 관계를 이해하는 데 필수적입니다. 이 거리 측정법은 인도의 통계학자 프라산타 찬드라 마할라노비스(Prasanta Chandra Mahalanobis)의 이름을 땄습니다. 마할라노비스 거리는 포인트 간의 거리가 아닌, 포인트와 분포 간의 거리를 측정하는 방법을 제공하며, 다양한 응용 분야에서 매우 유용합니다.

마할라노비스 거리는 포인트와 분포 간의 거리를 측정하는 방법입니다. 유클리드 거리(Euclidean distance)가 공간 내 두 점 간의 직선 거리를 측정하는 반면, 마할라노비스 거리는 변수들 간의 상관관계를 고려합니다. 이는 각 변수의 분산과 공분산을 반영하여 계산되므로, 데이터의 분포에 따른 이상치를 더 정확하게 식별할 수 있습니다.


연산

만약 두 벡터만의 거리만 고려한다면 아래와 같이 단순한 내적으로 계산할 수 있다.

그리고 이 방식이 유클리드 거리이다.

 

그러나 아래와 같이 주변의 데이터들도 고려해야한다면 상황이 조금 달라진다.

위 그림에서 (a)는 파란색 데이터의 분포에서 상당히 떨어진 점들임을 알 수 있다. 반면에 (b)는 파란색 데이터의 분포에서 비교적 덜 벗어난 위치에 있다. 즉, 다른 데이터들의 분포를 고려하면, (a)에 있는 두 벡터 x와 y 간의 거리가 (b)에 있는 두 벡터 간의 거리보다 더 멀다고 볼 수 있다. 여기서 맥락을수학적으로 표현하면 표준편차이다. 만약 데이터의 분포가 정규분포를 따른다고 가정한다면, 정규분포의 표준편차 특성을 이용해 다음과 같이 말할 수 있다. 중심으로부터 1, 2, 3 표준편차만큼 떨어진 지점에 각각 68%, 95%, 99.7%의 데이터가 위치하게 된다. 이는 데이터가 평균으로부터 얼마나 떨어져 있는지를 표준편차로 측정할 수 있음을 의미한다. 따라서 (a)에 있는 두 벡터 x와 y는 평균으로부터 훨씬 멀리 떨어져 있어 표준편차가 큰 반면, (b)에 있는 두 벡터는 평균에 더 가까워 표준편차가 작다고 할 수 있다.

표준편차를 기준으로 등고선을 그리면 아래와 같이 된다.

따라서 맥락을 고려하면 왼쪽 분포의 노란지점의 데이터와 중심간의 거리와 오른쪽 분포의 노란지점의 데이터와 중심간의 거리는 같다는 것이다. 그러한 개념을 반영한 식이 아래와 같고 그것이 마할라노비스 거리이다.

Text-Image Model의 alignment 연구를 하다가 필요한 기본 지식이라고 생각되어 아래 블로그를 참고하여 정리하였다.

https://angeloyeo.github.io/2022/09/28/Mahalanobis_distance.html


 

728x90