similarity

    [ML] Cosine Similarity

    ML에서 주로 다루는 데이터는 바로 vector이다. (matrix도 vector들이 결합하여 이루어진 것이라고 생각할 수 있음.) Cosine Similarity는 두 vector가 얼마나 유사한지(similar)를 측정하기 위한 metric 중 하나로서, vector가 가지는 magnitude와 direction 두가지 특성 중에서 direction을 이용한다. 두 vector의 사이각 을 이용하여 similarity를 측정. 공식 공식은 다음과 같음. $$\text{cosine_similarity}=\cos \theta = \frac{\textbf{x}\cdot\textbf{y}}{\|\textbf{x}\|_2\|\textbf{y}\|_2}$$ \(\cdot\) : inner product (내적,..

    [ML] Levenshtein distance

    string(문자열) 간의 차이를 측정하기 위한 measure임. 한 문자열이 다른 문자열로 변환되기 위해 필요한 최소한의 연산의 수를 나타냄. 여기서의 연산이란 다음 3가지로 구성됨. insertion (추가) deletion (삭제) substitution (치환) 참고로, Levenshtein distance는 symmetric을 성립하지 않아서 엄밀한 의미의 metric (or distance function)은 아님. Levenshtein distance의 경우, 길이가 다른 string간의 차이도 측정하지만, 같은 길이의 string만으로 한정할 경우엔 Hamming distance가 보다 편함 Hamming Distance : https://dsaint31.me/mkdocs_site/DIP/..