Similarity Metrics
·
Programming/ML
1. 거리 기반 (Distance-based) SimilarityEuclidean distance (L2) : $|x-y|_2$, 가장 일반적인 거리 척도.Manhattan distance (L1) : $|x-y|_1$, 절댓값 합. 희소 데이터에 강건.Minkowski distance : Lp 일반화. $p=1 → L1$, $p=2 → L2$.Mahalanobis distance : $\sqrt{(x-y)^T \Sigma^{-1} (x-y)}$, 공분산 구조를 반영 → scale-invariant.2024.10.02 - [Programming/ML] - [ML] Minkowski Distance (L-p Norm) [ML] Minkowski Distance (L-p Norm)Minkowski 거리는L-..
[ML] Tensor: Scalar, Vector, Matrix.
·
Programming/ML
Tensor 종류1. Scalar (0차원 tensor)하나의 숫자로 표현되는 가장 기본적인 형태.크기(magnitude)만을 가지며 방향은 없음.예시: 온도(25°C), 나이(20), 가격(1000원)# 파이썬/NumPy에서의 표현scalar = 5.02. Vector (1차원 tensor)숫자들의 순서가 있는 array(배열): Numbers' ordered list.Magnitude(크기)와 Direction(방향)을 모두 가짐.image에서는 한 pixel의 RGB값 또는 HSV값을 1-4개의 요소로 구성된 vector로 표현.선형대수에서는 다차원 공간 상의 한 점 또는 방향을 나타내는 화살표로 해석: Vector Space의 element!기계학습 및 딥러닝에서는 데이터 instance(=sin..
[ML] Nearest Neighbor Search: k-d Tree
·
Programming/ML
1. 소개1975년 Nearest Neighbor Search를 위해Binary Search Tree (BST)의 개념을 활용하여k-diemensional vector space에서 동작하도록Bently가 제안한 알고리즘.Lowe와 Muja가 2014년 제안한 FLANN 에서는보다 개선된 Multiple k-d Tree가 제안되었고,이 Multiple k-d Tree가 openCV에서 matching에서 가장 많아 사용되는 방법 중 하나임.https://github.com/flann-lib/flann GitHub - flann-lib/flann: Fast Library for Approximate Nearest NeighborsFast Library for Approximate Nearest Neighb..
[ML] Feature Importances for Decision Tree
·
Programming/ML
이 문서는 Feature Importance를 Decision Tree에서 Gini Impurity Measure를 이용하여 계산하는 예제를 보여줌.Tree 예시 (depth = 3) [Root] (X1) [5:5] / \ Node1 Node2 (X2) (X3) [4:1] [1:4] / \ / \Leaf1 Leaf2 Leaf3 Leaf4[3:0] [1:1] [0:2] [1:2]Root 노드는 X1을 사용해 데이터를 분할.Node1은 X2를 사용해 데이터를 다시 분할.Node2는 X3을 사용해 데이터를 다시 분할.단계 1: Gini impurity measure ..
[ML] Regularization
·
Programming/ML
Regularization 이란?기계 학습과 딥러닝에서 Regularization은 모델이 overfitting(과적합)되지 않도록 도와주는 기법을 의미함.Overfitting(과적합)은 모델이 훈련 데이터에 너무 잘 맞아 새로운 데이터에 대해 일반화(generalization)가 잘되지 않는 상황을 의미함.Regularization을 통해 모델의 Degree of Freedom(자유도), 즉 모델이 표현할 수 있는 복잡성을 제어해 일반화 성능을 높일 수 있음.주요 Regularization 기법들1. L1 및 L2 RegularizationL1 Regularization: 가중치 값의 절댓값 합을 손실 함수에 추가하는 방식임. 모델의 일부 가중치가 0이 되게 만들어 희소성(sparsity)을 증가시키는..
[ML] Linear Classification Model: Hyperplane and Decision Boundary
·
Programming/ML
1. Hyperplane과 Decision Boundary (결정 경계)의 기본 개념1-1. Hyperplane의 정의n차원 공간을 (n-1)차원으로 나누는 부분공간1차원: 점2차원: 직선 (1차원)3차원: 평면 (2차원)n차원: (n-1)차원의 평면 더보기2022.05.19 - [.../Math] - [Math] Plane Equation : 평면의 방정식 [Math] Plane Equation : 평면의 방정식Plane EquationPlane Equation은 다음과 같음.$$\textbf{n}^\top\textbf{r}_\text{plane}+b_\text{bias}=0$$where$\textbf{n}$ : normal vector to a plane.$\textbf{r}_{\text{plane}..