Dice Coefficient and IoU
·
Programming/ML
Dice coefficient (or dice score)와 IoU는 대표적인 Set based Similarity 임.Dice CoefficientSegmentation의 결과를 측정하는데 사용되는 metric. (harmonic mean에 해당: binary segmentation의 경우, 사실상, F1 score임.) $$ \begin{aligned}\text{Dice Coef.}&=\frac{2\text{Intersection}}{\text{Union+Intersection}}\\&=\dfrac{2(S_g \cap S_p)}{|S_g|+|S_p|}\\&=\frac{2TP}{(TP+FN)+(TP+FP)}\\&=\frac{2}{\frac{(TP+FN)}{TP}+\frac{(TP+FP)}{T}}\\&=..
Similarity Metrics
·
Programming/ML
1. 거리 기반 (Distance-based) SimilarityEuclidean distance (L2) : $|x-y|_2$, 가장 일반적인 거리 척도.Manhattan distance (L1) : $|x-y|_1$, 절댓값 합. 희소 데이터에 강건.Minkowski distance : Lp 일반화. $p=1 → L1$, $p=2 → L2$.Mahalanobis distance : $\sqrt{(x-y)^T \Sigma^{-1} (x-y)}$, 공분산 구조를 반영 → scale-invariant.2024.10.02 - [Programming/ML] - [ML] Minkowski Distance (L-p Norm) [ML] Minkowski Distance (L-p Norm)Minkowski 거리는L-..
[ML] Tensor: Scalar, Vector, Matrix.
·
Programming/ML
Tensor 종류1. Scalar (0차원 tensor)하나의 숫자로 표현되는 가장 기본적인 형태.크기(magnitude)만을 가지며 방향은 없음.예시: 온도(25°C), 나이(20), 가격(1000원)# 파이썬/NumPy에서의 표현scalar = 5.02. Vector (1차원 tensor)숫자들의 순서가 있는 array(배열): Numbers' ordered list.Magnitude(크기)와 Direction(방향)을 모두 가짐.선형대수에서는 공간 상의 한 점 또는 방향을 나타내는 화살표로 해석: Vector Space의 element!기계학습 및 딥러닝에서는 데이터 instance(=single sample)의 특성(feature)들을 담는 container로 사용되어 하나의 instance를 표..
[ML] Nearest Neighbor Search: k-d Tree
·
Programming/ML
1. 소개1975년 Nearest Neighbor Search를 위해Binary Search Tree (BST)의 개념을 활용하여k-diemensional vector space에서 동작하도록Bently가 제안한 알고리즘.Lowe와 Muja가 2014년 제안한 FLANN 에서는보다 개선된 Multiple k-d Tree가 제안되었고,이 Multiple k-d Tree가 openCV에서 matching에서 가장 많아 사용되는 방법 중 하나임.https://github.com/flann-lib/flann GitHub - flann-lib/flann: Fast Library for Approximate Nearest NeighborsFast Library for Approximate Nearest Neighb..
[ML] Feature Importances for Decision Tree
·
Programming/ML
이 문서는 Feature Importance를  Decision Tree에서 Gini Impurity Measure를 이용하여 계산하는 예제를 보여줌.Tree 예시 (depth = 3) [Root] (X1) [5:5] / \ Node1 Node2 (X2) (X3) [4:1] [1:4] / \ / \Leaf1 Leaf2 Leaf3 Leaf4[3:0] [1:1] [0:2] [1:2]Root 노드는 X1을 사용해 데이터를 분할.Node1은 X2를 사용해 데이터를 다시 분할.Node2는 X3을 사용해 데이터를 다시 분할.단계 1: Gini impurity measure ..
[ML] Regularization
·
Programming/ML
Regularization 이란?기계 학습과 딥러닝에서 Regularization은 모델이 overfitting(과적합)되지 않도록 도와주는 기법을 의미함.Overfitting(과적합)은 모델이 훈련 데이터에 너무 잘 맞아 새로운 데이터에 대해 일반화(generalization)가 잘되지 않는 상황을 의미함.Regularization을 통해 모델의 Degree of Freedom(자유도), 즉 모델이 표현할 수 있는 복잡성을 제어해 일반화 성능을 높일 수 있음.주요 Regularization 기법들1. L1 및 L2 RegularizationL1 Regularization: 가중치 값의 절댓값 합을 손실 함수에 추가하는 방식임. 모델의 일부 가중치가 0이 되게 만들어 희소성(sparsity)을 증가시키는..