Lasso Regression
·
Programming/ML
명칭의 유래LASSO: Least Absolute Shrinkage and Selection Operator 의 약자이름에서 알 수 있듯이,절대값(absolute value) 기반의shrinkage(축소)와feature selection(특성 선택)을 동시에 수행하는 회귀 기법“Shrinkage”는 weight의 크기를 줄이는 정칙화 효과, “Selection”은 일부 weight를 정확히 0으로 만들어 feature를 제거하는 효과를 의미함역사Tibshirani (1996) 에 의해 제안됨Ridge Regression이 모든 weight를 균일하게 줄이는 것과 달리, Lasso는 일부 weight를 0으로 만들어 희소성(sparsity) 을 유도주로 convex optimization 에서 자주 사용됨..
Ridge Regression
·
Programming/ML
명칭의 유래Ridge: "산등성이" 또는 "융기"를 의미하는 영어 단어L2-Regularization Term 추가 시 loss function의 contour가 융기된 형태로 변형되는 데에서 유래됨.역사적 배경Tikhonov regularization (1963)과 수학적으로 동일개발 시기:1963년: Andrey Tikhonov가 ill-posed 문제 해결용 정규화 방법 개발1970년: Hoerl과 Kennard가 통계학 맥락에서 독립적으로 재발견분야별 명칭:수치해석: Tikhonov regularization통계학/머신러닝: Ridge regression더보기2022.12.02 - [.../Math] - [Math] ill-posed, well-posed, ill-conditioned, well-..
Subgradient 와 Gradient Descent
·
Programming/ML
Prerequistes모델 학습의 목표는손실 함수 $L(\boldsymbol{\omega}, \textbf{X})$를 최소화하는파라미터 $\boldsymbol{\omega}$를 찾는 것임.이때 가장 기본적인 최적화 방법은 Gradient Descent(경사 하강법)임:$$\boxed{\boldsymbol{\omega}_{t+1} = \boldsymbol{\omega}_t - \eta \nabla_{\boldsymbol{\omega}} L(\boldsymbol{\omega}_t, \textbf{X})}$$where,$\boldsymbol{\omega}_t$: $t$번째 스텝의 파라미터$\eta > 0$: 학습률(learning rate)$\nabla_{\boldsymbol{\omega}} L(\boldsy..
Bias-Variance Tradeoff
·
Programming/ML
Supervised Learning의 궁극적인 목표학습에 사용된 데이터 뿐만 아니라,한 번도 보지 못한 새로운 데이터에 대해서도 정확한 예측을 수행하는 능력, 즉일반화 성능(generalization performance)을 높이는 것임.모델이 예측한 값과 실제 값 사이의 차이, 즉 예측 오류는 단 하나의 원인으로 발생하지 않으며, 이 오류는 세 가지 주요 구성 요소로 분해될 수 있음:Bias (편향)Variance (분산)Irreducible Error (줄일 수 없는 오류)이 글은이 세 가지 오류에 대한 설명을 하고이들 중 Bias와 Variance가 모델의 복잡도를 축으로 할 때, trade-off (상충관계)를 갖는 이유를 소개함.1. 예측 오류의 세 가지 구성 요소예측 오류를 구성하는 세 가지 ..
Dice Coefficient and IoU
·
Programming/ML
Dice coefficient (or dice score)와 IoU는 대표적인 Set based Similarity 임.Dice CoefficientSegmentation의 결과를 측정하는데 사용되는 metric. (harmonic mean에 해당: binary segmentation의 경우, 사실상, F1 score임.) $$ \begin{aligned}\text{Dice Coef.}&=\frac{2\text{Intersection}}{\text{Union+Intersection}}\\&=\dfrac{2(S_g \cap S_p)}{|S_g|+|S_p|}\\&=\frac{2TP}{(TP+FN)+(TP+FP)}\\&=\frac{2}{\frac{(TP+FN)}{TP}+\frac{(TP+FP)}{T}}\\&=..
Similarity Metrics
·
Programming/ML
1. 거리 기반 (Distance-based) SimilarityEuclidean distance (L2) : $|x-y|_2$, 가장 일반적인 거리 척도.Manhattan distance (L1) : $|x-y|_1$, 절댓값 합. 희소 데이터에 강건.Minkowski distance : Lp 일반화. $p=1 → L1$, $p=2 → L2$.Mahalanobis distance : $\sqrt{(x-y)^T \Sigma^{-1} (x-y)}$, 공분산 구조를 반영 → scale-invariant.2024.10.02 - [Programming/ML] - [ML] Minkowski Distance (L-p Norm) [ML] Minkowski Distance (L-p Norm)Minkowski 거리는L-..