XAI: Coefficient, Feature importance, and SHAP
·
Programming/ML
XAI는 eXplainable AI의 약어로,AI 모델이 왜 이같은 예측(결과)을 내어놓았는지를 설명하는 기술을 가리킴. 이 글은 XAI에서 사용되는 도구들인coefficient,feature importanceSHAP를 비교 설명함.사실 SHAP를 설명하기 위한 글로,통계분석이나 classic ML의 사용자들에게 익숙한 coefficient와 feautre importance를 통해SHAP의 특징을 설명하는 글임.coefficientcoefficient는 변수에 곱해지는 상수를 가리키는 용어로,ML에선 다음을 의미함:보통 선형모델(linear model), 예를 들어Linear Regression이나Logistic Regression에서변수에 곱해지는 계수를 가리킴 (parameter, weight)...
ULMFit : Transfer Learning for NLP
·
Programming/ML
위 그림의 원본은 https://www.researchgate.net/figure/Examples-of-three-stages-of-ULMFiT-training-a-training-on-general-domain-information_fig2_384502200 임. Averaged Stochastic Gradient Descent Weight-Dropped 3-Layer LSTM (AWD 3-Layer LSTM) 의 구조를 사용.상단의 learning rate에 대한 그래프들이 좌/우로 있는데,왼쪽은 layerindex $l$이 증가(upstream layer)할수록 학습률이 큼(Discrimitive Learning Rate)을 의미하고오른쪽은 학습이 진행($t$가 증가)될수록 학습률이 초기엔 증가하다..
Overfitting (과적합)
·
Programming/ML
Overfit이란ML에서 모델이 주어진 훈련데이터에 너무 과하게 적응(adapt) 하여Training dataset에서는 매우 좋은 성능을 보이지만,Unseen data (= validation/test set)에서는 성능이 급격히 떨어지는 현상 을 의미함.Model이 Training dataset에 지나치게 맞추어져서 generalization performance가 떨어지는 경우임.Bias–Variance 관점Overfit의 경우,Training dataset에서는 performance measure가 매우 좋기 때문에 bias가 매우 낮고,대신 variance가 매우 커지는 특징을 보임.즉,bias 낮음 = training 성능은 좋다variance 높음 = 데이터 샘플이 조금만 바뀌어도 예측 결과..
Lasso Regression
·
Programming/ML
명칭의 유래LASSO: Least Absolute Shrinkage and Selection Operator 의 약자이름에서 알 수 있듯이,절대값(absolute value) 기반의shrinkage(축소)와feature selection(특성 선택)을 동시에 수행하는 회귀 기법“Shrinkage”는 weight의 크기를 줄이는 정칙화 효과,“Selection”은 일부 weight를 정확히 0으로 만들어 feature를 제거하는 효과를 의미함역사Tibshirani (1996) 에 의해 제안됨Ridge Regression이 모든 weight를 균일하게 줄이는 것과 달리, Lasso는 일부 weight를 0으로 만들어 희소성(sparsity) 을 유도주로 convex optimization 에서 자주 사용됨...
Ridge Regression
·
Programming/ML
명칭의 유래Ridge: "산등성이" 또는 "융기"를 의미하는 영어 단어L2-Regularization Term 추가 시 loss function의 contour가 융기된 형태로 변형되는 데에서 유래됨.역사적 배경Tikhonov regularization (1963)과 수학적으로 동일개발 시기:1963년: Andrey Tikhonov가 ill-posed 문제 해결용 regularization(정규화로도 번역되나 개인적으론 정칙화를 선호) 방법 개발1970년: Hoerl과 Kennard가 통계학 맥락에서 독립적으로 재발견분야별 명칭:수치해석: Tikhonov regularization통계학/머신러닝: Ridge regression더보기2022.12.02 - [.../Math] - [Math] ill-pose..
Subgradient 와 Gradient Descent
·
Programming/ML
Prerequistes모델 학습의 목표는손실 함수 $L(\boldsymbol{\omega}, \textbf{X})$를 최소화하는파라미터 $\boldsymbol{\omega}$를 찾는 것임.이때 가장 기본적인 최적화 방법은 Gradient Descent(경사 하강법)임:$$\boxed{\boldsymbol{\omega}_{t+1} = \boldsymbol{\omega}_t - \eta \nabla_{\boldsymbol{\omega}} L(\boldsymbol{\omega}_t, \textbf{X})}$$where,$\boldsymbol{\omega}_t$: $t$번째 스텝의 파라미터$\eta > 0$: 학습률(learning rate)$\nabla_{\boldsymbol{\omega}} L(\boldsy..