[ML] BFGS, L-BFGS, L-BFGS-B : Quasi-Newton method
·
Programming/ML
[BFGS]BFGS(Broyden-Fletcher-Goldfarb-Shanno algorithm)는 대표적인 Quasi-Newton method(준-뉴턴 방법) 중 하나임. 더보기BFGS는 1970년에 4명의 연구자가 독립적으로 서로 다른 방식의 접근을 통해 동일한 업데이트식을 도출해 낸 걸로 유명한 알고리즘.이들 4명의 연구자들의 이름을 따서 BFGS 가 됨. 당시 널리 사용되던 DFP(Davidon-Fletcher-Powell) 방법의 단점을 보완하기 위해 개발됨.현재는 unconstrained optimization 문제에서 가장 효율적이고 널리 쓰이는 표준 알고리즘임. C. G. Broyden: "The convergence of a class of double rank minimization a..
Linear Regression (Summary)
·
Programming/ML
0. Linear Regression 분류Linear Regression ├── 1. Error model 기준 │ ├── OLS 계열 │ │ ├── X: fixed or error-free │ │ ├── y: noise 있음 │ │ └── $\text{Var}(\varepsilon) = \sigma^2\mathbf{I}$│ │ │ ├── WLS 계열 │ │ ├── X: fixed or error-free │ │ ├── y: n..
Bootstrap Sampling 기반 Accuracy 추정 지표
·
Programming/ML
0. 왜 Bootstrap Accuracy Estimation이 필요한가모델 성능 평가의 이상적인 방법은 독립적인 test set을 사용하는 것임.하지만 데이터가 부족한 경우, 충분한 test set을 확보하기 어려움.Bootstrap accuracy estimation은 복원 추출(sampling with replacement) 을 반복하여 하나의 dataset으로 훈련과 평가를 동시에 수행하는 방법으로, 단일 train/test split 대비 분산(variance)을 줄인 보다 안정적인 성능 추정 이 가능2024.06.05 - [.../Math] - [ML] Bootstrap Sampling [ML] Bootstrap SamplingBootstrap Sampling을 이해하고 활용하기Bootstra..
XAI: Coefficient, Feature importance, and SHAP
·
Programming/ML
XAI는 eXplainable AI의 약어로,AI 모델이 왜 이같은 예측(결과)을 내어놓았는지를 설명하는 기술을 가리킴. 이 글은 XAI에서 사용되는 도구들인coefficient,feature importanceSHAP를 비교 설명함.사실 SHAP를 설명하기 위한 글로,통계분석이나 classic ML의 사용자들에게 익숙한 coefficient와 feautre importance를 통해SHAP의 특징을 설명하는 글임.coefficientcoefficient는 변수에 곱해지는 상수를 가리키는 용어로,ML에선 다음을 의미함:보통 선형모델(linear model), 예를 들어Linear Regression이나Logistic Regression에서변수에 곱해지는 계수를 가리킴 (parameter, weight)...
ULMFit : Transfer Learning for NLP
·
Programming/ML
위 그림의 원본은 https://www.researchgate.net/figure/Examples-of-three-stages-of-ULMFiT-training-a-training-on-general-domain-information_fig2_384502200 임. Averaged Stochastic Gradient Descent Weight-Dropped 3-Layer LSTM (AWD 3-Layer LSTM) 의 구조를 사용.상단의 learning rate에 대한 그래프들이 좌/우로 있는데,왼쪽은 layerindex $l$이 증가(upstream layer)할수록 학습률이 큼(Discrimitive Learning Rate)을 의미하고오른쪽은 학습이 진행($t$가 증가)될수록 학습률이 초기엔 증가하다..
Overfitting (과적합)
·
Programming/ML
Overfit이란ML에서 모델이 주어진 훈련데이터에 너무 과하게 적응(adapt) 하여Training dataset에서는 매우 좋은 성능을 보이지만,Unseen data (= validation/test set)에서는 성능이 급격히 떨어지는 현상 을 의미함.Model이 Training dataset에 지나치게 맞추어져서 generalization performance가 떨어지는 경우임.Bias–Variance 관점Overfit의 경우,Training dataset에서는 performance measure가 매우 좋기 때문에 bias가 매우 낮고,대신 variance가 매우 커지는 특징을 보임.즉,bias 낮음 = training 성능은 좋다variance 높음 = 데이터 샘플이 조금만 바뀌어도 예측 결과..