[ML] Underfit

728x90

Underfit이란

ML 모델이 주어진 훈련데이터를 제대로 학습하지 못하여

Training dataset에서도 나쁜 performance를 보이는 경우를 가르킴.

Underfit의 경우 훈련데이터에서도 performance measure의 결과가 매우 나쁘게 나오기 때문에

훈련데이터에서 bias가 매우 크고, 대신 모델의 variance는 작은 특징을 보임.

bais 높다 = performance 가 나쁘다
variance가 낮은 이유는, 워낙 performance가 나쁘기 때문에 어떤 dataset에서도 일관되게 낮은 performance를 보이기때문임.

Bias-Variance Tradeoff

Supervised Learning의 궁극적인 목표학습에 사용된 데이터 뿐만 아니라,한 번도 보지 못한 새로운 데이터에 대해서도 정확한 예측을 수행하는 능력, 즉일반화 성능(generalization performance)을 높이는 것

dsaint31.tistory.com

다음 그림은 non-linear한 task를 linear model로 접근하여 under-fitting이 발생한 경우를 나타냄.

이를 해결하기 위한 방법은 간단히 말하면 다음과 같음.

보다 복잡한 (~강력한) 모델 또는 현재 task에 적합한 가설에 기반한 모델을 사용한다.
- 만약 현재 모델에 regularization이 가해져있는 경우라면, 해당 constraints를 약하게하거나 아예 제거한다.
Task와 관련된 features를 추가하거나, 현재의 데이터에 feature engineering 을 수행하여, representative dataset을 확보한다.
- underfit의 경우, 현재 Data에서 양(qunatity)만을 증가시킨다고 해결되지 않음에 유의.
- feature selection 또는 feature extraction등의 feature engineering을 수행하여 현재의 모델이 보다 쉽게 data 내부의 특성을 잘 학습하도록 하던지,
- Task와 관련된 feature (Task를 수행하는데 필요한 feature)를 추가해주어야 함.

Overfitting (과적합)

Overfit이란ML에서 모델이 주어진 훈련데이터에 너무 과하게 적응(adapt) 하여Training dataset에서는 매우 좋은 성능을 보이지만,Unseen data (= validation/test set)에서는 성능이 급격히 떨어지는 현상 을 의미

dsaint31.tistory.com

728x90

[ML] RANdom SAmple Consensus (RANSAC) (0)	2024.06.13
[ML] Feature Scaling (0)	2024.05.04
[Statistics] coefficient of determination (결정계수 ~ R squared) (0)	2024.05.01
[ML] Summary SVM (0)	2022.05.30
[Fitting] Ordinary Least Squares : OLS, 최소자승법 (0)	2022.04.28