Overfitting (과적합)
·
Programming/ML
Overfit이란ML에서 모델이 주어진 훈련데이터에 너무 과하게 적응(adapt) 하여Training dataset에서는 매우 좋은 성능을 보이지만,Unseen data (= validation/test set)에서는 성능이 급격히 떨어지는 현상 을 의미함.Model이 Training dataset에 지나치게 맞추어져서 generalization performance가 떨어지는 경우임.Bias–Variance 관점Overfit의 경우,Training dataset에서는 performance measure가 매우 좋기 때문에 bias가 매우 낮고,대신 variance가 매우 커지는 특징을 보임.즉,bias 낮음 = training 성능은 좋다variance 높음 = 데이터 샘플이 조금만 바뀌어도 예측 결과..
Ridge Regression
·
Programming/ML
명칭의 유래Ridge: "산등성이" 또는 "융기"를 의미하는 영어 단어L2-Regularization Term 추가 시 loss function의 contour가 융기된 형태로 변형되는 데에서 유래됨.역사적 배경Tikhonov regularization (1963)과 수학적으로 동일개발 시기:1963년: Andrey Tikhonov가 ill-posed 문제 해결용 정규화 방법 개발1970년: Hoerl과 Kennard가 통계학 맥락에서 독립적으로 재발견분야별 명칭:수치해석: Tikhonov regularization통계학/머신러닝: Ridge regression더보기2022.12.02 - [.../Math] - [Math] ill-posed, well-posed, ill-conditioned, well-..
[ML] Regularization
·
Programming/ML
Regularization 이란?기계 학습과 딥러닝에서 Regularization은 모델이 overfitting(과적합)되지 않도록 도와주는 기법을 의미함.Overfitting(과적합)은 모델이 훈련 데이터에 너무 잘 맞아 새로운 데이터에 대해 일반화(generalization)가 잘되지 않는 상황을 의미함.Regularization을 통해 모델의 Degree of Freedom(자유도), 즉 모델이 표현할 수 있는 복잡성을 제어해 일반화 성능을 높일 수 있음.주요 Regularization 기법들1. L1 및 L2 RegularizationL1 Regularization: 가중치 값의 절댓값 합을 손실 함수에 추가하는 방식임. 모델의 일부 가중치가 0이 되게 만들어 희소성(sparsity)을 증가시키는..
[ML] Imputation
·
Programming/ML
Imputation이란: Data Science와 ML에서 "impute"는누락된 데이터(missing data)를 (합리적인) 대체값으로 채우는 과정을 의미이는 '대체', '귀속', 또는 '채워넣기'로 번역될 수 있음.Dataset을 다룰 때,누락된 데이터가 있는 전체 행이나 열을 제거하는 대신,imputation은 다른 가용한 features 나 선행정보(prior)를 바탕으로 missing values를 추정하여 채워넣는 방법.Imputation에서는 Training set 만을 사용하여 채워넣을 값을 구함. 종류주요 imputation은 다음과 같음:mean/median imputation:해당 특성의 mean이나 median으로 missing values을 대체mode(최빈값) imputatio..
[ML] Ensemble 기법
·
Programming/ML
Ensemble 이란?앙상블(Ensemble) 기법은 머신러닝에서 여러 모델을 결합하여 예측 성능을 향상시키는 방법임.앙상블의 핵심은 단일 weak learner의 한계를 극복하기 위해 여러 모델의 예측 결과를 효과적으로 결합하여 강력한 모델(strong learner)을 만드는 것임.이 기법은 모델들이 서로 다른 예측을 내더라도 이를 조합하여 더 높은 정확도와 안정성을 확보할 수 있음.대표적인 앙상블 기법으로는 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking)이 있음.이들은 서로 다른 방식으로 weak learners를 결합하며 각기 다른 장단점을 가짐.Bagging (배깅)배깅(Bagging, Bootstrap Aggregating)은 여러 독립적인 모델을 병렬로 훈련(Par..
[ML] 정리 중...
·
카테고리 없음
보호되어 있는 글입니다.