[ML] Ensemble 기법
·
Programming/ML
Ensemble 이란?앙상블(Ensemble) 기법은 머신러닝에서 여러 모델을 결합하여 예측 성능을 향상시키는 방법임.앙상블의 핵심은 단일 weak learner의 한계를 극복하기 위해 여러 모델의 예측 결과를 효과적으로 결합하여 강력한 모델(strong learner)을 만드는 것임.이 기법은 모델들이 서로 다른 예측을 내더라도 이를 조합하여 더 높은 정확도와 안정성을 확보할 수 있음.대표적인 앙상블 기법으로는 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking)이 있음.이들은 서로 다른 방식으로 weak learners를 결합하며 각기 다른 장단점을 가짐.Bagging (배깅)배깅(Bagging, Bootstrap Aggregating)은 여러 독립적인 모델을 병렬로 훈련(Par..
[ML] Constrained Least Squares: Lagrangian 을 활용.
·
Programming/ML
문제설정흔히 볼 수 있는 least squares problem은 다음과 같음.$$\mathbf{A'f'}=\mathbf{b}$$ 이를 다음과 같이 augmented matrix와 homogeneous coordinate를 사용하여 homogeneous equation형태로 정리할 수 있음.$$ \mathbf{A} = \begin{bmatrix} \mathbf{A'} & - \mathbf{b} \end{bmatrix} \\ \mathbf{f}= \begin{bmatrix} \mathbf{f'} \\ 1 \end{bmatrix}$$$$ \mathbf{Af}=\mathbf{0} $$더보기위와 같이 homogeneous equation를 이용하여 푸는 방법은 least square로써 augmented mat..
[Fitting] Total Least Square Regression
·
Programming/ML
Total Least Squares (TLS) RegressionTotal Least Squares (TLS) 회귀는 데이터의 모든 방향에서의 오차를 최소화하는 회귀 방법임.이는 특히 독립 변수와 종속 변수 모두에 오차가 포함되어 있는 경우에 유용함.TLS는 주로 행렬 분해 기법 (SVD or EVD)을 사용하여 문제를 해결함.Fitting에서 사용되어 데이터의 모든 방향에서의 오차를 최소화시키는 regression coefficients를 찾음.2024.06.13 - [Programming/DIP] - [CV] Fitting [CV] Fittingcomputer vision과 image processing에서의 Fitting목표computer vision과 image processing에서 Fittin..
[ML] RANdom SAmple Consensus (RANSAC)
·
Programming/ML
1. 정의 및 Key IdeaRANSAC (RANdom SAmple Consensus)는 많은 수의 이상치(outlier)가 있는 dataset에서도model의 parameters를 강건하게 추정하는 voting based iteration algorithm.Consensus 합의라는 의미를 가짐. RANSAC의 핵심 아이디어는voting (=inlier counting)을 사용하여모델에 잘 맞는 데이터 포인트(inliers)와 맞지 않는 데이터 포인트(outliers)를 구별하는 것임.지지하는 inliers의 수가 많은 모델을 선택: consensus set 이 가장 큰 모델을 지지.더보기왜 “Consensus”라는 용어를 사용한 이유?합의(consensus) 라는 용어는 통계적으로 더 많은 데이터 포..
[ML] Feature Scaling
·
Programming/ML
Feature ScalingML에서 feature scaling이란 다음을 의미함.input data의 각 feature들의 값이 일정한 범위(a consistent range)나 표준화된 척도(standardized scale)로 변환하는 과정. Feature Scaling은 ML에서모든 feature가 동등하게 training에 기여하도록 보장해주고,raw scale에 상관없이 model이 실제 각 feature가 결과에 미치는 영향력을 제대로 학습하도록 도와줌.Featuer Scaling을 하지 않을 경우,일부 큰 scale을 가지는 features가 모델의 결과에 지나치게 큰 영향력을 가지게 되어편향된 모델로 학습되는 문제점을 가짐.feature에 대한 정의 가 헷갈린다면 다음 접은 글을 확인할 ..
[Statistics] coefficient of determination (결정계수 ~ R squared)
·
Programming/ML
Coefficient of Determination데이터에 대한 현재 regression 모델의 성능(or 적합도)를 평가함 → 1에 가까울수록 좋은 모델임: [0,1]통계 (linear model)에서 사용되는 경우에는 최소값이 0이 보장되나,ML등에서 regression model의 성능 평가에서는 음수도 나올 수 있음(non-linear model인 경우)ML 등에서 regression model이 얼마나 정확하게 data에 fitting 되었는지를 나타냄.Linear model 을 사용하는 Regression Analysis 에서 중요하게 다루는 지표.Squared Correlaton Coefficient라고도 불림. ("Multiple correlation coefficient인 $R$"의 제곱..