Ridge Regression — Dsaint31's blog

728x90

https://medium.com/@vikasdod/demystifying-lasso-and-ridge-regression-key-differences-and-usage-61d1c4780412

명칭의 유래

Ridge: "산등성이" 또는 "융기"를 의미하는 영어 단어
L2-Regularization Term 추가 시 loss function의 contour가 융기된 형태로 변형되는 데에서 유래됨.

역사적 배경

Tikhonov regularization (1963)과 수학적으로 동일
개발 시기:
- 1963년: Andrey Tikhonov가 ill-posed 문제 해결용 정규화 방법 개발
- 1970년: Hoerl과 Kennard가 통계학 맥락에서 독립적으로 재발견
분야별 명칭:
- 수치해석: Tikhonov regularization
- 통계학/머신러닝: Ridge regression

2022.12.02 - [.../Math] - [Math] ill-posed, well-posed, ill-conditioned, well-conditioned matrix (or problem)

[Math] ill-posed, well-posed, ill-conditioned, well-conditioned matrix (or problem)

"well-posed" matrix and "well-conditioned" matrix$A\textbf{x}=\textbf{b}$와 같은 Linear System (연립방정식)에서 system matrix $A$가 invertible하다면 해당 linear system(달리 말하면 연립방정식)이 well-posed라고 할 수 있다.하

dsaint31.tistory.com

참고: L1 vs L2 정칙화(정규화)의 특성

L-p Norm에서 p=1,2 인 경우가 주로 Regularization(정칙화)에 사용됨.

Normalization과 Regularization을 구분하기 위해 normalization은 정규화로, regularization은 정칙화로 사용하는 것을 선호하나 많은 경우 정규화로 사용되므로 문맥에 맞게 해석해야함.

https://bme808.blogspot.com/2022/10/norm.html

Norm (노름)

Vector 및 matrix의 크기에 해당하는 양(magnitude) 을 구하는 연산 으로 사용됨. The higher the norm index ($p$값이 클 경우), the more it focuses on large values and neg...

bme808.blogspot.com

2024.10.02 - [Programming/ML] - [ML] Minkowski Distance (L-p Norm)

[ML] Minkowski Distance (L-p Norm)

Minkowski 거리는L-p Norm의 한 형태두 개의 점 사이의 distance(거리)를 일반화한 metric.distance의 개념은 다음 접은 글을 참고:더보기https://dsaint31.me/mkdocs_site/DIP/cv2/etc/dip_metrics/#distance-function-or-metric BME228

dsaint31.tistory.com

Ridge Regression (L2 정규화)

Object Function (loss): $L = \displaystyle \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2 + \lambda\sum_{j=1}^{n}w_j^2$
- $m$: sample size
- $n$: number of features
특징: 모든 weight를 균일하게 작게 만듦
Gradient: $\frac{\partial L}{\partial w_j} = -\frac{2}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)x_{ij} + 2\lambda w_j$
결과: weight가 0에 가까워지지만 정확히 0이 되지 않음

Lasso Regression (L1 정규화)

Object Function (loss): $L = \displaystyle \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2 + \lambda\sum_{j=1}^{n}|w_j|$
특징: 일부 weight를 정확히 0으로 만듦 (sparse solution)
Gradient: $\frac{\partial L}{\partial w_j} = -\frac{2}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)x_{ij} + \lambda \cdot \text{sign}(w_j)$
결과: feature selection 효과

기하학적 해석

L2 (Ridge):
- Regularization(제약) 영역이 원(circle)형: 모든 방향으로 균등한 패널티
- 모든 weight가 비슷한 크기로 축소됨
L1 (Lasso):
- Regularization(제약)이 다이아몬드형: 모서리에서 해를 찾을 가능성 높음
- 일부 weight가 정확히 0이 됨: sparse weights

Regularization Term을 샘플 수로 나누는 이유

Regularization Term을 나누지 않은 경우:

$$L = \displaystyle \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2 + \lambda\sum_{j=1}^{n}w_j^2$$

MSE는 $\frac{1}{m}$로 평균을 내어 스케일 유지.
규제항은 $m$ (=sample size)과 무관하게 고정값
결과: $m$이 커질수록 규제항의 상대적 영향력이 변하게 됨

구체적 예시

gradient 계산 시:
- 데이터 항: $\displaystyle \frac{2}{m} \times \sum_{i=1}^{m}(\text{예측오차} \times x_i)$
- 규제항: $2\lambda w$ : 항상 고정
샘플수 $m$ 에 상관없이 데이터 항과 규제항의 영향을 일정하게 유지.

해결책

$$L = \displaystyle \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2 + \frac{\lambda}{m}\sum_{j=1}^{n}w_j^2$$

$\lambda$의 의미가 데이터 크기와 무관하게 일정 유지
하이퍼파라미터 튜닝 시 일관성 확보

Bias를 규제하지 않는 이유

일반적인 규제항

$$\frac{\lambda}{m}\sum_{j=1}^{n}w_j^2 \quad \text{(bias } b \text{는 제외)}$$

세 가지 핵심 이유

1. 평행이동 불변성

모든 타겟값에 상수 $c$를 더해도 예측 성능 동일해야 함
Bias 규제 시 이 성질 위반
데이터의 스케일에 독립적인 모델 필요

2. 중심화 관점

데이터를 평균 0으로 중심화하면 bias는 자연스럽게 0
원래 스케일 (or 평균)로 복원 시에만 bias 필요
수식: $\bar{y} = 0 \Rightarrow b = 0$

3. 실용적 고려사항

Bias는 모델 복잡도와 실제로 무관 (regression의 경우 단순히 평균값에 해당)
over-fitting(과적합)은 주로 weight의 크기에서 발생 .
Bias 제한 시 문제:
- 데이터 평균값 예측 실패
- 모델의 표현력 불필요하게 제한

요약

Ridge regression은 안정적이고 해석 가능한 정규화 방법
설계 선택들은 수학적 원리와 실용적 고려사항의 균형
L1 대비 모든 특성을 유지하면서 균일하게 weight 축소
적절한 스케일링으로 데이터 크기에 무관한 일관된 성능 보장

같이보면 좋은 자료들

2024.10.27 - [Programming/ML] - [ML] Regularization

[ML] Regularization

Regularization 이란?기계 학습과 딥러닝에서 Regularization은 모델이 overfitting(과적합)되지 않도록 도와주는 기법을 의미함.Overfitting(과적합)은 모델이 훈련 데이터에 너무 잘 맞아 새로운 데이터에 대

dsaint31.tistory.com

https://ds31x.tistory.com/352

[ML] Classic Regressor (Summary)

DeepLearning 계열을 제외한 Regressor 모델들을 간단하게 정리함.https://gist.github.com/dsaint31x/1c9c4a27e1d841098a9fee345363fa59 ML_Regressor_Summary.ipynbML_Regressor_Summary.ipynb. GitHub Gist: instantly share code, notes, and snippets.g

ds31x.tistory.com

728x90

'Programming > ML' 카테고리의 다른 글

Overfitting (과적합) (0)	2025.11.20
Lasso Regression (0)	2025.11.08
Subgradient 와 Gradient Descent (0)	2025.11.02
Bias-Variance Tradeoff (0)	2025.10.30
Dice Coefficient and IoU (0)	2025.09.25

티스토리툴바