Ridge Regression

2025. 11. 6. 11:55·Programming/ML
728x90
728x90

https://medium.com/@vikasdod/demystifying-lasso-and-ridge-regression-key-differences-and-usage-61d1c4780412

명칭의 유래

  • Ridge: "산등성이" 또는 "융기"를 의미하는 영어 단어
  • L2-Regularization Term 추가 시 loss function의 contour가 융기된 형태로 변형되는 데에서 유래됨.

역사적 배경

  • Tikhonov regularization (1963)과 수학적으로 동일
  • 개발 시기:
    • 1963년: Andrey Tikhonov가 ill-posed 문제 해결용 정규화 방법 개발
    • 1970년: Hoerl과 Kennard가 통계학 맥락에서 독립적으로 재발견
  • 분야별 명칭:
    • 수치해석: Tikhonov regularization
    • 통계학/머신러닝: Ridge regression
더보기

2022.12.02 - [.../Math] - [Math] ill-posed, well-posed, ill-conditioned, well-conditioned matrix (or problem)

 

[Math] ill-posed, well-posed, ill-conditioned, well-conditioned matrix (or problem)

"well-posed" matrix and "well-conditioned" matrix$A\textbf{x}=\textbf{b}$와 같은 Linear System (연립방정식)에서 system matrix $A$가 invertible하다면 해당 linear system(달리 말하면 연립방정식)이 well-posed라고 할 수 있다.하

dsaint31.tistory.com

 


참고: L1 vs L2 정칙화(정규화)의 특성

L-p Norm에서 p=1,2 인 경우가 주로  Regularization(정칙화)에 사용됨.

Normalization과 Regularization을 구분하기 위해 normalization은 정규화로, regularization은 정칙화로 사용하는 것을 선호하나 많은 경우 정규화로 사용되므로 문맥에 맞게 해석해야함.

더보기

 https://bme808.blogspot.com/2022/10/norm.html

 

Norm (노름)

Vector 및 matrix의 크기에 해당하는 양(magnitude) 을 구하는 연산 으로 사용됨. The higher the norm index ($p$값이 클 경우), the more it focuses on large values and neg...

bme808.blogspot.com

2024.10.02 - [Programming/ML] - [ML] Minkowski Distance (L-p Norm)

 

[ML] Minkowski Distance (L-p Norm)

Minkowski 거리는L-p Norm의 한 형태두 개의 점 사이의 distance(거리)를 일반화한 metric.distance의 개념은 다음 접은 글을 참고:더보기https://dsaint31.me/mkdocs_site/DIP/cv2/etc/dip_metrics/#distance-function-or-metric BME228

dsaint31.tistory.com

Ridge Regression (L2 정규화)

  • Object Function (loss): $L = \displaystyle \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2 + \lambda\sum_{j=1}^{n}w_j^2$
    • $m$: sample size
    • $n$: number of features
  • 특징: 모든 weight를 균일하게 작게 만듦
  • Gradient: $\frac{\partial L}{\partial w_j} = -\frac{2}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)x_{ij} + 2\lambda w_j$
  • 결과: weight가 0에 가까워지지만 정확히 0이 되지 않음

Lasso Regression (L1 정규화)

  • Object Function (loss): $L = \displaystyle \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2 + \lambda\sum_{j=1}^{n}|w_j|$
  • 특징: 일부 weight를 정확히 0으로 만듦 (sparse solution)
  • Gradient: $\frac{\partial L}{\partial w_j} = -\frac{2}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)x_{ij} + \lambda \cdot \text{sign}(w_j)$
  • 결과: feature selection 효과

기하학적 해석

  • L2 (Ridge):
    • Regularization(제약) 영역이 원(circle)형: 모든 방향으로 균등한 패널티
    • 모든 weight가 비슷한 크기로 축소됨
  • L1 (Lasso):
    • Regularization(제약)이 다이아몬드형: 모서리에서 해를 찾을 가능성 높음
    • 일부 weight가 정확히 0이 됨: sparse weights

Regularization Term을 샘플 수로 나누는 이유

Regularization Term을 나누지 않은 경우:

$$L = \displaystyle \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2 + \lambda\sum_{j=1}^{n}w_j^2$$

  • MSE는 $\frac{1}{m}$로 평균을 내어 스케일 유지.
  • 규제항은 $m$ (=sample size)과 무관하게 고정값
  • 결과: $m$이 커질수록 규제항의 상대적 영향력이 변하게 됨

구체적 예시

  • gradient 계산 시:
    • 데이터 항: $\displaystyle \frac{2}{m} \times \sum_{i=1}^{m}(\text{예측오차} \times x_i)$
    • 규제항: $2\lambda w$ : 항상 고정
  • 샘플수 $m$ 에 상관없이 데이터 항과 규제항의 영향을 일정하게 유지.

해결책

$$L = \displaystyle \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2 + \frac{\lambda}{m}\sum_{j=1}^{n}w_j^2$$

  • $\lambda$의 의미가 데이터 크기와 무관하게 일정 유지
  • 하이퍼파라미터 튜닝 시 일관성 확보

Bias를 규제하지 않는 이유

일반적인 규제항

$$\frac{\lambda}{m}\sum_{j=1}^{n}w_j^2 \quad \text{(bias } b \text{는 제외)}$$


세 가지 핵심 이유

1. 평행이동 불변성

  • 모든 타겟값에 상수 $c$를 더해도 예측 성능 동일해야 함
  • Bias 규제 시 이 성질 위반
  • 데이터의 스케일에 독립적인 모델 필요

2. 중심화 관점

  • 데이터를 평균 0으로 중심화하면 bias는 자연스럽게 0
  • 원래 스케일 (or 평균)로 복원 시에만 bias 필요
  • 수식: $\bar{y} = 0 \Rightarrow b = 0$

3. 실용적 고려사항

  • Bias는 모델 복잡도와 실제로 무관 (regression의 경우 단순히 평균값에 해당)
  • over-fitting(과적합)은 주로 weight의 크기에서 발생 .
  • Bias 제한 시 문제:
    • 데이터 평균값 예측 실패
    • 모델의 표현력 불필요하게 제한

요약

  • Ridge regression은 안정적이고 해석 가능한 정규화 방법
  • 설계 선택들은 수학적 원리와 실용적 고려사항의 균형
  • L1 대비 모든 특성을 유지하면서 균일하게 weight 축소
  • 적절한 스케일링으로 데이터 크기에 무관한 일관된 성능 보장

같이보면 좋은 자료들

2024.10.27 - [Programming/ML] - [ML] Regularization

 

[ML] Regularization

Regularization 이란?기계 학습과 딥러닝에서 Regularization은 모델이 overfitting(과적합)되지 않도록 도와주는 기법을 의미함.Overfitting(과적합)은 모델이 훈련 데이터에 너무 잘 맞아 새로운 데이터에 대

dsaint31.tistory.com

https://ds31x.tistory.com/352

 

[ML] Classic Regressor (Summary)

DeepLearning 계열을 제외한 Regressor 모델들을 간단하게 정리함.https://gist.github.com/dsaint31x/1c9c4a27e1d841098a9fee345363fa59 ML_Regressor_Summary.ipynbML_Regressor_Summary.ipynb. GitHub Gist: instantly share code, notes, and snippets.g

ds31x.tistory.com

 

728x90

'Programming > ML' 카테고리의 다른 글

Overfitting (과적합)  (0) 2025.11.20
Lasso Regression  (0) 2025.11.08
Subgradient 와 Gradient Descent  (0) 2025.11.02
Bias-Variance Tradeoff  (0) 2025.10.30
Dice Coefficient and IoU  (0) 2025.09.25
'Programming/ML' 카테고리의 다른 글
  • Overfitting (과적합)
  • Lasso Regression
  • Subgradient 와 Gradient Descent
  • Bias-Variance Tradeoff
dsaint31x
dsaint31x
    반응형
    250x250
  • dsaint31x
    Dsaint31's blog
    dsaint31x
  • 전체
    오늘
    어제
    • 분류 전체보기 (787)
      • Private Life (15)
      • Programming (55)
        • DIP (116)
        • ML (35)
      • Computer (120)
        • CE (54)
        • ETC (33)
        • CUDA (3)
        • Blog, Markdown, Latex (4)
        • Linux (9)
      • ... (368)
        • Signals and Systems (115)
        • Math (176)
        • Linear Algebra (33)
        • Physics (43)
        • 인성세미나 (1)
      • 정리필요. (61)
        • 의료기기의 이해 (6)
        • PET, MRI and so on. (7)
        • PET Study 2009 (1)
        • 방사선 장해방호 (5)
        • 방사선 생물학 (3)
        • 방사선 계측 (9)
        • 기타 방사능관련 (3)
        • 고시 (9)
        • 정리 (18)
      • RI (0)
      • 원자력,방사능 관련법 (2)
  • 블로그 메뉴

    • Math
    • Programming
    • SS
    • DIP
  • 링크

    • Convex Optimization For All
  • 공지사항

    • Test
    • PET Study 2009
    • 기타 방사능관련.
  • 인기 글

  • 태그

    인허가제도
    Optimization
    numpy
    Vector
    fourier transform
    signals_and_systems
    linear algebra
    signal_and_system
    SIGNAL
    Probability
    SS
    Python
    function
    Term
    Programming
    ML
    random
    cv2
    math
    opencv
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
dsaint31x
Ridge Regression
상단으로

티스토리툴바