Dsaint31's blog

[ML] BFGS, L-BFGS, L-BFGS-B : Quasi-Newton method

dsaint31x — Mon, 27 Apr 2026 16:15:02 +0900

[BFGS]

BFGS(Broyden-Fletcher-Goldfarb-Shanno algorithm)는 대표적인 Quasi-Newton method(준-뉴턴 방법) 중 하나임.

고차원 문제에서는 L-BFGS가 더 많이 사용됨
L-BFGS 는 BFGS가 전체 matrix를 메모리에 적재하는 것을 개선한 버전으로 주로 많이 이용됨(L= Limited-meory)

BFGS는

1970년에 4명의 연구자 (Broyden-Fletcher-Goldfarb-Shanno 가
독립적으로 서로 다른 방식의 접근을 통해
동일한 업데이트식을 도출해 낸 걸로 유명한 알고리즘.

이들 4명의 연구자들의 이름을 따서 BFGS 가 됨.

당시 널리 사용되던 DFP(Davidon-Fletcher-Powell) 방법의 단점을 보완하기 위해 개발됨.

현재는 unconstrained optimization 문제에서 가장 효율적이고 널리 쓰이는 표준 알고리즘임.

Optimization problem에서

목적 함수(objective function) $L(\boldsymbol{\omega})$를 최소화하려면,
일반적으로 다음과 같은 optimization 문제를 풀게 됨.

$$\underset{\boldsymbol{\omega}}{\min} L(\boldsymbol{\omega})$$

이때 $\boldsymbol{\omega}$는 최적화 대상이 되는 parameter vector임.

BFGS는

gradient descent보다 더 빠른 수렴을 목표로 하면서,
Newton method처럼 Hessian matrix를 직접 계산하지 않도록 설계된
optimization algorithm임.

https://convex-optimization-for-all.github.io/contents/chapter18/2021/03/23/18_07_Limited_Memory_BFGS_(LBFGS)/

18-07 Limited Memory BFGS (LBFGS) · 모두를 위한 컨벡스 최적화

18-07 Limited Memory BFGS (LBFGS) Introduction LBFGS는 Limited-memory quasi-Newton methods의 한 예시로써, Hessian 행렬을 계산하거나 저장하기 위한 비용이 합리적이지 않을 경우 유용하게 사용된다. 이 방법은 밀도

convex-optimization-for-all.github.io

1. Review: Newton Method

2022.06.07 - [Computer/ETC] - [ML] Newton-Raphson Method

[ML] Newton-Raphson Method

1. Newton-Raphson Method : $f(x)=0$을 만족하는 root(근)인 $\hat{x}$를 찾는 방법 중 하나 : root-finding algorithm 위의 그림에서 보이듯이1st order derivative(1차 도함수)를 이용하여현재의 $x_t$로부터 $x_{t+1}$을 구해

dsaint31.tistory.com

Newton method는

현재 parameter $\boldsymbol{\omega}_k$에서
목적 함수 $L(\boldsymbol{\omega})$를
2차 Taylor approximation으로 근사함.

$$L(\boldsymbol{\omega}_k + \mathbf{p}) \approx
L(\boldsymbol{\omega}_k) +
\nabla L(\boldsymbol{\omega}_k)^\top \mathbf{p} +
\frac{1}{2}\mathbf{p}^\top \mathbf{H}_k \mathbf{p}$$

여기서

$\nabla L(\boldsymbol{\omega}_k)$: 현재 parameter에서의 gradient vector
$\mathbf{H}_k$: 현재 parameter에서의 Hessian matrix
$\mathbf{p}$: 현재 위치에서 이동할 방향을 나타내는 search direction

임.

이 2차 근사식을 최소화하면 Newton direction은 다음과 같이 얻어짐.

$$\mathbf{p}_k = -\mathbf{H}_k^{-1}\nabla L(\boldsymbol{\omega}_k)$$

따라서 parameter update는 다음과 같음.

$$\boldsymbol{\omega}_{k+1} = \boldsymbol{\omega}_k + \eta_k \mathbf{p}_k$$

여기서 $\eta_k$는 $k$번째 iteration에서의 learning rate 또는 step size임.

위 식에 Newton direction을 대입하면 다음과 같음.

$$\boldsymbol{\omega}_{k+1} = \boldsymbol{\omega}_k - \eta_k \mathbf{H}_k^{-1}\nabla L(\boldsymbol{\omega}_k)$$

즉, Newton method는

단순히 gradient의 반대 방향으로 이동하는 것이 아니라,
Hessian inverse를 gradient vector에 곱해 curvature를 반영한 search direction을 계산한 뒤 이동함.

2022.06.05 - [Programming/DIP] - [Math] Hessian: Summary

[Math] Hessian: Summary

이 문서는 Numerator Layout Convention 을 사용함.Hessian : Summary 2nd order derivative of multivariable function.여기서 multivariable function은 입력은 vector, 출력은 scalar 인 함수를 의미함: ML에서의 loss function을 생각해

dsaint31.tistory.com

2. Gradient Descent와 Newton Method의 차이

2023.10.19 - [Programming] - [ML] Gradient Descent Method: 경사하강법

[ML] Gradient Descent Method: 경사하강법

Gradient Descent Method (경사하강법) : 1. 정의 및 수식Steepest Gradient Descent Method로도 불리는Gradient Descent Method(경사하강법)는 여러 Optimization 방법 중 가장 많이 사용되는 방법들 중 하나임.training set $X$

dsaint31.tistory.com

Gradient descent는 다음과 같이 parameter를 update함.

$$\boldsymbol{\omega}_{k+1} = \boldsymbol{\omega}_k - \eta_k \nabla L(\boldsymbol{\omega}_k)$$

즉, gradient의 반대 방향으로 이동함.

반면 Newton method는 다음과 같이 update함.

$$\boldsymbol{\omega}_{k+1} = \boldsymbol{\omega}_k - \eta_k \mathbf{H}_k^{-1}\nabla L(\boldsymbol{\omega}_k)$$

차이는 $\mathbf{H}_k^{-1}$의 존재임.

Gradient descent는 gradient 정보만 사용함.
Newton method는 gradient에 더해 Hessian matrix도 사용함.

Hessian matrix는

목적 함수의 2차 미분 정보 (=Hessian)를 담고 있음.
즉, 목적 함수의 curvature(곡률)를 나타냄.

따라서 Newton method는 단순히 어느 방향으로 내려갈지만 보는 것이 아니라,
각 방향으로 목적함수가 얼마나 휘어져 있는지도 고려함.

3. Newton Method의 문제점

Newton method는 2차 정보를 사용하므로 gradient descent보다 빠르게 수렴할 수 있음.

하지만 실제 사용에서는 다음 문제가 있음.

Hessian matrix $\mathbf{H}_k$를 직접 계산해야 함
Hessian matrix의 크기가 $m \times m$이므로 parameter 수가 많으면 계산량과 메모리 사용량이 커짐
Hessian inverse $\mathbf{H}_k^{-1}$를 직접 구하는 비용이 큼
Hessian이 positive definite가 아니면 descent direction이 보장되지 않을 수 있음

즉, Newton method는 이론적으로 강력하지만, 고차원 문제에서는 계산 부담이 큼.

특히 parameter vector가 다음과 같다고 하자.

$$\boldsymbol{\omega} =
\begin{bmatrix}
\omega_1 \\
\omega_2 \\
\vdots \\
\omega_m
\end{bmatrix}
\in \mathbb{R}^m$$

그러면 Hessian matrix는 다음 크기를 가짐.

$$\mathbf{H} \in \mathbb{R}^{m \times m}$$

parameter 수 $m$ 이 커질수록 Hessian matrix를 저장하고 계산하는 비용이 급격히 커짐.

4. Quasi-Newton Methods

Quasi-Newton methods는
Newton method의 아이디어를 유지하되,
Hessian matrix를 직접 계산하지 않는 방법들임.

Newton method에서는 다음과 같은 direction을 사용함.

$$\mathbf{p}_k = -\mathbf{H}_k^{-1}\nabla L(\boldsymbol{\omega}_k)$$

Quasi-Newton method에서는 $\mathbf{H}_k^{-1}$ 대신 이를 근사한 matrix $\mathbf{M}_k$를 사용함.

$$\mathbf{p}_k = -\mathbf{M}_k \nabla L(\boldsymbol{\omega}_k)$$

여기서 $\mathbf{M}_k$는 inverse Hessian approximation임.

즉,

$$\mathbf{M}_k \approx \mathbf{H}_k^{-1}$$

임.

Quasi-Newton method의 핵심은 다음과 같음.

Hessian matrix를 직접 계산하지 않음
gradient 변화량을 이용해 curvature 정보를 추정함
Newton method와 비슷한 search direction을 만들려고 함
gradient descent보다 빠른 수렴을 기대할 수 있음

BFGS는
이러한 Quasi-Newton method 중
가장 널리 사용되는 방법 중 하나임.

5. BFGS의 핵심 아이디어

BFGS는 Hessian을 직접 계산하지 않고, 반복 과정에서 얻은 두 정보를 이용함.

첫 번째는 parameter 변화량임.

$$\mathbf{s}_k = \boldsymbol{\omega}_{k+1} - \boldsymbol{\omega}_k$$

두 번째는 gradient 변화량임.

$$\mathbf{y}_k = \nabla L(\boldsymbol{\omega}_{k+1}) - \nabla L(\boldsymbol{\omega}_k)$$

즉, BFGS는 다음 두 vector를 이용해 목적 함수의 curvature를 간접적으로 추정함.

$\mathbf{s}_k$: parameter가 어느 방향으로 얼마나 이동했는지
$\mathbf{y}_k$: 그 이동에 따라 gradient가 얼마나 변했는지

gradient의 변화는 함수의 curvature 정보를 포함함.

따라서 Hessian을 직접 계산하지 않아도,
parameter 변화량과 gradient 변화량을 이용하면
curvature를 어느 정도 추정할 수 있음.

6. Secant Condition

Hessian matrix는 gradient의 변화율을 나타냄.

따라서 이상적으로는 다음 관계가 성립해야 함.

$$\mathbf{H}_{k+1}\mathbf{s}_k \approx \mathbf{y}_k$$

이를 secant condition(할선 조건)이라고 함.

Inverse Hessian approximation을 사용하는 경우에는 다음처럼 쓸 수 있음.

$$
\mathbf{M}_{k+1}\mathbf{y}_k = \mathbf{s}_k
$$

여기서 $\mathbf{M}_{k+1}$은 다음 iteration에서 사용할 inverse Hessian approximation임.

즉, BFGS는 다음 조건을 만족하도록 $\mathbf{M}_k$를 update함.

$$\mathbf{M}_{k+1}\mathbf{y}_k
= \mathbf{s}_k$$

이 조건의 의미는 다음과 같음.

gradient 변화량 $\mathbf{y}_k$에 inverse Hessian approximation을 곱하면
실제 parameter 변화량 $\mathbf{s}_k$와 일치하도록 만들겠다는 것임
즉, 현재까지 관찰한 변화에 대해서는 Newton method와 비슷한 관계를 만족하도록 matrix를 보정함

7. BFGS Update Formula

Inverse Hessian approximation을 $\mathbf{M}_k$라고 하면, BFGS update는 다음과 같이 주어짐.

$$\mathbf{M}_{k+1} =
\left(
\mathbf{I} - \rho_k \mathbf{s}_k \mathbf{y}_k^\top
\right)
\mathbf{M}_k
\left(
\mathbf{I} -
\rho_k \mathbf{y}_k \mathbf{s}_k^\top
\right) +
\rho_k \mathbf{s}_k \mathbf{s}_k^\top$$

여기서

$$ \rho_k = \frac{1}{\mathbf{y}_k^\top \mathbf{s}_k}$$

임.

이 식은 처음 보면 복잡하지만, 핵심은 단순함.

기존 inverse Hessian approximation $\mathbf{M}_k$를 유지함
새롭게 관찰한 $\mathbf{s}_k$, $\mathbf{y}_k$ 정보를 반영함
secant condition을 만족하도록 matrix를 보정함
positive definite 성질을 유지하려고 함

단, 보통 다음 조건이 필요함.

$$\mathbf{y}_k^\top \mathbf{s}_k > 0 $$

이 조건은 curvature condition이라고 볼 수 있음.

BFGS에서 이 조건이 만족되면,

$\mathbf{M}_k$가 positive definite일 때
$\mathbf{M}_{k+1}$도 positive definite가 됨.

8. BFGS의 반복 절차

BFGS의 전체 흐름은 다음과 같음:

1.초기 parameter $\boldsymbol{\omega}_0$ 선택
2.초기 inverse Hessian approximation $\mathbf{M}_0$ 선택
3.현재 gradient $\nabla L(\boldsymbol{\omega}_k)$ 계산
4.search direction 계산

$$\mathbf{p}_k = -\mathbf{M}_k \nabla L(\boldsymbol{\omega}_k)$$

5.line search를 통해 learning rate $\eta_k$ 결정
6.parameter update

$$\boldsymbol{\omega}_{k+1} = \boldsymbol{\omega}_k +\eta_k \mathbf{p}_k$$

7.parameter 변화량 계산

$$\mathbf{s}_k = \boldsymbol{\omega}_{k+1} - \boldsymbol{\omega}_k$$

8.gradient 변화량 계산

$$\mathbf{y}_k = \nabla L(\boldsymbol{\omega}_{k+1}) - \nabla L(\boldsymbol{\omega}_k)$$

9.$\mathbf{M}_k$를 $\mathbf{M}_{k+1}$로 update
10.수렴 조건을 만족할 때까지 반복

정리하면 BFGS의 update는 다음 한 줄로 볼 수 있음.

$$\boldsymbol{\omega}_{k+1} = \boldsymbol{\omega}_k - \eta_k \mathbf{M}_k \nabla L(\boldsymbol{\omega}_k)$$

Gradient descent와 비슷해 보이지만, gradient 앞에 $\mathbf{M}_k$ 가 곱해져 있다는 점이 핵심 차이임.

9. Gradient Descent와의 비교.

Gradient descent는 gradient의 반대 방향으로 이동함.

$$\mathbf{p}_k = - \nabla L(\boldsymbol{\omega}_k) $$

따라서 update는 다음과 같음.

$$\boldsymbol{\omega}_{k+1} = \boldsymbol{\omega}_k - \eta_k \nabla L(\boldsymbol{\omega}_k)$$

반면 BFGS는 gradient에 inverse Hessian approximation을 곱해서 이동 방향을 정함.

$$\mathbf{p}_k= - \mathbf{M}_k \nabla L(\boldsymbol{\omega}_k)$$

따라서 update는 다음과 같음.

$$
\boldsymbol{\omega}_{k+1} =
\boldsymbol{\omega}_k +\eta_k \mathbf{p}_k
$$

즉,

$$\boldsymbol{\omega}_{k+1} = \boldsymbol{\omega}_k - \eta_k
\mathbf{M}_k
\nabla L(\boldsymbol{\omega}_k)$$

임.

비교하면 다음과 같음.

구분	Gradient Descent	BFGS
사용 정보	Gradient	Gradient + curvature approximation
Hessian 계산	사용하지 않음	직접 계산하지 않고 근사
이동 방향	$-\nabla L(\boldsymbol{\omega}_k)$	$-\mathbf{M}_k\nabla L(\boldsymbol{\omega}_k)$
Learning rate	사용	사용
수렴 속도	느릴 수 있음	보통 더 빠름
메모리 사용량	작음	큼
고차원 문제 적합성	상대적으로 좋음	원래 BFGS는 부담이 큼

Gradient descent는 함수의 기울기만 보고 이동함.

BFGS는 gradient에 곡률 정보를 반영한 matrix를 곱해서, 더 적절한 방향과 scale로 이동하려고 함.

10. Newton Method와 비교

Newton method는 정확한 Hessian matrix를 사용함.

$$\mathbf{p}_k = -\mathbf{H}_k^{-1}\nabla L(\boldsymbol{\omega}_k)$$

BFGS는 inverse Hessian을 직접 계산하지 않고, 이를 근사한 $\mathbf{M}_k$를 사용함.

$$\mathbf{p}_k = -\mathbf{M}_k \nabla L( \boldsymbol{ \omega}_k)$$

차이점은 다음과 같음.

구분	Newton Method	BFGS
Hessian	직접 계산	직접 계산하지 않음
Hessian inverse	직접 또는 선형 시스템으로 처리	반복적으로 근사
곡률 정보	정확한 2차 정보	gradient 변화로부터 근사
계산 비용	큼	Newton보다 작음
수렴 속도	매우 빠를 수 있음	빠른 편
구현 안정성	Hessian 상태에 민감	line search와 함께 안정적으로 사용 가능

BFGS는

Newton method의 “2차 정보를 활용한다”는 장점은 어느 정도 유지하면서,
Hessian 계산 부담을 줄인 방법이라고 볼 수 있음.

11. BFGS에서 Line Search가 중요한 이유: leraning rate의 중요성

BFGS에서는 search direction $\mathbf{p}_k$를 구한 뒤, learning rate $\eta_k$를 정해야 함.

$$\boldsymbol{\omega}_{k+1} =
\boldsymbol{\omega}_k + \eta_k \mathbf{p}_k $$

여기서 $\eta_k$를 너무 크게 잡으면 목적 함수 값이 오히려 발산할 수 있음.

반대로 $\eta_k$를 너무 작게 잡으면 수렴이 느려짐.

따라서 BFGS에서는 보통 line search를 사용해 적절한 $\eta_k$를 선택함.

Line search는 현재 direction $\mathbf{p}_k$ 를 따라 어느 정도 이동할지를 결정하는 절차임.

즉, 다음 1차원 문제를 푸는 것과 비슷함.

$$\underset{\eta}{\min} L(\boldsymbol{\omega}_k + \eta \mathbf{p}_k)$$

실제 구현에서는 exact하게 최소화하기보다는, Wolfe condition 같은 조건을 만족하는 $\eta_k$를 찾는 방식이 자주 사용됨.

12. Positive Definite와 Descent Direction

BFGS에서 $\mathbf{M}_k$ 는 inverse Hessian approximation임.

이 $\mathbf{M}_k$가 positive definite이라면,
BFGS direction은 descent direction이 됨.

BFGS direction은 다음과 같음.

$$\mathbf{p}_k = - \mathbf{M}_k \nabla L(\boldsymbol{\omega}_k)$$

이 direction이 descent direction이라는 것은 다음이 성립한다는 뜻임.

$$
\nabla L(\boldsymbol{\omega}_k)^\top \mathbf{p}_k < 0
$$

실제로 대입하여 살펴보자:

$$\nabla L(\boldsymbol{\omega}_k)^\top \mathbf{p}_k
= - \nabla L(\boldsymbol{\omega}_k)^\top
\mathbf{M}_k \nabla L(\boldsymbol{\omega}_k)$$

$\mathbf{M}_k)$가 positive definite이면 다음이 성립함.

$$
\nabla L(\boldsymbol{\omega}_k)^\top
\mathbf{M}_k
\nabla L(\boldsymbol{\omega}_k) >0
$$

따라서

$$\nabla L(\boldsymbol{\omega_k})^\top \mathbf{p}_k < 0 $$

가 됨.

즉, $\mathbf{M}_k$가 positive definite이면 $\mathbf{p}_k$는 목적 함수 값을 감소시키는 방향이 됨.

13. 응용: L-BFGS

BFGS는 inverse Hessian approximation matrix $\mathbf{M}_k$를 저장해야 함.

parameter 수가 $m$개라면 $\mathbf{M}_k$의 크기는 다음과 같음.

$$
m \times m
$$

따라서 parameter 수가 많으면 메모리 사용량이 매우 커짐.

이를 해결하기 위해 나온 방법이 L-BFGS(Limited-memory BFGS)임.

L-BFGS는 전체 matrix를 저장하지 않고, 최근 몇 번의 $\mathbf{s}_k$, $\mathbf{y}_k$ 만 저장함.

즉,

BFGS: 전체 inverse Hessian approximation matrix 저장
L-BFGS: 최근 update vector들만 저장

이 때문에 L-BFGS는 고차원 optimization problem에서 더 자주 사용됨.

다만 일반적인 deep learning 학습에서는 SGD, Adam, AdamW 등이 더 많이 사용됨.

14. 응용: L-BFGS-B

L-BFGS-B는 L-BFGS에 bound constraint 를 추가한 방법임.

즉, 다음과 같은 문제를 풀 수 있음.

$$\underset{\boldsymbol{\omega}}{\min} L(\boldsymbol{\omega}) \\ \text{s. t. } l_i \le \omega_i \le u_i$$

여기서 $l_i$와 $u_i$는 각각 parameter $\omega_i$의 lower bound와 upper bound임.

예를 들어 어떤 parameter가 반드시 양수여야 한다면 다음과 같은 constraint를 둘 수 있음.

$$\omega_i \ge 0$$

이와 같이 bound constraint가 추가된 경우는 L-BGFS-B를 사용하며
scipy.optimize.minimize에서 method="L-BFGS-B"를 지정하여 이용가능.

15. BFGS를 사용하는 경우

BFGS는 다음과 같은 경우에 적합함.

목적 함수가 differentiable한 경우
gradient를 계산할 수 있는 경우
parameter 수가 너무 크지 않은 경우
gradient descent보다 빠른 수렴이 필요한 경우
Hessian을 직접 계산하기에는 부담스러운 경우
목적 함수가 비교적 smooth한 경우

반면 다음 경우에는 주의가 필요함.

parameter 수가 매우 큰 deep learning model
gradient noise가 큰 stochastic optimization 문제
목적 함수가 매끄럽지 않은 경우
memory cost가 중요한 문제
mini-batch 기반 학습처럼 gradient가 매번 크게 흔들리는 문제

즉, BFGS는 작은 규모 또는 중간 규모의 smooth optimization problem에서 권장됨.

매우 큰 neural network를 stochastic gradient로 학습하는 상황에서는
일반적으로 Adam, AdamW, SGD with momentum 등이 더 자주 사용됨.

16. Linear Regression과 BFGS

Linear regression의 OLS objective function은 다음과 같이 쓸 수 있음.

$$L(\boldsymbol{\omega})
=\frac{1}{2m}
\left\|
\mathbf{y} - \mathbf{X}\boldsymbol{\omega}
\right\|_2^2$$

이 문제는 closed-form solution이 존재함.

$$\boldsymbol{\omega} =
(\mathbf{X}^\top \mathbf{X})^{-1}
\mathbf{X}^\top
\mathbf{y}$$

단, Normal Equation을 직접 풀려면 $\mathbf{X}^\top \mathbf{X}$가 invertible하다는 조건이 필요함.

invertible 하지 않더라도 OLS는 convex quadratic problem이므로,
BFGS를 사용하여 풀 수도 있음 (물론 GD도 가능).

하지만 OLS만 놓고 보면 보통은 다음 다른 방법들이 더 직접적임.

Normal equation
QR decomposition
SVD
Gradient descent
SGD

BFGS는

Directed methods 가 존재하는 OLS 보다는,
closed-form solution이 없거나 직접 계산하기 어려운 smooth nonlinear optimization 문제에서 더 의미가 큼.

17. Python에서의 사용 예

scipy.optimize.minimize를 사용하면 BFGS를 쉽게 사용할 수 있음.

아래 예제에서는 다음 목적 함수를 최소화함.

$$ L(\boldsymbol{\omega}) = (\omega_1 - 1)^2 + (\omega_2 + 2)^2$$

이 함수의 최소점은 다음과 같음.

$$
\boldsymbol{\omega}^{\ast} =
\begin{bmatrix}
1 \\
-2
\end{bmatrix}$$

Python 코드는 다음과 같음.

import numpy as np
from scipy.optimize import minimize


# 목적 함수 정의
# L(w1, w2) = (w1 - 1)^2 + (w2 + 2)^2
def objective(omega):
    # omega는 parameter vector임.
    # omega[0] = w1, omega[1] = w2
    w1, w2 = omega

    return (w1 - 1) ** 2 + (w2 + 2) ** 2


# gradient 정의
def gradient(omega):
    # 각 parameter에 대한 편미분을 계산함.
    # dL/dw1 = 2(w1 - 1)
    # dL/dw2 = 2(w2 + 2)
    w1, w2 = omega

    return np.array([
        2 * (w1 - 1),
        2 * (w2 + 2),
    ])


# 초기 parameter
omega0 = np.array([0.0, 0.0])


# BFGS 실행
result = minimize(
    fun=objective,      # 최소화할 목적 함수
    x0=omega0,          # 초기 parameter
    jac=gradient,       # gradient 함수
    method="BFGS",      # BFGS 사용
)

print(result.x)         # 최적 parameter
print(result.fun)       # 최소 목적 함수 값
print(result.success)   # 최적화 성공 여부

출력은 대략 다음과 같음.

[ 1. -2.]
0.0
True

여기서 result.x는 최적화된 parameter vector $\boldsymbol{\omega}$에 해당함.

요약

BFGS는 Newton method와 gradient descent 사이에 있는 중요한 optimization algorithm임.

핵심 정리는 다음과 같음:

BFGS는 Quasi-Newton method의 대표 알고리즘임
Hessian matrix를 직접 계산하지 않음
gradient 변화량을 이용해 inverse Hessian을 근사함
gradient descent보다 빠르게 수렴하는 경우가 많음
parameter update는 다음 형태를 가짐

$$\boldsymbol{\omega}_{k+1} =\boldsymbol{\omega}_k - \eta_k \mathbf{M}_k \nabla L(\boldsymbol{\omega}_k)$$

$\mathbf{M}_k$는 inverse Hessian approximation임
full BFGS는 $m \times m$ matrix를 저장하므로 parameter 수가 많으면 부담이 큼
고차원 문제에서는 L-BFGS가 더 많이 사용됨
bound constraint가 있으면 L-BFGS-B를 사용할 수 있음

결국 BFGS는 다음 한 문장으로 정리할 수 있음.

BFGS는 Hessian을 직접 계산하지 않고,
gradient의 변화로부터 curvature 정보를 추정하여
Newton method에 가까운 search direction을 만들어내는
Quasi-Newton optimization algorithm 임.

Linear Regression (Summary)

dsaint31x — Sat, 25 Apr 2026 23:16:56 +0900

0. Linear Regression 분류

Linear Regression
├── 1. Error model 기준
│ ├── OLS 계열
│ │ ├── X: fixed or error-free
│    │        ├── y: noise 있음
│      │        └── $\text{Var}(\varepsilon) = \sigma^2\mathbf{I}$
│      │
│        ├── WLS 계열
│        │       ├── X: fixed or error-free
│        │       ├── y: noise 있음
│        │         └── $\text{Var}(\varepsilon) = \text{diag}(\sigma_1^2, \sigma_2^2, \dots, \sigma_m^2)$
│        │
│        ├── GLS 계열
│        │       ├── X: fixed or error-free
│        │       ├── y: noise 있음
│        │       └── $\text{Var}(\varepsilon) = \boldsymbol{\Omega}$
│        │
│        └── TLS 계열
│                   ├── X: noise 있음
│                   ├── y: noise 있음
│                   └── [X  y] 전체의 perturbation 최소화
│
├── 2. Regularization 기준
│                ├── No penalty
│              │         ├── OLS
│                │         ├── WLS
│            │       ├── GLS
│                │       └── (Standard) TLS
│                │
│              └── Penalized / Regularized
│                            ├── Ridge: L2 penalty
│                             ├── Lasso: L1 penalty
│                             ├── Elastic Net: L1 + L2 penalty
│                             ├── Penalized WLS
│                             ├── Penalized GLS
│                             └── Regularized TLS
│
└── 3. Optimization / Solver 기준
├── Normal equation 기반 closed-form
   │ ├── OLS
   │ │ └── $\boldsymbol{\omega}^* = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top \mathbf{y}$
   │ │
   │ ├── WLS
   │ │ └── $\boldsymbol{\omega}^* = (\mathbf{X}^\top \mathbf{W} \mathbf{X})^{-1}\mathbf{X}^\top \mathbf{W} \mathbf{y}$
   │ │
   │ ├── GLS
   │ │ └── $\boldsymbol{\omega}^* = (\mathbf{X}^\top \boldsymbol{\Omega}^{-1} \mathbf{X})^{-1} \mathbf{X}^\top \boldsymbol{\Omega}^{-1} \mathbf{y}$
   │ │
   │ └── Ridge
   │         └── $\boldsymbol{\omega}^* = (\mathbf{X}^\top \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^\top \mathbf{y}$
   │
   ├── Direct decomposition 기반 solver
   │        ├── QR decomposition
   │         │ └── OLS, WLS, GLS에 사용 가능
   │         │
   │         ├── SVD
   │         │ ├── OLS의 rank-deficient case에 사용 가능

   │    │ ├── Ridge 에서 가장 안정적인 Solver임.
   │        │ └── Standard TLS의 대표적 solver
   │         │
   │        └── Cholesky decomposition
   │          └── Ridge, WLS, GLS 등 positive definite system에 사용 가능
   │
   └── Iterative optimization 기반 solver
        ├── Gradient Descent
     ├── Stochastic Gradient Descent
     ├── Coordinate Descent
     │       └── Lasso, Elastic Net에서 자주 사용
     ├── LBFGS
        └── 기타 numerical optimization

1. Linear Regression 이란?

Linear Regression(선형회귀)은

입력 feature와 target 사이의 선형 관계(linear relationship)를 가정하여
continuous target 값을 예측하는 대표적인 regression model임.

linear regression(선형회귀)를 matrix(행렬)로 쓰면 다음과 같음:

$$
\mathbf{y} = \mathbf{X}\boldsymbol{\omega} + \boldsymbol{\varepsilon}
$$

학습된 linear regression model의 예측값은 다음과 같음:

$$
\hat{\mathbf{y}} = \mathbf{X} \hat{\boldsymbol{\omega}}
$$

target과 predicted value의 오차는 residual이라 불리며 다음과 같음:

$$
\mathbf{e} = \mathbf{y} - \hat{\mathbf{y}}
$$

각 항의 차원은 보통 다음과 같음.

기호	의미	차원
$\mathbf{X}$	design matrix	$m \times n$
$\boldsymbol{\omega}$	parameter, coefficient vector	$n \times 1$
$\hat{\boldsymbol{\omega}}$	estimated parameter vector	$n \times 1$
$\mathbf{y}$	target, response vector	$m \times 1$
$\hat{\mathbf{y}}$	fitted value, predicted response vector	$m \times 1$
$\boldsymbol{\varepsilon}$	error vector	$m \times 1$
$\mathbf{e}$	residual vector	$m \times 1$

여기서

$m$은 sample 수, $n$는 feature 수임.
$\boldsymbol{\varepsilon}$는 실제 data-generating process에서 발생한다고 가정하는 이론적 error term이며, 직접 관측되지 않음.
반면 $\mathbf{e}$는 학습된 model의 predicted value와 실제 target의 차이로 계산되는 residual vector임.
즉, residual은 관측 불가능한 error term의 proxy로 사용되지만, 두 값이 완전히 같은 것은 아님.

이해를 돕기 위해 훈련데이터로 구성된 desing matrix는 다음과 같음:

$$\mathbf{X} = \begin{bmatrix} - (\mathbf{x}_1)^\top - \\ - (\mathbf{x}_2)^\top - \\ \vdots \\ - (\mathbf{x}_m)^\top - \\ \end{bmatrix} \in \mathbb{R}^{m \times n}$$

참고로, model이 linear하다고 하는 것은
regression 문제에서는 output이 parameters의 linear combination으로 표현되거나,
classification 문제에서는 decision boundary가 hyperplane 형태로 표현되는 경우를 의미함.

classification에서도 decision function은 regression의 prediction formula와 마찬가지로
$f(x)=\boldsymbol{\omega}^\top \mathbf{x} + b$ 이며,
이 decision function이 0이 되는 점들의 집합이 바로 hyperplane (decision boundary)임.

linear regression model의 예측식(prediction function)은 보통 두 가지 형태 중 하나로 기술됨.

1-1. Affine Form

$$
\hat{y}_i = \boldsymbol{\omega}^\top \mathbf{x}_i + b
$$

여기서 $b \in \mathbb{R}$는 intercept 또는 bias라고 불림.

1-2. Linear Form (or Homogeneous coordinate form)

모든 Linear transformation은 matrix와의 곱으로 표현가능함.
Affine Form에서 bias를 더하는 부분을 없애기 위해선 Homogeneous Coordinate 를 사용하면 됨.

intercept를 parameter vector와 input vector에 포함하면 다음처럼 쓸 수 있음.

$$
\hat{y}_i = {\boldsymbol{\omega}'}^\top \mathbf{x}'_i
$$

이때 $\mathbf{x}'_i$와 $\boldsymbol{\omega}'$는 다음과 같음.

$$
\mathbf{x}'_i =
\begin{bmatrix}
1 \\
x_{i1} \\
x_{i2} \\
\vdots \\
x_{in}
\end{bmatrix}
\in \mathbb{R}^{n+1},
\qquad
\boldsymbol{\omega}' =
\begin{bmatrix}
b \\
\omega_1 \\
\omega_2 \\
\vdots \\
\omega_n
\end{bmatrix}
\in \mathbb{R}^{n+1}
$$

따라서

$$
{\boldsymbol{\omega}'}^\top \mathbf{x}'_i =
\begin{bmatrix}
b & \omega_1 & \omega_2 & \cdots & \omega_n
\end{bmatrix}
\begin{bmatrix}
1 \\
x_{i1} \\
x_{i2} \\
\vdots \\
x_{in}
\end{bmatrix}
=
b + \sum_{j=1}^{n} \omega_j x_{ij}
$$

이 방식은 affine model을 homogeneous coordinate 형태로 바꾸어 linear form으로 표현한 것임.

정리하면 다음과 같음.

$$
\mathbf{x}_i =
\begin{bmatrix}
x_{i1} \\
x_{i2} \\
\vdots \\
x_{in}
\end{bmatrix}
\in \mathbb{R}^{n},
\qquad
\mathbf{x}'_i =
\begin{bmatrix}
1 \\
x_{i1} \\
x_{i2} \\
\vdots \\
x_{in}
\end{bmatrix}
\in \mathbb{R}^{n+1}
$$

$$
\boldsymbol{\omega} =
\begin{bmatrix}
\omega_1 \\
\omega_2 \\
\vdots \\
\omega_n
\end{bmatrix}
\in \mathbb{R}^{n},
\qquad
\boldsymbol{\omega}' =
\begin{bmatrix}
b \
\omega_1 \\
\omega_2 \\
\vdots \\
\omega_n
\end{bmatrix}
\in \mathbb{R}^{n+1}
$$

주의할 점은 $\mathbf{x}'_i$와 $\boldsymbol{\omega}'$를 $ (n+1) \times 1$이라고 써도 되지만, 보통은 vector space를 나타낼 때 $\mathbb{R}^{n+1}$로 표기함.

이후로는 편의를 위해 intercept를 포함한 방식을 기본으로 사용하고,
표기는

$\mathbf{X'} \rightarrow \mathbf{X}, \boldsymbol{\omega}' \rightarrow \boldsymbol{\omega}, \mathbf{x}' \rightarrow \mathbf{x}$

로 바꾸어서 사용한다.

2. OLS

2022.04.28 - [Programming/ML] - [Fitting] Ordinary Least Squares : OLS, 최소자승법

[Fitting] Ordinary Least Squares : OLS, 최소자승법

Ordinary Least Squares : OLS, 최소자승법Solution을 구할 수 없는 Over-determined system에서 solution의 approximation을 구하는 가장 기본적인 방법임.Machine Learning에서 Supervised Learning의 대표적인 task인 Regression을

dsaint31.tistory.com

OLS(Ordinary Least Squares)는 $y$ 방향의 residual의 제곱(squared)합을 최소화(least)함.

$$\underset{\boldsymbol{\omega}}{\min}\left\| \mathbf{y} - \mathbf{X} \boldsymbol{\omega} \right\|_2^2$$

residual vector $\mathbf{e}$는 다음과 같음.

$$\mathbf{e} = \mathbf{y} - \mathbf{X}\boldsymbol{\omega}, \qquad \mathbf{e} \in \mathbb{R}^{m}$$

OLS의 기본 error covariance assumption은 다음과 같음:

$$ \operatorname{Var}(\boldsymbol{\varepsilon}) = \sigma^2 \mathbf{I}_m$$

즉,

모든 sample의 error variance가 같음: $\text{Var}(\varepsilon_i)= \sigma^2$
sample 간 error covariance가 0임: $\text{Cov}(\varepsilon_i , \varepsilon_j)=0 \quad, i\ne j$

3. Regularization - Penalty term

OLS 의 objective function 에 penalty term이 추가된 경우로 설명하는 것이 일반적.

(단, WLS, GLS, TLS 등에도 Penalty term을 추가할 수 있음)

주의: Regularization이 된 경우는 Feature Scaling을 해줘야 제대로 동작함.

Ridge, LASSO, Elastic Net의 penalty는 coefficient 크기에 직접 작용하므로,
feature scale이 서로 다르면 penalty가 feature별로 공정하게 적용되지 않을 수 있음.
단, intercept(=bias) 는 penalty 대상에서 제외하는 게 일반적임.

3-1. Ridge Regression

2025.11.06 - [Programming/ML] - Ridge Regression

Ridge Regression

명칭의 유래Ridge: "산등성이" 또는 "융기"를 의미하는 영어 단어L2-Regularization Term 추가 시 loss function의 contour가 융기된 형태로 변형되는 데에서 유래됨.역사적 배경Tikhonov regularization (1963)과 수학

dsaint31.tistory.com

Ridge Regression은 OLS objective에 L2 penalty를 추가한 방법임.

참고로 intercept $b$ 는 penalty 대상에서 제외하는게 일반적임.

여기서 $\mathbf{X}$와 $\boldsymbol{\omega}$ 는 Affine 에서 사용된 형태임($b$가 penalty에서 빠지므로)

Objective function 은 다음과 같음:

$$\underset{\boldsymbol{\omega}, b}{\min} \frac{1}{2m} \| \mathbf{y} - (\mathbf{X} \boldsymbol{\omega} + b\mathbf{1}) \|^2_2 + \alpha \| \boldsymbol{\omega} \| ^2_2$$

Ridge는 다음 형태의 closed-form solution을 가질 수 있음.

$$
\boldsymbol{\omega}^* _{Ridge}
=
\left(
\mathbf{X}^\top \mathbf{X} + \alpha\mathbf{I}_n \right)^{-1} \mathbf{X}^\top \mathbf{y}
$$

위 식은 intercept 처리와 centering을 단순화한 표현임.

Closed Form을 가지므로 Direct 방식의 svd, cholesky 등을 사용할 수 있으나,
lsqr, sparse_cg (sparse input), sab, saga, lbfgs (positive=True) 등의 iterative 방식도 사용가능함.

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ridge_regression.html?utm_source=chatgpt.com

ridge_regression

Precision of the solution. Note that tol has no effect for solvers ‘svd’ and ‘cholesky’. Changed in version 1.2: Default value changed from 1e-3 to 1e-4 for consistency with other linear models.

scikit-learn.org

3-2. LASSO Regression

2025.11.08 - [Programming/ML] - LASSO Regression

LASSO Regression

명칭의 유래LASSO: Least Absolute Shrinkage and Selection Operator 의 약자이름에서 알 수 있듯이,절대값(absolute value) 기반의shrinkage(축소)와feature selection(특성 선택)을 동시에 수행하는 회귀 기법“Shrinkage”

dsaint31.tistory.com

LASSO는 OLS objective에 L1 penalty를 추가한 방법임.

$$
\underset{\boldsymbol{\omega}, b}{\min} \frac{1}{2m} \left\| \mathbf{y} -
( \mathbf{X}\boldsymbol{\omega} + b\mathbf{1} ) \right\|_2^2 + \alpha \|\boldsymbol{\omega}\|_1
$$

LASSO는 weight coefficient shrinkage와 feature selection 효과를 가짐.

LASSO 의 특징:

OLS + L1 penalty
sparse weights 를 만듦 (weight shrinkage)
일반적으로 coordinate descent (iterative 방식)로 풂

3-3. Elastic Net

https://dsaint31.me/mkdocs_site/ML/ch01/ch01_41/?h=elastic#4-elasticnet

BME

bagging boosting ensemble machine learning random forest regression scikit-learn support vector machine [ML] Classic Regressor (Summary) DeepLearning 계열을 제외한 Regressor 모델들을 간단하게 정리함. 분류 Instance Based Algorithm Mod

dsaint31.me

Elastic Net은 L1 penalty와 L2 penalty를 함께 사용하는 방법임.

$$\underset{\boldsymbol{\omega}, b}{\min}\frac{1}{2m}
\left \| \mathbf{y} - ( \mathbf{X} \boldsymbol{\omega} + b\mathbf{1} ) \right\|_2^2 + \alpha \left( \rho \| \boldsymbol{\omega} \|_1 + \frac{1-\rho}{2} \|\boldsymbol{\omega} \|_2^2 \right)$$

여기서 $\rho$는 L1과 L2의 비율을 조절하는 값임.

scikit-learn에서는 이를 l1_ratio라고 부름.

L2 penalty 쪽의 $\frac{1}{2}$ 는 미분 시 $2$가 사라지도록 하기 위한 관례적 상수임.
따라서 개념적으로는 $\rho$와 $1-\rho$의 혼합으로 이해하면 됨.
일반적으로 coordinate descent (iterative 방식)로 풂

4. Error Variance 의 차이

OLS는 $\mathbf{X}$를 fixed 또는 error-free로 두고, $\mathbf{y}$에만 error term $\boldsymbol{\varepsilon}$이 있다고 가정함.

OLS의 기본 가정은 각 sample의 error variance가 동일하고, 서로 다른 sample의 error term 간 covariance가 0이라는 것임.

WLS와 GLS도 OLS와 마찬가지로 $\mathbf{X}$는 fixed 또는 error-free로 두지만, $\mathbf{y}$의 error term $\boldsymbol{\varepsilon}$에 대한 covariance matrix를 다르게 가정함.

WLS: 각 sample의 error variance가 다를 수 있으나, 서로 다른 sample의 error term 간 covariance는 0이라고 가정함.
GLS: 각 sample의 error variance가 다를 수 있으며, 서로 다른 sample의 error term 간 covariance도 0이 아닐 수 있음.

4-1. WLS

2024.06.13 - [.../Math] - [Math] Weighted Least Squares

[Math] Weighted Least Squares

Weighted Least Squares(WLS)는sample마다 error variance가 다를 수 있다고 보고,각 residual 제곱항에 보통 $\frac{1}{\sigma_i^2}$에 비례하는 weight을 주어 추정하는 Least Squares 방법임.아래와 같이 error term의 variance

dsaint31.tistory.com

WLS(Weighted Least Squares)는 sample마다 error variance가 다르다고 보는 방법임.

즉, error covariance matrix가 diagonal matrix인 경우임.

$$
\operatorname{Var}(\boldsymbol{\varepsilon}) =
\begin{bmatrix}
\sigma_1^2 & 0 & \cdots & 0 \\
0 & \sigma_2^2 & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & \sigma_m^2 \\
\end{bmatrix}
$$

따라서 WLS의 error covariance matrix 차원은 다음과 같음.

$$
\operatorname{Var}(\boldsymbol{\varepsilon})
\in
\mathbb{R}^{m \times m}
$$

WLS objective는 다음과 같음.

$$
\underset{\boldsymbol{\omega}}{\min}
\left(
\mathbf{y}
-
\mathbf{X} \boldsymbol{\omega}
\right)^\top
\mathbf{W}
\left(
\mathbf{y}
-
\mathbf{X}\boldsymbol{\omega}
\right) \\ \underset{\boldsymbol{\omega}}{\min} \sum^m_{i=1} w_i (y_i - \mathbf{x}_i^\top \boldsymbol{\omega})^2$$

여기서 $\mathbf{W}$는 weight matrix임.

$$
\mathbf{W}
=
\begin{bmatrix}
w_1 & 0 & \cdots & 0 \\
0 & w_2 & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & w_m
\end{bmatrix}
\in
\mathbb{R}^{m \times m}
$$

보통 weight는 error variance의 inverse에 비례함.

$$
w_i \propto \frac{1}{\sigma_i^2}
$$

즉, measurement error variance가 큰 sample은 덜 믿고, variance가 작은 sample은 더 크게 반영함.

WLS 의 solution 은 다음과 같음:

$$
\boldsymbol{\omega}^*_{WLS}
=
\left(
\mathbf{X}^\top
\mathbf{W}
\mathbf{X}
\right)^{-1}
\mathbf{X}^\top
\mathbf{W}
\mathbf{y}
$$

차원은 다음과 같음.

$$
\mathbf{X}^\top
\mathbf{W}
\mathbf{X}
\in
\mathbb{R}^{(n+1)\times(n+1)}
$$

4-2. GLS

GLS(Generalized Least Squares)는 WLS보다 더 일반적인 Least Squares임.

WLS는 error covariance matrix가 diagonal인 경우로 각 sample에서의 error variance가 다를 수 있지만 각각은 독립인데 반해,
GLS는 error covariance matrix가 일반적인 $m \times m$ matrix 로서, 각 sample에서의 error variance가 다를 수 있으면서 각각이 항상 독립이 보장되지 않는 경우임.

Error covariance matrix는 다음과 같음 (대각행렬로 제한되지 않음):

$$
\operatorname{Var}(\boldsymbol{\varepsilon})
=
\sigma^2 \mathbf{\Omega}
$$

$\mathbf{\Omega}$ :
- Scale-free error covariancee matrix (or Structure matrix)
- 이는 error간의 상관관계 구조와 상대적인 가중치만을 담고 있음.

covariance (공분산) 에 대한 보다 자세한 내용은 다음을 참고:

[Statistics] Covariance vs. Correlation:

Covariance (공분산)"Covariance" is the raw version of correlation.두 random variable(확률변수)가 얼마나 (선형적으로) 같이 변하는 정도를 나타냄.여러 random variables 에서는 matrix로 기재됨(covariance matrix, $\Sigma$).ma

dsaint31.tistory.com

$$
\mathbf{\Omega} \in \mathbb{R}^{m \times m}
$$

각 원소는 다음을 의미함.

$$
\sigma^2 \Omega_{ij}
=
\operatorname{Cov}
\left(
\varepsilon^{(i)},
\varepsilon^{(j)}
\right)
$$

즉, GLS는 다음을 허용함.

sample마다 error variance가 다름
서로 다른 sample의 error가 correlated 될 수 있음

GLS objective는 다음과 같음.

$$
\underset{\mathbf{\omega}}{\min}
\left(
\mathbf{y}
-
\mathbf{X}\boldsymbol{\omega}
\right)^T
\mathbf{\Omega}^{-1}
\left(
\mathbf{y}
-
\mathbf{X}\boldsymbol{\omega}
\right)
$$

GLS 해는 다음과 같음.

$$
\boldsymbol{\omega}^*_{GLS}
=
\left(
\mathbf{X}^\top
\mathbf{\Omega}^{-1}
\mathbf{X}
\right)^{-1}
\mathbf{X}^\top
\mathbf{\Omega}^{-1}
\mathbf{y}
$$

OLS, WLS, GLS의 포함 관계는 다음과 같음.

$$
\text{OLS} \subset \text{WLS} \subset \text{GLS}
$$

단, 여기서 포함 관계는 “error covariance structure의 일반성” 기준임.

5. TLS

2024.06.22 - [Programming/ML] - [Fitting] Total Least Squares Regression

[Fitting] Total Least Squares Regression

Total Least Squares (TLS) RegressionTotal Least Squares (TLS) 회귀는 데이터의 모든 방향에서의 오차를 최소화하는 회귀 방법임.이는 특히 독립 변수 와 종속 변수 모두에 오차가 포함되어 있는 경우에 유용함

dsaint31.tistory.com

TLS(Total Least Squares)는 OLS, WLS, GLS와 관점이 다름.

OLS, WLS, GLS는 기본적으로 $\mathbf{X}$는 fixed 또는 error-free라고 보고, $\mathbf{y}$ 쪽 residual을 최소화함.
반면 TLS는 $\mathbf{X}$와 $\mathbf{y}$ 양쪽에 measurement error가 있다고 봄.

OLS 계열에서는 이상적인 경우의 모델은 다음과 같음:

$$\mathbf{y}=\mathbf{X}\boldsymbol{\omega}+\boldsymbol{\varepsilon}$$

하지만 TLS에서는 관측된 $\mathbf{X}$와 $\mathbf{y}$ 모두 오차를 포함한다고 봄.

$$
\left( \mathbf{X} + \Delta \mathbf{X} \right)\boldsymbol{\omega}
=
\mathbf{y} + \Delta \mathbf{y}
$$

TLS는 다음 perturbation (작은 변화량,수정량을 뜻함: correction)을 최소화함.

( $ 전체의 Euclidean perturbation을 최소화하기 때문에 Feature Scaling이 매우 중요)

$$
\underset{\Delta \mathbf{X}, \Delta \mathbf{y}, \boldsymbol{\omega}}{\min}
\|
\left[
\Delta \mathbf{X}
\
\Delta \mathbf{y}
\right]
\|_F^2
$$

subject to

$$
( \mathbf{X} + \Delta \mathbf{X}) \boldsymbol{\omega}
=
\mathbf{y} + \Delta \mathbf{y}
$$

여기서 $\| \mathbf{A} \| _F = \displaystyle \sqrt{ \sum^m_{i=1} \sum^n_{j=1} a^2 _{ij} }$ 이며, Frobenius norm이라고 불림.
위의 식에선 $\mathbf{X}$와 $\mathbf{y}$에서 발생한 모든 correction (or error) 의 제곱합임.

$\Delta \mathbf{X}$와 $\Delta \mathbf{y}$는
실제 관측값에 섞여 있다고 가정하는
measurement error 또는
해당 error를 제거하기 위한 작은 correction으로 해석됨.
즉, 이들의 모든 원소를 각각 제곱하여 합한 값을 최소화하는 것이 TLS에서 요구됨.

TLS에서 augmented data matrix는 다음과 같음.

$$
\mathbf{A}
=
[
\mathbf{X}
\
\mathbf{y}
]
$$

차원은 다음과 같음.

$$
\mathbf{A}
\in
\mathbb{R}^{m \times (n+2)}
$$

여기서 $\mathbf{X}$가 intercept column을 이미 포함하므로 $(n+1)$개의 column을 가지고, $\mathbf{y}$ column이 하나 더 붙어 총 $(n+2)$개 column이 됨.

Standard TLS는
보통 SVD를 이용해 풂.

TLS 의 특징

$\mathbf{X}$ 와 $\mathbf{y}$ 양쪽에 measurement error 존재
vertical residual이 아니라 orthogonal residual 관점
augmented matrix $\left[ \mathbf{X} \ \mathbf{y} \right]$ 사용
대표 solver: SVD

기본 TLS는 SVD 기반 closed-form/direct solution이 가능하지만,
penalty, 구조 제약, weight, robustness 조건등이 들어간 TLS는
iterative optimization으로 푸는 것이 보다 일반적임.

참고: 차원 정리

intercept를 포함한 경우임.

기호	의미	차원
$m$	sample 수	scalar
$n$	feature 수	scalar
$\mathbf{X}$	intercept 포함 design matrix	$m \times (n+1)$
$\boldsymbol{\omega}$	itercept 포함 parameter vector	$(n+1) \times 1$
$\mathbf{y}$	target vector	$m \times 1$
$\hat{\mathbf{y}}$	predicted value vector	$m \times 1$
$\mathbf{e}$	residual vector	$m \times 1$
$\boldsymbol{\varepsilon}$	error vector	$m \times 1$
$\mathbf{W}$	WLS weight matrix	$m \times m$
$\mathbf{\Omega}$	GLS error covariance matrix	$m \times m$
$\mathbf{X}^\top \mathbf{X}$	feature-feature Gram matrix	$(n+1)\times(n+1)$
$\mathbf{X}^\top \mathbf{W} \mathbf{X}$	WLS parameter system matrix	$(n+1)\times(n+1)$
${\mathbf{X}}^\top \mathbf{\Omega}^{-1} \mathbf{X}$	GLS parameter system matrix	$(n+1)\times(n+1)$
$[\mathbf{X}\ \mathbf{y}]$	TLS augmented matrix, intercept 포함	$m \times (n+2)$

요약

sample 수를 $m$, feature 수를 $n$으로 두면, intercept를 포함한 design matrix는 $\mathbf{X}\in\mathbb{R}^{m\times (n+1)}$임.
OLS는 $y$ 방향 residual의 제곱합을 최소화하는 기본 least squares임.
Ridge, LASSO, Elastic Net은 OLS objective에 regularization penalty를 추가한 penalized least squares 계열임.
WLS는 sample별 error variance가 다를 때 diagonal weight matrix $\mathbf{W}\in\mathbb{R}^{m\times m}$를 사용하는 방법임.
GLS는 sample error들 사이의 covariance까지 포함하여 $\mathbf{\Omega}\in\mathbb{R}^{m\times m}$를 사용하는 WLS의 일반화임.
TLS는 $X$와 $y$ 양쪽에 measurement error가 있다고 보고, vertical residual이 아니라 orthogonal residual 또는 total perturbation을 최소화하는 방법임.
Normal equation, QR, SVD, WLS direct solve, GLS direct solve는 direct linear algebra 계열이고, GD, SGD, coordinate descent는 iterative optimization 계열임.
OLS와 WLS에서는 feature scaling이 필수는 아니지만, Penalized Linear Regression과 TLS에서는 scale이 objective function에 직접적인 영향을 주므로 일반적으로 scaling을 수행해야 함.

같이보면 좋은 자료들

https://dsaint31.me/mkdocs_site/ML/ch01/ch01_41/

BME

dsaint31.me

2022.05.01 - [.../Math] - [Statistics] Covariance vs. Correlation:

[Statistics] Covariance vs. Correlation:

dsaint31.tistory.com

2024.06.13 - [.../Math] - [Math] Weighted Least Squares

[Math] Weighted Least Squares

dsaint31.tistory.com

2024.06.22 - [Programming/ML] - [Fitting] Total Least Squares Regression

[Fitting] Total Least Squares Regression

dsaint31.tistory.com

Bootstrap Sampling 기반 Accuracy 추정 지표

dsaint31x — Tue, 14 Apr 2026 13:48:46 +0900

0. 왜 Bootstrap Accuracy Estimation이 필요한가

모델 성능 평가의 이상적인 방법은 독립적인 test set을 사용하는 것임.
하지만 데이터가 부족한 경우, 충분한 test set을 확보하기 어려움.

Bootstrap accuracy estimation은

복원 추출(sampling with replacement) 을 반복하여
하나의 dataset으로 여러 training/evaluation 조합을 만들고
이를 통해 모델의 일반화 성능을 추정하는 방법임.
단일 train/test split 의 경우와 비교하여 "분산(variance)을 줄인 보다 안정적인 성능 추정" 이 가능

2024.06.05 - [.../Math] - [ML] Bootstrap Sampling

[ML] Bootstrap Sampling

Bootstrap Sampling을 이해하고 활용하기Bootstrap Sampling이란 무엇인가?Bootstrap Sampling은 통계학(Statistics)과 데이터 과학(Data Science)에서 널리 사용되는 강력한 방법론(Methodology) 중 하나임.이는 기존의 데

dsaint31.tistory.com

하지만 어떻게 평가하느냐에 따라

낙관적(optimistic) 또는
비관적(pessimistic) 편향(bias)이 발생함.

이를 보정하는 방향으로 다음 순서로 발전해 왔음:

이 문서는 간단한 예제를 통해 이들을 비교 설명함.

1. 예제 설정

이하 모든 설명에서 다음 4-class 분류 문제를 공통 예제로 사용함.

항목	값
샘플 수 $N$	20
클래스	C1, C2, C3, C4
실제 클래스 분포 $\hat{p}_k$	$[0.40,\ 0.30,\ 0.20,\ 0.10]$
예측 클래스 분포 $\hat{q}_k$	$[0.40,\ 0.30,\ 0.20,\ 0.10]$
Bootstrap 반복 수 $B$	100

Bootstrap 실험을 통해 다음 두 accuracy 값을 얻었다고 가정함:

$$\text{Acc}_{\text{train}} = 0.95 \quad \text{(훈련셋 평균 accuracy, optimistic)}$$

$$\text{Acc}_{\text{OOB}} = 0.72 \quad \text{(OOB accuracy, pessimistic)}$$

아래처럼 수정하는 것이 정확합니다. 핵심은 Resubstitution Estimate라고 부르되, bootstrap 반복별 resubstitution accuracy의 평균임을 명시하는 것입니다. 그리고 Acc_train보다는 Acc_resub가 더 정확합니다.

2. Resubstitution Estimate

2-1. Concept

Bootstrap 반복 (b)마다 bootstrap sample $\mathcal{D}^{*(b)}$를 복원 추출로 생성함.
각 bootstrap sample $\mathcal{D}^{*(b)}$로 모델 $\mathcal{M}^{(b)}$를 학습함.
학습에 사용한 동일한 bootstrap sample $\mathcal{D}^{*(b)}$에서 다시 평가한 accuracy를 (b)-번째 resubstitution accuracy라고 함.

$$
\text{Acc}_{\text{resub}}^{(b)} = \text{Acc}\left(\mathcal{M}^{(b)}, \mathcal{D}^{*(b)}\right)
$$

따라서 bootstrap 전체에 대한 평균 resubstitution accuracy는 다음과 같이 정의됨.

$$\text{Acc}_{\text{resub}} = \frac{1}{B} \sum_{b=1}^{B} \text{Acc}\left(\mathcal{M}^{(b)}, \mathcal{D}^{*(b)}\right)$$

위 예제에서 $\text{Acc}_{\text{resub}} = 0.95$ 로 둔 값이 이에 해당함.

이는 각 bootstrap model을 자신이 학습한 데이터로 다시 평가한 값이므로,
training accuracy라고 볼 수 있지만 더 정확한 명칭은 resubstitution estimate임.

2-2. Problem: Optimistic Bias

Resubstitution estimate는 학습에 사용한 sample을 다시 평가에 사용하므로 낙관적 편향(optimistic bias)을 가짐.

즉, $\mathcal{M}^{(b)}$ 는 이미 $\mathcal{D}^{*(b)}$를 이용해 학습되었고, 평가도 같은 $\mathcal{D}^{*(b)}$에서 수행되므로 실제 일반화 성능보다 accuracy가 높게 추정될 수 있음.

특히 다음과 같은 경우 낙관적 편향이 더 커질 수 있음.

sample 수가 적은 경우
모델 복잡도가 높은 경우
class imbalance가 심한 경우
소수 클래스 sample이 bootstrap sample 안에서 반복적으로 중복 선택되는 경우

예를 들어 C4처럼 원본 dataset에 sample이 2개뿐인 소수 클래스는 bootstrap sample 안에서 같은 sample이 여러 번 중복될 수 있음.
이 경우 모델은 해당 sample을 사실상 외운 상태가 되어 training accuracy는 높게 나오지만, 실제 unseen sample에 대한 일반화 성능은 훨씬 낮을 수 있음.

따라서 resubstitution estimate는 모델의 학습 데이터 적합 정도를 확인하는 데는 사용할 수 있지만, 일반화 성능 추정치로는 부적절함.

3. OOB (Out-of-Bag) Bootstrap

3-1. Concept

sampling with replacement 특성상

각 샘플이 특정 bootstrap $\mathcal{D}^{*(b)}$ 에서 제외될 확률이 다음과 같음:

$$P(\text{excluded}) = \left(1 - \frac{1}{N}\right)^N \approx e^{-1} \approx 0.368$$

이 제외된 샘플들을 OOB sample $\mathcal{D}^{\text{OOB}(b)}$ 이라 함.
완벽하게 훈련에 사용되지 않은 샘플들이므로 독립적인 평가가 가능함.
전체 20개 샘플 중 평균 $20 \times 0.368 \approx 7.4$개가 OOB sample로 사용됨.

$$ \text{Acc}_{\text{OOB}} = \frac{1}{N} \sum_{i=1}^{N} \text{Acc}\!\left( \left\{ \mathcal{M}^{(b)} \mid i \notin \mathcal{D}^{*(b)} \right\}, \mathbf{x}_i \right) = 0.72$$

$N$ : the number of samples,
$\mathcal{M}^{(b)}$ : the model trained on the $b$-th bootstrap sample,
$\mathcal{D}^{*(b)}$ : is the $b$-th bootstrap training set,
$i \notin \mathcal{D}^{*(b)}$ : sample $i$ is out-of-bag for model $\mathcal{M}^{(b)}$
$\text{Acc}(\cdot)$ : the prediction accuracy evaluated using the OOB models for sample $\mathbf{x}_i$

2024.06.20 - [.../Math] - [ML] Out of Bag: 유도하기.

[[ML] Out of Bag: 유도하기.

Out of Bag (OOB)란?Out of Bag (OOB)는 Bagging (Bootstrap aggregating)과 같이 Bootstraping을 이용한 Ensemble Model에 등장하는 용어. Bootstrap Sampling을 사용할 경우, 특정 predictor를 훈련시킬 때 sample point는 여러번 사용

dsaint31.tistory.com](https://dsaint31.tistory.com/746)

3-2. Per-Class OOB / Training Sample Analysis

클래스	비율	전체 수 $N_k$	기대 OOB 수 ($\times 0.368$)	기대 훈련 수 ($\times 0.632$)
C1	0.40	8	$\approx 2.94$	$\approx 5.06$
C2	0.30	6	$\approx 2.21$	$\approx 3.79$
C3	0.20	4	$\approx 1.47$	$\approx 2.53$
C4	0.10	2	$\approx 0.74$	$\approx 1.26$

3-3. 문제점: Problem: Pessimistic Bias Worsens with More Classes

클래스 수가 많고 데이터가 불균형할수록 다음 세 가지 문제가 동시에 발생함:

문제 1. 소수 클래스 OOB 평가 불가 확률 급증

C4 샘플이 2개뿐이고 각각이 bootstrap에 포함될 확률이 $\approx 0.632$이므로,

두 샘플 모두 포함되어 C4의 OOB sample이 하나도 없을 확률이 다음과 같음:

$$P(\text{C4 OOB} = 0) \approx 0.632^2 \approx 0.40$$

즉 bootstrap의 약 40%에서 C4에 대한 OOB 평가가 아예 불가능함.
$\text{Acc}_{\text{OOB}}$의 분산(variance)을 크게 증가시킴.

문제 2. 다수 클래스 위주의 편향

C4의 OOB 평가가 불가능한 bootstrap에서는 C4의 성능이 전혀 반영되지 않으므로,
$\text{Acc}_{\text{OOB}}$는 다수 클래스(C1, C2) 위주로 편향됨.
모델이 C4를 전혀 맞추지 못해도 해당 bootstrap의 OOB accuracy에는 영향이 없음.

문제 3. 소수 클래스 훈련 부족에 의한 pessimistic bias 심화

C4는 평균 1.26개만으로 훈련해야 하므로 모델이 C4 패턴을 제대로 학습할 수 없음.
OOB 평가에서 C4를 자주 틀리게 되어 $\text{Acc}_{\text{OOB}}$의 pessimistic bias가 심화됨.

세 문제를 종합하면:

$$ \underbrace{\text{클래스 수} \uparrow}_{\text{소수 클래스 OOB 부족}} \Rightarrow \underbrace{\text{Var}(\text{Acc}_{\text{OOB}}) \uparrow}_{\text{추정 불안정}} + \underbrace{\text{Bias}(\text{Acc}_{\text{OOB}}) \downarrow}_{\text{비관적 편향 심화}}$$

이같은 OOB의 단점이 .632 및 .632+ 보정이 등장하게 된 배경이 됨.

보통 가장 나쁜(=비관적인) 결과가 나옴!

4. `.632` Bootstrap

4-1. Concept

Basic Bootstrap의 optimistic bias 와 OOB의 pessimistic bias 를
고정 가중치(fixed weight) 로 결합하여 상쇄함.

$$\text{Acc}_{.632} = 0.368 \times \text{Acc}_{\text{train}} + 0.632 \times \text{Acc}_{\text{OOB}}$$

$$= 0.368 \times 0.95 + 0.632 \times 0.72 = 0.3496 + 0.4550 = \mathbf{0.805}$$

가중치 $0.632$는 각 샘플이 하나의 bootstrap에 포함될 확률 $1 - e^{-1} \approx 0.632$에서 자연스럽게 유도됨.

4-2. Problem: Residual Optimistic Bias under Overfitting

$\text{Acc}_{\text{train}} = 0.95$처럼 과적합이 심한 경우에도 훈련 accuracy가 항상 고정 비율 $0.368$만큼 반영됨.
과적합 정도 차이가 있음에도 이를 고려하지 않고 항상 같은 가중치를 적용하는 것이 .632의 근본적 한계임.

5. `.632`+ Bootstrap

Efron & Tibshirani (1997)가 제안한 방법으로, .632의 고정 가중치 문제를 해결함.

과적합 정도에 따라 가중치를 동적으로 조정함.

Step 1. No-Information Accuracy $\gamma_{\text{acc}}$ 계산

모델이 학습 없이 클래스 분포만으로 예측할 때의 기대 accuracy.
모델 성능의 최저 기준선(baseline) 역할을 함.

$$\gamma_{\text{acc}} = \sum_{k=1}^{K} \hat{p}_k \cdot \hat{q}_k$$

$$= (0.40 \times 0.40) + (0.30 \times 0.30) + (0.20 \times 0.20) + (0.10 \times 0.10)$$

$$= 0.16 + 0.09 + 0.04 + 0.01 = \mathbf{0.30}$$

4-class 균등 분포라면 $\gamma_{\text{acc}} = 0.25$이지만, 클래스 불균형으로 인해 $0.30$이 됨.
클래스 수 $K$가 커질수록 $\sum_k \hat{p}_k^2$이 감소하여 $\gamma_{\text{acc}}$는 낮아짐.

Step 2. Relative Overfitting Rate $\hat{R}$ 계산

$$\hat{R} = \frac{\text{Acc}_{\text{train}} - \text{Acc}_{\text{OOB}}}{\text{Acc}_{\text{train}} - \gamma_{\text{acc}}} = \frac{0.95 - 0.72}{0.95 - 0.30} = \frac{0.23}{0.65} \approx \mathbf{0.354}$$

참고: Qualitative Meaning of $\hat{R}$

$\hat{R}$은 단순히 train/OOB accuracy의 차이가 아니라,
"그 차이가 얼마나 심각한가(얼마나 과적합 되었나)"
를 맥락 속에서 정규화한 지표임.

$$\hat{R} = \frac{\overbrace{\text{Acc}_{\text{train}} - \text{Acc}_{\text{OOB}}}^{\text{실제 과적합 격차}}}{\underbrace{\text{Acc}_{\text{train}} - \gamma_{\text{acc}}}_{\text{최대 가능 과적합 격차}}} = \frac{\text{실제 과적합 격차}}{\text{최악 시나리오의 격차}}$$

분자 $(\text{Acc}_{\text{train}} - \text{Acc}_{\text{OOB}})$:
- 모델이 실제로 과적합된 정도.
- 훈련셋과 OOB셋 간의 실제 성능 격차.
분모 $(\text{Acc}_{\text{train}} - \gamma_{\text{acc}})$:
- 모델이 낼 수 있는 최대 과적합 격차.
- 훈련 accuracy가 아무런 의미 없는 수준인 $\gamma_{\text{acc}}$에서 최대로 부풀어 오를 때의 격차.
$\hat{R}$은 모델 신뢰도에 대한 지표 로서,
이 값이 클수록 낙관적인 훈련 accuracy를 덜 신뢰 해야 함을 의미함.

$\hat{R}$ 값	정성적 의미	가중치 $w$ 방향
$\hat{R} \approx 0$	과적합 없음: train/OOB accuracy 거의 동일	$w \to 0.632$ (.632와 동일)
$\hat{R} \approx 0.354$	본 예제: 중간 수준의 과적합	$w \approx 0.727$
$\hat{R} \approx 1$	심각한 과적합: 훈련 accuracy가 baseline 수준까지 과장	$w \to 1.0$ (OOB만 사용)

Step 3. Dynamic Weight $w$ 계산

$$w = \frac{0.632}{1 - 0.368 \times \hat{R}} = \frac{0.632}{1 - 0.368 \times 0.354} = \frac{0.632}{0.870} \approx \mathbf{0.727}$$

$w$는 항상 $[0.632,\ 1.0]$ 범위에서 결정됨.
$w = 0.727 > 0.632$이므로, .632 estimator보다 OOB accuracy에 더 많은 가중치를 부여함.

Step 4. 최종 `.632+` Accuracy

$$\text{Acc}_{.632+} = (1-w) \times \text{Acc}_{\text{train}} + w \times \text{Acc}_{\text{OOB}}$$

$$= 0.273 \times 0.95 + 0.727 \times 0.72 = 0.259 + 0.524 = \mathbf{0.783}$$

`.632` vs `.632+`: 가중치 비교

	$\text{Acc}_{\text{train}}$ 가중치	$\text{Acc}_{\text{OOB}}$ 가중치
.632	$0.368$ (고정)	$0.632$ (고정)
.632+	$(1 - w) \leq 0.368$	$w \geq 0.632$

$w \geq 0.632$이므로 .632+의 $\text{Acc}_{\text{OOB}}$ 가중치는 항상 .632보다 크거나 같음.

따라서 $\text{Acc}_{\text{train}} > \text{Acc}_{\text{OOB}}$인 모든 일반적인 과적합 상황에서:

$$\text{Acc}_{.632+} \leq \text{Acc}_{.632} \quad \checkmark$$

Extreme Overfitting Scenario Verification

$\text{Acc}_{\text{train}} = 1.0$, $\text{Acc}_{\text{OOB}} = \gamma_{\text{acc}} = 0.25$ (랜덤 수준, 4-class 균등)인 경우:

$$\hat{R} = \frac{1.0 - 0.25}{1.0 - 0.25} = 1.0$$

$$w = \frac{0.632}{1 - 0.368 \times 1.0} = \frac{0.632}{0.632} = 1.0$$

$$\text{Acc}_{.632} = 0.368 \times 1.0 + 0.632 \times 0.25 = \mathbf{0.526}$$

$$\text{Acc}_{.632+} = 0 \times 1.0 + 1.0 \times 0.25 = \mathbf{0.250}$$

$\hat{R} = 1.0$의 정성적 의미: 실제 과적합 격차가 최대 가능 격차와 완전히 일치함.
훈련 accuracy가 아무런 의미 없는 수준($\gamma_{\text{acc}}$)까지 부풀어 오른 최악의 시나리오가 실현된 상태임.
.632+는 $w = 1.0$으로 설정하여 훈련 accuracy를 완전히 무시함.
반면 .632는 이 상황을 감지하지 못하고 무의미한 $\text{Acc}_{\text{train}} = 1.0$을 여전히 $36.8%$ 반영하여 크게 과장된 $0.526$을 출력함.

$$\underbrace{\hat{R} \to 1}_{\text{최악의 과적합}} \Rightarrow \underbrace{w \to 1}_{\text{훈련 accuracy 완전 배제}} \Rightarrow \underbrace{\text{Acc}_{.632+} \to \text{Acc}_{\text{OOB}}}_{\text{.632보다 낮아짐}}$$

그 외: Ordinary Bootstrap Estimate: Bootstrap-trained Models Evaluated on the Original Dataset

Concept

각 bootstrap sample $\mathcal{D}^{*(b)}$ 로 훈련한 모델 $\mathcal{M}^{(b)}을
원본 dataset 전체 $\mathcal{D}$로 평가하고 이를 $B$회 평균냄.

$$\text{Acc}_{\text{ordinary_boot}} = \frac{1}{B}\sum_{b=1}^{B} \text{Acc}(\mathcal{M}^{(b)}, \mathcal{D})$$

Problem: Optimistic Bias

이 방식은 test set으로 사용되는 $\mathcal{D}$에 이론적으로 63.2%가량의 훈련 샘플이 포함 되므로 낙관적 편향(optimistic bias) 이 발생함.
따라서 prediction error 기준으로는 error를 과소추정하고, accuracy 기준으로는 성능을 과대평가하는 optimistic bias가 발생한다.
특히 sample 수가 적거나 class imbalance가 심한 multi-class 문제에서는,
훈련 중 본 sample에 대한 높은 성능이 전체 accuracy를 크게 끌어올릴 수 있다.
특히 C4처럼 샘플이 2개뿐인 소수 클래스도 훈련셋에서는 100% accuracy를 낼 수 있어, 실제 일반화 성능 대비 크게 과장된 수치가 됨.
적은 수의 데이터를 가진 경우와 멀티 클래스인 경우에 사용 비권장.

결론

방법	계산식	결과	편향	특징
Basic Bootstrap	$\text{Acc}_{\text{train}}$	$0.950$	낙관적 ↑↑	평가/훈련 데이터 중복
OOB Bootstrap	$\text{Acc}_{\text{OOB}}$	$0.720$	비관적 ↓	훈련 63.2%만 사용
.632 Bootstrap	$0.368 \times 0.95 + 0.632 \times 0.72$	$0.805$	약간 낙관적	고정 가중치
.632+ Bootstrap	$0.273 \times 0.95 + 0.727 \times 0.72$	$0.783$	보정됨 ✓	$\hat{R}$ 기반 동적 가중치

$$\underbrace{\text{Basic}}_{\text{낙관적 편향}} \xrightarrow{\text{훈련/평가 분리}} \underbrace{\text{OOB}}_{\text{비관적 편향}} \xrightarrow{\text{고정 가중 결합}} \underbrace{\text{.632}}_{\text{잔존 낙관 편향}} \xrightarrow{\hat{R}\text{ 동적 보정}} \underbrace{\text{.632+}}_{\text{편향 최소화} \checkmark}$$

.632+의 핵심은
- $\hat{R}$이 "훈련 accuracy를 얼마나 신뢰할 수 없는가"를 자동으로 정량화하고,
- 이에 비례하여 더 신뢰할 수 있는 OOB accuracy의 비중을 높인다는 것임.
4-class처럼 클래스가 많아 $\gamma_{\text{acc}}$가 낮아지면
- $\hat{R}$의 분모가 커져 $\hat{R}$이 작아지고
- $w$가 $0.632$에 가까워짐.
반대로 과적합이 심할수록
- $\hat{R} \to 1$, $w \to 1$로 수렴하여
- OOB accuracy만을 신뢰하는 방향으로 자동 조정됨.

Random Forest는 OOB 방식을 기본 평가 방식으로 사용함 (대규모 데이터 권장)

일반적인 소규모 데이터셋에서는 .632 또는 .632+를 권장함.

References

Efron, B. (1983). Estimating the error rate of a prediction rule: improvement on cross-validation. Journal of the American Statistical Association.

https://www.jstor.org/stable/2288636?seq=1

Efron, B., & Tibshirani, R. (1997). Improvements on cross-validation: The .632+ bootstrap method. Journal of the American Statistical Association, 92(438), 548–560.

https://www.jstor.org/stable/2965703

XAI: Coefficient, Feature importance, and SHAP

dsaint31x — Tue, 24 Mar 2026 14:42:14 +0900

XAI는 eXplainable AI의 약어로,
AI 모델이 왜 이같은 예측(결과)을 내어놓았는지를 설명하는 기술을 가리킴.

이 글은 XAI에서 사용되는 도구들인

coefficient,
feature importance
SHAP
를 비교 설명함.

사실 SHAP를 설명하기 위한 글로,

통계분석이나 classic ML의 사용자들에게 익숙한 coefficient와 feautre importance를 통해

SHAP의 특징을 설명하는 글임.

coefficient

coefficient는 변수에 곱해지는 상수를 가리키는 용어로,
ML에선 다음을 의미함:

보통 선형모델(linear model), 예를 들어
- Linear Regression이나
- Logistic Regression에서
변수에 곱해지는 계수를 가리킴 (parameter, weight).

Logistic Regression에서

age의 coefficient가 양수이면 age가 커질수록 class 1(=Positive) 일 확률이 커짐.
때문에, coefficient 절댓값이 크면 영향력이 크다는 해석이 가능함.

이같은 해석은 가능하지만 다음을 고려해서 결론을 내려야 함:

coefficient가 곱해지는 대상 변수의 feature scale 을 고려해야 한다.
one-hot encoding 된 범주형 변수는 기준 범주(reference category)에 대한 상대 비교가 됨
다른 변수와 상호작용이 큰 비선형 모델(feature간의 correlation이 큰 경우)에서는 coefficient로 영향력을 설명하기 어려움.

즉 coefficient는

"모델 (주로 선형)에서의 파라미터" 로서
관련 feature가 모델의 결과에 영향을 얼마나 주는지를 파악하는데 도움이 되나
feature간 correlation이 크거나, feature간의 feature scale의 차이가 매우 차이가 나는 경우엔
단순 절대값으로 결과에 영향력으로 판단해서는 안 됨.

참고로, Random Forest 같은 tree 모델에서는 아예 coefficient라는 개념 자체가 없다는 점도 유의해야 함.

Random Forest 에선 feature importance를 통해
특정 feature가 Random Forest 모델의 결과값에 대한 영향력을 파악할 수 있음.

feature importance

feature importance는 tree 기반 모델이 자주 제공하는 global "중요도 요약값" 이라고 할 수 있음.

이는 tree기반 모델에서 다음을 의미함:

어떤 feature가 tree기반 모델에서 split에 많이 기여한 정도.
즉, split를 통해 얼마나 impurity 감소(gini계수로 impurity정도 계산)에 공헌했는 지를 의미함: purity increament
주로 상위 노드에서 사용되는 feature들이 높은 feature importance를 가짐.

실제 정량적인 예제가 필요하다면 다음을 참고:

2024.11.10 - [Programming/ML] - [ML] Feature Importances for Decision Tree

[ML] Feature Importances for Decision Tree

이 문서는 Feature Importance를 Decision Tree에서 Gini Impurity Measure를 이용하여 계산하는 예제를 보여줌.Tree 예시 (depth = 3) [Root] (X1) [5:5] / \ Node1 Node2 (X2) (X3) [4:1] [1:4] / \ / \Leaf1 Leaf2 Leaf3 Leaf4[3:0] [1:1] [0:2] [

dsaint31.tistory.com

결국, feature importance는

모델 전체 수준(global)에서
그 feature가 얼마나 많이 사용되었는지를 정량적으로 보여주는 값임.

하지만 다음을 주의해야 함:

coefficient의 경우 sign을 통해 어느 방향으로 영향을 주는지를 파악가능한 것과 달리,
feature importance는 방향성을 전혀 애기해주지 않음.
개별 sample에 대한 설명이 불가함.
- 특정 환자에선 age가 결과에 큰 영향을 주고,
- 다른 환자에선 혈당이 큰 영향을 줄 수 있는데
- 이를 feature importance로는 구분할 수 없음.
범주형 변수를 one-hot encoding 할 경우, 해당 feature의 영향력이 분산됨 (보통은 다 더해서 다시 확인함).
split에 미치는 영향이기 때문에 실제 중요도의 정도와 차이가 있을 수 있음.

SHAP

SHAP은 SHapley Additive exPlanations의 약자로,
게임이론(game theory)의 Shapley value를 머신러닝 모델 해석에 적용한 설명 기법임.

SHAP은
Lundberg와 Lee가 2017년에 발표한 논문
"A Unified Approach to Interpreting Model Predictions"를 통해 널리 소개됨.

이는 각 feature가 예측값에 얼마나 기여했는지를 정량적으로 분해해 설명하는 방법으로
복잡한 비선형 모델에도 비교적 일관된 방식으로 적용가능하기 때문에
XAI의 대표 기법 중 하나로 인정됨.

SHAP는

각 sample에서
특정 feature가 예측 결과의 값(e.g. binary classification의 경우 postive일 확률값)을 얼마나 증가시켰는지 또는 감소시켰는지를 분해하여 보여줌.
이들에 대한 절대값 평균을 취하여 각 feature가 모델 전체의 결과에 얼마나 기여하는지도 보여줌.

SHAP는 모델의 예측값을 다음으로 분해해서 보여줌:

예측값 = "base_value" + "각각의 feature의 기여도의 합"

SAHP는

개별 sample에 대해서 모델의 결과에 미친 각 feature의 영향을 정량화할 수 있으며,
이들을 더하면 해당 sample에 대한 모델의 결과값이 됨.

다음과 같은 특징을 가짐:

개별 샘플 수준(local explanation)에 적용하여 feature의 중요도를 비교 가능
- local explanation 에선 특정 feature가 어느 방향(sign에 의해)으로 영향을 주는지도 파악 가능.
- 주로 waterfall plot 을 사용함.
전체 데이터 수준(global explanation)에 적용도 가능
- mean absolute SHAP 를 각 feature로 구하면,
- 전체 데이터에서 각 feature의 기여도를 파악할 수 있음.
- 주로 summary plot을 사용함.
sign이 의미를 가짐:
- binary classification의 경우:
- +면 class 1 방향으로 영향을 주고
- -면 class 1 반대 방향으로 영향을 줌.
각 샘플의 예측을 feature별 기여도의 합으로 설명 가능.

feature importance와 mean absolute SHAP는
비슷한 순서로 feature들을 정렬할 수도 있으나,
정확히 일치하는 경우가 오히려 적음: 정의 차체가 다름.
단, 기여도가 매우 큰 feature에선
두 경우 모두 큰 값을 가지기 쉬움.

Waterfall plot

다음은 waterfall plot으로 SHAP가 개별 sample에서 어떻게 결과가 나왔는지를 설명하는지를 보여준다.

다음은 binary classification 모델에서 특정 샘플이 positive일 확률이 0.414가 나왔는데 이 결과가 어떻게 나왔는지를 각 feature의 기여도록 분해하여 보여줌.

base value 는 $E[F(X)]=0.583$ 으로 feature값을 전혀 모를 때 positive라고 예측할 평균확률임.
맨 아래의 smoking 의 값이 Former (예전 담배를 핌) 라는 것이 positive일 확률을 0.01 정도 올림.
sex 가 Male 이라는 값을 가지는 점이 positive일 확률을 0.01 올림.
주거 지역(region)이 incheon 이라는 것이 positive일 확률을 0.02 낮춤.
bmi가 17.3 이라는 점이 positive 일 확률을 0.03 낮춤.
glucose가 123.4라는 점이 확률을 0.08 올림.
age가 20이라는 점이 확률을 0.21 낮춤.
이들을 다 더함으로서 모델은 positive일 확률을 현재 sample $\textbf{x}$에 대해 0.414 로 구함.

Summary plot

다음은 SHAP가 전체 데이터를 사용하여 모델에서 예측에 각 feature가 어떻게 기여했는지를 보여주는 summary plot임.

위에 있을수록 mean absolute SHAP 값이 큰 feature로 결과에 영향력이 더 크다고 볼 수 있음.
glucose, age, bmi는 numerical data로 값이 클수록 붉은색의 원이고, 작을수록 푸른색임.
- 세 feature 모두 큰 값일수록 positive인 확률값을 결과로 나오도록 기여함이 표시됨.
- 단, glucose가 가장 큰 영향을 미치며, age는 그보다 작은 영향을 보임.
- bmi는 방향성은 보이나 영향력은 이 둘에 못 미침.(폭이 매 적음)
회색으로 표시된 smoking과 region, sex는 categorical data 임.
- smoking 중 일부 class (현재 흡연을 나타내는 current)가 큰 영향을 주기 때문에 positive에 일부 큰 범위에 원이 조냊.
- sex는 거의 영향을 주지 않으므로 매우 작은 범위의 기여도륵 보임

위의 summary plot과 water plot에 대한 mean absolute SHAP값의 table은 다음과 같음:

   feature  mean_abs_shap
2  glucose       0.129659
0      age       0.102015
4  smoking       0.048772
5   region       0.029500
1      bmi       0.028513
3      sex       0.009546

같이보면 좋은 자료

https://gist.github.com/ds31x/49096c1f1726149206a0b503adb38d57

xai_shap.ipynb

xai_shap.ipynb. GitHub Gist: instantly share code, notes, and snippets.

gist.github.com

airpod 분실... 키링의 모든 키들도 같이...

dsaint31x — Mon, 9 Mar 2026 21:43:28 +0900

에어팟을 잃어버림...

케이스 째로...

키링의 키들도 같이...

ㅠㅠ

ULMFit : Transfer Learning for NLP

dsaint31x — Fri, 16 Jan 2026 15:53:35 +0900

Examples of three stages of ULMFiT training: (a) -training on general domain information to capture the general features of the languages used in environmental policymaking. (b) -a structure for performing fine-tuning on target task data using discriminative-based methods supported by slanted triangular learning algorithms. (c) -unfreezing operation to adapt the high-level representation of the responses while preserving the lower-level representations (Howard, J. 2018).

위 그림의 원본은 https://www.researchgate.net/figure/Examples-of-three-stages-of-ULMFiT-training-a-training-on-general-domain-information_fig2_384502200 임.

Averaged Stochastic Gradient Descent Weight-Dropped 3-Layer LSTM (AWD 3-Layer LSTM) 의 구조를 사용.

상단의 learning rate에 대한 그래프들이 좌/우로 있는데,

왼쪽은 layerindex $l$이 증가(upstream layer)할수록 학습률이 큼(Discrimitive Learning Rate)을 의미하고
오른쪽은 학습이 진행($t$가 증가)될수록 학습률이 초기엔 증가하다 뒤로가면 감소(slanted triangular learning alogrithm)를 의미.

Layer 의 명암 그라디에션은 gradual unfreezing을 의미함 (백색의 layer들은 첨부터 freeze되지 않고 학습됨).

ULMFiT 란?

ULMFiT (Universal Language Model Fine-tuning)은
자연어 처리(Natural Language Processing) 분야에서
전이학습(Transfer Learning)이 실질적으로 효과적임을 처음으로 명확히 입증한 연구.

ULMFiT은 구조가 아니라 학습 전략의 전환을 통해
현대 자연어 처리 모델의 기반을 마련한 연구이다.

Universal Language Model Fine-tuning for Text Classification, Jeremy Howard, Sebastian Ruder, 2018

Universal Language Model Fine-tuning for Text Classification

Inductive transfer learning has greatly impacted computer vision, but existing approaches in NLP still require task-specific modifications and training from scratch. We propose Universal Language Model Fine-tuning (ULMFiT), an effective transfer learning m

arxiv.org

이후 등장하는 Transformer 계열 모델의 학습 패러다임에 중요한 영향을 미침.

ULMFiT의 기본 개념

ULMFiT은

대규모 말뭉치(corpus)로
사전학습(pretraining)된 언어모델(Language Model)을 기반으로,
새로운 문제에 맞게 단계적으로 미세조정(fine-tuning)하는 방법임.

이는 이미지 처리 분야에서

ImageNet으로 사전학습된 합성곱 신경망(Convolutional Neural Network)을
새로운 분류 문제에 맞게 fine-tuning하는 방식과 개념적으로 동일하다.

이미지에서 transfer learning은 다음을 참고: https://dsaint31.me/mkdocs_site/ML/ch11_training/knowledge_transfer/

BME

Transfer Learning The application of skills, knowledge, and/or attitudes that were learned in one situation to another learning situation. (Perkins, 1992) 다른 학습 상황에 배운 기술, 지식 및/또는 태도를 적용하는 것. (퍼킨스, 1992

dsaint31.me

ULMFiT의 3단계 학습 구조

ULMFiT은 다음의 세 단계 학습 과정으로 구성됨:

일반 언어모델 사전학습
(General Language Model Pretraining)
도메인 특화 언어모델 미세조정
(Domain-specific Language Model Fine-tuning)
과제 특화 미세조정
(Task-specific Fine-tuning)

참고: Language Modeling의 정의

1,2 번 과정에서 사용되는 Language Modeling(언어 모델링)이란 다음과 같이 정의된다.

자연어(Natural Language)에서
단어(word) 또는 토큰(token)들의 순서(sequence)에 대해
해당 시퀀스가 나타날 확률(probability)을 모델링하는 과제(task)

이를 보다 구체적으로 표현하면,

이전까지 관측된 단어들이 주어졌을 때,
다음 단어가 등장할 확률을 예측하는 문제
라고 할 수 있다

1단계: General Language Model Pretraining

이 단계의 목적은 범용적인 언어 표현(Language Representation)을 학습하는 것임.

위키피디아(Wikipedia)와 같은 대규모 일반 텍스트 사용
문장의 다음 단어를 예측하는 언어모델 학습
문법(grammar), 의미(semantics), 문맥(context)을 포괄적으로 학습

이 단계에서는 다음과 같은 기법을 적용하지 않음.

Gradual Unfreezing (점진적 레이어 해제)
Discriminative Learning Rates (레이어별 차등 학습률)
Slanted Triangular Learning Rate (기울어진 삼각형 학습률 스케줄)

이는 보호해야 할 기존 지식이 없으며,
장기적이고 안정적인 표현 학습이 목적이기 때문임.

2단계: Domain-specific Language Model Fine-tuning

이 단계의 목적은
이미 학습된 언어모델을 특정 도메인(domain)의 언어 분포에 적응시키는 것임..

의료 문서, 리뷰 텍스트 등 도메인 특화 데이터 사용
여전히 “다음 단어 예측”이라는 동일한 언어모델 과제 유지
모델의 역할은 변하지 않음

이 단계에서는 다음 기법들이 선택적으로 사용될 수 있음.

Gradual Unfreezing (점진적 레이어 해제)
Discriminative Learning Rates (레이어별 차등 학습률)
Slanted Triangular Learning Rate (기울어진 삼각형 학습률 스케줄)

일반적으로는 낮은 학습률(learning rate)로 전체 모델을 미세조정하는 것만으로도 충분한 경우가 많음.

이 단계는 언어 지식을 새로 배우는 단계라기보다,
기존 지식의 분포를 특정 domain에 맞게 조정하는 단계로 이해할 수 있음.

3단계: Task-specific Fine-tuning

이 단계는 ULMFiT의 핵심 단계 임.

언어모델 위에 분류기(classifier)를 추가
감성 분류(sentiment classification), 문서 분류(document classification) 등 최종 과제 수행
데이터 수가 적고 과제가 변경됨

ULMFiT 를 설명할 때 Task로 classification이 사용되는 이유는 다음과 같음.

classification은
당시 자연어 처리에서 대표적인 downstream task였고
소량 데이터 환경에서의 성능 향상을 명확히 보여주기 쉬운 task임.
transfer learning의 효과를 직관적으로 비교 가능한 task이다 보니 많이 사용됨.
다른 task가 안되는 건 아님.

이 단계에서 pretraining으로 얻은 기존 언어 지식(language knowledge)이 손상될 위험이 커지며,
이를 방지하기 위해 ULMFiT은 다음의 세 가지 핵심 기법을 제안한다.

1. Gradual Unfreezing

(점진적 레이어 해제)

처음에는 classifier (=head)만 학습
이후 상위 레이어부터 순차적으로 학습 허용
마지막으로 하위 레이어까지 미세조정

이 방법은

언어의 기본 구조를 담당하는 하위 레이어를 보호하는 데 목적이 있다.

2. Discriminative Learning Rates

(레이어별 차등 학습률)

하위 레이어: 매우 작은 학습률
상위 레이어 및 분류기: 상대적으로 큰 학습률

이를 통해

기본적인 언어 표현은 유지하면서
과제에 필요한 표현만 빠르게 현재 데이터 셋에 적응시킴.

3. Slanted Triangular Learning Rate

(기울어진 삼각형 학습률 스케줄) : slanted 는 그래프 등에서 비대칭인 형태를 의미.

학습 초반: 학습률을 빠르게 증가
학습 후반: 학습률을 점진적으로 감소

이 스케줄은

초기 빠른 적응과
후반 안정적 수렴을 동시에 달성하기 위한 기법임.

$$\eta_t = \begin{cases} \eta_{\min} + \frac{t}{\text{cut_fraction} \cdot T} (\eta_{\max} - \eta_{\min}) & \text{if } t < \text{cut_fraction} \cdot T \\ \eta_{\min} + \frac{T - t}{(1 - \text{cut_fraction}) \cdot T} (\eta_{\max} - \eta_{\min}) & \text{otherwise} \end{cases}$$

$\eta_t$ : Learning rate at time, $t = \text{current_epoch} \times \text{batches_per_epoch} + \text{current_batch_index}$
$\eta_{\min}$ : Minimum learning rate. e.g. : $\frac{1}{32} \eta_{\max}$
$\eta_{\max}$ : Maximum learning rate. e.g. : 0.01
$T$ : 총 반복횟수 (Total number of iterations = # of epoch * iterations per batch )
- epochs = 10, training dataset size = 1000, batch size = 32 : $T=10\times \frac{1000}{32}\approx 313$
$\text{cut_fraction}$ : Fraction of iterations for increasing learning rate. e.g.: 0.1

ULMFiT과 Transformer 모델의 관계

Transformer 구조(Attention-based Architecture)가

2018년 자연어 처리의 중심으로 자리 잡기 시작하였고,
당시 대표적인 예가 BERT (Bidirectional Encoder Representations from Transformers), GPT-1 (Improving Language Understanding by Generative Pre-Training) 였음.

ULMFiT은 Transformer 구조를 제안하지는 않았으나,

사전학습(pretraining)과 미세조정(fine-tuning)을 통해
NLP에서 Knowledge transfer (=transfer leanring)이라는 학습 패러다임을 정립함.

이는 그대로 Transformer 계열 모델에 계승됨.

ULMFiT: 언어모델 사전학습 후 fine-tuning
BERT: Transformer 인코더 사전학습 후 fine-tuning
- 문장을 “읽고 이해”하기 위한 모델: 문장 전체를 양방향으로 이해하는 데 특화
- Encoder-only Transformer
GPT-1: Transformer 디코더 사전학습 후 fine-tuning
- 문장을 “한 단어씩 생성”하기 위한 모델: 이전 단어들을 바탕으로 다음 단어를 순차적으로 생성하는 데 특화
- Decoder-only Transformer

https://towardsdatascience.com/a-complete-guide-to-bert-with-code-9f87602e4a11/?utm_source=chatgpt.com

실제로 Transformer 모델 성공의 기반은

Attention 과
ULMFiT
라고 애기하는 경우가 많음.

주의할 점:

ULMFiT은 순환 신경망(Recurrent Neural Network), 특히 LSTM 기반 으로 시작됨.
Transformer는 자기주의(Self-Attention) 기반 구조
Transformer는 LSTM 에 비해 보다 구조적으로 안정적이어서
ULMFiT에서 제안한 세부 fine-tuning 기법을 단순화하여 사용

ULMFit 은 “대규모 사전학습 모델을 downstream task에 맞게 조정한다”는 핵심 사고방식 을 자연어 처리 모델 훈련에 적용시킴.

https://dsaint31.me/mkdocs_site/ML/ch16_RNN/RNN_intro

BME

Recurrent Neural Network (순환신경망, RNN) time series data와 같은 sequential data를 다루는데 적합한 ANN. feedback connection을 가짐. 때문에 weight를 구분하여 가지는 layer들이 쌓이기도 하지만, feedback connection에

dsaint31.me

같이 보면 좋은 자료

https://ds31x.github.io/wiki/hf_transformer/hf_post_transformer/

Language Model Taxonomy - Pretraining Paradigms and Encoder-Decoder Architectures

ds31x.github.io

감기...

dsaint31x — Fri, 2 Jan 2026 09:09:37 +0900

가족 구성원들이 돌아가면서...

막내는 1월1일을 경계로 독감 A,B 모두 획득하시는 쾌거(??)를...

휴일에 약먹고 자는 건 ㅠㅠ

자고나니 1월 2일이네... ㅠㅠ

관용과 직무유기의 경계는...

dsaint31x — Mon, 8 Dec 2025 20:39:53 +0900

개인적으로 실적지상주의를 정말 두려워하는터라...

능력없이 은혜로 사는 빚진 자임을 항상 느끼고 있어서,

최선을 다한 경우엔 최대한 고려를 하려고 하는데...

서있라고 하면 앉고 싶고

앉으면 눕고 싶고...

누으면 자고 싶은게 사람이라고...

정말 어디까지 막 나갈 수 있는지를 경쟁적으로 보여주는 한 학기였음...

여기서 더 편의를 봐주는 건 직무유기 같은데... ㅠㅠ

==;; 잔소리를 해봐야 그걸 들어야 하는 사람들은 아예 없는 경우...

몸도 아픈데... 정신적으로도 힘들다.

Shifted Impulse $\delta(t-a)$의 Laplace Transform

dsaint31x — Wed, 3 Dec 2025 14:40:27 +0900

0. Laplace Transform의 정의

$$\mathcal{L}[x(t)]
= \int_{0^-}^{\infty} x(t) e^{-st} dt$$

1. 변환할 함수인 shifted impulse 대입

$$x(t) = \delta(t-a)$$

대입하면

$$X(s)=\int_{0^-}^{\infty} \delta(t-a) e^{-st} dt$$

$\delta$의 위치가 적분 범위 안에 있는지 확인해야 적분의 값이 구해지는데,

Laplace 적분의 구간은 다음과 같음:
$$0^- \le t < \infty$$

즉, $a>0$이면 $\delta(t−a)$는 이 구간 안에 존재하므로, 적분값은 0이 되지 않음.

2. $\delta$의 sifting 성질을 적용하기 위한 준비

Dirac delta의 기본 성질: sifting property (주의: shift가 아닌 sift임.)

$$\int_{-\infty}^{\infty} \delta(t-a) f(t) dt = f(a)$$

2023.08.21 - [.../Signals and Systems] - [SS] Properties of Impulse Function

[SS] Properties of Impulse Function

Impulse function (or Dirac delta function)은 이상적으로, 오직 한 점에서만 무한대의 값을 가지고,나머지에서는 0의 값을 가지며,적분시 면적인 1이 되는 함수 다른 function을 분석하거나, system의 response를

dsaint31.tistory.com

이 성질을 사용하기 위해서는 integrand를 다음 형태로 만들어야 함:

$$\delta(t-a) f(t)$$

그러므로 앞서의 적분에서 $f(t)$ 역할을 하는 함수는 명시적으로 다음과 같음:

$$\boxed{f(t)= e^{-st}}$$

이를 통해 다음이 성립.

$$\delta(t-a) e^{-st} = \delta(t-a) f(t)$$

이는 sifting 성질을 적용할 수 있게 해줌.

3. Sifting property를 Laplace 적분 구간에 맞게 적용

적분 구간이 $[0^-,\infty)$이고 $a>0$이므로,

$$\int_{0^-}^{\infty} \delta(t-a) f(t) dt = f(a)$$

따라서,

$$X(s)=f(a)=e^{-sa}$$

4. 최종 결과

$$\mathcal{L}[\delta(t-a)]=e^{-as}$$

요약

Laplace integrand는 $\delta(t-a)e^{-st}$ 형태
$\delta$의 sifting property를 사용: $\delta(t−a) f(t)$ 로 integrand를 바라보기
Laplace transform 에선 $f(t)=e^{-st}$ 임.
따라서 $X(s)= f(a) = e^{-sa}$ 가 얻어짐.

같이보면 좋은 자료들

2022.10.24 - [.../Signals and Systems] - [SS] Laplace Transform Table

[SS] Laplace Transform Table

SignalLaplace TransformRoC...1$u(t)$$\frac{1}{s}$$\text{Re}(s)>0$참고2$u(t)-u(t-a)$$\frac{1-e^{-as}}{s}$$\text{Re}(s)>0$참고3$\delta(t)$1all complex plane 4$\delta(t-a)$$e^{-as}$all complex plane 5$e^{-at}u(t)$$\frac{1}{s+a}$$\text{Re}(s)>-a$참고6$\c

dsaint31.tistory.com

From Laplace Transform To z-Transform

dsaint31x — Wed, 3 Dec 2025 13:43:01 +0900

z-Transform 은 Laplace Transform의 Discrete Version임

이 글은 이를 유도해본다.

1. 연속시간 Laplace Transform의 기본 구조

연속시간 신호 $x(t)$에 대해 Lapalce Transform은 다음과 같음.

$$X(s) = \int_{0}^{\infty} x(t) e^{-st} dt$$

복소지수항 $e^{-st}$ 을 사용함.

2. 샘플링을 통한 이산신호 표현

샘플링 주기 $T$에서 얻는 이산신호는 $x[n] = x(nT)$ 로 정의됨

이산신호를 연속시간에서 표현하면 shifted impulse들의 가중합 이 됨.

$$x_s(t) = \sum_{n=-\infty}^{\infty} x[n]\delta(t-nT)$$

3. 샘플링된 신호의 Laplace Transform 계산

Laplace Transform에 $x_s(t)$를 대입하면 다음과 같음:

$$X_s(s) = \sum_{n=-\infty}^{\infty} x[n] e^{-snT}$$

이 결과는 shift된 delta가 Laplace 영역에서 지수항으로 변환됨을 직접적으로 반영하는 구조임

4. 변수 치환을 통한 z-transform 도출

$z = e^{sT}$ 라는 치환을 적용하면

$$e^{-snT} = z^{-n}$$

이 얻어지는 구조임

이를 통해, 다음이 얻어짐.

$$X(z)=\sum_{n=-\infty}^{\infty} x[n] z^{-n}$$

이 수식이 바로 Z-transform의 정의임

5. Shifted impulse의 역할

이산시간에서 임의 신호는 다음과 같음:

$$x[n]=\sum_{k=-\infty}^{\infty} x[k]\delta[n-k]$$

z-transform 적용 시 다음과 같음:

$$\delta[n-k] \rightarrow z^{-k}$$

이는 연속시간에서 다음에 형태에 직접적으로 대응되는 것으로 이해가능함.

$$\delta(t-a) \rightarrow e^{-as}$$

6. 요약

z-transform은 “샘플링된 신호에 Laplace Transform을 적용한 뒤 (z=e^{sT})로 변수 치환한 결과” 로도 볼 수 있음.
z-transform은 Laplace Transform의 이산(discrete-time) 버전에 해당하는 구조임
시간 이동이 지수항으로 변환되는 동일한 원리가 연속시간(Laplace) 과 이산시간(z-transform) 모두에서 유지되며 이와 치환이 같이 적용된 결과가 z-Transform임.

같이 보면 좋은 자료들

2022.11.30 - [.../Signals and Systems] - [SS] z-Transform: Introduction

[SS] z-Transform: Introduction

1. z-Transform이란?Laplace Transform의 Discrete Version (or Generalization of DTFT)Continuous Time Signal과 System에서 Laplace Transform의 역할을Discrete Time Signal과 Discrete Time System에서 담당.수식적으로 보면, DTFT (Discrete Time

dsaint31.tistory.com

Overfitting (과적합)

dsaint31x — Thu, 20 Nov 2025 22:02:34 +0900

Overfit이란

ML에서 모델이 주어진 훈련데이터에 너무 과하게 적응(adapt) 하여
Training dataset에서는 매우 좋은 성능을 보이지만,
Unseen data (= validation/test set)에서는 성능이 급격히 떨어지는 현상 을 의미함.

Model이 Training dataset에 지나치게 맞추어져서 generalization performance가 떨어지는 경우임.

Bias–Variance 관점

Overfit의 경우,

Training dataset에서는 performance measure가 매우 좋기 때문에 bias가 매우 낮고,
대신 variance가 매우 커지는 특징을 보임.

즉,

bias 낮음 = training 성능은 좋다
variance 높음 = 데이터 샘플이 조금만 바뀌어도 예측 결과가 크게 요동(불안정)

training dataset의 노이즈와 우연한 패턴까지 학습했기 때문에 발생.

2025.10.30 - [Programming/ML] - Bias-Variance Tradeoff

Bias-Variance Tradeoff

Supervised Learning의 궁극적인 목표학습에 사용된 데이터 뿐만 아니라,한 번도 보지 못한 새로운 데이터에 대해서도 정확한 예측을 수행하는 능력, 즉일반화 성능(generalization performance)을 높이는 것

dsaint31.tistory.com

언제 발생하는가

Overfitting은 다음과 같은 조건에서 주로 발생함:

데이터의 특징(feature) 수에 비해 training sample 수가 너무 적은 경우
모델의 가설공간이 지나치게 크거나 복잡한 경우 (training dataset에 대해)
- parameters 개수가 과도하게 많음
- 지나치게 복잡한 모델 (capacitance가 높은 모델)을 사용한 경우
Regularization이 너무 약하거나 없을 때
- weights의 DoF(Degree of Freedom, 자유도)가 지나치게 커짐
데이터에 노이즈가 많고, 모델이 이를 그대로 학습한 경우

Overfitting vs. Underfitting

다음 그림은 단순한 패턴을 가진 데이터에 대해 매우 복잡한 모델(고차 다항식/과도한 capacity)을 사용하여
training set에 완벽히 맞추려다 over-fitting이 발생한 예를 나타냄.

2023.09.21 - [Programming/ML] - [ML] Underfit

[ML] Underfit

Underfit이란ML 모델이 주어진 훈련데이터를 제대로 학습하지 못하여 Training dataset에서도 나쁜 performance를 보이는 경우를 가르킴. Underfit의 경우 훈련데이터에서도 performance measure의 결과가 매우

dsaint31.tistory.com

해결방안

Overfitting을 해결하기 위한 방법은 간단히 말하면 다음과 같음.

모델의 복잡도를 감소시킴(=가설공간 축소).
- parameters의 갯수 감소
- ANN의 경우, depth/width 줄이기
- 모델 capacity를 데이터 양에 적절한 수준으로 감소시킴.
Regularization을 강화.
- L2/L1 penalty 증가
- Dropout, BatchNorm 사용
- weight decay 적용
Training data의 양을 늘리기. **
- 실제 데이터 확보
- 또는 Data augmentation 수행
Feature selection/feature extraction을 통해 noise feature 제거
- PCA 등으로 차원 축소
- domain-specific feature engineering
Early stopping 적용
- validation loss가 증가하기 시작하면 학습 중단

주요사항.

Underfit과 달리 Overfit은 데이터 양 증가 만으로도 해결 가능 하며,
Regularization과 모델 단순화를 통해 쉽게 제어할 수 있음.

Deep Learning 의 경우, 모델이 매우 복잡하기 때문에 대부분이 over-fitting을 해결하는 과정을 거침.

2024.10.27 - [Programming/ML] - [ML] Regularization

[ML] Regularization

Regularization 이란?기계 학습과 딥러닝에서 Regularization은 모델이 overfitting(과적합)되지 않도록 도와주는 기법을 의미함.Overfitting(과적합)은 모델이 훈련 데이터에 너무 잘 맞아 새로운 데이터에 대

dsaint31.tistory.com

Maximum-Likelihood Expectation-Maximization

dsaint31x — Mon, 10 Nov 2025 15:01:04 +0900

https://www.openaccessjournals.com/articles/image-reconstruction-for-petct-scanners-past-achievements-and-future-challenges-11017.html

PET에서의 MLEM은 Poisson 통계 모델에서의 MLE를 EM 알고리즘으로 푸는 것임.

FBP에 비해, 느리지만 Poisson noise 억제에 강함
OSEM, MAP-EM 등으로 속도 및 성능 개선 가능

2023.10.25 - [.../Math] - [Math] Poisson Distribution (포아송분포)

[Math] Poisson Distribution (포아송분포)

Poisson Distribution이란?아주 가끔 일어나는 사건(trial)에 대한 확률 분포 : 방사선 검출에 주로 사용되는 확률분포라 의료영상에서는 매우 많이 사용됨. 몇가지 예를 들면 다음과 같음:전체 인구수

dsaint31.tistory.com

Poisson Likelihood 모델 설정

각 검출기 $i$에서의 측정값 $y_i$ 는 포아송 분포를 따른다고 가정:

$$y_i \sim \text{Poisson} \left( \hat{y}_i = \sum_j p_{ij} \lambda_j \right)$$

이때 전체 log-likelihood 함수는 다음과 같음:

$$\log \mathcal{L}(\boldsymbol{\lambda}) = \sum_i \left[ y_i \log \left( \sum_j p_{ij} \lambda_j \right) - \left( \sum_j p_{ij} \lambda_j \right) - \log y_i! \right]$$

참고로 $\log y_i!$는 $\lambda_j$ 에 독립이므로 생략 가능함.

이를 통해 다음의 miximization problem으로 정의할 수 있음:

$$\underset{\boldsymbol{\lambda} \geq 0}{\text{maximize}} \quad Q(\boldsymbol{\lambda}) = \sum_i \left[ y_i \log \left( \sum_j p_{ij} \lambda_j \right) - \sum_j p_{ij} \lambda_j \right]$$

이는 utility function이므로 최대화를 수행.

EM 방식으로는 다음 surrogate function을 최대화!: 이 과정은 Jensen's inequality에 기반

$$\lambda_j^{k+1} = \lambda_j^k \cdot \frac{1}{\sum_i p_{ij}} \sum_i p_{ij} \cdot \left( \frac{y_i}{\sum_{j'} p_{ij'} \lambda_{j'}^k} \right)$$

요약하면 다음과 같음:

objective function : $\log \mathcal{L}(\boldsymbol{\lambda})$
최적화 방법: Expectation-Maximization (EM)
solution update equation: multiplicative update (양수 유지 보장)
정규화 항: $\sum_i p_{ij}$ - sensitivity normalization

2022.06.02 - [.../Math] - [ML] Likelihood (우도, 기대값)

[ML] Likelihood (우도, 기대값)

Likelihood (우도) : 더보기likelihood는 probability처럼 가능성을 나타낸다는 비슷한 측면도 있으나 다음과 같은 차이가 있음.probability처럼 likelihood는 상대적 비교는 가능 (즉, likelihood가 클수록 해당 even

dsaint31.tistory.com

Mimum Likehood Expection Miximization 수식 **

$$
\lambda_j^{k+1} = \frac{\lambda_j^k}{\sum_i p_{ij}} \sum_i p_{ij} \cdot \left( \frac{y_i}{\sum_{j'} p_{ij'} \lambda_{j'}^k} \right)
$$

where,

$\lambda_j^k$ : $k$번째 iteration(반복)에서 픽셀 $j$에 대한 이미지 추정값
$y_i$ : $i$번째 검출기에서의 측정값 (projection bin data, sinogram)
$p_{ij}$ : system matrix(시스템 행렬)의 요소. 픽셀 $j$가 검출기 $i$에 기여하는 정도
$\sum_{j'} p_{ij'} \lambda_{j'}^k $ : $i$ 검출기에 대한 예측값 - $\hat{y}_i$

MLEM - Iterative Reconstruction

위의 수식은 MLEM 알고리즘의 업데이트 식임:

1.예측 측정값 계산 (forward projection):

$$\hat{y}_i = \sum_{j'} p_{ij'} \lambda_{j'}^k$$

2.실제와 예측의 비율 계산:

$$\frac{y_i}{\hat{y}_i}$$

3.백프로젝션 수행:

$$\sum_i p_{ij} \cdot \left( \frac{y_i}{\hat{y}_i} \right)$$

4.정규화 후 업데이트:
$$\lambda_j^{k+1} = \lambda_j^k \cdot \frac{1}{\sum_i p_{ij}} \sum_i p_{ij} \cdot \left( \frac{y_i}{\hat{y}_i} \right)$$

https://gist.github.com/dsaint31x/5a46553d69055b93dcacc249c043bef5

pet_mlem_simul.ipynb

pet_mlem_simul.ipynb. GitHub Gist: instantly share code, notes, and snippets.

gist.github.com

Note:

Poisson likelihood 기반임! (측정치는 counter의 결과이므로 항상 양의 정수로)
분자: 측정값과 예측값의 비율
분모: 픽셀별 시스템 응답의 총합으로 정규화
음수 없음, 수렴 보장 (단, 느림)
forward / backward projection 반복 구조

같이보면 좋은 자료

2025.09.01 - [정리필요./PET, MRI and so on.] - Radon Transform and Inverse Radon Transform-FBP

Radon Transform and Inverse Radon Transform-FBP

정의Radon Transform(라돈 변환)은n차원 함수 $f(\textbf{x})$를 : ($\textbf{x}$는 n차원 vector임)$(n-1)$차원 hyperplane(초평면)에 대해projection integral(투영적분)한 값을 나타내는 transform(변환)이를 2D와 3D의 경우

dsaint31.tistory.com

Scintillator (섬광체)

dsaint31x — Mon, 10 Nov 2025 14:17:04 +0900

scintillator는 방사선이 물질과 상호작용할 때 에너지를 흡수하고 빛(섬광, 주로 visible phothons)을 방출하는 물질을 가리킴.

방출된 빛은 광센서(photo sensor)에 의해 전기 신호로 변환되어 방사선 검출에 사용
전자가 여기(excited) 된 이후, 기저상태로 복귀 시 가시광선 또는 근자외선 방출

주로 뒤에 광센서가 놓임:

1. 용어 구분

섬광체(scintillator): 방사선을 감지하는 기능에 기반한 용어
크리스털(crystal): 물질의 구조적 기반한 용어로 단결정 구조를 가리킴.

많은 scintillator 가 크리스털이지만, 모든 크리스털이 섬광체인 것은 아님.

2022.04.12 - [정리필요./의료기기의 이해] - Transducer

Transducer

DefinitionA transducer is a device that transforms a signal from one energy form to another energy form. 즉, 에너지의 형태를 변환시키는 장치 를 가리켜 Transducer라고 한다. 넓게 이야기하는 경우, 다루기 쉬운 형태로 신

dsaint31.tistory.com

2. 이상적인 scintillator 의 특성 : 방사선 검출기(or counter)

높은 정지능(stopping power)
- 높을수록 고에너지 광자 흡수 능력이 우수.
- 밀도·원자번호에 비례
- BGO, LSO, LYSO, GSO은 정지능이 높아 PET용으로 적합
짧은 감쇠시간(decay time)
- 빠른 빛 방출로 신속한 신호 처리 가능: 짧은 dead time.
- counter에서 사용될 경우 매우 중요함.
- PET처럼 높은 coincidence 분해능이 요구되는 경우 중요 (LSO, LYSO, GSO가 선호)
높은 광자 산출량(light yield)
- 단위 MeV당 방출되는 광자의 개수로 측정됨.
- 방출 광량이 많을수록 높은 sensitivity를 달성하기 쉬움.
- 높을수록 높은 energy resoluton을 달성하기 쉬움.
  - CsI(Tl)이 매우 높으며(최대 65,000 ph/MeV), BGO는 낮은 것으로 유명함 (~8,000 ph/MeV)
우수한 에너지 분해능(energy resolution)
- 서로 다른 에너지의 방사선 구분 가능
기계적·화학적 안정성
- 온도·습기·충격에 강할수록 장기적으로 잘 동작하는 검출기를 만들기 쉬움.
- 안정적인 성능 확보
- NaI(Tl)은 습기에 매우 약함: 단, 제작이 쉽고 저가라 많이 사용됨.
- LSO/LYSO는 내구성과 화학적 안정성이 매우 우수함.

※ 실제 섬광체는 위의 특성 간 trade-off 존재: 용도에 맞춰 선택 필요

3. 섬광체 크기와 성능의 관계

scintillator의 크기(area)를 증가시키는 경우 검출기간의 간격이 증가(=pixel의 크기 증가)하여 해상도가 감소하나 정지능은 향상됨.
scintillator의 두께(thickness)를 증가시키는 경우 stopping power는 증가하나 산란·parallax error가 증가하여 해상도가 감소함.

sensitivity와 spatial resolution간의 균형을 고려한 선택 필요.

PET, Molecular Imaging and Its Biological Applications, Michael E. Phelps

의료 영상 기기별 섬광체 크기 비교 (예)

구분	사용 방사선	일반적 크기 (mm³)	특징
투영방사선촬영 / CT	X선 (낮은 에너지)	0.5–2 × 0.5–2 × 3–5	해상도·정지능 균형 유지
감마카메라 / SPECT	감마선	3–5 × 3–5 × 6–10	감마선 감지 효율 중점
PET	511 keV 소멸광자	2–4 × 2–4 × 10–20	콜리메이터 없이 해상도 확보, 정지능 한계 존재

4. 주요 scintillator

Scintillator	주요용도	밀도 (g/cm³)	감쇠시간 (ns)	광자산출량 (ph/MeV)	주요 장점	주요 단점
CsI(Tl)	CT	4.51	1,000	54k-65k	높은 광량, 적절한 정지능	감쇠시간이 매우 김.
GOS	CT	7.32	600	45k	고밀도, 적절한 감쇠시간	광량 낮음
NaI(Tl)	SPECT	3.67	230	38k–40k	높은 광량, 짧은 감쇠시간	습기 취약, 낮은 정지능
BGO	PET	7.13	300	8200	높은 정지능	낮은 광량
LSO	PET	7.4	40	25k–32k	빠른 감쇠, 높은 광량	고비용
LYSO	PET	7.1	40	25k–32k	LSO와 유사, 고감도	고비용
GSO	PET	6.71	60	8k–10k	적절한 특성	정지능 낮음

CsI(Tl)
- X-ray용 CT에서 흔히 사용
- 긴 감쇠시간(~1 µs)과 높은 광자산출량
Gd₂O₂S (GOS)
- CT용 분말형 섬광체
- 상대적으로 낮은 광자산출량(45,000 ph/MeV)
NaI(Tl)
- 감마카메라/SPECT 에서 널리 사용됨
- 감쇠시간 230 ns 수준
BGO
- 높은 밀도(7.13 g/cm³)로 높은 정지능으로 유명하나
- 낮은 광자산출량(~8,000)이 단점.
- PET 초창기 표준 scitillator로 사용됨.
LSO (Lu₂SiO₅:Ce)
- BGO의 느린 decay time을 개선: 빠른 감쇠(40 ns)
- 동시에 높은 밀도와 밝기가 장점이나 고비용임.
LYSO (Lu₁.₈Y₀.₂SiO₅:Ce)
- LSO 와 유사한 성능
- LYSO = LSO + Y 도핑.
GSO (Gd₂SiO₅:Ce)
- PET에 사용, BGO보다 빠르지만 정지능은 낮음

5. 같이보면 좋은 자료들

5-3장 라돈변환 기반 의료영상 - 06. 방사선 검출 기술과 의료영상에서의 응용

https://www.koonja.co.kr/products/products_view.html?cd=CD0016&no=24613&refer=%2Fproducts%2Fsearch.html%3Fsearchkey%3D%EC%9D%98%EA%B3%B5%ED%95%99%EA%B0%9C%EB%A1%A0

군자출판사

군자출판사의 독자들이 대한민국 최고의 군자출판사의 역사를 이끌어 갑니다.

koonja.co.kr

https://dsaint31.tistory.com/306

[Physics] Interaction : 방사선과 물질의 상호작용.

방사선에 대해 인체 구성물질의 상호작용은 간단히 생각하면 물(water)과의 상호작용과 매우 유사함 (특히, soft tissue의 경우.) 다음 표는 대표적인 상호작용들이 방사선의 에너지에 따라 물(water)

dsaint31.tistory.com

LASSO Regression

dsaint31x — Sat, 8 Nov 2025 15:14:50 +0900

명칭의 유래

LASSO: Least Absolute Shrinkage and Selection Operator 의 약자
이름에서 알 수 있듯이,
- 절대값(absolute value) 기반의
- shrinkage(축소)와
- feature selection(특성 선택)을 동시에 수행하는 회귀 기법
“Shrinkage”는 weight의 크기를 줄이는 정칙화 효과,
“Selection”은 일부 weight를 정확히 0으로 만들어 feature를 제거하는 효과를 의미함

역사

Tibshirani (1996) 에 의해 제안됨
Ridge Regression이 모든 weight를 균일하게 줄이는 것과 달리,
Lasso는 일부 weight를 0으로 만들어 희소성(sparsity) 을 유도
주로 convex optimization 에서 자주 사용됨.
L1 norm을 사용한 penalty term을 포함하는 Lasso는 Tikhonov regularization의 변형으로 볼 수 있으나, penalty 함수의 형태가 절댓값으로 바뀐 점이 결정적 차이점을 가짐.

참고: L1 vs L2 정칙화의 특성

구분	L1 정칙화 (Lasso)	L2 정칙화 (Ridge)
Penalty	$\lambda \sum w_j $	$\lambda \sum w_j^2$
결과	Sparse solution (일부 0)	Smooth shrinkage (모두 작아짐)
Feature selection	가능	불가능
해석 용이성	높음	낮음
안정성	낮음 (상관특성 간 불안정)	높음 (multicollinearity 완화)

Lasso Regression (L1 정화)

Objective Function

$$L = \displaystyle \frac{1}{m}\sum_{i=1}^{m} (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^{n} |w_j|$$

$m$ : sample 수
$n$ : feature 수
$\lambda$ : regularization 강도 (hyperparameter)

Gradient (subgradient)

$$\frac{\partial L}{\partial w_j} = -\frac{2}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)x_{ij} + \lambda \cdot \text{sign}(w_j)$$

단, $w_j = 0$ 인 구간에서는 미분 불가능하므로 subgradient 사용.

2025.11.02 - [Programming/ML] - Subgradient 와 Gradient Descent

Subgradient 와 Gradient Descent

Prerequistes모델 학습의 목표는손실 함수 $L(\boldsymbol{\omega}, \textbf{X})$를 최소화하는파라미터 $\boldsymbol{\omega}$를 찾는 것임.이때 가장 기본적인 최적화 방법은 Gradient Descent(경사 하강법)임:$$\boxed{\bo

dsaint31.tistory.com

특징

일부 $w_j$가 정확히 0이 되어 불필요한 특성을 제거
모델 단순화 및 해석 용이성 증가
그러나 feature 간 강한 상관(multicollinearity)이 존재할 때, feature selection이 불안정해질 수 있음

Ridge Regression (L2 정칙화)와의 비교

Ridge: 모든 weight를 작게 만드는 연속적 축소(continuous shrinkage)
Lasso: 일부 weight를 완전히 제거(sparse selection)
실제 모델링에서는 두 기법을 혼합한 Elastic Net이 자주 사용됨

$$
L = \frac{1}{m}\sum (y_i - \hat{y}_i)^2 + \lambda_1 \sum |w_j| + \lambda_2 \sum w_j^2
$$

기하학적 해석

L2 제약(Ridge): 원형(circle) => 모든 방향 동일한 제약
L1 제약(Lasso): 마름모(diamond) 형태
- Loss function의 contour와 마름모의 꼭짓점이 만나는 지점에서 해가 발생
- 꼭짓점에서 일부 ( $w_j = 0$ )이 되어 sparse solution 유도
이 차이로 인해,
- Ridge는 “모두 조금씩 줄이지만 0은 만들지 않음”,
- Lasso는 “일부를 완전히 0으로” 만드는 효과를 가짐

기타

Ridge 의 경우처럼, Regularization Term을 샘플 수로 나누는 처리가 보통 이루어지며, bias에 대해선 규제를 하지 않기도 함.

2025.11.06 - [Programming/ML] - Ridge Regression

Ridge Regression

dsaint31.tistory.com

요약

Lasso Regression은 L1 정칙화 기반 회귀모델
일부 weight를 0으로 만들어 feature selection 효과 제공
Ridge에 비해 해석 용이(고려할 feature의 갯수가 감소)하지만, 안정성은 다소 떨어짐
데이터 규모와 상관없는 일관된 ($\lambda$)를 위해 평균화 필요
bias는 규제하지 않음 (평행이동 불변성 유지)
- shift invariance
- translation invariance
- invariance to translation
Ridge와 Lasso의 중간형으로 Elastic Net이 실무에서 자주 사용됨

같이보면 좋은 자료들

2024.10.27 - [Programming/ML] - [ML] Regularization

[ML] Regularization

dsaint31.tistory.com

https://ds31x.tistory.com/352

[ML] Classic Regressor (Summary) - regression

DeepLearning 계열을 제외한 Regressor 모델들을 간단하게 정리함.https://gist.github.com/dsaint31x/1c9c4a27e1d841098a9fee345363fa59 ML_Regressor_Summary.ipynbML_Regressor_Summary.ipynb. GitHub Gist: instantly share code, notes, and snippets.g

ds31x.tistory.com

2025.11.06 - [Programming/ML] - Ridge Regression

Ridge Regression

dsaint31.tistory.com

2025.11.02 - [Programming/ML] - Subgradient 와 Gradient Descent

Subgradient 와 Gradient Descent

dsaint31.tistory.com

Ridge Regression

dsaint31x — Thu, 6 Nov 2025 11:55:53 +0900

https://medium.com/@vikasdod/demystifying-lasso-and-ridge-regression-key-differences-and-usage-61d1c4780412

명칭의 유래

Ridge: "산등성이" 또는 "융기"를 의미하는 영어 단어
L2-Regularization Term 추가 시 loss function의 contour가 융기된 형태로 변형되는 데에서 유래됨.

역사적 배경

Tikhonov regularization (1963)과 수학적으로 동일
개발 시기:
- 1963년: Andrey Tikhonov가 ill-posed 문제 해결용 regularization(정규화로도 번역되나 개인적으론 정칙화를 선호) 방법 개발
- 1970년: Hoerl과 Kennard가 통계학 맥락에서 독립적으로 재발견
분야별 명칭:
- 수치해석: Tikhonov regularization
- 통계학/머신러닝: Ridge regression

[Math] ill-posed, well-posed, ill-conditioned, well-conditioned matrix (or problem)

"well-posed" matrix and "well-conditioned" matrix$A\textbf{x}=\textbf{b}$와 같은 Linear System (연립방정식)에서 system matrix $A$가 invertible하다면 해당 linear system(달리 말하면 연립방정식)이 well-posed라고 할 수 있다.하

dsaint31.tistory.com

참고: L1 vs L2 정칙화(정규화)의 특성

L-p Norm에서 p=1,2 인 경우가
주로 Regularization(정칙화)에 사용됨.

Normalization과 Regularization을 구분하기 위해
normalization은 정규화로, regularization은 정칙화로 사용하는 것을 선호하나
많은 경우 정규화로 사용되므로 문맥에 맞게 해석해야함.

Norm (노름)

Vector 및 matrix의 크기에 해당하는 양(magnitude) 을 구하는 연산 으로 사용됨. The higher the norm index ($p$값이 클 경우), the more it focuses on large values and neg...

bme808.blogspot.com

2024.10.02 - [Programming/ML] - [ML] Minkowski Distance (L-p Norm)

[ML] Minkowski Distance (L-p Norm)

Minkowski 거리는L-p Norm의 한 형태두 개의 점 사이의 distance(거리)를 일반화한 metric.distance의 개념은 다음 접은 글을 참고:더보기https://dsaint31.me/mkdocs_site/DIP/cv2/etc/dip_metrics/#distance-function-or-metric BME228

dsaint31.tistory.com

Ridge Regression (L2 정규화)

Object Function (loss): $L = \displaystyle \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2 + \lambda\sum_{j=1}^{n}w_j^2$
- $m$: sample size
- $n$: number of features
특징: 모든 weight를 균일하게 작게 만듦
Gradient: $\frac{\partial L}{\partial w_j} = -\frac{2}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)x_{ij} + 2\lambda w_j$
결과: weight가 0에 가까워지지만 정확히 0이 되지 않음

Lasso Regression (L1 정규화)

Object Function (loss): $L = \displaystyle \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2 + \lambda\sum_{j=1}^{n}|w_j|$
특징: 일부 weight를 정확히 0으로 만듦 (sparse solution)
Gradient: $\frac{\partial L}{\partial w_j} = -\frac{2}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)x_{ij} + \lambda \cdot \text{sign}(w_j)$
결과: feature selection 효과

기하학적 해석

L2 (Ridge):
- Regularization(제약) 영역이 원(circle)형: 모든 방향으로 균등한 패널티
- 모든 weight가 비슷한 크기로 축소됨
L1 (Lasso):
- Regularization(제약)이 다이아몬드형: 모서리에서 해를 찾을 가능성 높음
- 일부 weight가 정확히 0이 됨: sparse weights

Regularization Term을 샘플 수로 나누는 이유

Regularization Term을 나누지 않은 경우:

$$L = \displaystyle \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2 + \lambda\sum_{j=1}^{n}w_j^2$$

MSE는 $\frac{1}{m}$로 평균을 내어 스케일 유지.
규제항은 $m$ (=sample size)과 무관하게 고정값
결과: $m$이 커질수록 전체 loss에서 regularization term(규제항)의 상대적 영향력이 변하게 됨

구체적 예시

gradient 계산 시:
- 데이터 항: $\displaystyle \frac{2}{m} \times \sum_{i=1}^{m}(\text{예측오차} \times x_i)$
- 규제항: $2\lambda w$ : 항상 고정됨

여기서 regularization term은 sample size $m$과 무관하게 고정된 형태이나 데이터와 얼마나 잘 fit되었는지를 나타내는 term은 $\frac{1}{m}$의 영향을 받음: $m$이 변하면 두 term의 상대적 영향력이 변하게 됨.

하지만, 가급적

샘플수 $m$ 에 상관없이 데이터 항과 규제항의 영향을 일정하게 유지해야 함.

해결책

$$L = \displaystyle \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2 + \frac{\lambda}{m}\sum_{j=1}^{n}w_j^2$$

$\lambda$의 의미가 데이터 크기와 무관하게 일정 유지
하이퍼파라미터 튜닝 시 일관성 확보

Bias를 규제하지 않는 이유

일반적인 규제항

$$\frac{\lambda}{m}\sum_{j=1}^{n}w_j^2 \quad \text{(bias } b \text{는 제외)}$$

세 가지 핵심 이유

1. 평행이동 불변성

모든 타겟값에 상수 $c$를 더해도 예측 성능 동일해야 함
Bias 규제 시 이 성질 위반
데이터의 스케일에 독립적인 모델 필요

2. Centering Perspective (중심화 관점)

데이터를 평균 0으로 중심화 (zero-mean centering)하면 bias는 자연스럽게 0 이 됨.
이 경우, 원래 스케일 (or 평균)로 복원 시에만 bias 필요
수식: $\bar{y} = 0 \Rightarrow b = 0$

3. 실용적 고려사항

Bias는 모델 복잡도와 실제로 무관 (regression의 경우 단순히 평균값에 해당)
over-fitting(과적합)은 주로 weight의 크기에서 발생 .
Bias 제한 시 문제:
- 데이터 평균값 예측 실패
- 모델의 표현력 불필요하게 제한

요약

Ridge regression은 안정적이고 해석 가능한 regularization(정칙화 방법)
설계 선택들은 수학적 원리와 실용적 고려사항의 균형
L1 대비 모든 특성을 유지하면서 균일하게 weight 축소
데이터 크기에 무관한 일관된 성능을 보장하려면,
- regularization만으로는 충분하지 않으며
- 별도의 적절한 feature scaling이 필요함.

같이보면 좋은 자료들

2024.10.27 - [Programming/ML] - [ML] Regularization

[ML] Regularization

dsaint31.tistory.com

https://ds31x.tistory.com/352

[ML] Classic Regressor (Summary) - regression

ds31x.tistory.com

Subgradient 와 Gradient Descent

dsaint31x — Sun, 2 Nov 2025 13:47:32 +0900

Prerequistes

모델 학습의 목표는

손실 함수 $L(\boldsymbol{\omega}, \textbf{X})$를 최소화하는
파라미터 $\boldsymbol{\omega}$를 찾는 것임.

이때 가장 기본적인 최적화 방법은 Gradient Descent(경사 하강법)임:

$$\boxed{\boldsymbol{\omega}_{t+1} = \boldsymbol{\omega}_t - \eta \nabla_{\boldsymbol{\omega}} L(\boldsymbol{\omega}_t, \textbf{X})}$$

where,

$\boldsymbol{\omega}_t$: $t$번째 스텝의 파라미터
$\eta > 0$: 학습률(learning rate)
$\nabla_{\boldsymbol{\omega}} L(\boldsymbol{\omega}_t, \textbf{X})$: 손실의 gradient

위의 식은 loss function의 증가 방향과 반대 방향으로 parameters를 갱신함으로써 loss function을 점차 감소시킴.

2023.10.19 - [Programming] - [ML] Gradient Descent Method: 경사하강법

[ML] Gradient Descent Method: 경사하강법

dsaint31.tistory.com

미분이 되지 않는 loss 함수의 문제

하지만 손실 함수 $L(\boldsymbol{\omega}, \textbf{X})$이 항상 매끄럽게 미분 가능한 것은 아님.
예를 들어 L1 정규화 항이 포함된 손실은 다음과 같음.

$$L(\boldsymbol{\omega}, \textbf{X}) = \text{loss}(\boldsymbol{\omega}, \textbf{X}) + \lambda |\boldsymbol{\omega}|_1$$

여기서 $\|\boldsymbol{\omega}\|_1 = \sum_i |\omega_i|$는
$\omega_i = 0$에서 미분을 할 수 없음.

즉, $\nabla_{\boldsymbol{\omega}} L(\boldsymbol{\omega}_t, \textbf{X})$를 계산할 수 없는 구간이 존재함.
이를 해결하기 위해 Subgradient 개념이 도입됨.

Subgradient의 정의

Convex(볼록) 함수 $L(\boldsymbol{\omega})$에 대해 벡터 $\textbf{g}$가 다음 부등식을 만족하면,
$\textbf{g}$를 $L$의 Subgradient라 부름:

$$L(\textbf{y}) \ge L(\textbf{x}) + \textbf{g}^\mathsf{T} (\textbf{y} - \textbf{x}), \quad \forall \textbf{y}$$

이 식은 $\textbf{g}$가

함수 $L$의 그래프를
아래(sub-)에서 지지(support) 하는 선형 함수의 기울기임을 의미
모든 $\textbf{y}$에서 구해지므로 convex function에서만 subgradient는 존재함:
- non-convex의 경우엔 Clake subgradient 와 같은 확장된 도구 필요.

참고로 Gradient에선 부등호가 아닌 등호가 성립됨.
$$L(\textbf{y}) = L(\textbf{x}) +\nabla L(\textbf{x})^\mathsf{T}(\textbf{y}-\textbf{x})$$

이러한 모든 $\textbf{g}$의 집합을 (Convex) Subdifferential (=subgradient set)이라 하며,

$$\partial L(\textbf{x}) = \{ \textbf{g} \mid L(\textbf{y}) \ge L(\textbf{x}) + \textbf{g}^\mathsf{T}(\textbf{y} - \textbf{x}),\ \forall \textbf{y} \}$$

으로 정의함.

Subgradient Descent - 미분불가 함수로의 확장

Subgradient 개념을 이용하면,
미분되지 않는 covex 함수에서 다음과 같이 Gradient Descent의 형태를 그대로 유지하면서 최적화 수행이 가능:

$$\boxed{\boldsymbol{\omega}_{t+1} = \boldsymbol{\omega}_t - \eta \textbf{g}_t, \quad \textbf{g}_t \in \partial L(\boldsymbol{\omega}_t, \textbf{X})}$$

where,

$\textbf{g}_t$: $L(\boldsymbol{\omega}_t, \textbf{X})$의 Subgradient
미분 가능한 경우: $\textbf{g}_t = \nabla_{\boldsymbol{\omega}} L(\boldsymbol{\omega}_t, \textbf{X})$

즉,

Subgradient Descent는
Gradient Descent를 미분 불가 함수로 확장한 일반화 형태라고 할 수 있음.

내적 $\textbf{g}^\mathsf{T}(\textbf{y} - \textbf{x})$의 의미

Subgradient 정의에 inner product(내적)이 사용되는데
inner product가 이루어지는 항에서 loss function의 변화량을 기울기 방향으로 투영(projection) 함.

$\textbf{g}$: 함수의 증가 방향
$(\textbf{y} - \textbf{x})$: 이동 방향
$\textbf{g}^\mathsf{T}(\textbf{y} - \textbf{x})$: 해당 방향으로의 선형 근사 변화량

따라서 inner product은 “기울기 벡터(gradient or subgradient)가 함수 변화에 미치는 선형적 영향”을 표현함.

“sub”의 의미

Subgradient의 “sub”는 단순히 “부분”이 아니라
“함수 그래프를 아래에서(subordinate) 지지”한다는 의미를 지님.

또한, gradient의 부재 영역에서도 사용되므로
“gradient의 일반화(generalization)” 혹은 “대체(substitute)” 개념으로도 이해할 수 있음.

예시 — L1 정규화 항의 Subgradient

L1 항 $|\omega_i|$의 Subgradient는 다음과 같음:

$$\frac{\partial |\omega_i|}{\partial \omega_i} =
\begin{cases}
1, & \omega_i > 0 \\
-1, & \omega_i < 0 \\
[-1, 1], & \omega_i = 0
\end{cases}$$

여기서 각 symbol의 의미는 다음과 같음:

parameter vector $\boldsymbol{\omega}$의 $i$번째 component가 $\omega_i$임.
$t$: iteration index.
$i$: vector에서의 component index
$\omega_{t,i}$: $t$-iteration에서의 $i$번째 weight

따라서 전체 손실에 대한 update equation은 다음과 같음:

$$\omega_{t+1,i} = \omega_{t,i} - \eta g_{t,i}, \quad g_{t,i} \in \frac{\partial L}{\partial \omega_i}$$

위의 식을 통해 $\omega_i = 0$ 인 미분 불가 구간에서도
가능한 여러 방향 중 하나를 선택하여 하강할 수 있음.

Converge Property

Subgradient Descent는 gradient descent (GD) 에 비해 수렴 속도가 느림.

convex인 경우엔 다음의 적절한 조건(diminishing learning rate)이 있을 경우 최적점으로 수렴함.
- $\eta_t > 0$, $\eta_t \to 0$, $\sum^\infty_{t=1} \eta_t = \infty$
- 이를 만족하는 learning rate $\eta$를 diminishing learning rate라고 하며 $\eta_t = \frac{a}{\sqrt{t}}$ 등이 대표적 예임.
learning rate 조건이 상수인 경우엔 optimum 근처에서 진동할 수 있으므로 diminishing learning rate를 사용함.

항목	Gradient Descent	Subgradient Descent
적용 대상	Differentiable Loss (Convex인 경우 항상 global optimum 에 도달)	Non-differentiable Convex Loss (Non-smooth convex loss) (Convex loss with non-differentiable points)
업데이트	$\boldsymbol{\omega}_{t+1} = \boldsymbol{\omega}_t - \eta \nabla_{\boldsymbol{\omega}} L(\boldsymbol{\omega}_t)$	$\boldsymbol{\omega}_{t+1} = \boldsymbol{\omega}_t - \eta \textbf{g}_t,\quad \textbf{g}_t \in \partial L(\boldsymbol{\omega}_t)$
의미	gradient 방향으로 이동	subgradient는 supporting hyperplane from below의 기울기 "가능한 subgradient 중 하나"를 선택해 이동

Gradient Descent의 일반화: Subgradient Descent

Subgradient는 Gradient를 미분불가 함수로 확장한 일반화된 개념.
그에 따른 학습식은 Gradient Descent와 동일한 형태를 유지함.

$$\boxed{
\boldsymbol{\omega}_{t+1} = \boldsymbol{\omega}_t - \eta \textbf{g}_t, \quad \textbf{g}_t \in \partial L(\boldsymbol{\omega}_t, \textbf{X})}$$

결론적으로,

Subgradient Descent는
미분이 불가능한 영역에서도 “함수값이 감소하는 방향”을 정의하여
Gradient Descent의 아이디어를 확장 및 일반화한 방법임.

Bias-Variance Tradeoff

dsaint31x — Thu, 30 Oct 2025 12:23:42 +0900

Supervised Learning의 궁극적인 목표

학습에 사용된 데이터 뿐만 아니라,
한 번도 보지 못한 새로운 데이터에 대해서도 정확한 예측을 수행하는 능력, 즉
일반화 성능(generalization performance)을 높이는 것임.

모델이 예측한 값과 실제 값 사이의 차이, 즉 예측 오류는 단 하나의 원인으로 발생하지 않으며, 이 오류는 세 가지 주요 구성 요소로 분해될 수 있음:

Bias (편향)
Variance (분산)
Irreducible Error (줄일 수 없는 오류)

이 글은

이 세 가지 오류에 대한 설명을 하고
이들 중 Bias와 Variance가 모델의 복잡도를 축으로 할 때, trade-off (상충관계)를 갖는 이유를 소개함.

1. 예측 오류의 세 가지 구성 요소

예측 오류를 구성하는 세 가지 핵심 요소를 각각 정의하고, 그 원인과 결과를 살펴보기 위해 한 가지 가정을 해보겠음.

현실 세계에서 100개의 서로 다른 학습 데이터셋을 수집(dataset이 100개임)
각 데이터셋으로 100개의 개별 모델을 학습시킬 수 있다고 가정.

1.1. Bias Error

편향(Bias)이란,

학습시킨 100개 모델 예측값들의 평균(mean)이 실제 정답(true function)에서 얼마나 벗어나 있는지에 해당.
이는 모델이 실제 정답에 대해 가지는 일종의 체계적인 오차 임.

bias는 모델의 근본적인 한계 (모델이 기반으로 삼는 가정등이 실제 data에서 어긋나는 경우 등)에서 비롯되는 error임.

때문에, bias는 더 많은 데이터로 학습시킨다 해도 줄어들지 않는 error임.

bias는 모델 자체가 가진 잘못된 가정 및 데이터의 한계(유용하지 않은 feature로 구성) 때문에 발생.

잘못된 가정과 대표적이지 않은 데이터:
- 현실의 복잡한 비선형 관계를 선형 모델로만 가정하거나,
- 실제 유용하지 않은 feature로만 구성된 학습 데이터(representive data가 아님)로 인해 발생.
대표적인 예: 단순한 모델
- 모델의 파라미터 수가 적어
- 데이터의 복잡한 패턴을 모두 담아내지 못하는 경우 편향이 높아짐: under-fit.

일반적으로 높은 bias를 가진 모델은 '고집이 셉니다' (무식하고 고집이 센 사람을 생각).

때문에, 학습 데이터셋($D$)이 조금 바뀌더라도 모델의 파라메터들이 거의 변하지 않음.
단순한 모델의 경우, 학습 데이터에서 가장 큰 경향성 만을 포착하여 기억하기 때문임.
모델이 문제를 푸는데 중요한 데이터의 핵심적인 경향들을 학습하기에 복잡도가 떨어질 경우
제대로 학습하지 못하는 과소적합(Underfitting) 상태가 됨.

1.2. Variance Error (분산 에러)

분산(Variance)이란,

100개의 서로 다른 데이터셋으로 학습시킨 모델들이 하나의 입력값에 대해 얼마나 서로 다른 예측을 하는지를 나타내는 척도.
이는 다른 데이터셋으로 인해 모델이 얼마나 차이를 가지는지를 나타냄.

달리 말하면 variance는 모델이 학습 데이터에 얼마나 민감하게 반응하는지를 나타냄.

Variance Error 의 원인과 결과는 다음과 같음:

원인:
- 파라미터가 많은 복잡하고 유연한 모델이
- 학습 데이터의 미세한 변동이나 노이즈(noise)까지 '패턴'으로 오인하여 과도하게 학습할 때
- variance error가 발생.
결과:
- Variance는 "만약 다른 학습 데이터셋 $D$로 학습했다면 모델 $\hat{f}$가 얼마나 다른 파라메터를 가지는가?"를 측정.
- Varaiance가 높은 모델은 불안정하여 학습 데이터가 조금만 바뀌어도 완전히 다른 모델이 되는 문제점을 가짐.

높은 Variance는

모델이 학습 데이터에만 지나치게 최적화되는 과대적합(Overfitting) 을 유발함을 의미함.
이는 새로운 데이터 (학습데이터가 아닌 testset에서)에 대한 예측 성능 저하로 이어짐.

1.3. 줄일 수 없는 오류 (Irreducible Error)

줄일 수 없는 오류(Irreducible Error)란,

데이터 자체에 본질적으로 내재된 무작위성 또는 노이즈(noise) 및 에러로서
어떠한 학습 알고리즘을 사용하더라도 제거할 수 없는 한계선을 의미함.

데이터는 종종 다음의 수식으로 표현됨.
$$y = f(x) + \epsilon$$
where

$f(x)$는 우리가 찾으려는 실제 물리적인 패턴,
$\epsilon$은 측정 오차나 무작위성으로 인한 노이즈.

아무리 완벽한 모델을 학습시켜서 $f(x)$를 최대한 정확히 approximate해도, $\epsilon$으로 인한 오류는 본질적으로 피할 수 없음.

1.4. 한눈에 비교하기: 편향 vs. 분산

특징	높은 편향 (High Bias)	높은 분산 (High Variance)
모델 복잡도	단순함 (낮은 Capacity)	복잡함 (높은 Capacity)
주요 원인	지나치게 단순한 가정, 대표적이지 못한 데이터의 한계	학습 데이터의 노이즈까지 과도하게 학습
발생 문제	과소적합 (Underfitting)	과대적합 (Overfitting)
데이터에 대한 민감도	학습 데이터가 바뀌어도 모델 변화가 거의 없음	학습 데이터가 바뀌면 모델이 크게 변동함 (불안정함)

이들 error를 일으키는 요소들 중에서

Variance와 Bias는 모델의 복잡도라는 하나의 핵심 요소를 축으로 'trade-off' 관계에 놓여 있음.

2. Bias-Variance Tradeoff

최적의 일반화 성능을 얻으려면 bias와 variance를 모두 함께 동시에 줄여야 함

하지만 이 둘은 모델의 복잡도(Model Complexity)를 기준으로 tradeoff 관계임.

모델이 단순할수록 (복잡도 낮음):
- 모델은 데이터의 큰 경향성만을 학습.
- 이로 인해 데이터의 세부 패턴을 놓쳐 큰 bais를 가지기 쉬움.
- 대신, 데이터에 포함된 작은 노이즈에는 둔감하게 반응하므로 variance는 낮아짐.
모델이 복잡해질수록 (복잡도 높음):
- 모델은 데이터의 세세한 패턴까지 학습할 수 있게 되어 낮은 bias를 가짐.
- 하지만 데이터의 노이즈까지 패턴으로 인식하고 학습 하게 되어,
- 학습 데이터가 조금만 바뀌어도 예측값이 크게 변함(모델의 파라메터가 크게 변하기 때문임)
- 이는 높은 Variance 로 이어짐.

결론적으로, 최적의 일반화 성능을 얻으려면
bias와 variance를 동시에 줄여야 하지만,
하나를 줄이면 다른 하나가 늘어나는 경향이 있어
이 둘 사이의 균형점을 찾는 것이 중요.

3. 수식으로 본 error

regression 모델의 예측 오류를 나타내는 평균 제곱 오차(Mean Squared Error, MSE)가 어떻게 bias, variance, irreducible error로 분해되는지를 수식으로 살펴볼 수 있음.

3.1. 용어 정의 및 목표 설정

먼저 수식 전개에 필요한 기본 변수들은 다음과 같음:

$y$: 실제 target value. $y = f(x) + \epsilon$
$f(x)$: 우리가 찾고자 하는 이상적인 모델 (물리적인 실제 데이터 생성 기전을 모델링하고 있는)
$\epsilon$: 평균이 0이고 분산이 $\sigma$인 정규분포를 따를는 노이즈 ($E[\epsilon] = 0, Var[\epsilon] = \sigma^2$).
$\hat{f}(x; D)$: 주어진 학습 데이터셋 $D$를 통해 우리가 만든 예측 모델. 모델이 $D$에 의존함을 명시적으로 표기함.

목표는 예측 값($\hat{f}$)과 실제 값($y$)의 차이(difference, error)를 나타내는 MSE, 즉 $E[(y - \hat{f}(x; D))^2]$를 최소화하는 것임.

기댓값 $E[...]$는 가능한 모든 학습 데이터셋 $D$에 대한 평균을 의미.

3.2. 평균 제곱 오차(MSE) 분해 과정

평균 제곱 오차를 다음과 같이 단계별로 분해할 수 있음: 간단한 수식을 위해 $f(x)$는 $f$, $\hat{f}(x; D)$는 $\hat{f}$로 표기.

MSE 정의와 $y$ 대체
- $E[(y - \hat{f})^2] = E[(f + \epsilon - \hat{f})^2]$
- $y$를 실제 함수와 노이즈의 합 $f + \epsilon$로 치환.
핵심 단계: 평균 예측 $E[\hat{f}]$ 도입
- $E[(f + \epsilon - \hat{f})^2]= E[(f - E[\hat{f}] + E[\hat{f}] - \hat{f} + \epsilon)^2]$
- 이 단계가 증명의 핵심임.
- 평균 예측 $E[\hat{f}]$을 더하고 빼서 식의 값을 바꾸지 않으면서, 전체 오차를 다음의 세부분으로 나눌 수 있게 해줌.
  - (1) Bias 관련 부분: $(f - E[\hat{f}])$,
    - (2) Variance 관련 부분: $(E[\hat{f}] - \hat{f})$,
    - (3) 노이즈 $\epsilon$ 관련 부분
term(항) 재배열 및 제곱 전개
- $E[(f + \epsilon - \hat{f})^2]= E[ ( (f - E[\hat{f}]) + (E[\hat{f}] - \hat{f}) + \epsilon )² ]$
- 세 개의 항 $(f - E[\hat{f}])$, $(E[\hat{f}] - \hat{f})$, $\epsilon$으로 묶어 제곱식을 전개.
- $E[(f + \epsilon - \hat{f})^2]= E[(f - E[\hat{f}])^2] + E[(E[\hat{f}] - \hat{f})^2] + E[\epsilon^2] + 2E[(f - E[\hat{f}])(E[\hat{f}] - \hat{f})] + 2E[(f - E[\hat{f}])\epsilon] + 2E[(E[\hat{f}] - \hat{f})\epsilon]$
교차 항(Cross-term) 정리
- 전개된 식의 뒤쪽 세 개 교차 항들은 기댓값의 성질에 의해 모두 0이 됨.
  - $2E[(f - E[\hat{f}])(E[\hat{f}] - \hat{f})]$:
    - 여기서 $f$와 $E[\hat{f}]$는 $D$에 대한 기댓값이므로 상수 취급이 가능.
    - 따라서 $2(f - E[\hat{f}]) \times E[E[\hat{f}] - \hat{f}]$가 되며,
    - $E[E[\hat{f}] - \hat{f}] = E[\hat{f}] - E[\hat{f}] = 0$ 을 이용하면 전체 term은 0.
  - $2E[(f - E[\hat{f}])\epsilon]$:
    - $f$와 $E[\hat{f}]$는 $\epsilon$과 무관하므로
    - $2(f - E[\hat{f}]) \times E[\epsilon]$로 전개 가능.
    - $E[\epsilon] = 0$이므로 이 term도 0.
  - $2E[(E[\hat{f}] - \hat{f})\epsilon]$:
    - 모델 $\hat{f}$은 학습 데이터 D에만 의존
    - 노이즈 $\epsilon$는 $D$에 대해 독립적.
    - 따라서 $E[(E[\hat{f}] - \hat{f})\epsilon] = E[E[\hat{f}] - \hat{f}] \times E[\epsilon]$로 분리 가능.
    - $E[E[\hat{f}] - \hat{f}] = 0$ 이고 $E[\epsilon] = 0$이므로 이 term 도 0.
최종 결과 도출
- cross terms가 모두 0이 되면서 다음의 세 개의 term들만 남음:
- $E[(f + \epsilon - \hat{f})^2]= E[(f - E[\hat{f}])^2] + E[(E[\hat{f}] - \hat{f})^2] + E[\epsilon^2]$
- 각 항을 정의에 따라 정리.
  - $f$와 $E[\hat{f}]$는 상수이므로, $E[(f - E[\hat{f}])^2] = (f - E[\hat{f}])^2$ 임:
    - 이는 bias의 제곱 ($\text{Bias}[\hat{f}])^2$
  - $E[(\hat{f} - E[\hat{f}])^2]$는 variance, $\text{Var}[\hat{f}]$ 임.
  - $\text{Var}[\epsilon] = E[\epsilon^2] - (E[\epsilon])^2$이고 $E[\epsilon]=0$이므로, $E[\epsilon^2] = \text{Var}[\epsilon] = \epsilon^2$임.
    - 이는 irreducible error임.

$$E[(f + \epsilon - \hat{f})^2] = (E[\hat{f}] - f)^2 + \text{Var}[\hat{f}] + \epsilon^2$$

3.3. 최종 공식과 그 의미

최종적으로 분해된 총 오류(MSE) 공식은 다음과 같음.

$$ E[(y - \hat{f})²] = (\text{Bias}[\hat{f}])^2 + \text{Var}[\hat{f}] + \epsilon^2$$

이 공식의 각 항이 의미하는 바는 다음과 같음

bias의 제곱: 여러 다른 학습 데이터셋으로 학습시킨 모델들의 평균적인 예측이 실제 정답 함수에서 얼마나 벗어났는가? (모델의 근본적인 한계)
variance : 각기 다른 학습 데이터셋으로 학습시킨 모델들의 예측이 서로 얼마나 흩어져 있는가? (모델의 학습 데이터 민감도/불안정성)
Irreducible Error (줄일 수 없는 오류) :데이터 자체에 내재된 노이즈의 크기

[SS] $u(t)-u(t-a)$ 의 (unilateral) Laplace Transform

dsaint31x — Thu, 30 Oct 2025 09:55:26 +0900

증명1

보통 $a>0$ 가정

$$x(t)=u(t)-u(t-a)=
\begin{cases}
1,& 0\le t<a \\
0,& \text{그 외}
\end{cases}$$

이와 같으므로 unilateral transform 은

$$\mathcal{L}[x(t)]
= \int_{0}^{\infty} e^{-st}\big[u(t)-u(t-a)\big] dt
= \int_{0}^{a} e^{-st} dt$$

구간 외에는 0 임.

$\operatorname{Re}(s)>0$에서

$$\int_{0}^{a} e^{-st} dt
= \left[\frac{e^{-st}}{-s}\right]_{0}^{a}
= \frac{1-e^{-as}}{s}.$$

위에 의해 다음이 성립

$$\boxed{\;\mathcal{L}[u(t)-u(t-a)]=\dfrac{1-e^{-as}}{s},\quad \operatorname{Re}(s)>0\;}$$

증명2

Linearity 를 이용해도 증명 가능.

$$\mathcal{L}[u(t)]=\frac{1}{s} \\
\mathcal{L}[u(t-a)]=\int_{a}^{\infty} e^{-st}\,dt=\frac{e^{-as}}{s} \ \ (\operatorname{Re}(s)>0).$$

따라서
$$\mathcal{L}[u(t)-u(t-a)]=\frac{1}{s}-\frac{e^{-as}}{s}=\frac{1-e^{-as}}{s}.$$

같이보면 좋은 자료

2022.10.24 - [.../Signals and Systems] - [SS] Laplace Transform Table

[SS] Laplace Transform Table

SignalLaplace TransformRoC...1$u(t)$$\frac{1}{s}$$\text{Re}(s)>0$ 2$u(t)-u(t-a)$$\frac{1-e^{-as}}{s}$$\text{Re}(s)>0$ 3$\delta(t)$1all complex plane 4$\delta(t-a)$$e^{-as}$all complex plane 5$e^{-at}u(t)$$\frac{1}{s+a}$$\text{Re}(s)>-a$참고6$\cos\Omega_0

dsaint31.tistory.com

[SS] 상수 함수에 대한 Unilateral Laplace Transform

dsaint31x — Thu, 30 Oct 2025 09:34:32 +0900

1. Laplace Transform의 정의

One-sided(unilateral) Laplace transform은 다음과 같이 정의:

$$\mathcal{L}[f(t)] = \int_{0}^{\infty} e^{-st} f(t)\, dt$$
where,

$s = \sigma + j\omega$

2. $f(t) = 1$을 대입

$$\mathcal{L}[1] = \int_{0}^{\infty} e^{-st}\, dt$$

3. 적분 계산

이 적분은 지수함수의 무한 적분임.
때문에 수렴 조건을 먼저 확인하여 ROC를 구함.

$\operatorname{Re}(s) > 0$ 일 때만 수렴.

적분을 계산하면:

$$\int_{0}^{\infty} e^{-st}\, dt = \left[ \frac{e^{-st}}{-s} \right]_{0}^{\infty}$$

4. 극한 계산

$t \to \infty$ 일 때 $\operatorname{Re}(s) > 0$이면 $e^{-st} \to 0$
$t = 0$ 일 때 $e^{-st} = 1$

다음이 성립함:
$$\int_{0}^{\infty} e^{-st}\, dt = \frac{0 - (1)}{-s} = \frac{1}{s}$$

5. 결론

$$\boxed{\mathcal{L}[1] = \frac{1}{s}, \quad \operatorname{Re}(s) > 0}$$

같이보면 좋은 자료들

2022.10.24 - [.../Signals and Systems] - [SS] Laplace Transform Table

[SS] Laplace Transform Table

dsaint31.tistory.com

Matrix Norm and Condition Number

dsaint31x — Wed, 29 Oct 2025 17:45:27 +0900

https://en.wikipedia.org/wiki/Condition_number

Matrix Norm

Vector의 Norm을 이용한 Matrix의 Norm의 정의는 다음과 같음.

$$\|A\|=\underset{\textbf{x}\ne\textbf{0}}{\text{max}} \frac{\|A\textbf{x}\|}{\|\textbf{x}\|}$$

$\textbf{x}$ : 임의의 column vector.

위의 Matrix의 Norm에 대한 정의로부터 다음이 성립.

$$\|A\textbf{x}\|\le\|A\|\|\textbf{x}\|$$

좀 더 자세히 말하면, 이는 Operator norm (or induced norm)이라고 불리는 것으로 matrix를 linear transform으로 보고 해당 변환이 얼마나 input vector의 norm을 "증가시키는지"를 norm으로 표현함.

사용하는 vector norm (L-p Norm에서 p의 값에 따라 다름)의 종류에 따라 값이 달라짐.

참고로 Matrix Norm 으로 더 많이 사용되는 것은 Frobenius norm임:

$$\|A\|_\text{Frobenius} = \sqrt{\sum_{i,j} |a_{i,j}|^2}$$

참고: Norm이란?

https://dsaint31.tistory.com/254#Norm%20(%EB%85%B8%EB%A6%84)-1-5

[Math] Vector (1)

Scalar오직 magnitude(크기)만을 가지는 물리량.숫자 하나.ndim=0, rank=02024.07.08 - [.../Linear Algebra] - [LA] Rank: Matrix의 속성 [LA] Rank: Matrix의 속성Definition: Rank ◁ matrix 속성The rank of a matrix $A$, denoted by rank $A

dsaint31.tistory.com

Condition number (조건수)

행렬의 condition number는
방정식 $A\textbf{x}=\textbf{b}$ 의 민감도를 나타내는 지표임.

행렬 $A$ 의 조건수가 크면 (←민감한 경우) 일정한 크기의 input의 상대 오차에 대해서 solution(해)의 상대 오차가 커질 수 있고 (ill-conditioned라고 한다),
반대로 작으면 solution의 상대 오차도 작아지게됨(이 경우를 well-conditioned라고 부름).

기계학습 적인 관점에서 말하면,

condition number가 클 경우 작은 오차(혹은 noise)에 대해 매우 민감하게 반응하므로 overfitting이 일어나기 쉽다.
이는 다른 데이터 셋으로 학습시 모델이 매우 다른 파라메터(solution에 해당)를 가지게 됨을 의미한다.

전통적인 linear system으로 애기하면,

codition number가 클 경우, 사실상 ill-pose inverse problem과 같이 처리 (정확히는 ill conditioned problem)되기 싶다.
well-posed라고 해도 연산과정에 피할 수 없는 round-off error로 인해 matrix가 singular로 바뀌기 쉽다는 애기임.

Condition Number(조건수) 유도.

Linear system에서 input $\textbf{b}$가 오차가 발생하여, $(\textbf{b} +\Delta \textbf{b})$로 주어질 경우, solution $\textbf{x}$도 다음과 같은 출력오차를 가지게 됨 :

$$(\textbf{x}+\Delta \textbf{x})$$

즉, 아래의 등식이 성립.

$$A(\textbf{x}+\Delta \textbf{x})=(\textbf{b} +\Delta \textbf{b}) \Rightarrow \Delta \textbf{x} = A^{-1}\Delta \textbf{b}$$

위 식에 Matrix의 Norm을 이용하면, 다음과 같은 부등식이 성립.

$$\Delta \textbf{x} = A^{-1}\Delta \textbf{b} \Rightarrow \| \Delta \textbf{x} \| \le \|A^{-1}\| \|\Delta \textbf{b}\| \tag{1}$$

원래의 linear system에서 다음이 또한 성립.

$$A\textbf{x}=\textbf{b} \Rightarrow \textbf{b}=A\textbf{x} \Rightarrow \|\textbf{b}\|=\|A\| \|\textbf{x}\| \tag{2}$$

부등식 1과 2로부터 다음이 성립함.

$$\frac{\|\Delta \textbf{x}\|}{\|A\| \|\textbf{x}\|} \le \frac{ \|A^{-1}\| \|\Delta \textbf{b}\|}{ \|\textbf{b}\|} \\\\ \frac{\|\Delta \textbf{x}\|}{ \|\textbf{x}\|} \le \|A\| \|A^{-1}\| \frac{\|\Delta \textbf{b}\|}{ \|\textbf{b}\|}$$

위에 따르면,

input 의 상대오차$\frac{ \|\Delta \textbf{b}\|}{ \|\textbf{b}\|}$에 따른 solution의 상대오차 $\frac{\Delta \|\textbf{x}\|}{ \|\textbf{x}\|}$의 정도가 $\|A\| \|A^{-1}\|$에 의해서 결정되며 이를 Condition number (조건수)라고 한다.

$$\text{cond}(A) = \| A \| \| A^{-1}\| $$

Singular value ratio: Condtion Number

위의 설명은 개념을 반영한 설명이고,

가장 일반적으로 condtion number를 구하는 방법은 SVD(singular value decomposition)을 통한 singular value $\sigma$들을 구하고, 그중 최대값과 최소값의 ratio를 구하는 것임.

$$\text{cond}(A) = \frac{| \sigma_\text{max}(A) |}{|\sigma_\text{min}(A)|}$$

$\sigma(A)$ : Matrix $A$의 singular value.

Reference

https://ghebook.blogspot.com/2021/03/matrix-norm-and-condition-number.html

행렬 노름과 조건수(Matrix Norm and Condition Number)

물리학, 수학, 전자파

ghebook.blogspot.com

https://dsaint31.tistory.com/entry/Round-off-Error-vs-Truncation-Error-1

Round-off Error vs. Truncation Error

Round-off Error: 컴퓨터에서 수치를 저장하는 데이터 타입의 한계로 인한 에러.제한된 비트에 수치를 저장하기 때문에 발생하며 Finite word-length effect, Finite word-length error라고도 불림.주로 quantization에

dsaint31.tistory.com

https://dsaint31.tistory.com/entry/Math-ill-posed-well-posed-ill-conditioned-well-conditioned-matrix-or-problem

[Math] ill-posed, well-posed, ill-conditioned, well-conditioned matrix (or problem)

dsaint31.tistory.com

Lorentzian Function (or Cauchy distribution function)

dsaint31x — Fri, 24 Oct 2025 14:44:05 +0900

Lorentzian 함수(로렌츠 함수)는 물리학과 신호처리, 특히 공명(resonance)과 푸리에 변환에서 자주 등장하는 함수.

1. Definition

Lorentzian function 또는 Cauchy distribution function은 다음과 같이 정의됨:

$$
L(x; x_0, \gamma) = \frac{1}{\pi}\frac{\gamma}{(x - x_0)^2 + \gamma^2}
$$

where,

$x_0$: 중심(center). 주로 0으로 사용되는 경우도 많음.
$\gamma$ > 0: 반치폭(half width at half maximum, HWHM)
전체 면적 $\int_{-\infty}^{\infty} L(x),dx = 1$

다음과 같이 $\frac{1}{\pi}$를 제거하고 $x_0=0$인 형태로도 자주 사용됨.

$$L(x; \gamma) = \frac{\gamma}{x^2+\gamma^2}$$

이 경우 면적은 $\pi$임.

https://youtu.be/wbdGyUvvrjI

2. 주요 특징 (Properties)

속성	설명
대칭성	$x_0$을 중심으로 even function(짝함수)
최대값	$L(x_0) = 1/(\pi \gamma)$
폭	$FWHM = 2\gamma$
꼬리감소	$L(x) \sim \dfrac{1}{x^2}$ (heavy tail)

평균/분산은 보통 정의되지 않음 (꼬리가 너무 느리게 감소하기 때문).

3. Fourier 변환과의 관계

Lorentzian 함수는 지수 감쇠 함수의 푸리에 변환으로 등장.

$$e^{-\gamma|t|} \overset{\mathcal{F}} {\longleftrightarrow} \frac{2\gamma}{\gamma^2 + \omega^2}$$

여기서 $\frac{2\gamma}{\gamma^2 + \omega^2}$ 는 Lorentzian 형태임.

즉, 시간 영역에서 신호가 감쇠(or 진동)하면,
주파수 영역에서 Lorentzian 모양의 스펙트럼이 발생함.

때문에 Lorentzian은
공명(Resonance) 스펙트럼, 광선폭(Line width),
NMR, X-ray, CT 등에서의 신호선폭 표현에 매우 자주 사용되는 함수임.

4. Impulse function(Dirac delta)와의 관계

Lorentzian은 감쇠 파라미터 $\gamma$가 $0^+$로 갈수록 점점 뾰족해지며,Dirac delta 함수로 수렴함..

$$
\boxed{
\lim_{\gamma \to 0^+} \frac{1}{\pi} \frac{\gamma}{x^2 + \gamma^2} = \delta(x)
}
$$

이는 다음 두 가지 조건을 만족하기 때문입니다:

항상 양수: $L(x) \ge 0$
면적이 1: $\displaystyle \int_{-\infty}^{\infty} L(x),dx = 1$

따라서 Lorentzian에서 $\underset{\gamma \to 0}{\lim}$을 취하면 “impulse function”으로 볼 수 있음.

$$\displaystyle \lim_{\gamma \to 0^+} \frac{\gamma}{x^2+\gamma^2} = \pi \delta(x)$$

즉, Dirac delta 의 부드럽고 수학적으로 취급 가능한 approximation 임.

2023.10.13 - [.../Signals and Systems] - [SS] Fourier Transform of Impulse Function (Dirac Delta)

[SS] Fourier Transform of Impulse Function (Dirac Delta)

Continuous Time Signal에서의 Impulse Function은 Dirac Delta Function $\delta(t)$임.이는 다음을 만족함.$$\delta(t)=\left\{ \begin{matrix} \infty &,t=0 \\ 0 &,t \ne 0 \end{matrix}\right. \\ \int^\infty_{-\infty} \delta(t)dt=1$$ 2022.08.29 - [...

dsaint31.tistory.com

4-1. 비교

구분	Lorentzian	Delta (Impulse)
식	$\frac{1}{\pi}\frac{\gamma}{x^2+\gamma^2}$	$\delta(x)$
파라미터	$\gamma>0$: 폭 조절	없음
폭	$\propto \gamma$	0 (이상적 점)
면적	1	1
극한 관계	$\lim_{\gamma\to 0^+} L(x)=\delta(x)$	자기 자신 $
물리적 의미	공명곡선, 라인폭, 감쇠	순간적 자극, 단위 에너지

4-2. gamma와 dirac delta

$\gamma$가 작을수록 Lorentzian은 더 뾰족하고 δ에 가까워짐
$\gamma$가 크면 넓게 퍼진 스펙트럼 → 감쇠가 강한 시스템

$$e^{-\gamma|t|} \overset{\mathcal{F}}{\longrightarrow} \frac{2\gamma}{\gamma^2+\omega^2}$$

즉, 시간 영역에서 감쇠가 강할수록 주파수 영역에서 스펙트럼이 넓어짐..

Parseval's Theorem

dsaint31x — Wed, 15 Oct 2025 13:23:31 +0900

Parseval's Theorem은 에너지 보존을 의미함:

주파수 도메인에서 표현하는 경우나
시간 도메인에서 표현하는 경우나
에너지는 변화가 없음을 의미함.

다른 이름으로 Energy Theorem 또는 Rarseval's Relation 이라고도 부름.

2023.06.16 - [.../Signals and Systems] - [SS] Signal의 정량적 특성

[SS] Signal의 정량적 특성

Signal을 수학적으로 보통 function으로 나타내는 것처럼,해당 "signal"의 크기를 정량화 하는 것들을 signal의 정량적 특성 또는 정량적 표현이라고 할 수 있다.vector의 크기를 나타내는 것 : length (=L-2 no

dsaint31.tistory.com

Asymmetric Fourier Transform 에서

다음이 FT, IFT임.

$$\begin{align*} X(\Omega) &= \int_{-\infty}^{\infty} x(t)\, e^{-j\Omega t}\, dt, \\[6pt] x(t) &= \frac{1}{2\pi} \int_{-\infty}^{\infty} X(\Omega)\, e^{j\Omega t}\, d\Omega. \end{align*}$$

이 경우, Parseval's Theorem은 다음과 같음:
$$\begin{align*} \int_{-\infty}^{\infty} |x(t)|^2 \, dt &= \int_{-\infty}^{\infty} x(t)\,x^*(t)\,dt \\ &= \int_{-\infty}^{\infty} x(t)\, \Bigg[ \frac{1}{2\pi} \int_{-\infty}^{\infty} X^*(\Omega)\,e^{-j\Omega t}\,d\Omega \Bigg] dt \\ &= \frac{1}{2\pi} \int_{-\infty}^{\infty} X^*(\Omega) \Bigg[ \int_{-\infty}^{\infty} x(t)\,e^{-j\Omega t}\,dt \Bigg] d\Omega \\ &= \frac{1}{2\pi} \int_{-\infty}^{\infty} X^*(\Omega)\,X(\Omega)\,d\Omega \\ &= \frac{1}{2\pi} \int_{-\infty}^{\infty} |X(\Omega)|^2 \, d\Omega. \end{align*}$$

비록 $\frac{1}{2\pi}$를 곱해주는 변환계수(or Normalization Factor)가 있으나 에너지가 유지된다는 개념을 보여줌 (단순히 단위가 바뀐 것으로 볼 수 있음)

선형 비례 관계를 가지므로 단순히 동일한 양을 다른 스케일로 다루는 것임.
$\Omega=2\pi f$를 사용하는 것이 공학에선 편함.

Symmetric Fourier Transform 에서

다음이 FT와 IFT임:

$$\begin{align*} \text{정방향 변환 (Forward Transform):} \quad X(\Omega) &= \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} x(t)\, e^{-j\Omega t}\, dt \\[8pt] \text{역변환 (Inverse Transform):} \quad x(t) &= \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} X(\Omega)\, e^{j\Omega t}\, d\Omega \end{align*}$$

대칭형 정의의 경우의 Parseval's theorem은 에너지 보존을 더 잘 보여줌:
$$\begin{align*} \int_{-\infty}^{\infty} |x(t)|^2 \, dt &= \int_{-\infty}^{\infty} x(t)\,x^*(t)\,dt \\ &= \int_{-\infty}^{\infty} x(t)\, \Bigg[ \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} X^*(\Omega)\,e^{-j\Omega t}\,d\Omega \Bigg] dt \\ &= \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} X^*(\Omega) \Bigg[ \int_{-\infty}^{\infty} x(t)\,e^{-j\Omega t}\,dt \Bigg] d\Omega \\ &= \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} X^*(\Omega)\, \Big( \sqrt{2\pi}\,X(\Omega) \Big)\, d\Omega \\ &= \int_{-\infty}^{\infty} |X(\Omega)|^2 \, d\Omega. \end{align*}$$

Independent Poisson variables의 합과 상수곱

dsaint31x — Tue, 14 Oct 2025 16:31:19 +0900

https://incredible.ai/statistics/2014/02/10/Humoungous-Intermediate-Probability/

Poisson Distribution : mean=variance

단위 면적당 검출 count $N$이 Poisson Ditribution 를 따른다면 다음이 성립:

$$N \sim \text{Poisson}(\lambda)$$

where,

$\lambda$ = 단위 면적당 mean count = $\mathbb{E}[N]$

Poisson Distribution이므로,

$$\mathbb{E}[N]=\mathrm{Var}[N] = \lambda$$

2023.10.25 - [.../Math] - [Math] Poisson Distribution (포아송분포)

[Math] Poisson Distribution (포아송분포)

dsaint31.tistory.com

면적 A에서의 random variable 정의

면적 A를 단위 면적 1의 A개 독립된 단위면적의 cell로 구성했다고 하면 다음이 성립:

$$N_{\text{tot}} = \sum_{i=1}^{A} N_{i}$$

여기서 주의할 것은

각 $N_{i}$는 독립적(indepedent) 이며
각 $N_{i}$가 같은 Poisson Distribution임!

$$N_{i} \sim \text{Poisson}(\lambda)$$

Independent Poisson variables의 합 = Poisson variable

독립적인 Poisson random variable들의 합은 역시 Poisson Distribution을 따르며,
결과 Poisson Distribution의 mean은 각 더해진 Poisson Distribution들의 mean 들의 sum임:

$$
N_{\text{tot}} \sim \text{Poisson}(A,\lambda).
$$

결과는 다음과 같음:

항목	단위 면적	면적 A
평균 $\mathbb{E}[N]$	$\lambda$	$A\lambda$
분산 $\mathrm{Var}[N]$	$\lambda$	$A\lambda$

면적에 대한 평균 count와 count의 분산을 구할 경우는 합으로 생각해야 함.

면적이 A배 커지면 평균과 분산 모두 A배 가 된다.

Poisson variable 의 scalar multiple (결과가 Poisson이 아님)

만약 단위 면적의 평균 count $\lambda$를 기반으로 effective energy를 곱해서 Energy로 값을 바꿀 경우

단위 면적에서 측정된 count 에서 energy로 바뀌며,
이 energy는 Poisson 분포를 따르지 않음:
- $e = N h\nu$, where $N$ 은 count, $h\nu$는 effective energy.
- 이는 scalar multiple 에 해당하는 선형변환이 가해진 경우에 해당함.

이는 linear transform의 mean과 variance의 성질에 따라 energy 의 mean과 variance는 다음과 같음:

$\mathbb{E}[e]=\overline{e}=h\nu \lambda$
$\text{Var}[e]=\text{Var}[h \nu \lambda] = (h \nu)^2 \lambda$

일반적으로 Poisson Distribution을 따르는 count를 기반으로 에너지를 구하거나, 증폭기를 통해 증폭 등을 시킬 경우는 scalar multiple에 해당하는 linear transform이며 이는 결과치가 Poisson Ditribution이 아닌 다음과 같은 mean과 variance를 가짐을 의미함:

$$
\boxed{
\mathbb{E}[cN] = c\lambda,\quad \mathrm{Var}[cN] = c^2\lambda
}
$$
where

$c\lambda$가 mean,
$c^2\lambda$가 variance.

Error Propagation (or Delta Method)

dsaint31x — Wed, 8 Oct 2025 16:41:10 +0900

Error Propagation이란?

Random Variable $x$ 의 uncertainity가 해당 변수의 function $y=f(x)$에서 결과값의 uncertainty에 주는 영향을 추정하는 기법.

Taylor expansion에 기반하고 있음.
uncertainty는 주로 variance 임.

$$\text{var}\left[f(x)\right] \approx \left[f^\prime(\bar{x})\right]^2 \text{var}\left[x\right]$$

https://youtu.be/3iriQxLVvEk?si=7SbUn7DnsAahHBbC

uncertainty에 오타 있네요. ==;;

같이보면 좋은 자료들

2023.02.27 - [.../Math] - [Math] Taylor Expansion and Taylor Theorem (테일러 전개)

[Math] Taylor Expansion and Taylor Theorem (테일러 전개)

Taylor Expansion어떤 function $f(x)$을 : 주로 Trascedent Function 임어떤 point $a$에서의 값과 derivative들을 이용하여polynomial(다항식) $p(x)$으로 approximation(근사)하는데 사용되는 것이바로 Taylor's Expansion이라고

dsaint31.tistory.com

Complex Exponential Fourier Series

dsaint31x — Wed, 1 Oct 2025 08:16:23 +0900

Exponential Fourier Series

Trigonemetric Fourier Series의 일반형에서 같은 주파수 $k\Omega_0$를 공유하는 sin과 cos 항을
Complex Exponential Term으로 다음과 같이 변경가능함.

이는 sin 항과 cos 항의 coefficient를 따로 구하던 방식과 달리,
모든 항이 complex exponential term의 동일한 형태를 가지게 됨.
주파수의 관점에선 harmonic의 주파수가 fundamental frequency의 양수배($k>0$)로 구성되던 Trigonemetric Fourier Series에서
Complex Exponential Fourier Series로 바꾸면서 positive term과 negative term을 가지도록 변경됨.

$$a_k\cos k\Omega_0 t + b_k \sin k \Omega_0 t \\ = a_k\frac{e^{jk\Omega_0 t }+ e^{-jk\Omega_0 t}}{2} + b_k \frac{e^{j k \Omega_0 t} - e^{-j k \Omega_0 t}}{2j} \\ = \frac{a_k-jb_k}{2}e^{jk\Omega_0 t} + \frac{a_k + jb_k}{2}e^{-jk\Omega_0 t}\\ = X_k e^{jk\Omega_0 t} + X_{-k} e^{-jk\Omega_0 t}\\ \quad \\ \therefore \tilde{x}(t)= \sum^\infty_{k=-\infty} X_k e^{jk\Omega_0t}$$

참고로 Trigonemtric Fourier Seires는 다음과 같음:
$$\tilde{x}(t)= a_0 + \sum^\infty_{k=1} \left[ a_k \cos k\Omega_0t + b_k \sin k\Omega_0t\right]\quad , T=\frac{2\pi}{\Omega_0}$$

보다 일반형이 단순해진다는 장점과 $k$의 범위가 양수에서 대칭적인 $[-\infty, \infty]$가 된다는 장점을 가짐.

단, 이에 대한 대가로 imaginary component가 생긴다.

Exponential Fourier series의 weighted sum 에서의 각 coefficient, $X_k$ 구하기.

Compelx Exponential Fourier Series의 Fourier Coefficient 표기-Polar Form

$$X_k = | X_k | e^{j\angle X_k}$$

하나의 숫자로 보이지만 2개의 구성요소를 가지는 셈: magnitude와 phase.

즉, line spectrum이 2개 존재함.
magnitude spectrum: $ k\Omega_0 $에 대한 magnitude의 그래프.
phase spectrum : $k \Omega_0 $에 대한 phase의 그래프.

line spectrum인 이유는 $k\Omega_0$ 이므로 $\Omega_0$ 간격으로 떨어진 discrete variable에 대한 spectrum이기 때문임.

Trigonometric Fourier series

dsaint31x — Wed, 1 Oct 2025 01:16:55 +0900

삼각함수로 Fourier Series를 나타내면 다음의 장단점을 가짐:

모든 Fourier Series Coefficient가 실수임.
3종류를 구해야함: $a_0, a_k, b_k$ (이 단점으로 인해 주로 complex exponential로 표현한다)

Trigonometric Fourier series

Trigonometric function의 weighted sum (=linear combination)으로 periodic function을 나타낼 수 있음.
$$\tilde{x}(t)=a_0 + \displaystyle \sum^\infty_{k=1} \left[ a_k \cos k\Omega_0 t + b_k \sin k\Omega_0 t \right]$$

$\Omega_0$ 는 fundamental frequency 로 주기 $T$와 다음의 관계를 가짐: $T=\frac{2\pi}{\Omega_0}$

다음은 Pulse wave(구형파) periodic signal을 Trigonometric Fourier series로 표현됨을 보여줌.

$k=1,3,5,7$ 이며 $a_k=0$ 로 sin 성분만이 더해짐으로서 pulse wave가 됨을 보여줌.

https://tikz.net/fourier_series/

Fourier Series: Fourier coefficient구하기

rigonometric Fourier series의 weighted sum 에서의 각 coefficient 구하기.

cos 항에 대한 coefficient:

$$\begin{aligned}&\int_{t_0}^{t_0+T} \tilde{x}(t)\cos n\Omega_0 t dt \\
&= \int_{t_0}^{t_0+T} \left[ a_0 + \sum_{k=1}^{\infty} \left( a_k \cos k\Omega_0 t + b_k \sin k\Omega_0 t \right) \right] \cos n\Omega_0 t dt \\
&= a_0 \int_{t_0}^{t_0+T} \cos n\Omega_0 t dt + \sum_{k=1}^{\infty} a_k \left[ \int_{t_0}^{t_0+T} \cos k\Omega_0 t \cos n\Omega_0 t dt \right] + \sum_{k=1}^{\infty} b_k \left[ \int_{t_0}^{t_0+T} \sin k\Omega_0 t \cos n\Omega_0 t dt \right] \\
&= 0 + \sum_{k=1}^{\infty} a_k \left[ \int_{t_0}^{t_0+T} \cos k\Omega_0 t \cos n\Omega_0 t dt \right] + 0 \\
&= a_n \frac{T}{2}\end{aligned} \\
\therefore \quad a_n = \frac{2}{T} \int_{t_0}^{t_0+T} \tilde{x}(t)\cos n\Omega_0 t dt$$

sin 항에 대한 coefficient:

$$\begin{aligned}&\int_{t_0}^{t_0+T} \tilde{x}(t)\sin n\Omega_0 t dt \\
&= \int_{t_0}^{t_0+T} \left[ a_0 + \sum_{k=1}^{\infty} \left( a_k \cos k\Omega_0 t + b_k \sin k\Omega_0 t \right) \right] \sin n\Omega_0 t dt \\
&= a_0 \int_{t_0}^{t_0+T} \sin n\Omega_0 t dt + \sum_{k=1}^{\infty} a_k \left[ \int_{t_0}^{t_0+T} \cos k\Omega_0 t \sin n\Omega_0 t dt \right] + \sum_{k=1}^{\infty} b_k \left[ \int_{t_0}^{t_0+T} \sin k\Omega_0 t \sin n\Omega_0 t dt \right] \\
&= 0 + 0 + \sum_{k=1}^{\infty} b_k \left[ \int_{t_0}^{t_0+T} \sin k\Omega_0 t \sin n\Omega_0 t dt \right]\\
&= b_n \frac{T}{2}\end{aligned} \\
\therefore \quad b_n = \frac{2}{T} \int_{t_0}^{t_0+T} \tilde{x}(t)\sin n\Omega_0 t dt$$

bias 항:
$$a_0 =\frac{1}{T}\int^{t_0+T}_{t_0} x(t) dt$$

정리하면:

$$\begin{aligned}\tilde{x}(t)&=a_0 + \displaystyle \sum^\infty_{k=1} \left[ a_k \cos k\Omega_0 t + b_k \sin k\Omega_0 t \right], \quad T=\frac{2\pi}{\Omega_0} \\ \quad \\ a_0 &=\frac{1}{T}\int^{t_0+T}_{t_0} x(t) dt \\a_n &= \frac{2}{T} \int_{t_0}^{t_0+T} \tilde{x}(t)\cos n\Omega_0 t dt \\ b_n &= \frac{2}{T} \int_{t_0}^{t_0+T} \tilde{x}(t)\sin n\Omega_0 t dt\end{aligned}$$

예제:

다음 Pulse Wave에서 Fourier Series Coefficient를 $k=0,1,2,3$까지 구하라.

\begin{align*} b_{1} &= \frac{2}{T} \int_{0}^{2\pi} x(t) \sin t dt = \frac{1}{\pi} \int_{0}^{\pi} \sin t \, dt - \frac{1}{\pi} \int_{\pi}^{2\pi} \sin t dt \\ &= \frac{1}{\pi} \left\{ \big[-\cos t \big]_{0}^{\pi} + \big[ \cos t \big]_{\pi}^{2\pi} \right\} \\ &= \frac{1}{\pi} \{ 1 - (-1) + 1 - (-1) \} &= \frac{4}{\pi} \approx 1.273 \\ \quad \\ b_{3} &= \frac{2}{T} \int_{0}^{2\pi} x(t) \sin 3t dt = \frac{1}{\pi} \left\{ \int_{0}^{\pi} \sin 3t \, dt - \int_{\pi}^{2\pi} \sin 3t dt \right\} \\ &= \frac{1}{\pi} \left\{ \left[ \frac{-\cos 3t}{3} \right]_{0}^{\pi} + \left[ \frac{\cos 3t}{3} \right]_{\pi}^{2\pi} \right\} \\ &= \frac{1}{3\pi} \{ 1 - (-1) + 1 - (-1) \} &= \frac{4}{3\pi} \approx 0.424 \end{align*}

CV: Image Sensors - CCD vs. CMOS

dsaint31x — Tue, 30 Sep 2025 10:18:55 +0900

https://www.gatan.com/techniques/imaging

CCD와 CMOS는 대표적인 광센서이며,

TFT의 경우 그 자체는 광센서는 아니지만 Flat Panel Detector에서 a-Si Photodiode와 결합하여 Passive Pixel Sensor(PPS) 구조의 광센서를 구성

2025.09.13 - [Programming/DIP] - Thin Film Transistor Array (TFT)

Thin Film Transistor Array (TFT)

TFTTransistor는 전자적인 스위치!즉, TFT도 수많은 스위치가 얇은 필름 위에 배열된 형태라고 볼 수 있음. 광센서에서 TFT가 자주 언급되나,TFT는 스스로 빛을 감지하는 센서가 아니라, 빛을 전기 신호

dsaint31.tistory.com

CCD (Charged Coupled Device)

빛을 전기적 신호로 바꿔주는 소자.

높은 전력소모(전하 이동을 위해 필요한 고전압때문) 및 촬영속도(순차적 read-out), 복잡한 제조공정(표준 반도체 공정과 차이) 등에서 CMOS 대비 불리한 편으로 CMOS로 대체되고 있는 추세임.

CCD 센서는 모든 픽셀에서 동시에 전하를 생성한 후, 이를 순차적으로 이동시켜 출력됨.

전하가 한 줄씩 이동하면서
최종적으로 센서의 가장자리에서 증폭되고 디지털 신호로 변환(A/D converter)되는 방식.
모든 pixels가 동일 amplifier와 capacitor, A/D converter 를 공유.

이 동작 방식은 "글로벌 셔터(Global Shutter)" 특성 - 모든 픽셀이 동시에 노출을 시작하고 종료하는 방식으로, 빠르게 움직이는 피사체도 왜곡 없이 정확하게 촬영할 수 있음 - 을 가지기 때문에 전체 이미지를 동시에 캡처하여 움직임 왜곡이 적음.

CCD의 경우,

100% fill factor(dead space를 없앨 수 있음)가 가능하고
read-out noise가 CMOS 대비 낮은 편 (AD Converter가 하나임.)
이 때문에 역사적으로 CCD보다 high quality image(w/ low noise)를 보다 저렴하게 구현 가능했음
(최근엔 CMOS기술 발달로 꼭 그렇다고 애기하기 어려움)

쉽게 말한다면 촬영속도가 느려도 되면서 affordable price로 high quality image를 얻는 분야는 CCD가 유리함.

또한 실리콘 웨이퍼를 이용해 제조(웨이퍼보다 커질 수 없음)되므로 field of view의 제한이 큼 (이는 CMOS역시 마찬가지임)

참고: 촬영속도가 느린 이유

CCD의 글로벌 셔터(Global Shutter)는 모든 픽셀이 동시에 노출을 시작하고 종료하기 때문에 움직임 왜곡이 적다는 장점을 가짐.
그러나 이는 단일 순간 장면을 촬영할 때의 이점일 뿐이며, 연속적으로 빠른 촬영 성능과는 직접적인 관련이 없음.

CCD의 촬영속도가 CMOS 대비 느린 편으로 데이터 처리 방식 때문임.
CCD 센서는 모든 픽셀에서 동시에 전하를 생성한 후, 이를 순차적으로 이동시켜 출력하는 방식을 사용함.
이는 전하가 한 줄씩 이동하면서 최종적으로 센서의 가장자리에서 증폭되고 디지털 신호로 변환되는 구조임.
때문에 모든 픽셀이 하나의 증폭기와 아날로그-디지털 변환기를 공유하며 전체 이미지 데이터를 순차적으로 처리해야 하므로 읽기 속도가 느려짐.

주요 distortion: Bloomimg and Smearing

http://teci.tistory.com/4

헤드라이트에 보이는 주황색 원 : Blooming 현상.
헤드라이트 아래에 줄모양 : Smearing 현상.

Blooming :

CCD의 각 픽셀마다 존재하는 photodiode는 대부분 수직 방향으로 모두 연결되어 있는데,
한 픽셀이 너무 많은 빛을 받으면 해당 photodiode에 전자가 과도하게 쌓여 주변 픽셀로 넘쳐 버림.

Smearing :

blooming 현상이 일어난 전자는 수평 방향보다는
주로 서로 연결되어 있는 수직 방향(vertical transfer과정 중)으로 넘치게 되어 수직 방향의 밝은 선으로 나타남.

CMOS (Complementary Metal Oxide Semiconductor)

2024년 현재 visible photon 의 검출 분야에서
CCD를 넘어서서 가장 많이 쓰이는 기술.

2024.10.09 - [Programming/DIP] - [CV] Image Sensor 크기 (CMOS기준)

[CV] Image Sensor 크기 (CMOS기준)

Image Sensor 크기 (CMOS기준): 1/3.2인치 (약 4.54mm x 3.42mm):주로 스마트폰 카메라에서 사용됨.1/2.3인치 (약 6.17mm x 4.15mm):주로 소형 디지털 카메라 및 일부 스마트폰에서 사용됨.1인치 (약 13.2mm x 9.6mm):주

dsaint31.tistory.com

CMOS 센서는

빛을 받아 각 pixel 에서 전하를 생성(photodiode)한 후,
이를 증폭)하여 디지털 신호로 변환하는 과정을 거침.
이 과정이 각 픽셀에서 개별적으로 이루어짐.
때문에 빠른 읽기 속도가 가능.
또한 실리콘 웨이퍼에서 제조되는 집접형 반도체이며 낮은 전력 소비가 특징
(pixel별로 amplifier와 capacitor가 존재).

https://www.allaboutcircuits.com/technical-articles/introduction-to-cmos-image-sensors/

CCD대비 단점과 장점

단점

각 pixel마다 회로가 포함되어 있어 dead space가 존재 (CCD 수준으로 개선됨)
pixel 간 noise·sensitivity 편차가 발생 (CCD 수준으로 개선됨)
pixel별 readout-noise가 상대적으로 큼 (CCD 수준으로 개선됨)
line 단위 read-out 구조 사용
실리콘 웨이퍼 기반 제조로 크기 한계 존재 → field of view가 제한됨

장점

전력 소모 적고 단가가 낮음
반응 속도 및 고속 처리(high frame rates)가 우수함
pixel 내부에 회로가 내장되어 고집적화 용이 : 하나의 chip으로 패키징이 일반적
반도체 IC 공정과 동일한 제조 공정 사용 : 반도체 기술 발전을 그대로 공유 가능
공정·microlens 기술 발전으로 CCD와의 성능 격차 대부분 해소됨
대량 생산이 쉽고 고해상도 센서 제작에 유리: 많은 pixel을 가진 센서를 낮은 비용으로 제작 가능

참고: CMOS에서 Read-out

기술적으로는 CMOS 이미지 센서에서 각 픽셀별로 독립적인 read-out이 가능.

CMOS의 주요 특징 중 하나는 각 픽셀마다 자체 증폭기와 변환 회로가 있어 개별적으로 처리가 가능하다는 점임.

다만, 실제 구현에서는 효율성을 위해 일반적으로 한 라인(행) 단위로 read-out이 이루어지는 경우가 대다수임.

이는 데이터 처리 속도와 전력 소비 간의 균형을 맞추기 위한 설계적 선택임.
모든 픽셀을 완전히 개별적으로 처리하면 회로가 복잡해지고 전력 소모 증가로 이어지는 단점을 가짐.
단, 이같은 라인 단위 read-out 방식은 CMOS의 rolling shutter 효과와도 관련이 있음.

하지만 최신 CMOS 기술에서는 global shutter를 구현하여 CCD와 같이 모든 픽셀을 동시에 노출시키는 방식도 가능해진 상태임

주요 distortions: Rolling Shutter, Fixed-Pattern Noise, Blooming

Rolling Shutter

CMOS는 CCD와 달리 line 별로 읽어들이는데 해당 read out 속도보다 더 빠르게 움직이는 피사체 또는 카메라 움직임이 있을 경우, 다른 시점의 촬영정보로 인해 피사체가 비틀어지거나 늘어지게 보이게 됨: global shutter를 사용하는 CMOS와의 차이점.

Fixed-Pattern Noise, FPN

pixel간의 response가 달라서 발생하는 줄무늬 또는 격자 패턴의 노이즈임.

Blooming

CCD보다는 덜 하지만, CMOS 역시 한 pixel이 수용가능한 전하량 이상이 발생할 경우 인접 pixel로의 유출이 되기 때문에 Blooming이 발생가능함.

참고자료:

2024.09.01 - [Programming/DIP] - [CV] 공간해상도로 본 광센서와 디스플레이 디바이스 발전사

[CV] 공간해상도로 본 광센서와 디스플레이 디바이스 발전사

광센서(of camera)와 디스플레이기기의 공간해상도(Spatial Resolution) 규격의 발전은 서로 밀접하게 연관됨. 2024년 현재,40 메가픽셀(MP)의 광센서가 거의 표준으로 자리를 잡았고,고급 스마트폰의 경우

dsaint31.tistory.com

https://youtu.be/nsPvcX-_4KU?si=BcFin5sl4SuyY5S2

Photodiode

[물리학1] 다이오드(5) 광 다이오드(Photo Diode, PD)

CCD vs CMOS

https://youtu.be/FKJFIzDfUNE?si=2RdEzFRjhnmQSvrW

https://youtu.be/FKJFIzDfUNE?si=2RdEzFRjhnmQSvr

http://spiff.rit.edu/classes/ast613/lectures/ccds_kids/ccds_kids.html

CCDs, CMOS, and KIDS

Copyright © Michael Richmond. This work is licensed under a Creative Commons License. CCDs, CMOS, and KIDS Much of this material is taken wholesale from a presentation by Simon Tulloch, an astronomer at the European Southern Observatory. Simon has kindly

spiff.rit.edu

Microscopy관점에서

https://youtu.be/8WpCov8iYCU?si=HMRx_7EJDWJsXI1i

https://youtu.be/hzhhGHxP-Jc?si=mStKgzLuRuxltZw6

Dice Coefficient and IoU

dsaint31x — Thu, 25 Sep 2025 12:51:21 +0900

Dice coefficient (or dice score)와 IoU는 대표적인 Set based Similarity 임.

Dice Coefficient

Segmentation의 결과를 측정하는데 사용되는 metric.
(harmonic mean에 해당: binary segmentation의 경우, 사실상, F1 score임.)

$$ \begin{aligned}\text{Dice Coef.}&=\frac{2\text{Intersection}}{\text{Union+Intersection}}\\&=\dfrac{2(S_g \cap S_p)}{|S_g|+|S_p|}\\&=\frac{2TP}{(TP+FN)+(TP+FP)}\\&=\frac{2}{\frac{(TP+FN)}{TP}+\frac{(TP+FP)}{T}}\\&=\frac{2}{\frac{1}{Recall}+\frac{1}{Precision}}\\&=\text{F-1 Score}\end{aligned} $$

$S_g$ : Segmentation Ground Truth
$S_p$ : Segmentation Prediction

Segmentation의 결과가 얼마나 정확한지를 나타낼때 많이 사용함.

1이 나올 경우, 완벽하게 segmentation이 된 것이고, 0은 완전히 틀린 것에 해당.

주의사항

foreground (positive class) 위주로만 계산됨

$S_g$가 1인 게 foreground이므로, 0인 background는 아무리 많은 pixel에서 맞게 나와도 Dice score에 크게 반영되지 않음.

의료 영상에서 병변(lesion) 영역이 매우 작을 때, background를 다 맞추더라도 Dice는 낮게 나올 수 있음 (병변을 맞추어야 점수가 올라감).

클래스 불균형(class imbalance)이 심한 경우, background가 압도적으로 많고 이를 맞추는 건 중요하지 않다면 Dice가 더 신뢰할 수 있는 지표가 됨.
반대로 background가 segmentation의 중요한 평가 요소라면 Dice만으로는 부족

Dice Loss

이를 이용한 Dice Loss도 있으며 식은 다음과 같음.

$$ DL(p,\hat{p})=1-\dfrac{2p\hat{p}+1}{p+\hat{p}+1} $$

분모가 0이 되는 것을 방지하기 위해 분자와 분모에 1을 더해줌.

Dice coef.의 특징인 foreground만 고려되는 약점을 그대로 가짐.

즉, Cross Entropy에 비해, foreground 고려가 더 많이된다는 단점이 존재.

때문에, Cross Entropy와 합쳐서 loss를 사용하는 경우가 많음.

Intersection over Union (IoU)

Segmentation에 사용되는 metric.

Jaccard similarity (or Jaccard Index) 라고 불리기도 함.

$$ \begin{aligned}\text{IoU}&=\frac{\text{Intersection}}{\text{Union}}\\&=\frac{TP}{FP+TP+FN}\end{aligned} $$

# Dice coefficient, IoU Metric

def iou_cpu(y_true, y_pred):
  y_true_f = np.ndarray.flatten(y_true)
  y_pred_f = np.ndarray.flatten(y_pred)

  intersection = np.sum(y_true_f * y_pred_f)
  return (intersection + 1) / (np.sum(y_true_f) + np.sum(y_pred_f) - intersection + 1)

def dice_coef_cpu(y_true, y_pred):
  y_true_f = np.ndarray.flatten(y_true)
  y_pred_f = np.ndarray.flatten(y_pred)

  intersection = np.sum(y_true_f * y_pred_f)
  return (2. * intersection + 1) / (np.sum(y_true_f) + np.sum(y_pred_f) + 1)

참고자료

F1/Dice-Score vs IoU

I was confused about the differences between the F1 score, Dice score and IoU (intersection over union). By now I found out that F1 and Dice mean the same thing (right?) and IoU has a very similar

stats.stackexchange.com

[PyTorch] Dice coefficient 을 PyTorch로 구현하기

안녕하세요, 이번 포스팅에서는 image segmentation 분야에서 자주 사용되는 metric인 Dice coefficient를 PyTorch로 구현해보겠습니다. 또한 이 dice coefficient를 loss로 활용하는 법도 살펴봅니다. Dice coefficient d

deep-learning-study.tistory.com

2025.09.25 - [Programming/ML] - Similarity Metrics

Similarity Metrics

1. 거리 기반 (Distance-based) SimilarityEuclidean distance (L2) : $|x-y|_2$, 가장 일반적인 거리 척도.Manhattan distance (L1) : $|x-y|_1$, 절댓값 합. 희소 데이터에 강건.Minkowski distance : Lp 일반화. $p=1 → L1$, $p=2 → L2$.

dsaint31.tistory.com

Similarity Metrics

dsaint31x — Thu, 25 Sep 2025 12:39:59 +0900

https://forensics.tistory.com/49

1. 거리 기반 (Distance-based) Similarity

Euclidean distance (L2) : $|x-y|_2$, 가장 일반적인 거리 척도.
Manhattan distance (L1) : $|x-y|_1$, 절댓값 합. 희소 데이터에 강건.
Minkowski distance : Lp 일반화. $p=1 → L1$, $p=2 → L2$.
Mahalanobis distance : $\sqrt{(x-y)^T \Sigma^{-1} (x-y)}$, 공분산 구조를 반영 → scale-invariant.

2024.10.02 - [Programming/ML] - [ML] Minkowski Distance (L-p Norm)

[ML] Minkowski Distance (L-p Norm)

dsaint31.tistory.com

https://dsaint31.me/mkdocs_site/DIP/cv2/etc/dip_metrics/#distance-function-or-metric

BME

Metrics for Image Quality Image restoration의 경우, image degradation의 원인을 modeling하고 해당 model을 통해 ideal image에 가깝게 복원하는 것을 의미함. 주관적인 화질을 개선하는 image enhancement와 달리, image resto

dsaint31.me

2. 내적 기반 (Inner-product based) Similarity

Linear kernel : $K(x,y) = x^\top y$, inner product
Cosine similarity : $\frac{x \cdot y}{|x||y|}$, 방향 유사도. NLP 벡터, 추천 시스템에서 많이 활용.
Polynomial kernel : $K(x,y) = (x^\top y + c)^d$, 고차원 feature 매핑.

2024.10.28 - [.../Math] - [Math] Inner Product (or Hermitian Inner Product, 내적)

[Math] Inner Product (or Hermitian Inner Product, 내적)

Inner product (내적)은 vector space이나 function space에서 두 대상 간의 relationship(관계)를 나타내는 operation(연산). 다음의 세 가지 성질을 만족할 때 Inner Product라 부르며, 이를 통해두 벡터나 함수 간의si

dsaint31.tistory.com

2023.07.23 - [.../Math] - [ML] Cosine Similarity

[ML] Cosine Similarity

ML에서 주로 다루는 데이터는 바로 vector이다.(matrix도 vector들이 결합하여 이루어진 것이라고 생각할 수 있음.) Cosine Similarity는 두 vector가 얼마나 유사한지(similar)를 측정하기 위한 metric 중 하나로

dsaint31.tistory.com

2024.09.28 - [Programming/ML] - [ML] Kernel Function 이란: Kernel Trick 포함

[ML] Kernel Function 이란: Kernel Trick 포함

Kernel Function은머신러닝, 특히 SVM(Support Vector Machine) 과 같은 알고리즘에서 중요한 역할을 하는 함수로Similarity를 측정하거나데이터를 고차원 특성 공간으로 매핑하여 비선형 문제를 선형적으로

dsaint31.tistory.com

3. 지수/커널 기반 (Exponential / Kernel-based)

RBF (Gaussian kernel) : $K(x,y) = \exp(-\gamma |x-y|^2)$
Laplacian kernel : $K(x,y) = \exp(-\gamma |x-y|_1)$, L1 기반.
Exponential kernel : $K(x,y) = \exp(-\gamma |x-y|_2)$, Manhattan distance를 쓰는 경우도 존재.

2024.09.26 - [Programming/ML] - [ML] Radial Basis Function Kernel (RBF Kernel)

[ML] Radial Basis Function Kernel (RBF Kernel)

RBF KernelRBF 커널 또는 Gaussian 커널이라고도 불리는 함수머신 러닝에서 Kernel Function으로 널리 사용되는 함수서포트 벡터 머신(SVM), 커널 PCA 등의 알고리즘에서 사용.similarity 계산 및 고차원 feature sp

dsaint31.tistory.com

4. 확률/정보이론 기반

KL divergence (Kullback–Leibler divergence): $D_{KL}(P||Q) = \sum P(x)\log \frac{P(x)}{Q(x)}$
- KL divergence의 대칭성 보완: Jensen-Shannon divergence.
Bhattacharyya distance / Hellinger distance : 분포 간 겹침 정도.
Mutual information : 확률변수 간 공유 정보량 (X를 알면 Y의 불확실성이 얼마나 줄어드는지 정량화). $I(X;Y) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}$

2022.05.12 - [.../Math] - [Math] Kullback-Leibler Divergence

[Math] Kullback-Leibler Divergence

어떤 random variable $x$ (확률변수 $x$)에 대해 원래의 Probability Distribution $p(x)$와 Predicted Probability Distribution $q(x)$ (or Approximated Probability Distribution)가 있을 때, 각 경우의 entropy에 대한 difference가 바로 KL

dsaint31.tistory.com

5. 집합 기반 (Set-based Similarity)

Jaccard similarity : $\frac{|A \cap B|}{|A \cup B|}$, set/binary feature vector similarity. IoU(Intersecton over Union)이라고도 불림.
- 통계학/정보 검색(IR)·집합론 등에선 Jaccard similarity로 불리나,
- CV등에선 IoU가 보다 많이 사용됨.
Dice coefficient : $\frac{2|A \cap B|}{|A|+|B|}$, 특히 이미지 마스크 유사도에서 자주 사용.
- Dice coefficient에 기반한 Dice loss의 경우 cross entropy에 비교할 때, foreground에 대한 고려만 이루어진다는 약점이 있음.
- binary segementation 등으로 한정할 경우 f2 score에 해당: 일종의 harmonic mean임.

2025.09.25 - [Programming/ML] - Dice Coefficient and IoU

Dice Coefficient and IoU

Dice coefficient (or dice score)와 IoU는 대표적인 Set based Similarity 임.Dice CoefficientSegmentation의 결과를 측정하는데 사용되는 metric. (harmonic mean에 해당: binary segmentation의 경우, 사실상, F1 score임.) $$ \begin{alig

dsaint31.tistory.com

6. 기타 특수한 경우

Histogram intersection kernel : $\sum_i \min(x_i, y_i)$, 영상 처리에서 많이 활용.
- $K(x, y) = \sum_{i=1}^d \min(x_i, y_i)$ 으로 클수록 두 분포가 비슷함.
- normalization 을 시킬 경우, $\sum_{i}x_i$로 하는 버전과 $\sum_i \max(x_i, y_i)$로 하는 버전이 존재.
- 후자의 경우는 Jaccard similarity와 비슷함.
- 직관적으로 두 히스토그램의 겹치는 면적임 (Positive semi-definite kernel 임이 증명되어 SVM 의 kernel로도 사용됨)
Earth Mover’s Distance (Wasserstein distance) : 분포 간 “질량 이동 비용” → GAN, OT (Optimal Transport) 분야.
Dynamic Time Warping (DTW) : 시계열 데이터 유사도.

sampling error vs. sampling bias

dsaint31x — Tue, 16 Sep 2025 17:54:03 +0900

Sampling Error (표본 오차, Sampling Noise)

정의: population 에서 sampling을 수행할 때 random(우연)에 의해 발생하는 무작위적 변동(random variability).

sampling에서 randomness를 피할수 없고
해당 sample에서 얻어진 sample statistics가 population statistics와 달라지는 error가 발생할 수 있으며
이는 sampling error(=random variability)에 기인함.

다른 이름:

sampling variability
sampling noise
(error는 잘못이라는 의미가 있는데 sampling error는 실수나 잘못으로 발생하지 않기 때문에 noise를 선호하는 이들도 많음)

특징:

같은 population에서 표본을 여러 번 뽑으면 표본 평균, 분산 등이 제각각 다르게 나옴.
단, sample size(표본 수)가 커질수록(큰 n):
- Central Limit Theorem (중심극한정리)에 의해 sample의 평균이 모집단의 참값에 수렴함
- 즉, sampling noise가 감소함.
- 무수히 많은 sampling에 의한 sampling distribution에서의 standard deviation이 sampling error의 크기에 해당함.
무작위성 때문에 피할 수 없으나 줄일 수는 있음:
- sample size가 크면 클수록 줄어듦.

sampling error의 예는 다음과 같음:

동전을 100번 던졌을 때 앞면이 53번 나온 경우,
모집단 확률은 0.5지만
sample에서는 sampling error로 인해 0.53이 나옴.

다음 그림은 sample size에 따른 sample mean의 sampling distribution 과 sampling error 의 양을 보여줌:

margin of error(오차한계)는, 신뢰수준에 따른 임계값 z (95%신뢰도에서 약 1.96) 와 standard error를 곱한 값으로 population 의 parameter와 sample에서의 statistic이 차이가 나는지를 나타냄: $M=z\times\frac{\sigma}{\sqrt{n}}$

위의 그림은 찬반 여론조사의 신뢰도 95%에서의 maring of error를 나타냄.
각 응답을 Bernoulli random variable로 보면, 찬성의 확률 p=0.5 이고, 이 경우 variance는 0.5*0.5=0.25 임.
각 응답 $X_i$의 variance $\text{Var}(X_i)=\sigma=p(1-p)$이고 sample mean $\hat{p}$의 variance $\text{Var}(\hat{p})=\frac{p(1-p)}{n}$임.
95%신뢰도의 z는 약 1.96 으로 이들과 샘플의 수 n을 사용하여 구한 값임.

[Statistics] Central Limit Theorem

Central Limit Theorem (중심극한정리)mean의 sampling distribution의 다음과 같은 속성을 기술하는 Theorem이 Central Limit Theorem임.population이 무엇이든지 간에sample size ($N$, 1개의 sample의 element의 수)가 충분히 크

dsaint31.tistory.com

많은 경우 sampling distribution의 standard error를 통해 sampling error의 크기를 추정 또는 정량화함.

Sampling error :
Variability of a statistic from sample to sample due to chance.

Standard error :
A standard error is just the standard deviation of the sampling distribution: $\text{SE}=\frac{\sigma}{\sqrt{n}}$
(이 식의 값에 100을 곱해 %단위로 나타내는 경우가 많음. $\sigma$는 population의 variance임.)

Sampling Bias (표본 편향)

정의: sampling 과정 자체가 체계적으로 왜곡되어 얻어진 sample이 population을 제대로 반영하지 못하는 현상.

특징:

sample size를 늘려도 해결되지 않음.
sampling bias의 원인은 sampling 방법 설계상의 문제인:
- 특정 집단이 과대표집되거나 소외되는 sampling 이 대표적인 예임.
- randomness가 원인이 아니라 잘못된 방법론에서 발생.

대표적 예는 다음과 같음:

전화 여론조사에서 집 전화 있는 사람만 조사 => 젊은 층 과소대표.
온라인 설문조사에서 적극적으로 응답하는 사람만 포함 => 극단적 의견이 과대표.

비교

Sampling noise는 “우연히 생긴 변동(랜덤성)”이고, sample size를 늘리면 줄어듦.
Sampling bias는 “추출 과정 자체의 잘못(체계적 오류)”이고, sample size를 늘려도 계속 남음.

같이보면 좋은 자료들

2022.03.31 - [.../Math] - [Statistics] Central Limit Theorem

[Statistics] Central Limit Theorem

dsaint31.tistory.com

2024.02.23 - [.../Math] - [Math] Random Sampling

[Math] Random Sampling

Random SamplingRandom Sampling은 다음을 가르킴.Population(모집단)에서 element를 각각 무작위(random)로 선택하여 얻는sampling method(샘플링, 표본추출)을 가르킴. Statstics에서일반적으로 "제한된 수의 sample들로

dsaint31.tistory.com

2009.06.16 - [정리필요./방사선 계측] - Accuracy(정확도) vs. Precision(정밀도)

Accuracy(정확도) vs. Precision(정밀도)

이 두 용어의 차이를 정확히 알고 말하지 않는 경우가 생각보다 많다.사실 말하다보면 앞뒤 문맥으로 알 수는 있지만... 주의하자.Machine Learning의 classification에서의 accuracy와 precision은 조금 차이

dsaint31.tistory.com

Dsaint31's blog

[ML] BFGS, L-BFGS, L-BFGS-B : Quasi-Newton method

[BFGS]

1. Review: Newton Method

2. Gradient Descent와 Newton Method의 차이

3. Newton Method의 문제점

4. Quasi-Newton Methods

5. BFGS의 핵심 아이디어

6. Secant Condition

7. BFGS Update Formula

8. BFGS의 반복 절차

9. Gradient Descent와의 비교.

10. Newton Method와 비교

11. BFGS에서 Line Search가 중요한 이유: leraning rate의 중요성

12. Positive Definite와 Descent Direction

13. 응용: L-BFGS

14. 응용: L-BFGS-B

15. BFGS를 사용하는 경우

16. Linear Regression과 BFGS

17. Python에서의 사용 예

요약

Linear Regression (Summary)

0. Linear Regression 분류

1. Linear Regression 이란?

1-1. Affine Form

1-2. Linear Form (or Homogeneous coordinate form)

2. OLS

3. Regularization - Penalty term

3-1. Ridge Regression

3-2. LASSO Regression

3-3. Elastic Net

4. Error Variance 의 차이

4-1. WLS

4-2. GLS

5. TLS

참고: 차원 정리

요약

같이보면 좋은 자료들

Bootstrap Sampling 기반 Accuracy 추정 지표

0. 왜 Bootstrap Accuracy Estimation이 필요한가

1. 예제 설정

2. Resubstitution Estimate

2-1. Concept

2-2. Problem: Optimistic Bias

3. OOB (Out-of-Bag) Bootstrap

3-1. Concept

3-2. Per-Class OOB / Training Sample Analysis

3-3. 문제점: Problem: Pessimistic Bias Worsens with More Classes

4. .632 Bootstrap

4-1. Concept

4-2. Problem: Residual Optimistic Bias under Overfitting

5. .632+ Bootstrap

Step 1. No-Information Accuracy $\gamma_{\text{acc}}$ 계산

Step 2. Relative Overfitting Rate $\hat{R}$ 계산

참고: Qualitative Meaning of $\hat{R}$

Step 3. Dynamic Weight $w$ 계산

Step 4. 최종 .632+ Accuracy

.632 vs .632+: 가중치 비교

Extreme Overfitting Scenario Verification

그 외: Ordinary Bootstrap Estimate: Bootstrap-trained Models Evaluated on the Original Dataset

Concept

Problem: Optimistic Bias

결론

References

XAI: Coefficient, Feature importance, and SHAP

coefficient

feature importance

SHAP

Waterfall plot

Summary plot

같이보면 좋은 자료

airpod 분실... 키링의 모든 키들도 같이...

ULMFit : Transfer Learning for NLP

ULMFiT 란?

ULMFiT의 기본 개념

ULMFiT의 3단계 학습 구조

참고: Language Modeling의 정의

1단계: General Language Model Pretraining

2단계: Domain-specific Language Model Fine-tuning

3단계: Task-specific Fine-tuning

4. `.632` Bootstrap

5. `.632`+ Bootstrap

Step 4. 최종 `.632+` Accuracy

`.632` vs `.632+`: 가중치 비교