Coefficient of Determination
데이터에 대한 현재 regression 모델의 성능(or 적합도)를 평가함 → 1에 가까울수록 좋은 모델임.
- 통계 (linear model)에서 사용되는 경우에는 최소값이 0이 보장되나,
- ML등에서 regression model의 성능 평가에서는 음수도 나올 수 있음(non-linear인 경우)
- ML 등에서 regression model이 얼마나 정확하게 data에 fitting 되었는지를 나타냄.
Linear model 을 사용하는 Regression Analysis 에서 중요하게 다루는 지표.
- Squared Correlaton Coefficient라고도 불림. (Multiple correlation coefficient인 $R$의 제곱)
coef. of determination이
multiple correlation coef.의 제곱과 같으려면
반드시 linear model이어야 함.
통계(linear model, 최소자승법)에서는 “데이터의 variability”를 모델이 얼마나 설명하고 있는지를 나타냄.
- 모델이 다루는 independent variables 로
- Dependent variable의 variability (변동성)를 어느 정도로 예측 가능한지 를 나타냄.
- 다시 말하면, dependent variable의 variability를 independet variables가 설명하고 있는지를 나타냄 (설명력).
수식은 다음과 같음.
$$\begin{aligned}R^2&=1-\frac{\sum^N_{i=1} (y_i-\hat{y}_i)^2}{\sum^N_{i=1} (y_i-\mu)^2} & \text{(eq.1)} \\ &=\frac{\sum^N_{i=1} (\hat{y}_i-\mu)^2}{\sum^N_{i=1} (y_i-\mu)^2} & \text{(eq.2)} \end{aligned}$$
- eq.1는 ML 등에서 regression model의 performance를 나타내는 metric 으로 사용할 때 식임.
- non-linear에서도 적용되기 때문에 ML 등에서 활용도가 높음.
- 일종의 utility function 으로 볼 수 있음.
- eq.2은 통계적 관점에서 선형 모델의 설명력 을 의미함.
- 이는 linear model에서만 적용가능하며, 이 경우 residual의 expected value가 0이고, residual과 $\hat{Y}$간에 covariance가 0임.
- 이 경우, 결정계수가 Multiple correlation coefficient의 제곱과 같음.
- 단, non-linear 인 경우엔 성립하지 않는다. 즉, 통계적 관점으로 mutiple correlaton coef.의 제곱으로 볼 수 없다.
위의 수식에서처럼 eq.1과 eq.2가 같으려면
- residual의 expected value가 0이라는 가정 과
- residual과 predicted value간의 covariance가 0이라는 가정 이 성립해야 한다.
이 두 가정은 linear model에서 성립: 최소자승법 기반의 regression 이 수행된 경우임.
2022.04.28 - [.../Math] - Ordinary Least Squares : OLS, 최소자승법
Residual의 관점에서 살펴본 R squared
$\text{residual}=Y-\hat{Y}$ 이므로, $Y=\hat{Y}+\text{residual}$ 이 성립함.
- $Y$: random variable $Y$. 측정치
- $\hat{Y}$: predicted variable. 모델이 예측한 값.
즉, $\text{residual}_i = \epsilon_i = y_i-\hat{y}_i$
$R^2$의 denominator를 residual로 나타내면 다음과 같음.
$$\begin{aligned}\sum^N_{i=1}(y_i-\mu)^2&=\sum^N_{i=1}(\hat{y}_i-\mu)^2+\sum^N_{i=1}\text{residual}^2_i \\ &=\sum^N_{i=1}(\hat{y}_i-\mu)^2+\sum^N_{i=1}\epsilon^2_i \\ \text{Total Sum of Squares} &= \text{Explained Sum of Squares}+\text{Residual Sum of Squares} \\ TSS&=ESS+RSS\end{aligned}$$
- TSS 는 $Y$의 variability임 : $Y$와 평균 $\mu$와의 difference 들의 제곱으로 표현할 수 있는데 (위 식의 left side)
- ESS 는 모델에 의해 설명된 variability임. (위 식의 right side의 첫번째 항)
- RSS 는 모델이 설명하지 못한 나머지 variability에 해당함.
결국, 위 식은
측정된 $Y$에서의 variability(TSS)가
- 모델이 설명하는 variability(ESS)와
- 설명치 못하는 RSS로 구성됨을 의미한다.
위의 식은
residual의 expected value가 0이라는 가정과
residual 과 모델의 예측치간의 공분산이 0이라는 가정 하에 유도됨.$\frac{\sum^N_{i=1} \text{residual}_i}{N} =0 \Rightarrow\sum^N_{i=1}\text{residual}_i=0 \Rightarrow\sum^N_{i=1}\epsilon_i=0$
위의 식의 유도는 다음을 참고하라.
$$\begin{aligned}\sum^N_{i=1}(y_i-\mu)^2&=\sum^N_{i=1}(y_i-\hat{y}_i+\hat{y}-\mu)^2\\&=\sum^N_{i=1}\left\{(\hat{y}_i-\mu)+(y_i-\hat{y}_i)\right\}^2\\&=\sum^N_{i=1}\left\{(\hat{y}_i-\mu)+\text{residual}_i\right\}^2\\&=\sum^N_{i=1}\left\{(\hat{y}_i-\mu)+\epsilon_i\right\}^2\\&=\sum^N_{i=1}\left\{(\hat{y}_i-\mu)^2+\epsilon_i^2+2(\hat{y}_i-\mu)\epsilon_i\right\}\\&=\sum^N_{i=1}(\hat{y}_i-\mu)^2+\sum^N_{i=1}\epsilon_i^2+2\sum^N_{i=1}(\hat{y}_i-\mu)\epsilon_i\\&=\sum^N_{i=1}(\hat{y}_i-\mu)^2+\sum^N_{i=1}\epsilon_i^2+2\sum^N_{i=1}(\beta_0+\beta_1x_{1i}+\cdots+\beta_{p}x_{pi}-\mu)\epsilon_i\\&=\sum^N_{i=1}(\hat{y}_i-\mu)^2+\sum^N_{i=1}\epsilon_i^2+2(\beta_0-\mu)\sum^N_{i=1}\epsilon_i+2\beta_1\sum^N_{i=1}\epsilon_ix_{1i}+\cdots+2\beta_p\sum^N_{i=1}\epsilon_ix_{pi}\\&=\sum^N_{i=1}(\hat{y}_i-\mu)^2+\sum^N_{i=1}\epsilon^2_i\\\end{aligned}$$
이는 다음의 등식이 성립함을 의미함.
$$\sum^N_{i=1}(y_i-\mu)^2=\sum^N_{i=1}(\hat{y}_i-\mu)^2+\sum^N_{i=1}\text{residual}_i^2$$
이를 $R^2$의 식에 적용하면 다음이 성립함.
$$\begin{aligned} R^2&=1-\frac{\sum^N_{i=1} (y_i-\hat{y}_i)^2}{\sum^N_{i=1} (y_i-\mu)^2} \\ &=1-\frac{\sum^N_{i=1}\text{residual}_i^2}{\sum^N_{i=1}(y_i-\mu)^2} \\ &=\frac{\sum^N_{i=1} (y_i-\mu)^2 - \sum^N_{i=1} (y_i-\hat{y}_i)^2}{\sum^N_{i=1} (y_i-\mu)^2} \\ &=\frac{\sum^N_{i=1}(\hat{y}_i-\mu)^2+\sum^N_{i=1}\text{residual}_i^2 - \sum^N_{i=1} (y_i-\hat{y}_i)^2}{\sum^N_{i=1} (y_i-\mu)^2} \\ &=\frac{\sum^N_{i=1} (\hat{y}_i-\mu)^2}{\sum^N_{i=1} (y_i-\mu)^2} \\ &=\frac{\text{ESS}}{\text{TSS}} \end{aligned}$$
참고로,
Multiple regression에서 multiple correlation coefficient를 $R$로 주로 표기하고,
simple regression 에 사용되는 correlation coefficient는 주로 $r$로 표기됨.
같이 읽어보면 좋은 자료
아래 URL은 multiple correlation coef.와 coef. of determination이 엄밀하게는 다른 이유를 보다 쉽게 설명함.
https://zetawiki.com/wiki/%EA%B2%B0%EC%A0%95%EA%B3%84%EC%88%98_R%C2%B2
https://en.wikipedia.org/wiki/Partition_of_sums_of_squares
https://velog.io/@yoonene/R-squared%EB%9E%80
2022.05.01 - [.../Math] - [Statistics] Covariance vs. Correlation