1. Multi-variable vs Multi-variate (in Regression)
Regression에서 많이 사용되는 경우이며, 위의 용어에서 variable은 독립변수에 해당하며, variate는 종속변수에 해당함.
- variable (변수) : 독립변수에 해당.
- univariable : independent variable이 scalar.
- multi-variable : independent variable이 vector.
- 하지만 Multiple Regression이라고 불림.
- 즉, 독립변수가 여러 개 (=vector가 독립변수)인 경우, Multiple Regression이라고 불림.
- variate (변량) : 종속변수에 해당
- univariate : dependent variable이 scalar. (하나의 식(single row)에서 scalar이므로 design matrix로 표현시 vector가 됨)
- multi-variate : dependent variable이 vector임.(하나의 식(single row)에서 vector이므로 design matrix로 표현시 matrix가 됨)
참고 : Multi variate function
Regression과 달리 일반적으로는
multi-variate function은 독립변수가 vector이고, 종속변수가 scalar인 경우에도 많이 사용되는 경우가 많다.
엄밀하게는 틀린 거 같은데...
(엄밀하게는 종속변수가 다차원 vector인 경우를 가르키는게 맞다.)
- 워낙 많이 사용되다 보니 문맥에 따라 파악하는 게 좋다.
- multi-variate function의 경우 종속변수가 scalar로 한정하는 경우로도 자주 사용된다는 점을 기억하자.
Function에 대해 정리하면 다음과 같음.
- 정의역(domain)이 $\mathbb{R}$ 이면서공역(codomain)이 $\mathbb{R}^n$ 인 경우, vector function (or single-variable vector-valued function or single variate vector-valued function).
- 정의역(domain)이 $\mathbb{R}^n$ 이면서 공역(codomain)이 $\mathbb{R}^n$ 인 경우, vector field (or multivariable vector-valued function or multivariate vector-valued function).
- 정의역(domain)이 $\mathbb{R}$ 이면서 공역(codomain)이 $\mathbb{R}$ 인 경우, scalar function.
- 정의역(domain)이 $\mathbb{R}^n$ 이면서 공역(codomain)이 $\mathbb{R}$ 인 경우, scalar field (or multi-variable function or multi-variate function).
2. Multiple regression (중다회귀)
statistics에서 사용되는 용어로, multi-variable regression을 의미함.
multiple regression의 경우, dependent variable이 하나로서, 이를 matrix equation으로 보면 다음과 같음.
$$
\textbf{y}=X\beta +\epsilon
$$
where
- $\textbf{y}$ : row개 만큼의 sample들로부터 얻어진 observed value들. (dependent variable, univariate)
- $\beta$ : 위의 linear model의 (unknown) parameter들을 component로 가지는 vector.
- linear model이라고 불리는 이유는 이들 unknown parameter에 대해 linear하기 때문임. (independent variable에 대해서는 non-linear일 수 있음)
- model의 weight가 되며, $\textbf{y}$가 scalar이므로 vector임.
- $X$ : design matrix. regression에 사용된 sample들의 수만큼을 row로 가지며, independent variable의 수 이상(bias, 다른 independent variable간의 곱, 각 independent varible의 거듭제곱 등이 포함될 수 있음)의 column을 가짐.
- sample이 3개이고, 2개의 independent variable $u$, $v$ 를 degree=2로 regression model을 만든다면 다음과 같은 design matrixk가 됨.
- $X=\begin{bmatrix} 1 & u_1 & v_1 & u_1^2 & v_1^2 & u_1v_1 \\ 1 & u_2 & v_2 & u_2^2 & v_2^2 & u_2v_2 \\ 1 & u_3 & v_3 & u_3^2 & v_3^2 & u_3v_3 \end{bmatrix}$
- 위의 design matrix에서 subscript는 sample 번호로 $[1,3]$임.
- 전체 model의 matrix equation은 다음과 같음.
- $\begin{bmatrix}y_1\\y_2\\y_3\end{bmatrix}= X\begin{bmatrix}\beta_0\\\beta_1\\\beta_2\\\beta_3 \\ \beta_4 \\ \beta_5 \end{bmatrix} +\begin{bmatrix}\epsilon_1\\\epsilon_2\\\epsilon_3\end{bmatrix}$
- $\epsilon$ : residual vector (=error). 각 sample에서 observed value와 predicted value간의 오차를 component로 가지는 vector
많은 경우의 regression에서 dependent variable이 scalar이며, multiple regression(or multi-variable regression)임
즉, 종속변수는 scalar이고 독립변수는 vector임.
하지만, variate와 variable의 구분이 혼재되어 (잘못) 사용되는 경우가 많으니 주의해야함.
더 읽어보면 좋은 자료들
https://dsaint31.tistory.com/entry/Function-%ED%95%A8%EC%88%98-%EA%B0%84%EB%9E%B5-%EC%A0%95%EC%9D%98
2024.02.23 - [.../Math] - [Math] Variable (변수)
https://stats.stackexchange.com/questions/447455/multivariable-vs-multivariate-regression
https://mansoostat.tistory.com/23
'... > Math' 카테고리의 다른 글
[LA] Orthogonal matrix (직교행렬) (0) | 2022.11.17 |
---|---|
[LA] Normal Matrix (정규행렬) (0) | 2022.11.17 |
[Math] Random Experiment (확률 실험, Trial, 시행)와 Event (0) | 2022.10.14 |
[Math] Sample Space (표본공간) (0) | 2022.10.14 |
[Math] Definition : Random Process (0) | 2022.10.14 |