Mean: Measures of Central Tendency
mean이나 average는
어떤 Data(수들의 집단, 집합)을 나타내는(대표하는, represent) 하나의 수임.
어떤 값들의 분포(distribution)의 중앙을 나타내는 값을
Measure of Central Tendency라 하며,
해당 distribution의 representation이라고 볼 수 있음.
Mean :
- 어떤 sample의 대표값으로 사용되는 포괄적 의미의 평균.
- 주로 average mean(산술평균)이 mean으로 사용되나, geometric mean, harmonic mean 등과 같이 계산방법이 다른 mean들이 존재.
Average :
- arithmetic mean의 줄임말.
- 산술 평균을 가르킴.
- mean 이 학문적 수학적으로 많이 이용되는 것과 달리 average는 일상에서 보다 많이 사용되는 용어임.
https://byjus.com/maths/difference-between-average-and-mean/
1. Representative Value (=The center of a distribution of score)
어떤 값들의 분포에서 대표로 사용될 수 있는 metric들은 다음과 같음.
Mode (Mo
, 최빈치):
- The most commonly occuring score.
- The most common value; highest region of a distribution
- 극단적인 값의 영향을 크게 안 받는다는 장점
- 전체 분포에 대한 대표값이 되기 어렵다는 단점을 가짐.
Median (Mdn
, 중앙값):
- The score corresponding to the point having 50% of the observations below it when the observation are arranged in number order.
- Middle value or mean of two middle values.
- 극단적인 값의 영향을 크게 안 받는다는 장점
- 대수연산으로 구하기 어려워서 수식으로 표현되기 쉽지 않으며 대수적 처리를 하기 어려움.
skewed data에서 가장 효과적인 reprensentative value임.
Mean (mean
, 평균, $\mu, \bar{X}$):
- Commonly, the sum of the scores divided by the number of scores. ← arithmetic mean
$$
\bar{X}=\dfrac{\sum_{i=1}^N x_i}{N}
$$
- What we normally by “average”.
- 극단적인 값에 영향을 받는 단점을 가짐.
- 일반적인 대수적 처리가 가능하며
- 많은 sample로부터 계산할 경우, mode나 median에 비해 보다 안정적인 population의 추정치를 제공할 수 있음. ← Central Limit Theorem
- Variance가 다른 mean들보다 작게 구해짐.
2022.03.31 - [.../Math] - [Statistics] Central Limit Theorem
2. 여러가지 mean
Arithmetic mean (average) 외에도 다음의 mean들이 있음.
2-1. 기하평균 Geometric Mean
변화율 데이터 (인구성장률, 주식상승률, 물가상승률)를 대상으로
특정 기간(or 구간)에서의 평균 변화율을 구할 때 이용됨.
경제성장율, 증폭기의 배율 등과 같이 곱한 값이 의미가 있는 경우 사용됨.
$$ \begin{aligned} \bar{X}_{\text{G}} &=\displaystyle \sqrt[N]{\prod_{i=1}^N x_i} \\ \ln{\bar{X}_{\text{G}}} &= \dfrac{1}{N}\sum_{i=1}^N\ln x_i \end{aligned} $$
- 200% 증가 후 50% 감소 의 경우
- Arithmetic mean = $(2+0.5)/2 \times 100 = 125 \%$
- Geometric Mean = $(2 \times 0.5)^{\frac{1}{2}} \times100= 100\%$
2-2. 조화평균 Harmonic mean
고정된 길이의 도로에서의 오고 갈 때의 평균 속력 이나 현의 길이에 의한 음의 높낮이(주파수) 등의 평균치를 구할 때 사용됨.
곱셈이 의미를 가질 때 기하평균이 사용되는 것처럼, 조화평균은 역수가 의미를 가질 때 이용됨.
precision과 recall을
동시에 살피는 F-score가 대표적인 예.
harmonic mean = 주어진 수들의 inverse들의 arithmetic mean의 inverse
$$ \bar{X}_{\text{H}}=\dfrac{1}{\dfrac{1}{N}\displaystyle \sum^N_{i=1}\dfrac{1}{x_i}}$$
- 자동차의 구간별 속도로부터 평균속도를 구하기
- 전기회로에서 병렬연결 저항의 등가저항 구하기
- 금융 등에서 평균 이자율 또는 수익률 구하기.
2-2-1. F Score ( f measure or f-beta score)
$$
\begin{aligned}F_{\beta}=F&=\dfrac{1}{\alpha\dfrac{1}{\text{precision}}+(1-\alpha)\dfrac{1}{\text{recall}}}\\ &=\dfrac{(\beta^2+1)\text{precision}\times\text{recall}}{\beta^2\text{precision}+\text{recall}}\end{aligned}
$$
- Precision과 Recall이 모두 중요할 경우 $\beta=1$
- Recall이 보다 중요할 경우 보통 $\beta=2$
- Precision이 보다 중요할 경우 $\beta=0.5$
3. 기타
3-1. mid-range (범위의 중앙값)
많이 사용되지는 않는 편.
$$M=\frac{x_\text{max}+x_\text{min}}{2}$$
같이 읽어보면 좋은 자료들
2024.05.02 - [분류 전체보기] - [Math] Example: Measures of Central Tendency
'... > Math' 카테고리의 다른 글
[Math] Whitening Transformation (0) | 2023.05.12 |
---|---|
[Math] Differential Equation 용어. (0) | 2023.04.17 |
[Math] Type of Data and Scale of Measurement (0) | 2023.03.15 |
[Math] Binomial Distribution (이항분포) (0) | 2023.03.14 |
[Math] Random Variable (0) | 2023.03.09 |