Mean: Measures of Central Tendency
mean이나 average는
어떤 Data(수들의 집단, 집합)을 나타내는(대표하는, represent) 하나의 수임.
어떤 값들의 분포(distribution)의 중앙을 나타내는 값을
Measure of Central Tendency라 하며,
해당 distribution의 representation이라고 볼 수 있음.
Mean :
- 어떤 sample의 대표값으로 사용되는 포괄적 의미의 평균.
- 주로 average mean(산술평균)이 mean으로 사용되나, geometric mean, harmonic mean 등과 같이 계산방법이 다른 mean들이 존재.
Average :
- arithmetic mean의 줄임말.
- 산술 평균을 가르킴.
- mean 이 학문적 수학적으로 많이 이용되는 것과 달리 average는 일상에서 보다 많이 사용되는 용어임.
https://byjus.com/maths/difference-between-average-and-mean/
Difference Between Average and Mean | Average vs. Mean
Learn the major differences between average and mean. Visit BYJU'S to get the definition, formulas and the differences between them with examples.
byjus.com
1. Representative Value (=The center of a distribution of score)
어떤 값들의 분포에서 대표로 사용될 수 있는 metric들은 다음과 같음.
Mode (Mo
, 최빈치):
- The most commonly occuring score.
- The most common value; highest region of a distribution
- 극단적인 값의 영향을 크게 안 받는다는 장점
- 전체 분포에 대한 대표값이 되기 어렵다는 단점을 가짐.
Median (Mdn
, 중앙값):
- The score corresponding to the point having 50% of the observations below it when the observation are arranged in number order.
- Middle value or mean of two middle values.
- 극단적인 값의 영향을 크게 안 받는다는 장점
- 대수연산으로 구하기 어려워서 수식으로 표현되기 쉽지 않으며 대수적 처리를 하기 어려움.
skewed data에서 가장 효과적인 reprensentative value임.
Mean (mean
, 평균, $\mu, \bar{X}$):
- Commonly, the sum of the scores divided by the number of scores. ← arithmetic mean
$$
\bar{X}=\dfrac{\sum_{i=1}^N x_i}{N}
$$
- What we normally by “average”.
- 극단적인 값에 영향을 받는 단점을 가짐.
- 일반적인 대수적 처리가 가능하며
- 많은 sample로부터 계산할 경우, mode나 median에 비해 보다 안정적인 population의 추정치를 제공할 수 있음. ← Central Limit Theorem
- Variance가 다른 mean들보다 작게 구해짐.
2022.03.31 - [.../Math] - [Statistics] Central Limit Theorem
[Statistics] Central Limit Theorem
Central Limit Theorem (중심극한정리) mean의 sampling distribution의 다음과 같은 속성을 기술하는 Theorem. population이 무엇이든지 간에 sample size ($N$, 1개의 sample의 element의 수)가 충분히 크다(흔히 30 or 40이상)
dsaint31.tistory.com
2. 여러가지 mean
Arithmetic mean (average) 외에도 다음의 mean들이 있음.
2-1. 기하평균 Geometric Mean
변화율 데이터 (인구성장률, 주식상승률, 물가상승률)를 대상으로
특정 기간(or 구간)에서의 평균 변화율을 구할 때 이용됨.
경제성장율, 증폭기의 배율 등과 같이 곱한 값이 의미가 있는 경우 사용됨.
$$ \begin{aligned} \bar{X}_{\text{G}} &=\displaystyle \sqrt[N]{\prod_{i=1}^N x_i} \\ \ln{\bar{X}_{\text{G}}} &= \dfrac{1}{N}\sum_{i=1}^N\ln x_i \end{aligned} $$
- 200% 증가 후 50% 감소 의 경우
- Arithmetic mean = $(2+0.5)/2 \times 100 = 125 \%$
- Geometric Mean = $(2 \times 0.5)^{\frac{1}{2}} \times100= 100\%$
2-2. 조화평균 Harmonic mean
고정된 길이의 도로에서의 오고 갈 때의 평균 속력 이나 현의 길이에 의한 음의 높낮이(주파수) 등의 평균치를 구할 때 사용됨.
곱셈이 의미를 가질 때 기하평균이 사용되는 것처럼, 조화평균은 역수가 의미를 가질 때 이용됨.
precision과 recall을
동시에 살피는 F-score가 대표적인 예.
harmonic mean = 주어진 수들의 inverse들의 arithmetic mean의 inverse
$$ \bar{X}_{\text{H}}=\dfrac{1}{\dfrac{1}{N}\displaystyle \sum^N_{i=1}\dfrac{1}{x_i}}$$
- 자동차의 구간별 속도로부터 평균속도를 구하기
- 전기회로에서 병렬연결 저항의 등가저항 구하기
- 금융 등에서 평균 이자율 또는 수익률 구하기.
2-2-1. F Score ( f measure or f-beta score)
$$
\begin{aligned}F_{\beta}=F&=\dfrac{1}{\alpha\dfrac{1}{\text{precision}}+(1-\alpha)\dfrac{1}{\text{recall}}}\\ &=\dfrac{(\beta^2+1)\text{precision}\times\text{recall}}{\beta^2\text{precision}+\text{recall}}\end{aligned}
$$
- Precision과 Recall이 모두 중요할 경우 $\beta=1$
- Recall이 보다 중요할 경우 보통 $\beta=2$
- Precision이 보다 중요할 경우 $\beta=0.5$
3. 기타
3-1. mid-range (범위의 중앙값)
많이 사용되지는 않는 편.
$$M=\frac{x_\text{max}+x_\text{min}}{2}$$
같이 읽어보면 좋은 자료들
2024.05.02 - [분류 전체보기] - [Math] Example: Measures of Central Tendency
[Math] Example: Measures of Central Tendency
다음 중 중심 경향의 척도는 무엇입니까? A) mean B) range C) std D) variance Ans. A) mean은 measures of central tendency의 가장 대표적인 값임.median은 무엇을 측정합니까? A) 데이터 집합에서 가장 자주 나타나는
dsaint31.tistory.com
'... > Math' 카테고리의 다른 글
[Math] Whitening Transformation (0) | 2023.05.12 |
---|---|
[Math] Differential Equation 용어. (0) | 2023.04.17 |
[Math] Type of Data and Scale of Measurement (0) | 2023.03.15 |
[Math] Binomial Distribution (이항분포) (0) | 2023.03.14 |
[Math] Random Variable (0) | 2023.03.09 |