하나의 categorical variable이 주어진 경우로, null hypothesis가 참인 경우에 관측치로 부터 구한 chi square값이 나올 확률을 구해 검증.
Goodness-of-fit test: A test for comparing observed frequencies with theoretically predicted frequencies.
Example 1
100명의 참가자들에게 매우 모호한 신문 사설을 읽게 하고, 해당 사설이 특정 사안에 찬성하는 논조인지 반대하는 논조인지를 분류하도록 함.
- 찬성 아니면
- 반대 만 선택 가능함.
관측된 결과는 다음과 같음.
Table | |
---|---|
In Favor | Opposed |
58 | 42 |
해당 관측치로부터 유의미(significantly)하게 보다 많은 참가자들이 찬성을 택한 것인지, 아니면 원래 찬성과 반대가 같은데(=이상적으로 50명의 찬성이 나와야하는데) 우연히 58명의 찬성자가 나온 것인지를 확인하기 위해 Goodness-of-fit test를 함.
import numpy as np
import scipy.stats as stats
import pandas as pd
import matplotlib.pyplot as plt
from IPython.display import Math, HTML
editorial_view_seen_As = ['In Favor','Opposes']
data = [58,42]
df = pd.DataFrame(
data = data,
index=editorial_view_seen_As,
columns=['observed']
)
chi2, p_value = stats.chisquare(f_obs=df['observed'])
print(f'chi2(p_value)={np.round(chi2,4)}({np.round(p_value,4)})')
결과는 $\chi^2(p_\text{value})=2.56(0.1096)$로, 50:50인 경우가 참일 때 이같은 $\chi^2=2.56$이 나올 확률은 10.96%라는 의미임.
10.96%는 일반적으로 사용되는 $\alpha=0.05$나 보다 엄격한 $\alpha=0.01$보다 작지 않으므로 null hypothesis를 기각하기 어렵기 때문에 유의미하게 찬성이 많다고 볼 수 없다는 결론으로 이어진다.
- null hypothesis가 채택됨.
- 참고로 DoF(자유도, Degree of Freedom)은 1임. (# of categoroies -1)
Example 2
가위,바위,보 게임에서 관측치가 다음과 같음.
Rock | Paper | Scissors |
30 | 21 | 24 |
가위, 바위, 보가 균일하게 나와었야 하는데 이같은 관측치가 우연히 나온 확률을 chi square test로 구하여 확인.
import numpy as np
import scipy.stats as stats
import pandas as pd
import matplotlib.pyplot as plt
from IPython.display import Math, HTML
classes = ['rock','paper', 'scissors']
data = [30,21, 24]
df = pd.DataFrame(
data = data,
index=classes,
columns=['observed']
)
chi2, p_value = stats.chisquare(f_obs=df['observed'])
print(f'chi2(p_value)={np.round(chi2,4)}({np.round(p_value,4)})')
결과는 $\chi^2(p_\text{value})=1.68(0.4317)$로, 25:25:25인 경우가 참일 때 이같은 $\chi^2=1.68$이 나올 확률은 43.17%라는 의미임.
43.17%는 일반적으로 사용되는 $\alpha=0.05$나 보다 엄격한 $\alpha=0.01$보다 작지 않으므로 null hypothesis를 기각하기 어렵기 때문에 균일한 분포를 따른다고 볼 수 있다.
- null hypothesis를 채택.
- DoF = 2
References
Fundamental Statistics for the Behavioral Sciences 8th Edition, Ch19
'... > Math' 카테고리의 다른 글
One sample t-test : The Moon Illusion (0) | 2022.04.27 |
---|---|
Chi Square : Independence Test (Analysis of Contingency Table) (0) | 2022.04.25 |
Chi Square for Large Contingency Table (0) | 2022.04.25 |
[Math] The Law of Large Numbers (or The weak law of large numbers) (0) | 2022.04.21 |
[Math] Definition of Vector Space (0) | 2022.04.05 |