variance

    [Math] Example: Measures of Dispersion

    dispersion의 척도에 속하지 않는 것은? A) 표준편차 B) 중앙값 C) 사분위간 범위 D) 변동계수 Ans. B) median 은 measure of central tendency임.standard deviation 는 무엇을 나타냅니까? A) 데이터 값들이 평균으로부터 얼마나 떨어져 있는지의 평균적인 측정값 B) 데이터 집합의 가장 큰 값과 가장 작은 값의 차이 C) 데이터 값들 사이의 일반적인 간격 D) 중앙값을 기준으로 데이터가 분포하는 정도 Ans. A)range는 무엇을 나타냅니까? A) 평균과의 차이 B) 평균에 대한 표준편차 C) 최대값과 최소값의 차이 D) 상위 25%와 하위 25% 데이터의 차이 Ans. C)사분위간 범위(IQR)는 어떤 정보를 제공합니까? A) 전체 데이터의 범..

    [Math] Variance and Standard Deviation: Measure of Dispersion

    Variance and Standard Deviation: Measure of DispersionMeasure of Central Tendency, 즉 현재 sampel의 representation인 mean을 통해해당 sample의 모든 cases를 하나의 값으로 표현하는 경우,해당 representation이 sample의 각각의 cases를 얼마나 잘 기술하는지는해당 sample이 얼마나 중앙에 몰려있는지에 따라 결정됨.중앙에 몰려 있을수록 representation으로 mean의 의미가 커짐.만약 각 cases가 퍼져있는(spread, dispersion) 경우엔, mean으로 각각의 case를 예측하는 것이 쉽지 않음.때문에 sample에서 값의 분포(distribution)를 나타낼 때, 각각..

    [ML] Underfit

    Underfit이란 ML 모델이 주어진 훈련데이터를 제대로 학습하지 못하여 Training dataset에서도 나쁜 performance를 보이는 경우를 가르킴. Underfit의 경우 훈련데이터에서도 performance measure의 결과가 매우 나쁘게 나오기 때문에 훈련데이터에서 bias가 매우 크고, 대신 모델의 variance는 작은 특징을 보임. bais 높다 = perfromance 가 나쁘다 variance가 낮은 이유는, 워낙 performance가 나쁘기 때문에 어떤 dataset에서도 일관되게 낮은 performance를 보이기때문임. 발생원인 Data의 features가 task를 해결하기 위한 정보가 부족한 경우 (non-representative data), Model의 가설공..

    [Math] Random Variable의 연산에 따른 Mean과 Variance.

    Mean (or Estimated Value) Random Variable의 mean (여기선 arithmetic mean을 의미)은 linear equation으로 얻어짐. 때문에 다음과 같이 Random variable $X$와 $Y$, constant $a$와 $b$에 대해 linearity가 성립함. $E[a] =a$ $E[aX]=aE[X]$ $E[aX+b]=aE[X]+b$ $E[X+Y]=E[X]+E[Y]$ $E[aX+bY]=aE[X]+bE[Y]$ Random vairable간의 곱에서의 mean은 다음과 같이 구해짐. $E[XY]=\sum \sum xy P(X=x, Y=y)$ 결합확률분포에 대한 연산으로 두 random variable간의 correlation등의 고려등으로 계산이 복잡함. 만약..