ML

    [ML] 정리 중...

    보호되어 있는 글입니다.

    [ML] Underfit

    Underfit이란 ML 모델이 주어진 훈련데이터를 제대로 학습하지 못하여 Training dataset에서도 나쁜 performance를 보이는 경우를 가르킴. Underfit의 경우 훈련데이터에서도 performance measure의 결과가 매우 나쁘게 나오기 때문에 훈련데이터에서 bias가 매우 크고, 대신 모델의 variance는 작은 특징을 보임. bais 높다 = perfromance 가 나쁘다 variance가 낮은 이유는, 워낙 performance가 나쁘기 때문에 어떤 dataset에서도 일관되게 낮은 performance를 보이기때문임. 발생원인 Data의 features가 task를 해결하기 위한 정보가 부족한 경우 (non-representative data), Model의 가설공..

    [ML] No Free Lunch Theorems

    David Wolpert 와 William Marcready의 1997년 논문 "No Free Lunch Theorems for Optimzation"에서 제시됨. NFLT라는 abbreviation으로도 많이 사용된다. 이 논문에서 기술한 내용을 그대로 살펴보면 다음과 같다. We have dubbed the associated results “No Free Lunch” theorems because they demonstrate that if an algorithm performs well on a certain class of problems then it necessarily pays for that with degraded performance on the set of all remaining ..

    [ML] Ward’s linkage method

    정의 Ward's method는 cluster 간의 거리를 측정하는 방법 중 하나이며, centroid 와 매우 유사한 방식이지만, 각 cluster의 샘플 수에 대한 고려가 이루어진 방법이다. 간단하게 애기하면 Ward's method에서 두 클러스터의 거리는 cluster의 data points에서 centroid와의 차이를 제곱하여 더한 error sum of square가 두 cluster를 merge할 경우 얼마나 증가하는지로 나타낸다. incremental of ESS 를 이용하기 때문에 centroid linkage와 기반 논리는 비슷하지만 outlier나 noise에 보다 robust 하고 포함하고 있는 data samples 수가 비슷한 cluster들을 merge하는 경향을 보임. 수식..

    [ML] Entropy, KL-Divergence, and Cross-entropy

    2022.05.12 - [.../Math] - [Math] Entropy 란 (평균정보량, 정보량의 기댓값) [Math] Entropy 란 (평균정보량, 정보량의 기댓값) Entropy란? Random variable에서 기대되는 정보량 (or 정보량의 기댓값, 평균 정보량). 해당 random variable을 encoding하는데 필요한 평균정보량(단위 bit)의 lower bound. 정의식은 다음과 같음. $$H(x)=H(p)=-.. dsaint31.tistory.com 2022.05.12 - [.../Math] - [Math] Kullback-Leibler Divergence [Math] Kullback-Leibler Divergence 어떤 random variable $x$ (확률변수 $x$..