728x90
1. Hyperplane과 Decision Boundary (결정 경계)의 기본 개념
1-1. Hyperplane의 정의
- n차원 공간을 (n-1)차원으로 나누는 부분공간
- 1차원: 점
- 2차원: 직선 (1차원)
- 3차원: 평면 (2차원)
- n차원: (n-1)차원의 평면
1-2. Decision Boundary (결정 경계)
- 서로 다른 클래스를 구분하는 경계
- Classifier의 출력이 바뀌는 지점들의 집합: binary classification의 경우 0.5의 확률에 해당.
- Decision Boundary의 선형/비선형 여부가 Classfifier의 핵심 특성을 결정
2. Decision Boundary(결정 경계)의 선형성과 Hyperplane
2-1. Linear Decision Boundary
- Hyperplane 형태의 결정 경계
- 수학적 표현: $b + \omega_1 x_1 +\cdots +\omega_n x_n = 0$
- 특징:
- 직선/평면/초평면 형태의 Hyperplane
- 특성들의 linear combination(선형 결합)으로만 표현
- Hyperplane에 의해 공간이 두 영역으로 선형 분할
2-2. Non-linear Decision Boundary
- Hyperplane이 아닌 복잡한 형태의 결정 경계
- 특징:
- 곡선, 곡면 등의 비선형 형태
- raw data의 features의 non-linear combination(비선형 조합) 포함
- 공간을 비선형적으로 분할
3. 대표적인 분류기와 결정 경계
3-1. Linear Classifier (Hyperplane 기반)
3-1-1. Logistic Regression
# 결정 경계 = Hyperplane: w^T x + b = 0
from sklearn.linear_model import LogisticRegression
- 주의할 점은 확률 출력은 비선형(logistic)이지만
- Decision Boundary(결정 경계)는 Hyperplane으로 Linear (선형).
- 때문에 Linear Classifer임.
3-1-2. Linear SVM
# 최대 마진 Hyperplane
from sklearn.svm import SVC
linear_svm = SVC(kernel='linear')
- 최적의 분리 Hyperplane을 찾음
3-2. Non-linear Classifier
3-2-1. Kernel SVM
# 비선형 커널 사용
nonlinear_svm = SVC(kernel='rbf')
- 원본 공간 (raw data):
- 비선형 결정 경계
- 특징 공간 (feature space로 non-linear mapping이 이루어짐):
- feature space에서는 Hyperplane (커널 트릭 사용)으로 나누어짐.
- 보통 직접 feature space로 매핑 후 결정경계를 구하지 않고, kernel trick으로 우회하여 계산.
3-2-2. Neural Networks
- 복잡한 비선형 결정 경계 생성
- 여러 층의 비선형 변환 사용
4. Hyperplane과 결정 경계의 수학적 관계
4-1. Linear Case
- Hyperplane 방정식: $w^\top x + b = 0$
- 클래스 구분:
- $f(x) = w^\top x + b > 0$: 클래스 1
- $f(x) = w^\top x + b < 0$: 클래스 0
4-2. Non-linear Case
- 결정 함수: $f(x) = g(φ(x))$
- 여기서:
- $φ(x)$: 비선형 특징 변환
- $g()$: 분류 함수
5. 결정 경계의 선형성 판단
5-1. Linear Decision Boundary의 조건
- Hyperplane 형태를 가짐.
- raw data의 features의 linear combination으로만 표현
- 공간을 선형적으로 분할
5-2. Non-linear Decision Boundary의 특징
1. Hyperplane 형태가 아님.
2. raw data의 features의 non-linear combination 포함
3. 공간을 비선형으로 분할
6. 실제 적용시 고려사항
6-1. Linear Decision Boundary (Hyperplane) 선택
- 장점:
- 해석이 용이 (Hyperplane 방정식으로 표현)
- overfit(과적합) 위험 낮음
- 계산 효율성 높음
- 적용 상황:
- Linearly Separable(선형 분리) 가능한 데이터
- 해석 가능성이 중요한 경우
6-2. Non-linear Decision Boundary 선택
- 장점:
- 복잡한 패턴 학습 가능
- 높은 정확도 달성 가능
- 적용 상황:
- 선형 분리 불가능한 데이터
- 성능이 해석보다 중요한 경우
결론
Decision Boundary의 선형성과 Hyperplane의 관계는 Classifier의 핵심 특성을 결정.
- Linear Classifier는 Hyperplane을 결정 경계로 사용하여 간단하고 해석 가능한 모델을 제공하는 반면,
- Non-linear Classifier는 더 복잡한 결정 경계를 통해 높은 성능을 달성할 수 있음.
반응형
'Programming > ML' 카테고리의 다른 글
[ML] Feature Importances for Decision Tree (0) | 2024.11.10 |
---|---|
[ML] Regularization (0) | 2024.10.27 |
[ML] Diabetes Dataset (0) | 2024.10.05 |
[ML] Yeast Dataset (0) | 2024.10.05 |
[ML] kNN Classifier (k-Nearest Neighbors Classifier) (0) | 2024.10.05 |