[ML] Tensor: Scalar, Vector, Matrix.
·
Programming/ML
Tensor 종류1. Scalar (0차원 tensor)하나의 숫자로 표현되는 가장 기본적인 형태.크기(magnitude)만을 가지며 방향은 없음.예시: 온도(25°C), 나이(20), 가격(1000원)# 파이썬/NumPy에서의 표현scalar = 5.02. Vector (1차원 tensor)숫자들의 순서가 있는 array(배열): Numbers' ordered list.Magnitude(크기)와 Direction(방향)을 모두 가짐.선형대수에서는 공간 상의 한 점 또는 방향을 나타내는 화살표로 해석: Vector Space의 element!기계학습 및 딥러닝에서는 데이터 instance(=single sample)의 특성(feature)들을 담는 container로 사용되어 하나의 instance를 표..
[ML] Nearest Neighbor Search: k-d Tree
·
Programming/ML
1. 소개1975년 Nearest Neighbor Search를 위해Binary Search Tree (BST)의 개념을 활용하여k-diemensional vector space에서 동작하도록Bently가 제안한 알고리즘.Lowe와 Muja가 2014년 제안한 FLANN 에서는보다 개선된 Multiple k-d Tree가 제안되었고,이 Multiple k-d Tree가 openCV에서 matching에서 가장 많아 사용되는 방법 중 하나임.https://github.com/flann-lib/flann GitHub - flann-lib/flann: Fast Library for Approximate Nearest NeighborsFast Library for Approximate Nearest Neighb..
[ML] Feature Importances for Decision Tree
·
Programming/ML
이 문서는 Feature Importance를  Decision Tree에서 Gini Impurity Measure를 이용하여 계산하는 예제를 보여줌.Tree 예시 (depth = 3) [Root] (X1) [5:5] / \ Node1 Node2 (X2) (X3) [4:1] [1:4] / \ / \Leaf1 Leaf2 Leaf3 Leaf4[3:0] [1:1] [0:2] [1:2]Root 노드는 X1을 사용해 데이터를 분할.Node1은 X2를 사용해 데이터를 다시 분할.Node2는 X3을 사용해 데이터를 다시 분할.단계 1: Gini impurity measure ..
[ML] Regularization
·
Programming/ML
Regularization 이란?기계 학습과 딥러닝에서 Regularization은 모델이 overfitting(과적합)되지 않도록 도와주는 기법을 의미함.Overfitting(과적합)은 모델이 훈련 데이터에 너무 잘 맞아 새로운 데이터에 대해 일반화(generalization)가 잘되지 않는 상황을 의미함.Regularization을 통해 모델의 Degree of Freedom(자유도), 즉 모델이 표현할 수 있는 복잡성을 제어해 일반화 성능을 높일 수 있음.주요 Regularization 기법들1. L1 및 L2 RegularizationL1 Regularization: 가중치 값의 절댓값 합을 손실 함수에 추가하는 방식임. 모델의 일부 가중치가 0이 되게 만들어 희소성(sparsity)을 증가시키는..
[ML] Linear Classification Model: Hyperplane and Decision Boundary
·
Programming/ML
1. Hyperplane과 Decision Boundary (결정 경계)의 기본 개념1-1. Hyperplane의 정의n차원 공간을 (n-1)차원으로 나누는 부분공간1차원: 점2차원: 직선 (1차원)3차원: 평면 (2차원)n차원: (n-1)차원의 평면1-2. Decision Boundary (결정 경계)서로 다른 클래스를 구분하는 경계Classifier의 출력이 바뀌는 지점들의 집합: binary classification의 경우 0.5의 확률에 해당.Decision Boundary의 선형/비선형 여부가 Classfifier의 핵심 특성을 결정2. Decision Boundary(결정 경계)의 선형성과 Hyperplane2-1. Linear Decision BoundaryHyperplane 형태의 결정 ..
[ML] Diabetes Dataset
·
Programming/ML
이는 442명의 당뇨병 환자에 대한 진단 측정치로 구성됨.이는 regression models를 위한 dataset.9개의 features를 통해 당뇨병의 진행 정도를 예측.Dataset 특징샘플 수: 442특성 수: 10target: 1년 후 질병 진행의 정량적 측정치Featuresage: 나이sex: 성별bmi: 체질량 지수 (Body Mass Index)bp: 평균 혈압 (Average Blood Pressure)s1: 혈청 (Serum) 측정치 1s2: 혈청 측정치 2s3: 혈청 측정치 3s4: 혈청 측정치 4s5: 혈청 측정치 5s6: 혈청 측정치 6Target (or Label)1년 후의 질병 진행 정도를 나타내는 정량적 측정치데이터 형태모든 feature는 standardization(표준화..