[ML] Nearest Neighbor Search: k-d Tree
·
Programming/ML
1. 소개1975년 Nearest Neighbor Search를 위해Binary Search Tree (BST)의 개념을 활용하여k-diemensional vector space에서 동작하도록Bently가 제안한 알고리즘.Lowe와 Muja가 2014년 제안한 FLANN 에서는보다 개선된 Multiple k-d Tree가 제안되었고,이 Multiple k-d Tree가 openCV에서 matching에서 가장 많아 사용되는 방법 중 하나임.https://github.com/flann-lib/flann GitHub - flann-lib/flann: Fast Library for Approximate Nearest NeighborsFast Library for Approximate Nearest Neighb..
[ML] Feature Importances for Decision Tree
·
Programming/ML
이 문서는 Feature Importance를  Decision Tree에서 Gini Impurity Measure를 이용하여 계산하는 예제를 보여줌.Tree 예시 (depth = 3) [Root] (X1) [5:5] / \ Node1 Node2 (X2) (X3) [4:1] [1:4] / \ / \Leaf1 Leaf2 Leaf3 Leaf4[3:0] [1:1] [0:2] [1:2]Root 노드는 X1을 사용해 데이터를 분할.Node1은 X2를 사용해 데이터를 다시 분할.Node2는 X3을 사용해 데이터를 다시 분할.단계 1: Gini impurity measure ..
[ML] Regularization
·
Programming/ML
Regularization 이란?기계 학습과 딥러닝에서 Regularization은 모델이 overfitting(과적합)되지 않도록 도와주는 기법을 의미함.Overfitting(과적합)은 모델이 훈련 데이터에 너무 잘 맞아 새로운 데이터에 대해 일반화(generalization)가 잘되지 않는 상황을 의미함.Regularization을 통해 모델의 Degree of Freedom(자유도), 즉 모델이 표현할 수 있는 복잡성을 제어해 일반화 성능을 높일 수 있음.주요 Regularization 기법들1. L1 및 L2 RegularizationL1 Regularization: 가중치 값의 절댓값 합을 손실 함수에 추가하는 방식임. 모델의 일부 가중치가 0이 되게 만들어 희소성(sparsity)을 증가시키는..
[ML] Linear Classification Model: Hyperplane and Decision Boundary
·
Programming/ML
1. Hyperplane과 Decision Boundary (결정 경계)의 기본 개념1-1. Hyperplane의 정의n차원 공간을 (n-1)차원으로 나누는 부분공간1차원: 점2차원: 직선 (1차원)3차원: 평면 (2차원)n차원: (n-1)차원의 평면1-2. Decision Boundary (결정 경계)서로 다른 클래스를 구분하는 경계Classifier의 출력이 바뀌는 지점들의 집합: binary classification의 경우 0.5의 확률에 해당.Decision Boundary의 선형/비선형 여부가 Classfifier의 핵심 특성을 결정2. Decision Boundary(결정 경계)의 선형성과 Hyperplane2-1. Linear Decision BoundaryHyperplane 형태의 결정 ..
[ML] Diabetes Dataset
·
Programming/ML
이는 442명의 당뇨병 환자에 대한 진단 측정치로 구성됨.이는 regression models를 위한 dataset.9개의 features를 통해 당뇨병의 진행 정도를 예측.Dataset 특징샘플 수: 442특성 수: 10target: 1년 후 질병 진행의 정량적 측정치Featuresage: 나이sex: 성별bmi: 체질량 지수 (Body Mass Index)bp: 평균 혈압 (Average Blood Pressure)s1: 혈청 (Serum) 측정치 1s2: 혈청 측정치 2s3: 혈청 측정치 3s4: 혈청 측정치 4s5: 혈청 측정치 5s6: 혈청 측정치 6Target (or Label)1년 후의 질병 진행 정도를 나타내는 정량적 측정치데이터 형태모든 feature는 standardization(표준화..
[ML] Yeast Dataset
·
Programming/ML
Yeast Dataset효모 유전자의microarray expression data와 phylogenetic profiles를 포함한multi-label classification용 데이터셋.설명각 인스턴스는 하나의 유전자(gene)을 나타내며,microarray expression data와gene의 발현 수준을 나타내는 데이터임.phylogenetic profiles를특정 유전자가 여러 생물종에서의 유무 등을 의미함.나타내는 103개의 features 로 구성됨.numerical data와symbolic data로 구성됨.하나의 유전자에 최대 14개의 biological function이 label로 할당됨.각 label은 binary value를 가짐.라벨은 physiological process,..