Programming/ML

728x90

    [ML] Regularization

    Regularization 이란?기계 학습과 딥러닝에서 Regularization은 모델이 overfitting(과적합)되지 않도록 도와주는 기법을 의미함.Overfitting(과적합)은 모델이 훈련 데이터에 너무 잘 맞아 새로운 데이터에 대해 일반화(generalization)가 잘되지 않는 상황을 의미함.Regularization을 통해 모델의 Degree of Freedom(자유도), 즉 모델이 표현할 수 있는 복잡성을 제어해 일반화 성능을 높일 수 있음.주요 Regularization 기법들1. L1 및 L2 RegularizationL1 Regularization: 가중치 값의 절댓값 합을 손실 함수에 추가하는 방식임. 모델의 일부 가중치가 0이 되게 만들어 희소성(sparsity)을 증가시키는..

    [ML] Linear Classification Model: Hyperplane and Decision Boundary

    1. Hyperplane과 Decision Boundary (결정 경계)의 기본 개념1-1. Hyperplane의 정의n차원 공간을 (n-1)차원으로 나누는 부분공간1차원: 점2차원: 직선 (1차원)3차원: 평면 (2차원)n차원: (n-1)차원의 평면1-2. Decision Boundary (결정 경계)서로 다른 클래스를 구분하는 경계Classifier의 출력이 바뀌는 지점들의 집합: binary classification의 경우 0.5의 확률에 해당.Decision Boundary의 선형/비선형 여부가 Classfifier의 핵심 특성을 결정2. Decision Boundary(결정 경계)의 선형성과 Hyperplane2-1. Linear Decision BoundaryHyperplane 형태의 결정 ..

    [ML] Diabetes Dataset

    이는 442명의 당뇨병 환자에 대한 진단 측정치로 구성됨.이는 regression models를 위한 dataset.9개의 features를 통해 당뇨병의 진행 정도를 예측.Dataset 특징샘플 수: 442특성 수: 10target: 1년 후 질병 진행의 정량적 측정치Featuresage: 나이sex: 성별bmi: 체질량 지수 (Body Mass Index)bp: 평균 혈압 (Average Blood Pressure)s1: 혈청 (Serum) 측정치 1s2: 혈청 측정치 2s3: 혈청 측정치 3s4: 혈청 측정치 4s5: 혈청 측정치 5s6: 혈청 측정치 6Target (or Label)1년 후의 질병 진행 정도를 나타내는 정량적 측정치데이터 형태모든 feature는 standardization(표준화..

    [ML] Yeast Dataset

    Yeast Dataset효모 유전자의microarray expression data와 phylogenetic profiles를 포함한multi-label classification용 데이터셋.설명각 인스턴스는 하나의 유전자(gene)을 나타내며,microarray expression data와gene의 발현 수준을 나타내는 데이터임.phylogenetic profiles를특정 유전자가 여러 생물종에서의 유무 등을 의미함.나타내는 103개의 features 로 구성됨.numerical data와symbolic data로 구성됨.하나의 유전자에 최대 14개의 biological function이 label로 할당됨.각 label은 binary value를 가짐.라벨은 physiological process,..

    [ML] kNN Classifier (k-Nearest Neighbors Classifier)

    k-Nearest Neighbors (kNN) Classifier는 Supervised Learning에 기반한 non-parametric(비모수) 및 instance-based Algorithm. 이는 Label 이 지정된 data와의 distance를 이용하여 새로운 data point가 어느 class에 속하는지 예측하는 방식. 1. 기본 아이디어: 새로운 데이터가 주어졌을 때,해당 데이터와 가장 가까운 k개의 이웃 데이터 포인트 (Nearest Neighbors)를 찾고,이웃들의 Majority Voting(=hard voting) 또는 거리로 가중치를 둔 Soft Voting에 의해 새로운 데이터의 클래스를 결정.k 값은 사용자가 지정하는 hyper-parameter이며작은 k값은 과적합(ove..

    [ML] Imputation

    Data Science와 ML에서 "impute"는누락된 데이터(missing data)를 대체값으로 채우는 과정을 의미이는 '대체', '귀속', 또는 '채워넣기'로 번역될 수 있음.Dataset을 다룰 때,누락된 데이터가 있는 전체 행이나 열을 제거하는 대신,imputation은 다른 가용한 features 나 선행정보(prior)를 바탕으로 missing values를 추정하여 채워넣는 방법.Imputation에서는 Training set 만을 사용하여 채워넣을 값을 구함. 주요 imputation은 다음과 같음:mean/median imputation:해당 특성의 mean이나 median으로 missing values을 대체mode(최빈값) imputation:가장 빈번한 값을 사용하여 누락된 데이..

    [ML] scikit-learn: FunctionTransformer

    사용자가 정의한 함수를 파이프라인에서 변환기(transformer)로 사용할 수 있게 해주는 유용한 Class.전처리나 특정 데이터 변환 작업이 필요할 때,이를 FunctionTransformer로 간편하게 적용할 수 있습니다.이를 통해, fit가 필요하지 않은 사용자 정의 변환을 손쉽게 Scikit-learn의 Pipeline에 포함시켜 다양한 데이터를 처리할 수 있음Signatureclass sklearn.preprocessing.FunctionTransformer( func=None, inverse_func=None, *, validate=False, accept_sparse=False, check_inverse=True, feature_names_out=Non..

    [ML] scikit-learn: Pipeline 사용법

    Scikit-learn의 Pipeline은 여러 데이터 처리 과정을 하나로 묶어 효율적으로 실행할 수 있게 해주는 Class.(일반적인) Pipeline 이란?Pipeline은 일반적으로 (데이터) 처리 과정 또는 기계학습 등에서 “여러 단계(step or component)를 순차적으로 연결한 시스템” 을 가리킴. 일반적인 (데이터) Pipeline:여러 데이터 처리 컴포넌트(=step)의 연속된 sequence로 구성됨.각 component는 대량의 데이터를 가져와 처리하고 결과를 다음 단계로 전달.Pipeline을 구성하는 components는 주로 비동기적으로 실행되며, 각 단계는 독립적으로 작동하는 게 일반적임.Scikit-Learn의 Pipeline:여러 데이터 전처리 단계(step, comp..

    [ML] scikit-learn: ColumnTransformer

    Scikit-learn에서는 다음의 class와 functions 를 통해, feature별로 다른 전처리를 쉽게 적용할 수 있음:ColumnTransformer,make_column_transformer(),make_column_selector() 사용법https://gist.github.com/dsaint31x/9c7984cd29b0fc3f7abcf7f82844cb73 ml_column_transformer.ipynbml_column_transformer.ipynb. GitHub Gist: instantly share code, notes, and snippets.gist.github.com 1. ColumnTransformerColumnTransformer 는여러 pre-processors를 col..

    [ML] Minkowski Distance (L-p Norm)

    Minkowski 거리는L-p Norm의 한 형태두 개의 점 사이의 distance(거리)를 일반화한 metric.distance의 개념은 다음 접은 글을 참고:더보기https://dsaint31.me/mkdocs_site/DIP/cv2/etc/dip_metrics/#distance-function-or-metric BME228Metrics for Image Quality Image restoration의 경우, image degradation의 원인을 modeling하고 해당 model을 통해 ideal image에 가깝게 복원하는 것을 의미함. 주관적인 화질을 개선하는 image enhancement와 달리, image restodsaint31.meL-p Norm 정의:L-p Norm은 vector의..