이는 442명의 당뇨병 환자에 대한 진단 측정치로 구성됨.
- 이는 regression models를 위한 dataset.
- 9개의 features를 통해 당뇨병의 진행 정도를 예측.
Dataset 특징
- 샘플 수: 442
- 특성 수: 10
- target: 1년 후 질병 진행의 정량적 측정치
Features
- age: 나이
- sex: 성별
- bmi: 체질량 지수 (Body Mass Index)
- bp: 평균 혈압 (Average Blood Pressure)
- s1: 혈청 (Serum) 측정치 1
- s2: 혈청 측정치 2
- s3: 혈청 측정치 3
- s4: 혈청 측정치 4
- s5: 혈청 측정치 5
- s6: 혈청 측정치 6
Target (or Label)
- 1년 후의 질병 진행 정도를 나타내는 정량적 측정치
데이터 형태
- 모든 feature는 standardization(표준화)되어 있음 (mean = 0, std = 1)
데이터셋 출처
- Bradley Efron, Trevor Hastie, Iain Johnstone and Robert Tibshirani (2004) "Least Angle Regression," Annals of Statistics (with discussion), 407-499.
- (http://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf)
scikit-learn
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target
'Programming > ML' 카테고리의 다른 글
[ML] Regularization (0) | 2024.10.27 |
---|---|
[ML] Linear Classification Model: Hyperplane and Decision Boundary (0) | 2024.10.27 |
[ML] Yeast Dataset (0) | 2024.10.05 |
[ML] kNN Classifier (k-Nearest Neighbors Classifier) (0) | 2024.10.05 |
[ML] Imputation (0) | 2024.10.05 |