728x90
Yeast Dataset
효모 유전자의
microarray expression data와 phylogenetic profiles를 포함한
multi-label classification용 데이터셋.
설명
- 각 인스턴스는 하나의 유전자(gene)을 나타내며,
- microarray expression data와
- gene의 발현 수준을 나타내는 데이터임.
- phylogenetic profiles를
- 특정 유전자가 여러 생물종에서의 유무 등을 의미함.
- 나타내는 103개의 features 로 구성됨.
- numerical data와
- symbolic data로 구성됨.
- microarray expression data와
- 하나의 유전자에 최대 14개의 biological function이 label로 할당됨.
- 각 label은 binary value를 가짐.
- 라벨은 physiological process, molecular function, cellular component 등의 14개로 나뉨.
- 14개의 요소로 구성된 binary vector
- 하나의 gene은 여러 개의 기능을 가질 수 있음.
이를 통해 gene function prediction과 생물학적 데이터 분석에서 주로 활용됨.
Scikit-Learn
# 사이킷런 0.22 버전 이전의 경우 fetch_mldata
from sklearn.datasets import fetch_openml
yeast = fetch_openml('yeast', version=4)
X = yeast['data']
Y = yeast['target']
print(X.shape, Y.shape) # (2417, 103), (2417, 14)
참고 URL
OpenML Yeast 데이터셋에서 확인할 것.
OpenML
www.openml.org
반응형
'Programming > ML' 카테고리의 다른 글
[ML] Linear Classification Model: Hyperplane and Decision Boundary (0) | 2024.10.27 |
---|---|
[ML] Diabetes Dataset (0) | 2024.10.05 |
[ML] kNN Classifier (k-Nearest Neighbors Classifier) (0) | 2024.10.05 |
[ML] Imputation (0) | 2024.10.05 |
[ML] scikit-learn: FunctionTransformer (0) | 2024.10.03 |