[ML] Yeast Dataset

2024. 10. 5. 18:14·Programming/ML
728x90
728x90

Yeast Dataset

효모 유전자의
microarray expression data와 phylogenetic profiles를 포함한
multi-label classification용 데이터셋.


설명

  • 각 인스턴스는 하나의 유전자(gene)을 나타내며,
    • microarray expression data와
      • gene의 발현 수준을 나타내는 데이터임.
    • phylogenetic profiles를
      • 특정 유전자가 여러 생물종에서의 유무 등을 의미함.
    • 나타내는 103개의 features 로 구성됨.
      • numerical data와
      • symbolic data로 구성됨.
  • 하나의 유전자에 최대 14개의 biological function이 label로 할당됨.
    • 각 label은 binary value를 가짐.
    • 라벨은 physiological process, molecular function, cellular component 등의 14개로 나뉨.
    • 14개의 요소로 구성된 binary vector
    • 하나의 gene은 여러 개의 기능을 가질 수 있음. 

이를 통해 gene function prediction과 생물학적 데이터 분석에서 주로 활용됨.


Scikit-Learn

# 사이킷런 0.22 버전 이전의 경우 fetch_mldata
from sklearn.datasets import fetch_openml
yeast = fetch_openml('yeast', version=4)

X = yeast['data']
Y = yeast['target']

print(X.shape, Y.shape) # (2417, 103), (2417, 14)

참고 URL

OpenML Yeast 데이터셋에서 확인할 것.

 

OpenML

 

www.openml.org

 

'Programming > ML' 카테고리의 다른 글

[ML] Linear Classification Model: Hyperplane and Decision Boundary  (0) 2024.10.27
[ML] Diabetes Dataset  (0) 2024.10.05
[ML] kNN Classifier (k-Nearest Neighbors Classifier)  (0) 2024.10.05
[ML] Imputation  (0) 2024.10.05
[ML] scikit-learn: FunctionTransformer  (0) 2024.10.03
'Programming/ML' 카테고리의 다른 글
  • [ML] Linear Classification Model: Hyperplane and Decision Boundary
  • [ML] Diabetes Dataset
  • [ML] kNN Classifier (k-Nearest Neighbors Classifier)
  • [ML] Imputation
dsaint31x
dsaint31x
    반응형
    250x250
  • dsaint31x
    Dsaint31's blog
    dsaint31x
  • 전체
    오늘
    어제
    • 분류 전체보기 (740)
      • Private Life (13)
      • Programming (186)
        • DIP (104)
        • ML (26)
      • Computer (119)
        • CE (53)
        • ETC (33)
        • CUDA (3)
        • Blog, Markdown, Latex (4)
        • Linux (9)
      • ... (351)
        • Signals and Systems (103)
        • Math (172)
        • Linear Algebra (33)
        • Physics (42)
        • 인성세미나 (1)
      • 정리필요. (54)
        • 의료기기의 이해 (6)
        • PET, MRI and so on. (1)
        • PET Study 2009 (1)
        • 방사선 장해방호 (4)
        • 방사선 생물학 (3)
        • 방사선 계측 (9)
        • 기타 방사능관련 (3)
        • 고시 (9)
        • 정리 (18)
      • RI (0)
      • 원자력,방사능 관련법 (2)
  • 블로그 메뉴

    • Math
    • Programming
    • SS
    • DIP
  • 링크

    • Convex Optimization For All
  • 공지사항

    • Test
    • PET Study 2009
    • 기타 방사능관련.
  • 인기 글

  • 태그

    Probability
    Term
    opencv
    random
    Optimization
    SS
    numpy
    linear algebra
    Programming
    signal_and_system
    signals_and_systems
    fourier transform
    DIP
    SIGNAL
    function
    인허가제도
    Convolution
    math
    Python
    Vector
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
dsaint31x
[ML] Yeast Dataset
상단으로

티스토리툴바